掌桥专利:专业的专利平台
掌桥专利
首页

问答方法、装置、计算机设备和存储介质

文献发布时间:2023-06-19 16:12:48



技术领域

本申请涉及数据处理技术领域,特别是涉及一种问答方法、装置、计算机设备和存储介质。

背景技术

随着数字媒体和互联网技术的迅猛发展,视频逐渐渗透到人类生活的方方面面。视频作为一种复杂的流式数据,既可以传递有效的信息,同时也包含着大量的冗余信息,这造成了存储空间的浪费并增加了时间成本开销。因此,挖掘和呈现有价值的视频内容,对于视频的分析、检索和管理都具有十分重要的意义。

而在当前多媒体时代的背景下,视频并非独立存在的,通常被大量的自然语言数据包围,例如视频标题,描述和用户评论等。这些自然语言数据能够清晰地指示和简洁地描述视频中值得人们关注的内容,为视频的分析和理解带来了极大的便利。

目前,当用户搜索与视频内容相关的问题时,由于与问题相关的结果较多,结果展示的速度较慢。

发明内容

基于此,有必要针对上述技术问题,提供一种能够提高结果展示速度的问答方法、装置、计算机设备和存储介质。

第一方面,本申请提供了一种问答方法、装置、计算机设备和存储介质。问答方法包括:

获取待处理问题及待处理问题的目标数据类型;

从预先设定的知识图谱数据库中确定与目标数据类型对应的目标数据库;

分别对待处理问题和目标数据库中的数据进行语义特征提取,对应得到第一语义特征和第二语义特征;

将第一语义特征和第二语义特征进行相似度比较;

将不小于预设阈值的相似度在目标数据库中对应的数据,确定为待处理问题对应的答案。

在其中一个实施例中,将第一语义特征和第二语义特征进行相似度比较,包括:

获取第一语义特征的第一哈希值和第二语义特征的第二哈希值;

确定第一哈希值和第二哈希值之间的汉明距离;

根据汉明距离确定第一语义特征和第二语义特征之间的相似度。

在其中一个实施例中,目标数据类型包括图像、音频或文本。

在其中一个实施例中,问答方法还包括:

获取视频数据;

从视频数据中提取图像数据、文本数据和音频数据;

根据图像数据、文本数据和音频数据生成知识图谱;

基于知识图谱、图像数据、文本数据和音频数据,在知识图谱数据库中生成不同数据类型对应的数据库。

在其中一个实施例中,文本数据的提取过程,包括:

确定视频数据的每一视频帧的文字区域;

截取文字区域对应的图像;

对截取得到的图像进行光学字符识别,得到文本数据。

在其中一个实施例中,根据图像数据、文本数据和音频数据生成知识图谱,包括:

将图像数据和音频数据转换为文字数据;

对文本数据和文字数据进行命名实体识别,得到知识图谱的多个实体;

根据多个实体生成知识图谱。

在其中一个实施例中,数据类型包括图像、文本或音频,基于知识图谱、图像数据、文本数据和音频数据,在知识图谱数据库中生成不同数据类型对应的数据库,包括:

从知识图谱中确定与图像数据对应的第一实体、与文本数据对应的第二实体和与音频数据对应的第三实体;

根据图像数据和第一实体在知识图谱数据库中生成数据类型为图像时对应的数据库;

根据文本数据和第二实体在知识图谱数据库中生成数据类型为文本时对应的数据库;

根据音频数据和第三实体在知识图谱数据库中生成数据类型为音频时对应的数据库。

第二方面,本申请还提供了一种问答装置,问答装置包括:

数据获取模块,用于获取待处理问题及待处理问题的目标数据类型;

数据库筛选模块,用于从预先设定的知识图谱数据库中确定与目标数据类型对应的目标数据库;

特征提取模块,用于分别对待处理问题和目标数据库中的数据进行语义特征提取,对应得到第一语义特征和第二语义特征;

相似度比较模块,用于将第一语义特征和第二语义特征进行相似度比较;

答案确定模块,用于将不小于预设阈值的相似度在目标数据库中对应的数据,确定为待处理问题对应的答案。

第三方面,本申请还提供了一种计算机设备。计算机设备包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现以下步骤:

获取待处理问题及待处理问题的目标数据类型;

从预先设定的知识图谱数据库中确定与目标数据类型对应的目标数据库;

分别对待处理问题和目标数据库中的数据进行语义特征提取,对应得到第一语义特征和第二语义特征;

将第一语义特征和第二语义特征进行相似度比较;

将不小于预设阈值的相似度在目标数据库中对应的数据,确定为待处理问题对应的答案。

第四方面,本申请还提供了一种计算机可读存储介质。计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:

获取待处理问题及待处理问题的目标数据类型;

从预先设定的知识图谱数据库中确定与目标数据类型对应的目标数据库;

分别对待处理问题和目标数据库中的数据进行语义特征提取,对应得到第一语义特征和第二语义特征;

将第一语义特征和第二语义特征进行相似度比较;

将不小于预设阈值的相似度在目标数据库中对应的数据,确定为待处理问题对应的答案。

上述问答方法、装置、计算机设备和存储介质,通过根据待处理问题的目标数据类型,从知识图谱数据库中确定与目标数据类型对应的目标数据库,再将待处理问题的第一语义特征和目标数据库中数据的第二语义特征进行相似度对比,在目标数据库中得到待处理问题对应的答案,提高了在知识图谱数据库中查找答案的速度和效率,进而提高了答案的显示速度。

附图说明

图1为一个实施例中问答方法的应用环境图;

图2为一个实施例中问答方法的流程示意图;

图3为另一个实施例中问答方法的流程示意图;

图4为一个实施例中知识图谱的构建图;

图5为又一个实施例中问答方法的流程示意图;

图6为一个实施例中问答装置的结构框图;

图7为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。

本申请实施例提供的问答方法,可以应用于如图1所示的应用环境中。其中,通过对视频数据进行数据提取,根据提取得到的数据生成知识图谱,并将知识图谱和提取得到的数据保存至知识图谱数据库。用户通过将待处理问题输入至终端的数据接口,终端的智能推理系统和推理机对待处理问题进行处理后,从知识图谱数据库中找到与待处理问题的目标数据类型对应的目标数据库,并根据待处理问题的第一语义特征和目标数据库中数据的第二语义特征的相似度对比,从目标数据库中查找待处理问题对应的答案,再将答案通过数据接口反馈至用户。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。

在一个实施例中,如图2所示,提供了一种问答方法,以该方法应用于图1中的终端为例进行说明,包括以下步骤:

步骤202,获取待处理问题及待处理问题的目标数据类型。

其中,目标数据类型指待处理问题的数据类型,例如当用户以文本的形式输入待处理问题时,目标数据类型是文本;当用户以图片的形式输入待处理问题时,目标数据类型是图片;当用户以音频的形式输入待处理问题时,目标数据类型是音频。

具体地,终端可以通过数据接口接收用户输入的待处理问题,并对待处理问题进行类型识别,以确定目标数据类型。当然,终端也可以通过数据接口接收用户输入的待处理问题以及用户输入的目标数据类型,本实施例对此不加以限制。

步骤204,从预先设定的知识图谱数据库中确定与目标数据类型对应的目标数据库。

其中,知识图谱数据库是存储有知识图谱以及相关数据的数据库,可以包括多个不同数据类型的数据库,例如图片数据库、文本数据库和音频数据库等。

具体地,当目标数据类型是图片时,与目标数据类型对应的目标数据库可以是知识图谱数据库中的图片数据库,当目标数据类型是文本时,与目标数据类型对应的目标数据库可以是知识图谱数据库中的文本数据库,当目标数据类型是音频时,与目标数据类型对应的目标数据库可以是知识图谱数据库中的音频数据库。

步骤206,分别对待处理问题和目标数据库中的数据进行语义特征提取,对应得到第一语义特征和第二语义特征。

其中,语义特征是一组语义相关的词内部相同或相异的语义要素,第一语义特征是待处理问题对应的语义特征,第二语义特征是目标数据库中的数据的语义特征。

具体地,可以采用多种方式进行语义特征提取,例如,可以根据待处理问题的目标数据类型调用对应的神经网络模型,将待处理问题和目标数据库中的数据输入至神经网络模型中进行语义特征提取。

步骤208,将第一语义特征和第二语义特征进行相似度比较。

具体地,可以采用多种方式实现语义特征的相似度比较,例如,可以将第一语义特征和第二语义特征输入至语义相似度模型中,得到相似度值,也可以根据目标数据类型的不同选用对应的其他算法计算第一语义特征和第二语义特征的相似度。

步骤210,将不小于预设阈值的相似度在目标数据库中对应的数据,确定为待处理问题对应的答案。

其中,预设阈值是预先设定的相似度的临界值,当相似度不小于预设阈值时,可以根据该相似度对应的第二语义特征在目标数据库中找到对应的数据,并将该数据确定为答案。

当然,当相似度小于预设阈值时,可以根据待处理问题以及知识图谱数据库中存储的实体的信息,在知识图谱数据库中找到对应的答案。具体地,可以从待处理问题中提取出关键词,在知识图谱数据库中找到与关键词对应的实体,再将知识图谱数据库中与该实体对应的数据作为答案。通过在相似度小于预设阈值时,根据待处理问题和实体查找对应的答案,可以得到更多的相关搜索内容,实现搜索内容及其关联关系的展示,丰富了答案的内容和展现形式。

本实施例通过获取待处理问题及待处理问题的目标数据类型;从预先设定的知识图谱数据库中确定与目标数据类型对应的目标数据库;分别对待处理问题和目标数据库中的数据进行语义特征提取,对应得到第一语义特征和第二语义特征;将第一语义特征和第二语义特征进行相似度比较;将不小于预设阈值的相似度在目标数据库中对应的数据,确定为待处理问题对应的答案,不仅实现了用户通过不同数据类型的待处理问题进行搜索以及答案反馈,还提高了在知识图谱数据库中查找答案的速度和效率,进而提高了答案的显示速度。

在一个实施例中,步骤将第一语义特征和第二语义特征进行相似度比较,包括:获取第一语义特征的第一哈希值和第二语义特征的第二哈希值;确定第一哈希值和第二哈希值之间的汉明距离;根据汉明距离确定第一语义特征和第二语义特征之间的相似度。

应当理解的是,当待处理问题的目标数据类型是图像时,可以对待处理问题依次进行图像解码、预处理和语义特征提取处理,得到第一语义特征,再通过差异哈希算法等算法计算第一语义特征对应的第一哈希值。同样也可以对目标数据库中的数据依次进行图像解码、预处理和语义特征提取处理,得到第二语义特征,再通过差异哈希算法等算法计算第二语义特征对应的第二哈希值。

汉明距离是一种衡量特征距离的计算方法,其主要思想是找到两个特征之间的差异大小。第一哈希值和第二哈希值之间的汉明距离可以根据哈希值的字符串对比进行计算,计算出来的汉明距离越大,表明相似度越小,汉明距离越小,则相似度越大。

本实施例通过提取图像的语义特征,并基于语义特征的哈希值确定相似度,可以实现大规模图像的快速比对,提高了相似度比较的速度。

在一个实施例中,如图3所示,提供了一种问答方法,还可以包括以下步骤:

步骤302,获取视频数据。

其中,视频数据是指连续的图像序列,其实质是由多组连续的图像构成的。在具体实现中,视频数据可以是影视作品数据,也可以是短视频作品数据,本实施例对此不加以限制。

具体地,终端可以从服务器中获取视频数据,也可以从终端的存储设备中获取视频数据,并基于获取到的视频数据构建知识图谱以及生成知识图谱数据库。

步骤304,从视频数据中提取图像数据、文本数据和音频数据。

应当理解的是,视频数据中通常包含有不同类型的数据,例如由字幕组成的文本数据,由台词、音效等声音组成的音频数据,由每一帧图像组成的图像数据。

具体地,可以从视频数据中提取每一帧图像,得到图像数据,从每一帧图像中提取字幕信息,得到文本数据,从视频数据中提取声音信息,得到音频数据。

在具体实现中,不同类型的数据提取时采用的方式可以不同,例如可以通过图像识别技术从视频数据中提取每一帧图像,通过自然语言处理(Natural LanguageProcessing,NLP)技术提取字幕信息,通过语音识别技术提取声音信息。

步骤306,根据图像数据、文本数据和音频数据生成知识图谱。

其中,知识图谱是显示知识发展进程与结构关系的一系列不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。通过根据图像数据、文本数据和音频数据生成知识图谱,可以将图像数据、文本数据和音频数据中的信息相互关联,有利于把与待处理问题相关的答案系统化地展示给用户。

具体地,可以对图像数据、文本数据和音频数据进行文字转化处理,再对文字转化处理后的数据进行实体及关系获取等处理,最终生成知识图谱。

步骤308,基于知识图谱、图像数据、文本数据和音频数据,在知识图谱数据库中生成不同数据类型对应的数据库。

具体地,当数据类型是图像时,可以根据知识图谱和图像数据生成图像数据库;当数据类型时文本时,可以根据知识图谱和文本数据生成文本数据库;当数据类型是音频时,可以根据知识图谱和音频数据生成音频数据库。

本实施例通过对视频数据进行数据提取,并根据提取到的数据生成知识图谱以及知识图谱数据库,有利于在通过相似度比较找不到合适的答案时,快速实现与待处理问题相关的答案的搜索,并且尽可能多地展示视频数据中涉及到的相关信息。

在一个实施例中,文本数据的提取过程,包括:确定视频数据的每一视频帧的文字区域;截取文字区域对应的图像;对截取得到的图像进行光学字符识别,得到文本数据。

具体地,可以使用Canny算子对视频数据每一视频帧的文字区域进行定位,截取上述定位得到的文字区域对应的图像,并将截取得到的图像保存至知识图谱数据库中,再采用光学字符识别技术识别该文字区域对应的图像内的字幕文字,得到文本数据,并将文本数据保存至知识图谱数据库中。

当然,对于视频数据而言,可能存在不同视频帧的内容相同,因此,可以利用小波分析的数值特征判断是否存在重复的视频帧,以避免数据冗余。另外,为了方便后期查找,还可以按视频名称、视频帧编号的命名形式、按照JPG、PNG、JIF等图片文件格式对截取的图像进行保存。

本实施例通过对视频数据每一视频帧的文字区域对应的图像进行光学字符识别,可以准确地从视频数据中得到文本数据,提高了文本数据的提取质量。

在一个实施例中,步骤根据图像数据、文本数据和音频数据生成知识图谱,包括:将图像数据和音频数据转换为文字数据;对文本数据和文字数据进行命名实体识别,得到知识图谱的多个实体;根据多个实体生成知识图谱。

其中,实体是世界上客观存在并可相互区分的对象或事物,例如人名、地名、机构名、时间、日期等。命名实体识别是从文本中识别出实体的命名指称,包括:实体抽取和实体分类等步骤。

具体地,将图像数据转换为文字数据,可以参考上述文本数据的获取方法,在此不再赘述,将音频数据转换为文字数据,可以采用调用主流工具的应用程序编程接口实现,也可以采用神经网络模型实现,本实施例对此不加以限制。

图4为一个实施例中知识图谱的构建图,参照图4,在具体实现中,知识图谱的构建图可以包括对象化服务模块、对象化加工模块、数据处理模块和知识管理模块;文本数据、音频数据和图像数据等非结构化数据经数据处理模块进行处理,得到高质量数据,该高质量数据经对象化加工模块加工后传输至知识管理模块,知识管理模块将数据经查询、索引和存储后移送给对象化服务模块,由对象化服务模块输出智能诊断、自动问答和持续优化的服务。

对象化加工模块包括:实体及关系获取模块、对象化表示模块、对象归一模块、质量评估模块、质量提升模块。其中,实体及关系获取模块包括实体发现模块、关系发现模块和词汇挖掘模块。实体发现模块进一步包括实体抽取和实体分类;关系发现模块进一步包括关系抽取和关系分类;词汇挖掘模块进一步包括同义词挖掘和缩略词挖掘。对象化表示模块的模式设计进一步包括:概念分层体系定义、概念及属性定义、概念关系定义和约束/规则定义。对象归一模块进一步包括:实体对齐、属性融合、值规范化和归一化建模。质量评估模块包括:知识置信度评估和知识缺失评估。质量提升模块包括:知识补全、知识纠错和同步更新。

对象化表示模块中的约束/规则定义,为混合知识表示方法,将以往成熟的传统知识表示方法有效结合起来进行运用,例如将谓词逻辑、产生式规则和过程式结合。对象化表示模块中的概念关系定义,其基本组成单位是“实体—关系—实体”三元组。对象化表示模块中的概念及属性定义,即实体及其相关“属性—值”对,实体间通过关系相互联结,构成网状的知识结构,实现真正意义上的语义检索。对象化表示模块中的概念分层体系定义,是根据应用场景建立的,反映某个维度、某个视角、某个粒度对对象的抽象描述,形成的各种互相作用的抽象概念。

对象化归一化模块是将对象表示模块获得的数据进行归一化处理,其中,实体对齐指在获得不同来源的新知识之后,需要对其进行整合,以消除矛盾和歧义;属性融合指将相同意义的属性进行合并,比如某些属性可能有多种表达,某个特定称谓也许对应于多个不同的属性等;值规范化指将数据和语法进行标准化和规范化;归一化建模是将不同来源的知识映射至同一个向量空间里,通过计算向量相似度实现知识归一化。

质量评估模块是将对象归一化模块中获得的数据进行质量评估后加入到知识库中,以确保知识库的质量。其中,知识置信度评估是指对知识的可信度进行量化,通过舍弃置信度较低的知识,可以保障知识库的质量;知识缺失评估是用覆盖度/准确率/精确率/召回率/F-measure来作为衡量各阶段质量评估的指标之一。

质量提升模块是将质量评估后数据库中的数据进行更新和优化,根据知识图谱中已有的知识,推理出新的知识或识别出错误的知识;推理出新知识的过程称为知识补全;识别出错误知识并进行纠正的过程称为知识纠错;经过知识补全和知识纠错后生成新的知识的过程即为知识更新。

本实施例通过将图像数据和音频数据转换为文字数据;对文本数据和文字数据进行命名实体识别,得到知识图谱的多个实体,增加了知识图谱中实体的数量,提高了知识图谱的全面性。

在一个实施例中,数据类型包括图像、文本或音频,基于知识图谱、图像数据、文本数据和音频数据,在知识图谱数据库中生成不同数据类型对应的数据库,包括:从知识图谱中确定与图像数据对应的第一实体、与文本数据对应的第二实体和与音频数据对应的第三实体;根据图像数据和第一实体在知识图谱数据库中生成数据类型为图像时对应的数据库;根据文本数据和第二实体在知识图谱数据库中生成数据类型为文本时对应的数据库;根据音频数据和第三实体在知识图谱数据库中生成数据类型为音频时对应的数据库。

具体地,知识图谱中的实体是根据图像数据、文本数据和音频数据确定的,因此,实体与图像数据、文本数据和音频数据具有一定的对应关系,例如图像数据会对应一部分实体,文本数据会对应一部分实体、音频数据也会对应一部分实体,将图像数据和对应的第一实体、文本数据和对应的第二实体、音频数据和对应的第三实体分别存放至不同数据类型对应的数据库中,可以使得用户轻松地搜索出视频中的关键所在,并且可以清晰的展示相关搜索内容以及与搜索内容相关的其他知识。

图5为又一个实施例中问答方法的流程示意图,如图5所示,包括以下步骤:

步骤302,获取视频数据。

步骤304,从视频数据中提取图像数据、文本数据和音频数据。

步骤306,根据图像数据、文本数据和音频数据生成知识图谱。

步骤308,基于知识图谱、图像数据、文本数据和音频数据,在知识图谱数据库中生成不同数据类型对应的数据库。

步骤202,获取待处理问题及待处理问题的目标数据类型。

步骤204,从预先设定的知识图谱数据库中确定与目标数据类型对应的目标数据库。

步骤206,分别对待处理问题和目标数据库中的数据进行语义特征提取,对应得到第一语义特征和第二语义特征。

步骤208,将第一语义特征和第二语义特征进行相似度比较。

步骤210,将不小于预设阈值的相似度在目标数据库中对应的数据,确定为待处理问题对应的答案。

应该理解的是,虽然如上的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的问答方法的问答装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个问答装置实施例中的具体限定可以参见上文中对于问答方法的限定,在此不再赘述。

在一个实施例中,如图6所示,提供了一种问答装置,包括:数据获取模块602、数据库筛选模块604、特征提取模块606、相似度比较模块608和答案确定模块610,其中:

数据获取模块602,用于获取待处理问题及待处理问题的目标数据类型;

数据库筛选模块604,用于从预先设定的知识图谱数据库中确定与目标数据类型对应的目标数据库;

特征提取模块606,用于分别对待处理问题和目标数据库中的数据进行语义特征提取,对应得到第一语义特征和第二语义特征;

相似度比较模块608,用于将第一语义特征和第二语义特征进行相似度比较;

答案确定模块610,用于将不小于预设阈值的相似度在目标数据库中对应的数据,确定为待处理问题对应的答案。

在一个实施例中,相似度比较模块608,还用于获取第一语义特征的第一哈希值和第二语义特征的第二哈希值;确定第一哈希值和第二哈希值之间的汉明距离;根据汉明距离确定第一语义特征和第二语义特征之间的相似度。

在一个实施例中,问答装置还包括数据库生成模块(图未示),用于获取视频数据;从视频数据中提取图像数据、文本数据和音频数据;根据图像数据、文本数据和音频数据生成知识图谱;基于知识图谱、图像数据、文本数据和音频数据,在知识图谱数据库中生成不同数据类型对应的数据库。

在一个实施例中,数据库生成模块还用于确定视频数据的每一视频帧的文字区域;截取文字区域对应的图像;对截取得到的图像进行光学字符识别,得到文本数据。

在一个实施例中,数据库生成模块还用于将图像数据和音频数据转换为文字数据;对文本数据和文字数据进行命名实体识别,得到知识图谱的多个实体;根据多个实体生成知识图谱。

在一个实施例中,数据库生成模块还用于从知识图谱中确定与图像数据对应的第一实体、与文本数据对应的第二实体和与音频数据对应的第三实体;根据图像数据和第一实体在知识图谱数据库中生成数据类型为图像时对应的数据库;根据文本数据和第二实体在知识图谱数据库中生成数据类型为文本时对应的数据库;根据音频数据和第三实体在知识图谱数据库中生成数据类型为音频时对应的数据库。

上述问答装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种问答方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。

在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:

获取待处理问题及待处理问题的目标数据类型;

从预先设定的知识图谱数据库中确定与目标数据类型对应的目标数据库;

分别对待处理问题和目标数据库中的数据进行语义特征提取,对应得到第一语义特征和第二语义特征;

将第一语义特征和第二语义特征进行相似度比较;

将不小于预设阈值的相似度在目标数据库中对应的数据,确定为待处理问题对应的答案。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取第一语义特征的第一哈希值和第二语义特征的第二哈希值;确定第一哈希值和第二哈希值之间的汉明距离;根据汉明距离确定第一语义特征和第二语义特征之间的相似度。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取视频数据;从视频数据中提取图像数据、文本数据和音频数据;根据图像数据、文本数据和音频数据生成知识图谱;基于知识图谱、图像数据、文本数据和音频数据,在知识图谱数据库中生成不同数据类型对应的数据库。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:确定视频数据的每一视频帧的文字区域;截取文字区域对应的图像;对截取得到的图像进行光学字符识别,得到文本数据。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:将图像数据和音频数据转换为文字数据;对文本数据和文字数据进行命名实体识别,得到知识图谱的多个实体;根据多个实体生成知识图谱。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:从知识图谱中确定与图像数据对应的第一实体、与文本数据对应的第二实体和与音频数据对应的第三实体;根据图像数据和第一实体在知识图谱数据库中生成数据类型为图像时对应的数据库;根据文本数据和第二实体在知识图谱数据库中生成数据类型为文本时对应的数据库;根据音频数据和第三实体在知识图谱数据库中生成数据类型为音频时对应的数据库。

在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:

获取待处理问题及待处理问题的目标数据类型;

从预先设定的知识图谱数据库中确定与目标数据类型对应的目标数据库;

分别对待处理问题和目标数据库中的数据进行语义特征提取,对应得到第一语义特征和第二语义特征;

将第一语义特征和第二语义特征进行相似度比较;

将不小于预设阈值的相似度在目标数据库中对应的数据,确定为待处理问题对应的答案。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取第一语义特征的第一哈希值和第二语义特征的第二哈希值;确定第一哈希值和第二哈希值之间的汉明距离;根据汉明距离确定第一语义特征和第二语义特征之间的相似度。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取视频数据;从视频数据中提取图像数据、文本数据和音频数据;根据图像数据、文本数据和音频数据生成知识图谱;基于知识图谱、图像数据、文本数据和音频数据,在知识图谱数据库中生成不同数据类型对应的数据库。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:确定视频数据的每一视频帧的文字区域;截取文字区域对应的图像;对截取得到的图像进行光学字符识别,得到文本数据。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:将图像数据和音频数据转换为文字数据;对文本数据和文字数据进行命名实体识别,得到知识图谱的多个实体;根据多个实体生成知识图谱。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:从知识图谱中确定与图像数据对应的第一实体、与文本数据对应的第二实体和与音频数据对应的第三实体;根据图像数据和第一实体在知识图谱数据库中生成数据类型为图像时对应的数据库;根据文本数据和第二实体在知识图谱数据库中生成数据类型为文本时对应的数据库;根据音频数据和第三实体在知识图谱数据库中生成数据类型为音频时对应的数据库。

在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:

获取待处理问题及待处理问题的目标数据类型;

从预先设定的知识图谱数据库中确定与目标数据类型对应的目标数据库;

分别对待处理问题和目标数据库中的数据进行语义特征提取,对应得到第一语义特征和第二语义特征;

将第一语义特征和第二语义特征进行相似度比较;

将不小于预设阈值的相似度在目标数据库中对应的数据,确定为待处理问题对应的答案。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取第一语义特征的第一哈希值和第二语义特征的第二哈希值;确定第一哈希值和第二哈希值之间的汉明距离;根据汉明距离确定第一语义特征和第二语义特征之间的相似度。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取视频数据;从视频数据中提取图像数据、文本数据和音频数据;根据图像数据、文本数据和音频数据生成知识图谱;基于知识图谱、图像数据、文本数据和音频数据,在知识图谱数据库中生成不同数据类型对应的数据库。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:确定视频数据的每一视频帧的文字区域;截取文字区域对应的图像;对截取得到的图像进行光学字符识别,得到文本数据。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:将图像数据和音频数据转换为文字数据;对文本数据和文字数据进行命名实体识别,得到知识图谱的多个实体;根据多个实体生成知识图谱。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:从知识图谱中确定与图像数据对应的第一实体、与文本数据对应的第二实体和与音频数据对应的第三实体;根据图像数据和第一实体在知识图谱数据库中生成数据类型为图像时对应的数据库;根据文本数据和第二实体在知识图谱数据库中生成数据类型为文本时对应的数据库;根据音频数据和第三实体在知识图谱数据库中生成数据类型为音频时对应的数据库。

需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。

以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

相关技术
  • 问答系统的问答匹配方法、装置、计算机设备及存储介质
  • 问答方法、问答装置、计算机设备及存储介质
技术分类

06120114743039