掌桥专利:专业的专利平台
掌桥专利
首页

一种试题搜索方法、装置、计算机设备和存储介质

文献发布时间:2023-06-19 18:53:06


一种试题搜索方法、装置、计算机设备和存储介质

技术领域

本公开涉及计算机技术领域,具体而言,涉及一种试题搜索方法、装5置、计算机设备和存储介质。

背景技术

在搜索问答场景下,用户往往存在快速高效且准确地获取需要的内容的需求。而试题搜索场景作为搜索问答场景下的一个子场景,用户的需求大多为在输入试题题目后,快速获取到准确简洁的题目答案。

0而常规的搜索方式,往往是利用搜索引擎,从以人工方式预先维护好的离线试题库中进行题目答案的搜索。但是,针对使用离线试题库的方案而言,一方面需要消耗一定的人力资源,另一方面,人工维护的离线试题库中收录的试题大多为热门试题,不仅忽略了对一些不常见的试题,而且

对于一些实时性较高的试题,也很难做到完全覆盖,导致无法很好地满足5用户的搜索需求。因此,使用离线试题库进行试题搜索的方案存在较大的弊端。

发明内容

本公开实施例至少提供一种试题搜索方法、装置、计算机设备和存储0介质。

第一方面,本公开实施例提供了一种试题搜索方法,包括:

接收搜索信息;所述搜索信息中包含待解答题目信息;

响应于获取到与所述搜索信息匹配的、包含试题信息的目标多媒体内容,从获取到的目标多媒体内容中提取预设的多个试题字段下的字段信息;

基于所述多个试题字段下的字段信息,生成所述待解答题目信息对应的结构化试题结果;所述结构化试题结果用于作为与所述搜索信息匹配的搜索结果进行展示。

在一种可能的实施方式中,根据以下步骤确定所述目标多媒体内容:

将所述搜索信息,以及获取的与所述搜索信息匹配的多个候选多媒体内容,输入预先训练的神经网络模型,确定所述多个候选多媒体内容中,包含试题信息的所述目标多媒体内容。

在一种可能的实施方式中,所述基于所述多个试题字段下的字段信息,生成所述待解答题目信息对应的结构化试题结果,包括:

判断提取的所述多个试题字段下的字段信息,在所述目标多媒体内容中的位置关系,是否符合所述多个试题字段之间的预设位置关系;

若确定符合所述预设位置关系,基于所述多个试题字段下的字段信息,生成所述待解答题目信息对应的结构化试题结果。

在一种可能的实施方式中,所述基于所述多个试题字段下的字段信息,生成所述待解答题目信息对应的结构化试题结果,包括:

在任一试题字段下的字段信息的数量为多个的情况下,根据每个试题字段下的各字段信息在所述目标多媒体内容的位置信息和预设位置关系,确定是否存在字段组;其中,所述字段组中不同的字段信息对应的试题字段不同、且不同的字段信息之间的位置关系符合所述预设位置关系;

若是,在字段组的数量为单个的情况下,则基于该字段组中的各个字段信息,生成所述待解答题目信息对应的结构化试题结果;或者,

在字段组的数量为多个的情况下,针对每个所述字段组,根据该字段组中的各个所述字段信息分别对应的置信分值,确定该字段组的目标分值;

基于对应的目标分值最大的字段组中的各个所述字段信息,生成所述待解答题目信息对应的结构化试题结果。

在一种可能的实施方式中,在得到与所述待解答题目信息对应的多个结构化试题结果的情况下,所述方法还包括:

基于每个所述结构化试题结果对应的所述多个试题字段下的字段信息的置信分值,以及每个所述试题字段对应的权重值,确定多个所述结构化试题结果分别对应的匹配度得分;所述置信分值为基于预先训练的神经网络模型预测得到的;

将对应的所述匹配度得分最高的结构化试题结果作为最终展示的结构化试题结果。

在一种可能的实施方式中,所述基于每个所述结构化试题结果对应的所述多个试题字段下的字段信息的置信分值,以及每个所述试题字段对应的权重值,确定多个所述结构化试题结果分别对应的匹配度得分,包括:

根据每个所述结构化试题结果对应的目标多媒体内容的来源信息、时效信息以及与所述待解答题目信息之间的相关度信息,确定多个所述结构化试题结果分别对应的第一匹配度得分;

基于每个所述结构化试题结果对应的所述多个试题字段下的字段信息的置信分值,以及每个所述试题字段对应的权重值,确定多个所述结构化试题结果分别对应的第二匹配度得分;

根据每个所述结构化试题结果对应的第一匹配度得分和第二匹配度得分,确定多个所述结构化试题结果分别对应的匹配度得分。

在一种可能的实施方式中,根据以下步骤确定所述多个试题字段下的字段信息的置信分值:

在将所述搜索信息和所述目标多媒体内容输入预先训练的神经网络模型后,得到所述目标多媒体内容中,与所述搜索信息匹配的题目内容的目标特征向量;

基于所述目标特征向量,利用所述神经网络模型中与所述多个试题字段分别对应的模型分支,预测得到所述多个试题字段下的字段信息,以及每个所述字段信息的置信分值。

第二方面,本公开实施例还提供一种试题搜索装置,包括:

接收模块,用于接收搜索信息;所述搜索信息中包含待解答题目信息;

提取模块,用于响应于获取到与所述搜索信息匹配的、包含试题信息的目标多媒体内容,从获取到的目标多媒体内容中提取预设的多个试题字段下的字段信息;

生成模块,用于基于所述多个试题字段下的字段信息,生成所述待解答题目信息对应的结构化试题结果;所述结构化试题结果用于作为与所述搜索信息匹配的搜索结果进行展示。

第三方面,本公开可选实现方式还提供一种计算机设备,处理器、存储器,所述存储器存储有所述处理器可执行的机器可读指令,所述处理器用于执行所述存储器中存储的机器可读指令,所述机器可读指令被所述处理器执行时,所述机器可读指令被所述处理器执行时执行上述第一方面,或第一方面中任一种可能的实施方式中的步骤。

第四方面,本公开可选实现方式还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被运行时执行上述第一方面,或第一方面中任一种可能的实施方式中的步骤。

关于上述试题搜索装置、计算机设备、及计算机可读存储介质的效果描述参见上述试题搜索方法的说明,这里不再赘述。

本公开实施例提供的试题搜索方法、装置、计算机设备和存储介质,由于目标多媒体信息可以是在线地对全网信息进行搜索得到的,所以无需预先维护离线数据库,既避免了人力资源的消耗,还提高了搜索覆盖率。在获取到与搜索信息匹配的、包含试题信息的目标多媒体内容之后,通过对目标多媒体内容进行多个试题字段下的字段信息进行提取,可以获取到目标多媒体内容中、与搜索信息中的待解答题目信息相关性更强的子信息(即各个字段信息),实现对目标多媒体内容中无关信息的过滤;基于多个试题字段下的字段信息,生成结构化试题结果,可以提高生成的搜索结果的简洁性和准确性;通过将生成的结构化试题结果作为搜索结果进行展示,

可以实现对与待解答题目信息相匹配的题目答案的直观展示、结构化展示,5便于用户快速直观的获取需要的答案信息。

为使本公开的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。

附图说明

为了更清楚地说明本公开实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,此处的附图被并入说明书中并构成本说明书中的一部分,这些附图示出了符合本公开的实施例,并与说明书一起用于说明本公开的技术方案。应当理解,以下附图仅示出了本公开的某些实施

例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。

图1示出了本公开实施例所提供的一种试题搜索方法的流程图;

图2示出了本公开实施例所提供的一种搜索结果卡片的示意图;

图3示出了本公开实施例所提供的另一种搜索结果卡片的示意图;

图4示出了本公开实施例所提供的另一种搜索结果卡片的示意图;

图5示出了本公开实施例所提供的一种模型处理示意图;

图6示出了本公开实施例所提供的一种试题搜索装置的示意图;

图7示出了本公开实施例所提供的一种计算机设备的结构示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。通常在此处描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此,以下对本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围,而是仅仅表示本公开的选定实施例。基于本公开的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。

另外,本公开实施例中的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。

在本文中提及的“多个或者若干个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

经研究发现,针对试题搜索场景而言,用户大都希望快速准确地搜索到题目的答案信息。常见的搜索方案包括两种,一种是在全网进行搜索,将搜索得到的各个搜索结果一一罗列展示给用户。但是,由于全网搜索得到的搜索结果中通常仅包括题干信息,并不提供答案信息,用户往往需要再点击多个网页才有可能得到满意的答案,不仅降低了试题搜索的效率,还影响了用户搜索体验。为了提高搜索效率,另一种搜索方案,即使用离线试题库的搜索方案应运而生,但是,针对该种搜索方案而言,为了减少搜索到的答案对用户的误导,就需要保证试题库中的试题和答案的质量,为了提升试题库的搜索覆盖面,就需要维护一个足够量级的试题库,因此,若想要维护好一个足够高效、足够便捷的离线试题库,将需要消耗大量的人力资源。并且,人工维护的离线试题库还会存在忽略不常见的试题、忽略实时性较高的试题的问题,导致使用离线试题库的搜索方案仍旧存在较大的弊端。

基于上述研究,本公开提供了一种试题搜索方案,由于目标多媒体信息可以是在线地对全网信息进行搜索得到的,所以无需预先维护离线数据库,既避免了人力资源的消耗,还提高了搜索覆盖率。在获取到与搜索信息匹配的、包含试题信息的目标多媒体内容之后,通过对目标多媒体内容进行多个试题字段下的字段信息进行提取,可以获取到目标多媒体内容中、与搜索信息中的待解答题目信息相关性更强的子信息(即各个字段信息),实现对目标多媒体内容中无关信息的过滤;基于多个试题字段下的字段信息,生成结构化试题结果,可以提高生成的搜索结果的简洁性和准确性;通过将生成的结构化试题结果作为搜索结果进行展示,可以实现对与待解答题目信息相匹配的题目答案的直观展示、结构化展示,便于用户快速直观的获取需要的答案信息。

针对以上方案所存在的缺陷,均是发明人在经过实践并仔细研究后得出的结果,因此,上述问题的发现过程以及下文中本公开针对上述问题所提出的解决方案,都应该是发明人在本公开过程中对本公开做出的贡献。

应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。

为便于对本实施例进行理解,首先对本公开实施例所公开的一种试题搜索方法进行详细介绍,本公开实施例所提供的试题搜索方法的执行主体一般为具有一定计算能力的终端设备或其他处理设备,其中终端设备可以为用户设备(User Equipment,UE)、移动设备、用户终端、终端、个人数字助理设备(Personal Digital Assistant,PDA)、手持设备、计算机设备等;在一些可能的实现方式中,该试题搜索方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。

下面以执行主体为客户端为例对本公开实施例提供的试题搜索方法加以说明。

如图1所示,为本公开实施例提供的一种试题搜索方法的流程图,可以包括以下步骤:

S101:接收搜索信息;搜索信息中包含待解答题目信息。

这里,搜索信息可以为用户输入的任一形式的信息,例如,文字形式的信息、图片形式的信息。搜索信息中包括待解答题目信息,待解答题目信息可以为具有任一题型的题目信息,例如,选择题类型的题目信息、填空题类型的题目信息、应用题类型的题目信息、简答题类型的题目信息等。具体的,待解答题目信息可以为题目的部分题干信息、题目的完整题干信息、题目的题干加选项信息、题目的题干加题目图片信息等。

示例性的,客户端可以接收用户在搜索页面输入的搜索信息。例如,客户端接收到用户输入的填空题类型的题目信息“internet提供的最简便,快捷的通信工具是”,又例如,客户端接收到用户输入的选择题类型的题目信息“什么生肖、立也是立,行也是立”。

S102:响应于获取到与搜索信息匹配的、包含试题信息的目标多媒体内容,从获取到的目标多媒体内容中提取预设的多个试题字段下的字段信息。

这里,目标多媒体内容可以为具有任一资源类型的搜索结果。其中,资源类型例如可以包括文本类型、图片类型和视频类型等。目标多媒体内容中可以包括与搜索信息相匹配的试题信息,试题信息中可以包括但不限于题干信息、选项信息、答案信息和解析信息。

预设的试题字段具体可以包括题干字段、选项字段、答案字段和解析字段。在进行字段信息提取的过程中,可以根据目标多媒体内容中的试题信息的试题类型(即题型),确定需要使用的试题字段并提取各个需要使用的试题字段下的字段信息。例如,在试题类型为选择题类型的情况下,需要使用的试题字段可以包括题干字段、选项字段、答案字段和解析字段;在试题类型为填空题类型的情况下,需要使用的试题字段可以包括题干字段、答案字段和解析字段。

可选的,在获取到目标多媒体内容之后,可以直接在目标多媒体内容中提取预设的多个试题字段中的每个试题字段下的字段信息,当然,若目标多媒体内容中不存在某一试题字段下的字段信息,提取出的该试题字段下的字段信息可以为空。例如,在目标多媒体内容中的试题信息的试题类型为填空题类型的情况下,从目标多媒体内容中提取的选项字段下的字段信息可以为空。

具体实施时,客户端在接收到搜索信息之后,可以将搜索信息发送至服务端,服务端可以利用搜索引擎在全网进行搜索,得到与搜索信息匹配的多个搜索结果(即候选多媒体内容)。之后,服务端可以将候选多媒体内容反馈给客户端。客户端在获取到候选多媒体内容信息之后,可以对每个候选多媒体内容进行分析,确定该候选多媒体内容中是否包括试题信息。若是,则可以将该候选多媒体内容作为一个目标多媒体内容;若否,则忽略该候选多媒体内容。基于此,客户端可以获取到与搜索信息匹配的、包含试题信息的目标多媒体内容。

然后,针对获取的每个目标多媒体内容,客户端可以从该目标多媒体内容中提取预设的多个试题字段下的字段信息。例如,提取题干字段信息、选项字段信息、答案字段信息、选项字段信息和解析字段信息。

在一种实施例中,可以根据以下步骤确定目标多媒体内容:

将搜索信息,以及获取的与搜索信息匹配的多个候选多媒体内容,输入预先训练的神经网络模型,确定多个候选多媒体内容中,包含试题信息的目标多媒体内容。

这里,候选多媒体内容为服务端反馈的多媒体内容,是服务端利用搜索引擎在全网进行搜索后,得到并反馈的与搜索信息匹配的搜索结果。候选搜索结果通常情况下可以包括多个。

预先训练的神经网络模型可以为一种搜题模型,可以用于对候选多媒体内容进行字段信息的提取,并根据提取的字段信息,确定候选多媒体内容是否可以作为目标多媒体内容。

示例性的,可以将搜索信息、候选多媒体内容中的关键内容信息进行拼接,得到拼接信息,之后,将拼接信息输入神经网络模型信息,利用神经网络模型对输入的拼接信息进行特征提取处理,并根据提取的特征确定候选多媒体内容是否可以作为目标多媒体内容。

其中,候选多媒体内容的关键内容信息可以根据候选多媒体内容的资源类型确定。例如,在资源类型为文章类型的情况下,关键内容信息可以为文章的标题信息和文章的正文信息;在资源类型为图片类型的情况下,关键内容信息可以直接为整个图片,或者也可以为图片的图片内容,图片中的文字信息、实体对象信息等;在资源类型为视频类型的情况下,关键内容信息可以为视频中的文字信息、图片信息、实体对象信息等。

以候选多媒体内容为文章类型的候选多媒体内容为例,在将对搜索信息、文章的标题信息和正文信息进行拼接得到的拼接信息输入神经网络模型中之后,神经网络模型可以先根据输入的拼接信息,生成文章对应的目标特征向量,从而实现对文章类型的候选多媒体内容的向量化表示。然后,可以执行题型预测的操作,也即根据目标特征向量,确定候选多媒体内容中的题目信息是否属于试题信息,若否,则可以确定该候选多媒体内容不能作为目标多媒体内容,忽略该候选多媒体内容;若是,则可以确定该候选多媒体内容可以作为一个目标多媒体内容。这里,判断题目信息是都属于题目信息,即确定判断候选多媒体内容中的题目信息是否为标准的题目信息。例如,在候选多媒体内容中的题目信息为“如何治疗失眠”、“猫咪生病了怎么办”的情况下,可以说明上述题目信息不属于标准的题目信息,不存在标准的参考答案,则可以确定该候选多媒体内容不可以作为目标多媒体内容。

S103:基于多个试题字段下的字段信息,生成待解答题目信息对应的结构化试题结果;结构化试题结果用于作为与搜索信息匹配的搜索结果进行展示。

这里,结构化试题结果中包括有从一个目标多媒体内容中提取的多个试题字段下的字段信息,各个字段信息之间的位置关系符合预设结构。示例性的,结构化试题结果可以作为与搜索信息匹配的搜索结果展示在搜索结果卡片中。按照预设的各个试题字段下的字段信息在搜索结果卡片中的相对位置关系,根据多个字段信息生成具有预设结构的结构化试题结果,并将该结构化试题结果作为搜索结果展示在搜索结果卡片中。

如图2所示,为本公开实施例提供的一种搜索结果卡片的示意图,其中,获取的搜索信息是“什么生肖、立也是立,行也是立”,在目标多媒体内容中提取的题干字段信息为“我会猜。坐也是立,立也是立;行也是立,卧也是立。打一动物:”,提取的答案字段信息为“马”,提取的解析字段信息为“根据日常常识,我们知道马坐着也是站立状态,行进也是站立状态,站立还是站立状态,就连睡觉也是站立状态。综合答案为马。”。其中,题干字段信息位于答案字段信息上方,解析字段信息位于答案字段信息下方,各个字段信息在图2中为位置关系符合预设结构的结构化试题结果。在搜索结果卡片中还可以展示有目标多媒体内容中包括的试题信息对应的试题类型,如图2中的填空题标识,以及,还可以展示有结构化试题结果对应的目标多媒体内容的来源信息(如图2中的信息来源方1)。此外,图2中还展示有用于获取更多信息的“查看更多”按钮,用户可以通过触发该按钮,实现对目标多媒体内容的其他信息的获取。

可选的,在得到结构化试题结果并对结构化试题结果进行展示的过程中,如果结构化试题结果中包括解析字段信息,可以根据展示需求确定是否对解析字段信息进行展示。如图3所示,为本公开实施例提供的另一种搜索结果卡片的示意图,其中,获取的搜索信息是“上古部落首领是谁曾与颛顼争帝”,在目标多媒体内容中提取的题干字段信息为“相传()为上古部落首领,曾与颛顼争帝,侵陵诸侯,怒而触不周之山。”,提取的选项字段信息为“A、阜陶,B、共工,C、许由,D、鲧”,提取的答案字段信息为“B”,提取的解析字段信息未展示。在图3中还展示有目标多媒体内容的来源信息(如信息来源方2)、用于指示题目信息为选择题的选择题标

识、以及用于获取更多信息的“查看更多”按钮,用户可以通过触发该按5钮,实现对解析信息以及目标多媒体内容的其他信息的获取。

如图4所示,为本公开实施例提供的另一种搜索结果卡片的示意图,其中,获取的搜索信息是“八个点可以连成20条线段”,在目标多媒体内容中提取的题干字段信息为“八个点可以连成20条线段。(___)”,提取的答案字段信息为“错误”。在图4中还展示有目标多媒体内容的来源信息(如0信息来源方1)、指示题目信息为判断题的判断题标识以及“查看更多”按钮。

上述S103在具体实施时,在客户端获取的目标多媒体内容包括多个时,可以基于多个目标多媒体内容分别对应的多个字段信息,生成唯一的结构

化试题结果。具体的,可以先从多个目标多媒体内容中,筛选出匹配度与5待解答题目信息最高的待反馈目标多媒体内容,之后,基于待反馈目标多

媒体内容对应的多个字段信息,生成结构化试题结果。例如,根据预设的相对位置关系,确定从待反馈目标多媒体内容提取出的多个字段信息的位置,按照各个字段信息分别对应的位置,生成并展示包括该结构化试题结果的搜索结果卡片。

0针对确定待反馈目标多媒体内容的步骤,具体可以为:针对每个目标

多媒体内容,可以先根据该目标多媒体内容对应的多个字段信息,确定该目标多媒体内容与待解答题目信息的匹配度。然后,根据每个目标多媒体内容对应的匹配度,从多个目标多媒体内容中筛选出匹配度最高的待反馈目标多媒体内容。

5在客户端获取的目标多媒体内容包括一个时,可以直接根据该目标多

媒体内容对应的多个字段信息,生成结构化试题结果;也可以先根据该目标多媒体内容对应的多个字段信息,确定该目标多媒体内容与待解答题目信息的匹配度。在匹配度大于预设阈值的情况下,基于多个字段信息和预设的相对位置关系,生成结构化试题结果。在匹配度不大于预设阈值的情况下,可以确定当前不存在能够解答待解答题目信息的目标多媒体内容,

则可以返回默认信息,如“空值”、“很抱歉,当前未搜到匹配的答案信息,5请调整搜索信息重新进行搜索”等。

这样,由于目标多媒体信息可以是在线地对全网信息进行搜索得到的,所以无需预先维护离线数据库,既避免了人力资源的消耗,还提高了搜索覆盖率。在获取到与搜索信息匹配的、包含试题信息的目标多媒体内容之

后,通过对目标多媒体内容进行多个试题字段下的字段信息进行提取,可0以获取到目标多媒体内容中、与搜索信息中的待解答题目信息相关性更强的子信息(即各个字段信息),实现对目标多媒体内容中无关信息的过滤;基于多个试题字段下的字段信息,生成结构化试题结果,可以提高生成的搜索结果的简洁性和准确性;通过将生成的结构化试题结果作为搜索结果

进行展示,可以实现对与待解答题目信息相匹配的题目答案的直观展示、5结构化展示,便于用户快速直观的获取需要的答案信息。

在一种实施例中,在利用神经网络模型确定出目标多媒体内容之后,可以利用神经网络模型,根据该目标多媒体内容对应的目标特征向量和该目标多媒体内容对应的试题信息的题型,对目标多媒体内容进行字段信息

的提取,以从目标多媒体内容中提取出各个试题字段下的字段信息。然而,0在对目标多媒体内容进行字段信息的提取时,一个试题字段下可能提取出

一个或多个字段信息。针对同一试题字段下对应提取的字段信息的数量的不同,可以使用不同的方式进行结构化试题结果的生成。

具体实施时,针对目标多媒体内容,在提取的各个试题字段下的字段信息的数量均为一个的情况下,则可以按照如下步骤进行结构化试题结果5的生成:

步骤一、判断提取的多个试题字段下的字段信息,在目标多媒体内容中的位置关系,是否符合多个试题字段之间的预设位置关系。

这里,预设位置关系即为预先指定各个字段信息,在目标多媒体内容中的标准位置关系。示例性的,预设位置关系可以如下述a~c所示的关系:

a、答案字段在目标多媒体内容中的位置必须在题干字段在目标多媒体内容中的位置之后;

b、解析字段在目标多媒体内容中的位置必须在题干字段在目标多媒体内容中的位置之后;

c、如果是选择题类型,选项字段在目标多媒体内容中的位置必须在题干字段在目标多媒体内容中的位置之后,且在答案字段在目标多媒体内容中的位置以及解析字段在目标多媒体内容中的位置之前。

具体实施时,针对目标多媒体内容,可以先确定从目标多媒体内容提取的多个试题字段下的字段信息,分别在目标多媒体内容中的位置信息。根据各个字段信息在目标多媒体内容中的位置信息,可以得到多个字段信息之间的位置关系。然后,可以判断该位置关系,是否符合多个试题字段之间的预设位置关系。

步骤二、若确定符合预设位置关系,基于多个试题字段下的字段信息,生成待解答题目信息对应的结构化试题结果。

示例性的,在确定多个字段信息之间的位置关系符合预设位置关系的情况下,则可以直接基于多个试题字段下的字段信息,生成目标多媒体内容对应的结构化试题结果。

反之,若确定多个字段信息之间的位置关系不符合预设位置关系,则可以确定无法基于该目标多媒体内容对应的多个字段信息,生成结构化试题结构,进而可以忽略该目标多媒体内容。

在另一种实施例中,针对目标多媒体内容,在提取的任一试题字段下的字段信息的数量为多个的情况下,则可以按照如下步骤进行结构化试题结果的生成:

步骤A、根据每个试题字段下的各字段信息在目标多媒体内容的位置信息和预设位置关系,确定是否存在字段组。

其中,字段组中不同的字段信息对应的试题字段不同、且不同的字段信息之间的位置关系符合预设位置关系。

这里,一个字段组可以对应于一个题目信息,一个字段组中可以包括多个字段信息,同一个字段组中的各个字段信息属于不同的试题字段,且各个字段信息之间的位置关系,符合预设位置关系,不同的字段组中的字段信息之间不存在重复。

具体实施时,可以根据每个试题字段下的各字段信息在目标多媒体内容的位置信息和预设位置关系,确定是否存在位置之间符合预设位置关系且对应的试题字段不同的多个字段信息,若是,则可以将多个字段信息划分至同一个字段组中,也即确定出存在字段组;同时,若某一字段信息无法与其他字段信息组合为字段组,则可以直接忽略该字段信息。需要说明的是,划分至同一个字段组中的各个字段信息,通常属于同一个题目信息,通过划分字段组,不仅可以实现对目标多媒体内容中包括的多个题目信息的划分,还可以实现对不合理的字段信息的过滤,从而提高最终确定出的结构试题结果的合理性。

步骤B、若是,在字段组的数量为单个的情况下,则基于该字段组中的各个字段信息,生成待解答题目信息对应的结构化试题结果。

具体实施时,若根据各字段信息在目标多媒体内容的位置信息和预设位置关系,无法划分出字段组,也即可以确定目标多媒体内容中不存在合理的字段组,进而也即可以确定无法基于该目标多媒体内容中的字段信息生成结构化试题结果,因此,可以忽略该目标多媒体内容。

反之,在确定存在字段组的情况下,还可以确定字段组的数量是否为单个(也即确定目标多媒体内容中是否仅存在一个与待解答题目信息相匹配的题目信息),若是,则可以直接基于该字段组中的各个字段信息,生成目标多媒体内容对应的结构化试题结果。

反之,在确定存在多个字段组的情况下,说明目标多媒体内容中可能存在与待解答题目信息相匹配多个题目信息,此时,则需要对多个题目信息进行进一步的筛选,以保证一个目标多媒体内容最终仅可以对应生成一个结构化试题结果,从而提高最终输出的结构化实试题结果的唯一性。

具体的,在字段组的数量为多个的情况下,针对每个字段组,根据该字段组中的各个字段信息分别对应的置信分值,确定该字段组的目标分值。

示例性的,从目标多媒体内容中提取各试题字段下的字段信息的操作,可以是利用神经网络模型执行的,而模型在提取各字段信息时,可以输出各个字段信息的置信分值。针对每个字段组,可以将该字段组中的各个字段信息分别对应的置信分值相乘,将相乘的结果作为该字段组的目标分值。基于此,可以得到每个字段组对应的目标分值。

然后,可以基于对应的目标分值最大的字段组中的各个字段信息,生成待解答题目信息对应的结构化试题结果。

示例性的,可以根据各个字段组分别对应的目标分值,从多个字段组中筛选出对应的字段组对应的目标分值最大的字段组,然后可以根据该字段组中的各个字段信息,生成目标多媒体内容对应的唯一的结构化试题结果。

这样,无论目标多媒体内容是一个还是多个,基于上述步骤,均可以生成每个目标多媒体内容对应的唯一的结构化试题结果。

在一种实施例中,针对上述置信分值,可以按照以下步骤确定:

在将搜索信息和目标多媒体内容输入预先训练的神经网络模型后,可以得到目标多媒体内容中,与搜索信息匹配的题目内容的目标特征向量。

这里,目标特征向量用于对搜索信息和目标多媒体内容进行向量化表征,其数量可以包括多个。以目标多媒体内容为文章类型的多媒体内容为例,预先训练的神经网络模型可以为基于变压器的双向编码器(BidirectionalEncoder Representations fromTransformer,简称BERT)模型,其中,BERT模型是一个预训练的语言表征模型。

具体实施时,在将对搜索信息和目标多媒体内容的关键内容信息进行拼接得到的拼接信息,输入至预先训练的神经网络模型后,可以利用神经网络模型,对输入的拼接信息进行特征提取处理,得到目标特征向量。

然后,可以基于目标特征向量,利用神经网络模型中与多个试题字段分别对应的模型分支,预测得到多个试题字段下的字段信息,以及每个字段信息的置信分值。

这里,神经网络模型中可以包括多个模型分支,不同的模型分支用于提取不同试题字段下的字段信息,也即不同的模型分支用于执行不同的任务。具体的,神经网络模型的中的模型分支可以包括用于提取题干字段下的题干字段信息的题干预测分支、用于提取选项字段下的选项字段信息的选项预测分支、用于提取答案字段下的答案字段信息的答案预测分支、用于提取解析字段下的解析字段信息的解析预测分支以及用于预测题型字段下的题型字段信息的题型预测分支。

具体实施时,可以利用多个模型分支,分别对目标特征向量进行特征处理,预测出各个试题字段下的字段信息以及每个字段信息的置信分值。如图5所示,为本公开实施例提供的一种模型处理示意图,其中,输入信息可以为对搜索信息、文章类型的目标多媒体内容对应的文章标题信息和文章正文信息进行拼接后得到的拼接信息,神经网络模型对输入的信息进行处理,得到用于对文章进行文章向量化表示的多个目标特征向量,然后,可以利用各个模型分支,分别对多个目标特征向量进行特征处理,预测出各个试题字段下的字段信息以及每个字段信息的置信分值。

在一种实施例中,目标多媒体内容可以包括一个或多个,一个目标多媒体内容可以对应于一个结构化试题结果。在目标多媒体内容包括多个的情况下,得到的与待解答题目信息对应的结构化试题结果也可以包括多个,在这种情况下,可以按照以下步骤确定最终需要展示的结构化试题结果:

S1:基于每个结构化试题结果对应的多个试题字段下的字段信息的置信分值,以及每个试题字段对应的权重值,确定多个结构化试题结果分别对应的匹配度得分。

其中,置信分值为基于预先训练的神经网络模型预测得到的,匹配度得分用于表征结构化试题结果与待解答题目信息的匹配度。

这里,每个结构化试题结果对应的每个试题字段下的字段信息的置信分值,是用于该试题字段对应的模型分支在预测该试题字段下的字段信息时输出的。

每个试题字段对应的权重值可以为预先设定的。例如,答案字段的权重值可以大于题干字段的权重值,题干字段的权重值可以大于选项字段的权重值,选项字段的权重值可以大于或等于解析字段的权重值。

具体实施时,针对每个结构化试题结果,可以先将该结构化试题结果对应每个试题字段下的字段信息的置信分值和该试题字段对应的权重值相乘,得到的每个试题字段下的字段信息对应的第一分值。然后,可以将各字段信息对应的第一分值相加或相乘,得到该结构化试题结果对应的匹配度得分。

可选的,可以预先设置有多组不同的权重值。例如,在字段信息包括题干字段信息、答案字段信息和解析字段信息的情况下,可以存在一组对应于题干字段、答案字段和解析字段的权重值;在字段信息包括题干字段信息、答案字段信息、选项字段和解析字段信息的情况下,可以存在一组对应于题干字段、答案字段、选项字段和和解析字段的权重值。

然后针对每个结构化试题结果,可以根据该结构化试题结果对应的各个字段信息所属的试题字段,确定该结构化试题结果对应的权重组。利用该权重组中的各个权重值和该结构化试题结果对应的各字段信息的置信分值,确定每个字段信息对应的第一分值。再根据各个字段信息对应的第一分值,确定该结构化试题结果对应的匹配度得分。

S2:将对应的匹配度得分最高的结构化试题结果作为最终展示的结构化试题结果。

示例性的,可以根据每个结构化试题结果对应的匹配度得分,从多个结构化试题结果中筛选出匹配度得分最高的结构化试题结果,将该结构化试题结果作为最终在搜索结果卡片进行展示的结构化试题结果。

这样,由于一个待解答题目信息对应的标准答案通常为一个,所以利用各个结构化试题结果的匹配度得分,对多个结构化试题结果进行筛选,可以保证最终展示的结构化试题结果的唯一性;通过展示唯一的结构化试题结果,可以提高展示的答案信息的合理性。

在一种实施例中,为了提高确定的匹配度得分的合理性和准确性,针对上述S1,还可以按照以下步骤实施:

S1-1:根据每个结构化试题结果对应的目标多媒体内容的来源信息、时效信息以及与待解答题目信息之间的相关度信息,确定多个结构化试题结果分别对应的第一匹配度得分。

这里,来源信息具体可以为目标多媒体内容的信息提供方,如目标多媒体内容所在的网站、发布目标多媒体内容的对象等。不同的来源信息对应于不同的置信系数。时效信息用于表征目标多媒体内容的发布时效性,如一年前发布、一个月前发布、一小时间发布等。不同的时效信息也对应于不同的置信系数。相关度信息用于表征的目标多媒体内容与待解答题目信息之间的信息重叠度,重叠度越高,相关度越高。

具体实施时,针对每个结构化试题结果,可以确定该结构化试题结果对应的目标多媒体内容的来源信息、时效信息以及相关度信息;之后,可以将该来源信息和该来源信息对应的置信系数相乘,得到第一乘积,将该时效信息和该时效信息对应的置信系数相乘,得到第二乘积。然后,可以讲第一乘积、第二乘积和相关度信息指示的相关度相加或相乘,得到该结构化试题结果对应的第一匹配度得分。

S1-2:基于每个结构化试题结果对应的多个试题字段下的字段信息的置信分值,以及每个试题字段对应的权重值,确定多个结构化试题结果分别对应的第二匹配度得分。

具体实施时,针对每个结构化试题结果,可以先将该结构化试题结果对应每个试题字段下的字段信息的置信分值和该试题字段对应的权重值相乘,得到的每个试题字段下的字段信息对应的第一分值。然后,可以将各字段信息对应的第一分值相加或相乘,得到该结构化试题结果对应的第二匹配度得分。

S1-3:根据每个结构化试题结果对应的第一匹配度得分和第二匹配度得分,确定多个结构化试题结果分别对应的匹配度得分。

示例性的,针对每个结构化试题结果,可以将该结构化试题结果对应的第一匹配度得分和第二匹配度得分相加或相乘,得到该结构化试题结果对应的匹配度得分。

或者,针对每个结构化试题结果,也可以将该结构化试题结果对应的第一匹配度得分和第二匹配度得分相加或相乘,得到该结构化试题结果对应的第三匹配度得分。然后判断该第三匹配度得分是否大于该结构化试题结果对应的第二匹配度得分,若是,则将该第三匹配度得分作为该结构化试题结果对应的匹配度得分;若否,则将该结构化试题结果对应的第二匹配度得分作为该结构化试题结果对应的匹配度得分。

这样,利用多个维度确定结构化试题结果对应的匹配度得分,可以提高确定的匹配度得分的合理性和准确性。

本领域技术人员可以理解,在具体实施方式的上述方法中,各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定,各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。

基于同一发明构思,本公开实施例中还提供了与试题搜索方法对应的试题搜索装置,由于本公开实施例中的装置解决问题的原理与本公开实施例上述试题搜索方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。

如图6所示,为本公开实施例提供的一种试题搜索装置的示意图,包括:

接收模块601,用于接收搜索信息;所述搜索信息中包含待解答题目信息;

提取模块602,用于响应于获取到与所述搜索信息匹配的、包含试题信息的目标多媒体内容,从获取到的目标多媒体内容中提取预设的多个试题字段下的字段信息;

生成模块603,用于基于所述多个试题字段下的字段信息,生成所述待解答题目信息对应的结构化试题结果;所述结构化试题结果用于作为与所述搜索信息匹配的搜索结果进行展示。

在一种可能的实施方式中,所述装置还包括确定模块604,用于根据以下步骤确定所述目标多媒体内容:

将所述搜索信息,以及获取的与所述搜索信息匹配的多个候选多媒体内容,输入预先训练的神经网络模型,确定所述多个候选多媒体内容中,包含试题信息的所述目标多媒体内容。

在一种可能的实施方式中,所述生成模块603,在所述基于所述多个试题字段下的字段信息,生成所述待解答题目信息对应的结构化试题结果时,用于:

判断提取的所述多个试题字段下的字段信息,在所述目标多媒体内容中的位置关系,是否符合所述多个试题字段之间的预设位置关系;

若确定符合所述预设位置关系,基于所述多个试题字段下的字段信息,生成所述待解答题目信息对应的结构化试题结果。

在一种可能的实施方式中,所述生成模块603,在所述基于所述多个试题字段下的字段信息,生成所述待解答题目信息对应的结构化试题结果时,用于:

在任一试题字段下的字段信息的数量为多个的情况下,根据每个试题字段下的各字段信息在所述目标多媒体内容的位置信息和预设位置关系,确定是否存在字段组;其中,所述字段组中不同的字段信息对应的试题字段不同、且不同的字段信息之间的位置关系符合所述预设位置关系;

若是,在字段组的数量为单个的情况下,则基于该字段组中的各个字段信息,生成所述待解答题目信息对应的结构化试题结果;或者,

在字段组的数量为多个的情况下,针对每个所述字段组,根据该字段组中的各个所述字段信息分别对应的置信分值,确定该字段组的目标分值;

基于对应的目标分值最大的字段组中的各个所述字段信息,生成所述待解答题目信息对应的结构化试题结果。

在一种可能的实施方式中,所述装置还包括筛选模块605,在得到与所述待解答题目信息对应的多个结构化试题结果的情况下,用于:

基于每个所述结构化试题结果对应的所述多个试题字段下的字段信息的置信分值,以及每个所述试题字段对应的权重值,确定多个所述结构化试题结果分别对应的匹配度得分;所述置信分值为基于预先训练的神经网络模型预测得到的;

将对应的所述匹配度得分最高的结构化试题结果作为最终展示的结构化试题结果。

在一种可能的实施方式中,所述筛选模块605,在所述基于每个所述结构化试题结果对应的所述多个试题字段下的字段信息的置信分值,以及每个所述试题字段对应的权重值,确定多个所述结构化试题结果分别对应的匹配度得分时,用于:

根据每个所述结构化试题结果对应的目标多媒体内容的来源信息、时效信息以及与所述待解答题目信息之间的相关度信息,确定多个所述结构化试题结果分别对应的第一匹配度得分;

基于每个所述结构化试题结果对应的所述多个试题字段下的字段信息的置信分值,以及每个所述试题字段对应的权重值,确定多个所述结构化试题结果分别对应的第二匹配度得分;

根据每个所述结构化试题结果对应的第一匹配度得分和第二匹配度得分,确定多个所述结构化试题结果分别对应的匹配度得分。

在一种可能的实施方式中,所述生成模块603,用于根据以下步骤确定所述多个试题字段下的字段信息的置信分值:

在将所述搜索信息和所述目标多媒体内容输入预先训练的神经网络模型后,得到所述目标多媒体内容中,与所述搜索信息匹配的题目内容的目标特征向量;

基于所述目标特征向量,利用所述神经网络模型中与所述多个试题字段分别对应的模型分支,预测得到所述多个试题字段下的字段信息,以及每个所述字段信息的置信分值。

关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明,这里不再详述。

基于同一技术构思,本申请实施例还提供了一种计算机设备。参照图7所示,为本申请实施例提供的一种计算机设备的结构示意图,包括:

处理器71、存储器72和总线73。其中,存储器72存储有处理器71可执行的机器可读指令,处理器71用于执行存储器72中存储的机器可读指令,所述机器可读指令被处理器71执行时,处理器71执行下述步骤:S101:接收搜索信息;搜索信息中包含待解答题目信息;S102:响应于获取到与搜索信息匹配的、包含试题信息的目标多媒体内容,从获取到的目标多媒体内容中提取预设的多个试题字段下的字段信息以及S103:基于多个试题字段下的字段信息,生成待解答题目信息对应的结构化试题结果;结构化试题结果用于作为与搜索信息匹配的搜索结果进行展示。

上述存储器72包括内存721和外部存储器722;这里的内存721也称内存储器,用于暂时存放处理器71中的运算数据,以及与硬盘等外部存储器722交换的数据,处理器71通过内存721与外部存储器722进行数据交换,当计算机设备运行时,处理器71与存储器72之间通过总线73通信,使得处理器71在执行上述方法实施例中所提及的执行指令。

本公开实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述方法实施例中所述的试题搜索方法的步骤。其中,该存储介质可以是易失性或非易失的计算机可读取存储介质。

本公开实施例所提供的试题搜索方法的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行上述方法实施例中所述的试题搜索方法的步骤,具体可参见上述方法实施例,在此不再赘述。

该计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中,所述计算机程序产品具体体现为计算机存储介质,在另一个可选实施例中,计算机程序产品具体体现为软件产品,例如软件开发包(Software Development Kit,SDK)等等。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。在本公开所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本公开各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

若本申请技术方案涉及个人信息,应用本申请技术方案的产品在处理个人信息前,已明确告知个人信息处理规则,并取得个人自主同意。若本申请技术方案涉及敏感个人信息,应用本申请技术方案的产品在处理敏感个人信息前,已取得个人单独同意,并且同时满足“明示同意”的要求。例如,在摄像头等个人信息采集装置处,设置明确显著的标识告知已进入个人信息采集范围,将会对个人信息进行采集,若个人自愿进入采集范围即视为同意对其个人信息进行采集;或者在个人信息处理的装置上,利用明显的标识/信息告知个人信息处理规则的情况下,通过弹窗信息或请个人自行上传其个人信息等方式获得个人授权;其中,个人信息处理规则可包括个人信息处理者、个人信息处理目的、处理方式、处理的个人信息种类等信息。

最后应说明的是:以上所述实施例,仅为本公开的具体实施方式,用以说明本公开的技术方案,而非对其限制,本公开的保护范围并不局限于此,尽管参照前述实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本公开实施例技术方案的精神和范围,都应涵盖在本公开的保护范围之内。因此,本公开的保护范围应所述以权利要求的保护范围为准。

相关技术
  • 一种浴室加热装置和用于控制浴室加热装置的方法、设备、电子设备及计算机可读存储介质
  • 搜索方法、装置、计算机设备和存储介质
  • 对象搜索方法、装置、电子设备及计算机可读存储介质
  • 应用中的资源搜索方法、装置、计算机设备和存储介质
  • 搜索交互方法、装置、计算机设备和存储介质
  • 试题搜索方法、装置、存储介质及电子设备
  • 试题搜索方法、装置、设备及存储介质
技术分类

06120115726532