一种数据定位方法、装置、设备及存储介质

文献发布时间：2024-04-18 19:59:31

技术领域

本发明涉及数据智能定位技术领域，具体涉及一种数据定位方法、装置、设备及存储介质。

背景技术

互联网搜索引擎是一种利用网络爬虫抓取网页信息，并通过索引和排序算法为用户提供相关网页链接的系统。互联网搜索引擎技术经历了多个阶段的发展，其中一个重要的里程碑是google在1998年推出的PageRank算法，它将网页排名的权重从网页内部的关键字转移到了网站间的链接上，从而提高了搜索结果的质量和准确性。随着人工智能和大数据技术的进步，搜索引擎在个性化搜索、智能问答等领域也取得了显著的突破和发展。

目前，基于通用对话模型的用户多轮搜索识别的数据定位技术已经相对成熟，其可以逐步理解用户搜索意图并提供精准的数据源。但是，在面对企业千亿级数据源，如车企等专有领域时，由于通用对话模型缺乏专有知识，且用户输入文本往往较短、缺少上下文和语义信息等原因，会导致数据定位效率低且精度低的缺陷。

发明内容

本发明为克服现有技术存在的数据定位效率低且精度低的缺陷，提出如下技术方案：

第一个方面，本发明提出一种数据定位方法，包括：

根据用户输入的当前查询文本，提取所述当前查询文本的实体信息。

根据当前查询文本的实体信息，在预设的相似图谱中进行关联检索，得到候选定位数据实体。所述相似图谱为存储不同数据实体之间语义关系的数据关系图谱。

将所述候选定位数据实体输入训练好的大语言模型进行推理分析，输出用户的查询意图信息。

根据所述用户的查询意图信息，定位出数据源。

第二个方面，本发明还提出一种数据定位方法装置，包括：

实体信息提取模块，用于根据用户输入的当前查询文本，提取所述当前查询文本的实体信息。

关联检索模块，用于根据当前查询文本的实体信息，在预设的相似图谱中进行关联检索，得到候选定位数据实体。所述相似图谱为存储不同数据实体之间语义关系的数据关系图谱。

推理分析模块，用于将所述候选定位数据实体输入训练好的大语言模型进行推理分析，输出用户的查询意图信息。

定位模块，用于根据所述用户的查询意图信息，定位出数据源。

第三个方面，本发明还提出一种电子设备，所述电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述程序时实现如第一个方面中任一方案所述的数据定位方法所执行的操作。

第四个方面，本发明还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有程序，所述程序被处理器执行如第一个方面中任一方案所述的数据定位方法所执行的操作。

本发明的有益效果至少包括：

(1)本发明通过提取所述当前查询文本的实体信息，在预设的相似图谱中进行关联检索，得到候选定位数据实体，可以有效地缩小数据定位的范围，找到与当前查询文本相似或相关的数据实体，过滤掉与用户查询意图无关的数据实体，从而提高数据定位的精度和效率。

(2)本发明通过将候选定位数据实体输入训练好的大语言模型进行推理分析，输出用户的查询意图信息，可以有效地理解用户的查询意图，提取出用户需要的数据源的特征和属性进行数据源定位，从而更进一步提高数据定位的精度和效率。

附图说明

图1为本申请实施例所提供的数据定位方法的流程示意图。

图2为本申请实施例中选取候选历史查询的流程示意图。

图3为本申请实施例中获取候选定位数据实体的流程示意图。

图4为本申请实施例中根据用户的查询意图信息定位出数据源的流程示意图。

图5为本申请实施例所提供的数据定位装置的架构图。

图6为本申请实施例所提供的电子设备的结构示意图。

具体实施方式

以下将参照附图和优选的技术方案来说明本发明的实施方式，本领域技术人员可由本说明书中所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。应当理解，优选的技术方案仅为了说明本发明，而不是为了限制本发明的保护范围。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

在下文描述中，探讨了大量细节，以提供对本发明实施例的更透彻的解释，然而，对本领域技术人员来说，可以在没有这些具体细节的情况下实施本发明的实施例是显而易见的，在其他实施例中，以方框图的形式而不是以细节的形式来示出公知的结构和设备，以避免使本发明的实施例难以理解。

具体而言，图1为本申请实施例所提供的数据定位方法的流程示意图。

如图1所示，该数据定位方法包括以下步骤：

S10：根据用户输入的当前查询文本，提取所述当前查询文本的实体信息。

本实施例中，用户输入与二手车相关的查询文本，比如针对车主卖车的意愿评估建模、二手车相关扩展信息有哪些和如何为购买二手车的用户提供线索等，提取用户查询文本的关键实体，比如车主、卖车、卖车意愿、评估建模等。设用户当前输入查询为q1，该用户历史查询为q_list01＝[q1,q2,···,qk]，其中k＝1,…,n；备用检索库q_list02＝[q1,q2,···,qi]，其中i＝1,…,n。

可选地，在本申请的一个实施例中，在提取当前查询文本的实体信息之后，该数据定位方法还包括：

根据当前查询文本的实体信息，计算当前查询文本与历史查询文本之间的语义相似度。

确定前N个语义相似度最高的历史查询文本作为候选历史查询。

将所述当前查询文本和所述N个候选历史查询拼接成长文本，并提取该长文本的实体信息。

根据长文本的实体信息，在预设的相似图谱中进行关联检索，得到候选定位数据实体。

在计算当前查询文本与历史查询文本之间的语义相似度之前，所述方法还包括：

获取历史查询文本。

当所获取的历史查询文本的数量少于预设值时，从备用检索库中获取备用查询文本作为历史查询文本，直至当前的历史查询文本的数量达到预设值。

本实施例中，计算当前查询文本与历史查询文本之间的语义相似度，具体包括：

将当前查询文本转换为第一文本向量，以及将历史查询文本转换为第二文本向量。

计算第一文本向量和第二文本向量之间的余弦相似度或欧氏距离作为当前查询文本与历史查询文本之间的语义相似度。

如图2和图3所示，图2和图3分别为本申请实施例中本实施例中选取候选历史查询和获取候选定位数据实体的流程示意图。

设上述匹配到的与用户当前查询相关的100条历史查询文本为q_list03＝[q1_1，q1_2，…，q1_i，…，q1_100]，利用text2vec-large-chinese将历史查询文本转换为第二文本向量q1_vecs03＝[q1_vecs_1，q1_vecs_2，…，q1_vecs_i，…，q1_vecs_100]，将当前查询文本转换为第一文本向量q1_vec，使用余弦相似度计算q1_vec与q1_vecs03中每个向量的相似度，具体公式如下：

按照cosθ

(1)如何对潜在客户的意愿进行评估？

(2)如何建立一个有效的评估模型来预测客户购买汽车的意愿？

(3)如何对汽车销售人员的表现进行评估，以帮助他们更好地推销汽车？

(4)如何建立一个有效的评估模型来预测车主是否愿意出售他们的汽车？

(5)如何对汽车租赁公司的客户行为进行评估，以帮助他们更好地预测客户对租赁汽车的意愿？

(6)如何建立一个评估模型来预测客户对汽车维修服务的意愿？

(7)如何建立一个评估模型来预测客户对汽车保养服务的意愿？

(8)如何建立一个评估模型来预测车主对二手汽车交易市场的兴趣？

(9)如何对汽车交易平台的客户行为进行评估，以帮助他们更好地预测客户购买汽车的意愿？

(10)如何建立一个评估模型来预测汽车卖家的意愿，以帮助他们更好地推销自己的汽车。

S20：根据当前查询文本的实体信息，在预设的相似图谱中进行关联检索，得到候选定位数据实体。所述相似图谱为存储不同数据实体之间语义关系的数据关系图谱。

可选地，在本申请的一个实施例中，根据当前查询文本的实体信息，在预设的相似图谱中进行关联检索，得到候选定位数据实体，具体包括：

根据当前查询文本的实体信息，对当前查询文本与预设的相似图谱中的数据实体进行语义匹配评分，得到数据实体对应的语义评分结果。

根据数据实体对应的语义评分结果，筛选出候选定位数据实体。

本实施例中，所述根据数据实体对应的语义评分结果，筛选出候选定位数据实体，具体包括：

分别将选取语义评分结果最高的前M个数据库、前S个数据表和前V个数据列作为候选定位数据实体。本实施例M＝1000，S＝10，V＝100。

在具体实施过程中，首先从长文本text01中提取出与车主卖车意愿评估建模相关的关键实体信息，比如车辆售价、车辆销量、车辆保养记录等。然后根据这些关键实体信息，在预设的相似图谱中进行关联搜索，找到与之相似或相关的数据库、数据表和数据列。具体地，需要先构建数据库系统、数据表和数据列的主题标签，比如汽车销售数据库、车辆信息表、车辆售价列等。然后将这些主题标签与关键实体信息进行匹配，找到匹配到的节点，并利用已经建好的相似图谱模型进行相似对关联扩展。相似图谱模型是一种基于上下文语义分析和知识图谱技术构建的数据结构关系图谱，它可以描述不同数据库、数据表和数据列之间的相似度和相关度。最后，将相似图谱中搜索到的关系对组合成文本，并结合用户查询扩展语义组合成长文本text02。以“如何进行车主卖车意愿评估建模”查询为例，组合成的长文本部分内容可能为“汽车销售数据库与汽车租赁数据库相似度为0.8，汽车销售数据库与汽车交易平台数据库相似度为0.9；车辆信息表与车辆品牌表相关度为0.7，车辆信息表与车辆型号表相关度为0.6；车辆售价列与市场趋势列相关度为0.8，车辆售价列与竞争情况列相关度为0.7”。

S30：将所述候选定位数据实体输入训练好的大语言模型进行推理分析，输出用户的查询意图信息。

本实施例中，大语言模型选择使用清华开源的chatGML。将上面长文本text02输入到chatGML，要求chatGML给出与用户查询意图匹配的关键信息，并给出与用户意图相关的解决方案。以“如何进行车主卖车的意愿评估建模”查询为例，chatGML给出结果为“建模车主卖车的意愿需要考虑以下几个方面的数据：

1.车辆售价：车辆售价是车主卖车意愿的重要指标之一。车辆的当前售价、历史售价、市场趋势等因素都会影响车主卖车的意愿。

2.车辆销量：车辆销量是衡量车主卖车意愿的另一个重要指标。车辆的销售量、销售周期、销售渠道等因素都会影响车主卖车的意愿。

3.车辆保养记录：车辆保养记录可以反映车主对车辆维护的重视程度和对车辆健康状况的评估。如果车辆保养记录显示多次维修或保养费用过高，可能会增加车主卖车的意愿。

4.车辆保险记录：车辆保险记录可以反映车主对车辆保险的重视程度和对车辆安全性的评估。如果车辆保险记录显示多次理赔或赔偿金额过高，可能会增加车主卖车的意愿。

5.车辆维护记录：车辆维护记录可以反映车主对车辆维护的质量和频率的评估。如果车辆维护记录显示维护费用过高或维护频率过低，可能会增加车主卖车的意愿。

6.车辆品牌和型号：车辆品牌和型号是车主购买和出售车辆时的重要考虑因素。如果车辆品牌和型号在市场上竞争激烈，可能会增加车主卖车的意愿。

7.社交媒体信息：社交媒体信息可以反映车主对车辆的关注和兴趣。如果车主在社交媒体上发布了有关车辆的信息和照片，可能会增加他们对车辆的兴趣和卖车的意愿。

以下是一些关键信息词或短语：车辆售价：当前售价、历史售价、市场趋势、车型差异等。车辆销量：销售量、销售周期、销售渠道、满意度等。车辆保养记录：多次维修或保养费用、维修记录、频率、费用、质量、品牌型号。车辆品牌和型号：品牌、型号、竞争情况、社交媒体信息、兴趣。社交媒体信息：发布内容、关注度、兴趣、车辆兴趣等。

S40：根据所述用户的查询意图信息，定位出数据源。

可选地，在本申请的一个实施例中，对用户的查询意图信息和数据源的关键实体进行字典映射，定位出数据源。

本实施例中，将用户意图匹配的关键信息与数据源关键信息映射字典进行匹配，可以智能匹配到这些关键信息的数据源连接方式，具体包括：

如图4所示，首先，从大语言模型输出的用户的查询意图信息中提取出关键信息词或短语，比如车辆售价、车辆销量、车辆保养记录等。设这些关键信息词或短语为W1＝{w1,w2,…,wi,…,wn}，其中i＝1,…,n，n<＝1000。然后，根据预先建立好的关键信息与数据源的映射字典D1＝[{w1,s1}，…,{wj,sj},…,{wk,sk}]，在其中查找与W1中每个元素相匹配的数据源。K为数据源表总数，{wj,sj}表示数据源sj包含主题信息关键字wj。最后，根据查找到的数据源，得到相应的数据源连接方式，比如，如果用户想要获取车辆售价相关的数据，可以使用[汽车销售数据库]中的[车辆售价列]得到车辆售价相关的数据。

可以理解的是，通过提取所述当前查询文本的实体信息，在预设的相似图谱中进行关联检索，得到候选定位数据实体，可以有效地缩小数据定位的范围，找到与当前查询文本相似或相关的数据实体，过滤掉与用户查询意图无关的数据实体，从而提高数据定位的精度和效率。通过将候选定位数据实体输入训练好的大语言模型进行推理分析，输出用户的查询意图信息，可以有效地理解用户的查询意图，提取出用户需要的数据源的特征和属性进行数据源定位，从而更进一步提高数据定位的效率。

其次，参照附图描述根据本申请实施例提出的数据定位装置。

图5是本申请实施例的数据定位装置的架构图。

如图5所示，该数据定位装置包括：实体信息提取模块100、关联检索模块200、推理分析模块300和定位模块400。

其中，实体信息提取模块100用于根据用户输入的当前查询文本，提取所述当前查询文本的实体信息。关联检索模块200用于根据当前查询文本的实体信息，在预设的相似图谱中进行关联检索，得到候选定位数据实体所述相似图谱为存储不同数据实体之间语义关系的数据关系图谱。推理分析模块300用于将所述候选定位数据实体输入训练好的大语言模型进行推理分析，输出用户的查询意图信息。定位模块400用于根据所述用户的查询意图信息，定位出数据源。

需要说明的是，前述对数据定位方法实施例的解释说明也适用于该实施例的数据定位装置，此处不再赘述。

图6为本申请实施例提供的计算机设备500的结构示意图。该计算机设备500包括：存储器501、处理器502及存储在存储器501上并可在处理器502上运行的计算机程序。

处理器502执行程序时实现上述实施例中提供的数据定位方法。

进一步地，计算机设备500还包括：通信接口503，用于存储器501和处理器502之间的通信。

存储器501可能包含高速RAM(RandomAccessMemory，随机存取存储器)存储器，也可能还包括非易失性存储器，例如至少一个磁盘存储器。

如果存储器501、处理器502和通信接口503独立实现，则通信接口503、存储器501和处理器502可以通过总线相互连接并完成相互间的通信。总线可以是ISA(IndustryStandard Architecture，工业标准体系结构)总线、PCI(Peripheral Component，外部设备互连)总线或EISA(Extended Industry Standard Architecture，扩展工业标准体系结构)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，图6中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果存储器501、处理器502及通信接口503，集成在一块芯片上实现，则存储器501、处理器502及通信接口503可以通过内部接口完成相互间的通信。

处理器502可能是一个CPU(CentralProcessingUnit，中央处理器)，或者是ASIC(ApplicationSpecificIntegratedCircuit，特定集成电路)，或者是被配置成实施本申请实施例的一个或多个集成电路。

本申请实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上的数据定位方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不是必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或N个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“N个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更N个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，N个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列，现场可编程门阵列等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：重庆长安汽车股份有限公司;

上一篇：吸油烟机的音频注入调控方法、装置、电子设备和介质
下一篇：一种半导体摆动式浸镀槽及其使用方法