导航：首页> 医学或兽医学；卫生学>基于人工智能的文本搜索排序方法、装置及相关设备

基于人工智能的文本搜索排序方法、装置及相关设备

文献发布时间：2023-06-19 16:09:34

技术领域

本发明涉及人工智能技术领域，具体涉及一种基于人工智能的文本搜索排序方法、装置及相关设备。

背景技术

在人工智能领域，通常使用文本搜索文本或者用文本搜索带有文本信息的内容，现有的搜索多是采用基于字或者词的TF-IDF方法，或者使用BM25算法的ES算法对资源召回，在搜索中多使用命中率，出现次数，编辑距离等方式计算文本之间的相似度，根据计算得到的文本之间的相似度对搜索结果做排序处理。

然而，现有技术在使用命中率，出现次数，编辑距离等方式计算文本之间的相似度时，忽略了文本之间的位置信息，计算得到的相似度准确率低，导致搜索结果排序准确率低。

发明内容

鉴于以上内容，有必要提出一种基于人工智能的文本搜索排序方法、装置及相关设备，通过对每个搜索结果的索引信息进行预处理，克服了原有搜索排序中对位置信息不敏感的方法的缺陷，提高了搜索排序的准确率。

本发明的第一方面提供一种基于人工智能的文本搜索排序方法，所述方法包括：

接收用户输入的搜索文本，对所述搜索文本进行分词处理，得到分词片段集；

基于所述分词片段集构建目标前缀树；

基于所述目标前缀树遍历预设的数据库，得到搜索结果集及每个搜索结果的索引信息；

对所述每个搜索结果的索引信息进行预处理，得到每个搜索结果的命中片段集；

计算所述每个搜索结果的命中片段集中的每个命中片段的命中度分值；

根据所述命中片段集中的每个命中片段的命中度分值，计算每个搜索结果与所述搜索文本的目标匹配值；

根据所述每个搜索结果与所述搜索文本的目标匹配值对所述搜索结果集进行搜索排序。

可选地，所述计算所述每个搜索结果的命中片段集中的每个命中片段的命中度分值包括：

统计每个搜索结果的第一长度及每个命中片段的第二长度；

计算每个命中片段的第二长度与所述第一长度的商数，得到每个命中片段的第一分值；

识别每个命中片段的片段字词是否与对应搜索结果中的片段字词顺序一致；

当每个命中片段的片段字词与对应搜索结果中的片段字词顺序一致时，获取预设的第一权重值，计算所述每个命中片段的第一分值与所述预设的第一权重值的乘积，得到每个命中片段的第二分值；

识别每个命中片段是否存在疑问词；

当所述每个命中片段不存在疑问词时，将所述第二分值确定为对应命中片段的命中度分值；

当所述每个命中片段存在疑问词时，获取预设的第三权重值及疑问词的第三长度，计算所述第三长度与所述第一长度的商数乘以所述预设的第三权重值，得到第三分值，计算所述第二分值与所述第三分值的差值，得到第四分值，将所述第四分值确定为对应命中片段的命中度分值。

可选地，所述识别每个命中片段的片段字词是否与对应搜索结果中的片段字词顺序一致还包括：

当每个命中片段的片段字词与对应搜索结果中的片段字词顺序不一致时，获取预设的第二权重值，计算所述每个命中片段的第一分值与所述预设的第二权重值的乘积，得到每个命中片段的第五分值；

识别每个命中片段是否存在疑问词；

当所述每个命中片段不存在疑问词时，将所述第五分值确定为对应命中片段的命中度分值；

当所述每个命中片段存在疑问词时，获取所述预设的第三权重值及疑问词的第四长度，计算所述第四长度与所述第一长度的商数乘以所述预设的第三权重值，得到第六分值，计算所述第五分值与所述第六分值的差值，得到第七分值，将所述第七分值确定为对应命中片段的命中度分值。

可选地，在所述根据所述每个搜索结果与所述搜索文本的目标匹配值对所述搜索结果集进行搜索排序之前，所述方法还包括：

判断所述每个搜索结果是否与所述搜索文本完全匹配；

当所述每个搜索结果与所述搜索文本完全匹配时，判断所述每个搜索结果的片段字词顺序是否与所述搜索文本的片段字词顺序一致；

当所述每个搜索结果的片段字词顺序与所述搜索文本的片段字词顺序一致时，将每个搜索结果的目标匹配值更新为1；

当所述每个搜索结果的片段字词顺序与所述搜索文本的片段字词顺序不一致时，计算每个搜索结果的目标匹配值与预设的第四权重值乘积，确定为每个搜索结果的新的目标匹配值，并将每个搜索结果的目标匹配值更新为所述新的目标匹配值。

可选地，所述对所述每个搜索结果的索引信息进行预处理，得到每个搜索结果的命中片段集包括：

识别每个搜索结果的索引信息中的每个子片段的位置信息；

按照位于每个搜索结果的前后位置，对每个搜索结果的多个子片段进行排序，并记录每个子片段的开始位置和结束位置；

将排序结果中的第一个子片段确定为当前子片段；

判断当前子片段的下一个子片段的起始位置是否与所述当前子片段的结束位置相等；

当所述当前子片段的下一个子片段的起始位置与所述当前子片段的结束位置相等时，将所述当前子片段和所述当前子片段的下一个片段进行合并，确定为新的当前子片段，并将当前子片段的结束位置更新为当前子片段的下一个子片段的结束位置，得到新的当前子片段的新的位置信息；以排序结果中排序顺序将新的当前子片段重新确定为当前子片段，重复执行判断所述当前子片段的下一个子片段的起始位置是否与所述当前子片段的结束位置相等，直至到达排序结果中的最后一个子片段，得到每个搜索结果的命中片段集；

当所述当前子片段的下一个子片段的起始位置与所述当前子片段的结束位置不相等时，以排序结果中排序顺序将当前子片段的下一个子片段重新确定为当前子片段，重复执行判断当前子片段的下一个子片段的起始位置是否与所述当前子片段的结束位置相等，直至到达排序结果中的最后一个子片段，得到每个搜索结果的命中片段集。

可选地，所述根据所述命中片段集中的每个命中片段的命中度分值，计算每个搜索结果与所述搜索文本的目标匹配值包括：

按照命中度分值对所述命中片段集进行降序排序；

从降序排序结果中选取排序在前的多个命中片段确定为多个目标命中片段；

计算每个目标命中片段的命中度分值与预设的匹配阈值的乘积，确定为每个目标命中片段的匹配值；

计算所述多个目标命中片段的多个匹配值之和，确定为每个搜索结果与所述搜索文本的目标匹配值。

可选地，所述基于所述分词片段集构建目标前缀树包括：

创建根节点，将所述分词片段集中的每个分词片段的第一个字符确定为所述根节点的子节点，其中，所述根节点不包含有字符；

判断每个所述子节点中的字符是否存在下一个字符；

当每个所述子节点中的字符存在下一个字符时，创建一个新的子节点与每个所述子节点连接，重复判断每个所述子节点中的字符是否存在下一个字符，直至每个所述子节点中的字符不存在下一个字符，得到前缀树；

对所述前缀树添加失败指针，得到目标前缀树。

本发明的第二方面提供一种基于人工智能的文本搜索排序装置，所述装置包括：

分词处理模块，用于接收用户输入的搜索文本，对所述搜索文本进行分词处理，得到分词片段集；

构建模块，用于基于所述分词片段集构建目标前缀树；

遍历模块，用于基于所述目标前缀树遍历预设的数据库，得到搜索结果集及每个搜索结果的索引信息；

预处理模块，用于对所述每个搜索结果的索引信息进行预处理，得到每个搜索结果的命中片段集；

第一计算模块，用于计算所述每个搜索结果的命中片段集中的每个命中片段的命中度分值；

第二计算模块，用于根据所述命中片段集中的每个命中片段的命中度分值，计算每个搜索结果与所述搜索文本的目标匹配值；

排序模块，用于根据所述每个搜索结果与所述搜索文本的目标匹配值对所述搜索结果集进行搜索排序。

本发明的第三方面提供一种电子设备，所述电子设备包括处理器和存储器，所述处理器用于执行所述存储器中存储的计算机程序时实现所述的基于人工智能的文本搜索排序方法。

本发明的第四方面提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现所述的基于人工智能的文本搜索排序方法。

综上所述，本发明所述的基于人工智能的文本搜索排序方法、装置及相关设备，通过基于所述分词片段集构建目标前缀树，在目标前缀树中添加失败指针，在基于所述目标前缀树遍历预设的数据库过程中，如果当前子节点匹配失败，则将指针转移到失败指针指向的地方，这样就不用回溯，而可以一路匹配下去了，提高了得到搜索结果集及每个搜索结果的索引信息的效率。对所述每个搜索结果的索引信息进行预处理，将每个搜索结果中存在连续关系的子片段合并在一起，减少了命中片段集的数量，同时将每个搜索结果中存在连续关系的子片段合并在一起，提高了计算出的命中度分值的准确率。通过从每个搜索结果的索引信息中是否包含连续命中片段、每个命中片段的片段字词是否与每个搜索结果中的片段字词顺序一致，及每个命中片段是否存在疑问词多个维度考量，计算所述每个搜索结果的命中片段集中的每个命中片段的命中度分值，克服了原有搜索排序中的一些对位置信息不敏感的方法的缺陷，提高了每个命中片段的命中度分值，进而提高了搜索排序的准确率。

附图说明

图1是本发明实施例一提供的基于人工智能的文本搜索排序方法的流程图。

图2是本发明实施例一提供的目标前缀树的示意图。

图3是本发明实施例二提供的基于人工智能的文本搜索排序装置的结构图。

图4是本发明实施例三提供的电子设备的结构示意图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施例对本发明进行详细描述。需要说明的是，在不冲突的情况下，本发明的实施例及实施例中的特征可以相互组合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。

实施例一

图1是本发明实施例一提供的基于人工智能的文本搜索排序方法的流程图。

在本实施例中，所述基于人工智能的文本搜索排序方法可以应用于电子设备中，对于需要进行基于人工智能的文本搜索排序的电子设备，可以直接在电子设备上集成本发明的方法所提供的基于人工智能的文本搜索排序的功能，或者以软件开发工具包(Software Development Kit，SDK)的形式运行在电子设备中。

本发明实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习、深度学习等几大方向。

如图1所示，所述基于人工智能的文本搜索排序方法具体包括以下步骤，根据不同的需求，该流程图中步骤的顺序可以改变，某些可以省略。

在本实施例中，所述文本搜索排序方法应用于用户搜索文本中，使得用户可以获取到与所述搜索文本相匹配的文本，并展示给用户，例如：用户输入的搜索文本是：资金风险的定义是什么，得到搜索结果，文本A和文本B，其中，搜索结果A：资金风险的定义有哪些内容；搜索结果B：对于拥有很多资金非常多资金，且有一定风险的情况是什么定义。

在本实施例中，搜索结果A和搜索结果B基本都命中了用户输入的搜索文本中的词语，其中，搜索结果A命中的片段(资金风险的定义)是连续的，搜索结果B命中的片段为：[“资金”，“风险”，“是什么”，“定义”]，可见，从命中率来看，搜索结果B更匹配，但考虑到总的片段命中情况，实际上搜索结果A更匹配，因此，为了得到准确的搜索结果，计算匹配度时考虑文本之间的位置关系。

S11，接收用户输入的搜索文本，对所述搜索文本进行分词处理，得到分词片段集。

本实施例中，采用中文分词工具Python下的结巴分词工具库对所述搜索文本进行分词，得到分词片段集。

示例性地：搜索文本为：资金风险有哪些风控措施，对应所述搜索文本进行分词处理得到的分词片段集为：[资金，风险，有，哪些，风控，措施]。

S12，基于所述分词片段集构建目标前缀树。

本实施例中，基于所述分词片段集创建前缀树之后，在创建的前缀树的基础上，增加一个失败指针，如果当前子节点匹配失败，则将指针转移到失败指针指向的地方，这样就不用回溯，而可以一路匹配下去了。

在一个可选的实施例中，所述基于所述分词片段集构建目标前缀树包括：

创建根节点，将所述分词片段集中的每个分词片段的第一个字符确定为所述根节点的子节点，其中，所述根节点不包含有字符；

判断每个所述子节点中的字符是否存在下一个字符；

对所述前缀树添加失败指针，得到目标前缀树。

进一步地，所述对所述前缀树添加失败指针，得到目标前缀树包括：

判断所述前缀树的第二层中每个子节点是否为叶子节点；

当所述前缀树的第二层中每个子节点不为叶子节点时，在所述前缀树的第二层中每个子节点添加失败指针；

当所述前缀树的第二层中每个子节点为叶子节点时，不在所述前缀树的第二层中每个子节点添加失败指针。

本实施例中，参与图2所示的目标前缀树的示意图，所述目标前缀树的第一层是根节点，第二层开始添加失败指针，其中，第二层中的每个子节点对应的是每个分词片段的第一个字符，失败指针都指向根节点。

S13，基于所述目标前缀树遍历预设的数据库，得到搜索结果集及每个搜索结果的索引信息。

本实施例中，所述搜索结果集是指基于所述搜索文本搜素出的搜索结果，所述每个搜索结果的索引信息包含有每个搜索结果中出现在所述目标前缀树中的所有词语信息及位置信息。

示例性地，搜索文本：资金风险有哪些风控措施，在预设的数据库中搜索到的搜索结果为：我的资金有没有风险不知道，但是我没有任何风控措施，搜索结果对应的词语信息为：[资金，风险，风控，措施]，位置信息为：[[2，4]，[7，9]，[20，22]，[22，24]]。

本实施例中，在进行文本搜索时，设定开始指针和结束指针指向文本开始位置，从目标前缀树的根节点开始匹配，匹配不上子节点，开始节点和结束指针就向后移动，匹配上则结束指针往后移动，同时指向目标前缀树的子节点也向下移动，如果匹配则继续该操作，不匹配则跳到当前子节点的失败指针对应的方向去匹配下一个子节点，如果成功则继续匹配，不成功则继续跳到失败指针对应的方向去匹配下一个子节点，直至到达根节点遍历结束，结束时将开始指针指向结束指针的位置继续后续的匹配，在匹配过程中如果目标前缀树上的子节点是最后的叶子节点，则记录开始位置和结束位置。

本实施例中，通过基于所述分词片段集构建目标前缀树，并在目标前缀树中添加失败指针，在基于所述目标前缀树遍历预设的数据库时，如果当前子节点匹配失败，则将指针转移到失败指针指向的地方，这样就不用回溯，而可以一路匹配下去了，遍历效率高，提高了得到搜索结果集及每个搜索结果的索引信息的效率。

S14，对所述每个搜索结果的索引信息进行预处理，得到每个搜索结果的命中片段集。

本实施例中，所述预处理是指将每个搜索结果的索引信息中连续的子片段合并在一起。

在一个可选的实施例中，所述对所述每个搜索结果的索引信息进行预处理，得到每个搜索结果的命中片段集包括：

识别每个搜索结果的索引信息中的每个子片段的位置信息；

按照位于每个搜索结果的前后位置，对每个搜索结果的多个子片段进行排序，并记录每个子片段的开始位置和结束位置；

将排序结果中的第一个子片段确定为当前子片段；

判断当前子片段的下一个子片段的起始位置是否与所述当前子片段的结束位置相等；

当所述当前子片段的下一个子片段的起始位置与所述当前子片段的结束位置相等时，将所述当前子片段和所述当前子片段的下一个片段进行合并，确定为新的当前子片段，并将当前子片段的结束位置更新为当前子片段的下一个子片段的结束位置，得到新的当前子片段的新的位置信息；

以排序结果中排序顺序将新的当前子片段重新确定为当前子片段，重复执行判断所述当前子片段的下一个子片段的起始位置是否与所述当前子片段的结束位置相等，直至到达排序结果中的最后一个子片段，得到每个搜索结果的命中片段集。

进一步地，所述判断当前子片段的下一个子片段的起始位置是否与所述当前子片段的结束位置相等还包括：

示例性地，搜索结果对应的词语信息为：[资金，风险，风控，措施]，位置信息为：[[2，4]，[7，9]，[20，22]，[22，24]]，通过识别位置信息，确定“风控”，“措施”两个子片段的位置是连在一起的，对搜索结果对应的两个子片段进行合并得到命中片段集为：[资金，风险，风控措施]，命中片段集的位置信息为“[[2，4]，[7，9]，[20，24]]”。

本实施例中，通过对所述每个搜索结果的索引信息进行预处理，将每个搜索结果中存在连续关系的子片段合并在一起，一方面，减少了命中片段集的数量，提高了后续计算命中度分值的效率，另一方面，由于搜索出的连续搜索结果要比不连续的搜索结果或者顺序颠倒的搜索结果更相似，通过将每个搜索结果中存在连续关系的子片段合并在一起，提高了计算出的命中度分值的准确率，进而提高了搜索结果排序的准确率。

S15，计算所述每个搜索结果的命中片段集中的每个命中片段的命中度分值。

本实施例中，所述命中度分值是指每个命中片段命中每个搜索结果的匹配值。

在一个可选的实施例中，所述计算所述每个搜索结果的命中片段集中的每个命中片段的命中度分值包括：

统计每个搜索结果的第一长度及每个命中片段的第二长度；

计算每个命中片段的第二长度与所述第一长度的商数，得到每个命中片段的第一分值；

识别每个命中片段的片段字词是否与对应搜索结果中的片段字词顺序一致；

识别每个命中片段是否存在疑问词；

当所述每个命中片段不存在疑问词时，将所述第二分值确定为对应命中片段的命中度分值；

进一步地，所述识别每个命中片段的片段字词是否与对应搜索结果中的片段字词顺序一致还包括：

识别每个命中片段是否存在疑问词；

当所述每个命中片段不存在疑问词时，将所述第五分值确定为对应命中片段的命中度分值；

本实施例中，搜索结果为“风险的定义是什么”，当命中片段为“风险的定义”时，确定命中片段的片段字词与搜索结果中的片段字词顺序一致，获取预设的第一权重阈值；当命中片段为“什么是风险”时，确定命中片段的片段字词与搜索结果中的片段字词顺序不一致，获取预设的第二权重阈值。

本实施例中，识别命中片段是否存在疑问词，若命中片段为“什么是风险”或“定义是什么”，包含有疑问词；若命中片段为“风险的定义”，不包含疑问词，具体地，在进行疑问词识别时，采用结巴分词工具标注词性，当词性是“r”的时，判断疑问词是否包含“么”，“哪”，“怎”，如果包含，则视为命中片段包含有疑问词，例如，所述“么”对应的疑问词：什么，什么样，那么，怎么，为什么；所述“哪”对应的疑问词：哪，哪些，哪几，哪里，哪一年，哪一天，哪种，哪天；所述“怎”对应的疑问词：怎么样，怎样；当词性是“y”时，视为命中片段包含有疑问词，例如：“吗”，“呢”等。

本实施例中，通过识别是否包含有疑问词，并对包含有疑问词的设置第三权重阈值，确保了在命中片段长度相同的情况下，包含无疑问词的比不包含疑问词的命中度分值低，包含多个疑问词比包含一个疑问词的命中度分值低，以及包含无实意词的比单纯的不包含疑问词的命中度分值高，提高了命中片段的命中度分值的准确率。

示例性地，每个搜索结果的第一长度Qn，每个命中片段的第二长度为N，计算N/Qn得到第一分值，并将第一分值确定为基础分数S_base，采用如下公式计算每个命中片段的命中度分值：S_base×w﹣n/Qn×0.8，其中，n

本实施例中，若每个命中片段的片段字词与每个搜索结果中的片段字词顺序一致，标记为A，顺序不一致时，标记为a，每个命中片段不含疑问词标记为B，含疑问词标记为b，包含疑问词的总长度表示为n，则AB对应的命中度分值为：S_base×1.0﹣0×0.8＝S_base；Ab对应的命中度分值为：S_base×1.0﹣0.8n＝S_base﹣0.8n/Qn；aB对应的命中度分值为：S_base×0.8﹣0×0.8＝0.8S_base；ab对应的命中度分值为：S_base×0.8﹣0.8n＝0.8S_base﹣0.8n/Qn。

本实施例中，分析上述命中度分值可知，0.8S_base>0.8S_base﹣0.8n/Qn，相同长度命中下片段顺序不一致的命中度分值比带疑问词的命中度分值高。

本实施例中，通过从每个搜索结果的索引信息中是否包含连续命中片段、每个命中片段的片段字词是否与每个搜索结果中的片段字词顺序一致，及每个命中片段是否存在疑问词多个维度考量，通过每个命中片段的真实匹配情况计算得到每个命中片段的命中度分值，克服了原有搜索排序中的一些对位置信息不敏感的方法的缺陷，提高了每个命中片段的命中度分值。

S16，根据所述命中片段集中的每个命中片段的命中度分值，计算每个搜索结果与所述搜索文本的目标匹配值。

本实施例中，每个搜索结果中包含有命中片段集，根据所述命中片段集的数量以及每个命中片段的命中度分值，计算出每个搜索结果与所述搜索文本的目标匹配值。

在一个可选的实施例中，所述根据所述命中片段集中的每个命中片段的命中度分值，计算每个搜索结果与所述搜索文本的目标匹配值包括：

按照命中度分值对所述命中片段集进行降序排序；

从降序排序结果中选取排序在前的多个命中片段确定为多个目标命中片段；

计算每个目标命中片段的命中度分值与预设的匹配阈值的乘积，确定为每个目标命中片段的匹配值；

计算所述多个目标命中片段的多个匹配值之和，确定为每个搜索结果与所述搜索文本的目标匹配值。

本实施例中，可以预先设置匹配阈值，具体地，所述预设的匹配阈值根据每个目标命中片段的命中度分值的排序位置进行设置的，例如，目标命中片段的命中度分值为最高分，预设的匹配阈值可以设置为90％，目标命中片段的命中度分值为第二最高分，预设的匹配阈值可以设置为10％，目标命中片段的命中度分值为小于第二最高分，预设的匹配阈值可以设置为0。

S17，根据所述每个搜索结果与所述搜索文本的目标匹配值对所述搜索结果集进行搜索排序。

本实施例中，搜索排序是按照每个搜索结果与所述搜索文本的目标匹配值的匹配程度进行排序，目标匹配值越大，说明匹配程度越高。

在一个可选的实施例中，所述根据所述每个搜索结果与所述搜索文本的目标匹配值对所述搜索结果集进行搜索排序包括：

按照所述每个搜索结果与所述搜索文本的目标匹配值对所述搜索结果集进行降序排序。

在其他可选的实施例中，在所述根据所述每个搜索结果与所述搜索文本的目标匹配值对所述搜索结果集进行搜索排序之前，所述方法还包括：

判断所述每个搜索结果是否与所述搜索文本完全匹配；

当所述每个搜索结果与所述搜索文本完全匹配时，判断所述每个搜索结果的片段字词顺序是否与所述搜索文本的片段字词顺序一致；

当所述每个搜索结果的片段字词顺序与所述搜索文本的片段字词顺序一致时，将每个搜索结果的目标匹配值更新为1；

本实施例中，在进行搜索结果排序之前，判断每个搜索结果是否100％命中所述搜索文本，当每个搜索结果完全匹配所述搜索文本时，进一步确认片段字词顺序词语是否与所述搜索结果一致，若一致时，将对应的搜索结果的目标匹配值确定为1.0，当不一致时，将每个搜索结果的目标匹配值乘以预设的第四权重值，确定为每个搜索结果的目标匹配值，不再经过疑问词的判断，提高了搜索排序的准确率。

综上所述，本实施例所述基于人工智能的文本搜索排序方法，通过基于所述分词片段集构建目标前缀树，在目标前缀树中添加失败指针，在基于所述目标前缀树遍历预设的数据库过程中，如果当前子节点匹配失败，则将指针转移到失败指针指向的地方，这样就不用回溯，而可以一路匹配下去了，遍历效率高，提高了得到搜索结果集及每个搜索结果的索引信息的效率。对所述每个搜索结果的索引信息进行预处理，得到每个搜索结果的命中片段集，将每个搜索结果中存在连续关系的子片段合并在一起，减少了命中片段集的数量，提高了后续计算命中度分值的效率，同时通过将每个搜索结果中存在连续关系的子片段合并在一起，提高了计算出的命中度分值的准确率，进而提高了搜索结果排序的准确率。计算所述每个搜索结果的命中片段集中的每个命中片段的命中度分值，通过从每个搜索结果的索引信息中是否包含连续命中片段、每个命中片段的片段字词是否与每个搜索结果中的片段字词顺序一致，及每个命中片段是否存在疑问词多个维度考量，通过每个命中片段的真实匹配情况计算得到每个命中片段的命中度分值，克服了原有搜索排序中的一些对位置信息不敏感的方法的缺陷，提高了每个命中片段的命中度分值，进而提高了搜索排序的准确率。

实施例二

图3是本发明实施例二提供的基于人工智能的文本搜索排序装置的结构图。

在一些实施例中，所述基于人工智能的文本搜索排序装置20可以包括多个由程序代码段所组成的功能模块。所述基于人工智能的文本搜索排序装置20中的各个程序段的程序代码可以存储于电子设备的存储器中，并由所述至少一个处理器所执行，以执行(详见图1和图2描述)基于人工智能的文本搜索排序的功能。

本实施例中，所述基于人工智能的文本搜索排序装置20根据其所执行的功能，可以被划分为多个功能模块。所述功能模块可以包括：分词处理模块201、构建模块202、遍历模块203、预处理模块204、第一计算模块205、第二计算模块206及排序模块207。本发明所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机可读指令段，其存储在存储器中。在本实施例中，关于各模块的功能将在后续的实施例中详述。

分词处理模块201，用于接收用户输入的搜索文本，对所述搜索文本进行分词处理，得到分词片段集。

本实施例中，采用中文分词工具Python下的结巴分词工具库对所述搜索文本进行分词，得到分词片段集。

示例性地：搜索文本为：资金风险有哪些风控措施，对应所述搜索文本进行分词处理得到的分词片段集为：[资金，风险，有，哪些，风控，措施]。

构建模块202，用于基于所述分词片段集构建目标前缀树。

在一个可选的实施例中，所述构建模块202基于所述分词片段集构建目标前缀树包括：

创建根节点，将所述分词片段集中的每个分词片段的第一个字符确定为所述根节点的子节点，其中，所述根节点不包含有字符；

判断每个所述子节点中的字符是否存在下一个字符；

对所述前缀树添加失败指针，得到目标前缀树。

进一步地，所述对所述前缀树添加失败指针，得到目标前缀树包括：

判断所述前缀树的第二层中每个子节点是否为叶子节点；

当所述前缀树的第二层中每个子节点不为叶子节点时，在所述前缀树的第二层中每个子节点添加失败指针；

当所述前缀树的第二层中每个子节点为叶子节点时，不在所述前缀树的第二层中每个子节点添加失败指针。

遍历模块203，用于基于所述目标前缀树遍历预设的数据库，得到搜索结果集及每个搜索结果的索引信息。

预处理模块204，用于对所述每个搜索结果的索引信息进行预处理，得到每个搜索结果的命中片段集。

本实施例中，所述预处理是指将每个搜索结果的索引信息中连续的子片段合并在一起。

在一个可选的实施例中，所述预处理模块204对所述每个搜索结果的索引信息进行预处理，得到每个搜索结果的命中片段集包括：

识别每个搜索结果的索引信息中的每个子片段的位置信息；

按照位于每个搜索结果的前后位置，对每个搜索结果的多个子片段进行排序，并记录每个子片段的开始位置和结束位置；

将排序结果中的第一个子片段确定为当前子片段；

判断当前子片段的下一个子片段的起始位置是否与所述当前子片段的结束位置相等；

进一步地，所述判断当前子片段的下一个子片段的起始位置是否与所述当前子片段的结束位置相等还包括：

第一计算模块205，用于计算所述每个搜索结果的命中片段集中的每个命中片段的命中度分值。

本实施例中，所述命中度分值是指每个命中片段命中每个搜索结果的匹配值。

在一个可选的实施例中，所述第一计算模块205计算所述每个搜索结果的命中片段集中的每个命中片段的命中度分值包括：

统计每个搜索结果的第一长度及每个命中片段的第二长度；

计算每个命中片段的第二长度与所述第一长度的商数，得到每个命中片段的第一分值；

识别每个命中片段的片段字词是否与对应搜索结果中的片段字词顺序一致；

识别每个命中片段是否存在疑问词；

当所述每个命中片段不存在疑问词时，将所述第二分值确定为对应命中片段的命中度分值；

进一步地，所述识别每个命中片段的片段字词是否与对应搜索结果中的片段字词顺序一致还包括：

识别每个命中片段是否存在疑问词；

当所述每个命中片段不存在疑问词时，将所述第五分值确定为对应命中片段的命中度分值；

本实施例中，分析上述命中度分值可知，0.8S_base>0.8S_base﹣0.8n/Qn，相同长度命中下片段顺序不一致的命中度分值比带疑问词的命中度分值高。

第二计算模块206，用于根据所述命中片段集中的每个命中片段的命中度分值，计算每个搜索结果与所述搜索文本的目标匹配值。

在一个可选的实施例中，所述第二计算模块206根据所述命中片段集中的每个命中片段的命中度分值，计算每个搜索结果与所述搜索文本的目标匹配值包括：

按照命中度分值对所述命中片段集进行降序排序；

从降序排序结果中选取排序在前的多个命中片段确定为多个目标命中片段；

计算每个目标命中片段的命中度分值与预设的匹配阈值的乘积，确定为每个目标命中片段的匹配值；

计算所述多个目标命中片段的多个匹配值之和，确定为每个搜索结果与所述搜索文本的目标匹配值。

排序模块207，用于根据所述每个搜索结果与所述搜索文本的目标匹配值对所述搜索结果集进行搜索排序。

本实施例中，搜索排序是按照每个搜索结果与所述搜索文本的目标匹配值的匹配程度进行排序，目标匹配值越大，说明匹配程度越高。

在一个可选的实施例中，所述排序模块207根据所述每个搜索结果与所述搜索文本的目标匹配值对所述搜索结果集进行搜索排序包括：

按照所述每个搜索结果与所述搜索文本的目标匹配值对所述搜索结果集进行降序排序。

在其他可选的实施例中，在所述根据所述每个搜索结果与所述搜索文本的目标匹配值对所述搜索结果集进行搜索排序之前，判断所述每个搜索结果是否与所述搜索文本完全匹配；当所述每个搜索结果与所述搜索文本完全匹配时，判断所述每个搜索结果的片段字词顺序是否与所述搜索文本的片段字词顺序一致；当所述每个搜索结果的片段字词顺序与所述搜索文本的片段字词顺序一致时，将每个搜索结果的目标匹配值更新为1；当所述每个搜索结果的片段字词顺序与所述搜索文本的片段字词顺序不一致时，计算每个搜索结果的目标匹配值与预设的第四权重值乘积，确定为每个搜索结果的新的目标匹配值，并将每个搜索结果的目标匹配值更新为所述新的目标匹配值。

综上所述，本实施例所述基于人工智能的文本搜索排序装置，通过基于所述分词片段集构建目标前缀树，在目标前缀树中添加失败指针，在基于所述目标前缀树遍历预设的数据库过程中，如果当前子节点匹配失败，则将指针转移到失败指针指向的地方，这样就不用回溯，而可以一路匹配下去了，遍历效率高，提高了得到搜索结果集及每个搜索结果的索引信息的效率。对所述每个搜索结果的索引信息进行预处理，得到每个搜索结果的命中片段集，将每个搜索结果中存在连续关系的子片段合并在一起，减少了命中片段集的数量，提高了后续计算命中度分值的效率，同时通过将每个搜索结果中存在连续关系的子片段合并在一起，提高了计算出的命中度分值的准确率，进而提高了搜索结果排序的准确率。计算所述每个搜索结果的命中片段集中的每个命中片段的命中度分值，通过从每个搜索结果的索引信息中是否包含连续命中片段、每个命中片段的片段字词是否与每个搜索结果中的片段字词顺序一致，及每个命中片段是否存在疑问词多个维度考量，通过每个命中片段的真实匹配情况计算得到每个命中片段的命中度分值，克服了原有搜索排序中的一些对位置信息不敏感的方法的缺陷，提高了每个命中片段的命中度分值，进而提高了搜索排序的准确率。

实施例三

参阅图4所示，为本发明实施例三提供的电子设备的结构示意图。在本发明较佳实施例中，所述电子设备3包括存储器31、至少一个处理器32、至少一条通信总线33及收发器34。

本领域技术人员应该了解，图4示出的电子设备的结构并不构成本发明实施例的限定，既可以是总线型结构，也可以是星形结构，所述电子设备3还可以包括比图示更多或更少的其他硬件或者软件，或者不同的部件布置。

在一些实施例中，所述电子设备3是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的电子设备，其硬件包括但不限于微处理器、专用集成电路、可编程门阵列、数字处理器及嵌入式设备等。所述电子设备3还可包括客户设备，所述客户设备包括但不限于任何一种可与客户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互的电子产品，例如，个人计算机、平板电脑、智能手机、数码相机等。

需要说明的是，所述电子设备3仅为举例，其他现有的或今后可能出现的电子产品如可适应于本发明，也应包含在本发明的保护范围以内，并以引用方式包含于此。

在一些实施例中，所述存储器31用于存储程序代码和各种数据，例如安装在所述电子设备3中的基于人工智能的文本搜索排序装置20，并在电子设备3的运行过程中实现高速、自动地完成程序或数据的存取。所述存储器31包括只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable Read-Only Memory，PROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory，OTPROM)、电子擦除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory，EEPROM)、只读光盘(CompactDisc Read-Only Memory，CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。

在一些实施例中，所述至少一个处理器32可以由集成电路组成，例如可以由单个封装的集成电路所组成，也可以是由多个相同功能或不同功能封装的集成电路所组成，包括一个或者多个中央处理器(Central Processing unit，CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述至少一个处理器32是所述电子设备3的控制核心(Control Unit)，利用各种接口和线路连接整个电子设备3的各个部件，通过运行或执行存储在所述存储器31内的程序或者模块，以及调用存储在所述存储器31内的数据，以执行电子设备3的各种功能和处理数据。

在一些实施例中，所述至少一条通信总线33被设置为实现所述存储器31以及所述至少一个处理器32等之间的连接通信。

尽管未示出，所述电子设备3还可以包括给各个部件供电的电源(比如电池)，可选的，电源可以通过电源管理装置与所述至少一个处理器32逻辑相连，从而通过电源管理装置实现管理充电、放电、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备3还可以包括多种传感器、蓝牙模块、Wi-Fi模块等，在此不再赘述。

应该了解，所述实施例仅为说明之用，在专利申请范围上并不受此结构的限制。

上述以软件功能模块的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，电子设备，或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分。

在进一步的实施例中，结合图3，所述至少一个处理器32可执行所述电子设备3的操作装置以及安装的各类应用程序(如所述的基于人工智能的文本搜索排序装置20)、程序代码等，例如，上述的各个模块。

所述存储器31中存储有程序代码，且所述至少一个处理器32可调用所述存储器31中存储的程序代码以执行相关的功能。例如，图3中所述的各个模块是存储在所述存储器31中的程序代码，并由所述至少一个处理器32所执行，从而实现所述各个模块的功能以达到基于人工智能的文本搜索排序的目的。

示例性的，所述程序代码可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器31中，并由所述处理器32执行，以完成本申请。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机可读指令段，该指令段用于描述所述程序代码在所述电子设备3中的执行过程。例如，所述程序代码可以被分割成分词处理模块201、构建模块202、遍历模块203、预处理模块204、第一计算模块205、第二计算模块206及排序模块207。

在本发明的一个实施例中，所述存储器31存储多个计算机可读指令，所述多个计算机可读指令被所述至少一个处理器32所执行以实现基于人工智能的文本搜索排序的功能。

具体地，所述至少一个处理器32对上述指令的具体实现方法可参考图1和图2对应实施例中相关步骤的描述，在此不赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，既可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

最后应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或等同替换，而不脱离本发明技术方案的精神和范围。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：陈凡;
专利申请人：平安国际智慧城市科技股份有限公司;

上一篇：6-重氮-5-氧代-L-正亮氨酸的前药、其制备方法及应用
下一篇：一种降低甲胎蛋白的组合物及其制备方法和应用