掌桥专利:专业的专利平台
掌桥专利
首页

搜索文本的识别方法、装置、计算机设备及存储介质

文献发布时间:2023-06-19 12:13:22


搜索文本的识别方法、装置、计算机设备及存储介质

技术领域

本发明实施例涉及文本分类领域,尤其涉及一种搜索文本的识别方法、装置、计算机设备及存储介质。

背景技术

随着互联网发展,人们的生活、工作等均与互联网密切相关,因此,人们会在互联网上产生大量数据,比如文本、语音、图像、视频等,信息搜索也成了互联网用户最重要的需求之一,通过在搜索引擎中输入搜索文本执行相应的搜索操作。

搜索词的识别监管有利于净化网络环境,提升用户体验,以及规避相关政策和法律风险,搜索文本的识别相当于文本分类的任务,由于搜索词相对较短、语义信息匮乏等特点造成普通长文本分类手段不能有效解决搜索词的识别任务,因此,在搜索文本是否携带有低俗属性的判断上,无法实现精准判断。

发明内容

鉴于此,为解决上述技术问题或部分技术问题,本发明实施例提供一种搜索文本的识别方法、装置、计算机设备及存储介质。

第一方面,本发明实施例提供一种搜索文本的识别方法,所述搜索文本识别模型包括第一子模型和第二子模型,所述方法包括:

确定待识别的搜索文本对应的分词集合和近义词集合;

对所述分词集合进行多维度特征提取,得到第一输入集合和第三输入集合,所述第一输入集合包括两个预设的特征向量集合,所述第三输入集合至少包括所述第一输入集合;

将所述分词集合和所述近义词集合作为第二输入集合;

将所述第三输入集合输入至第二子模型中,得到第三输出结果;

将所述第一输入集合、所述第二输入集合和所述第三输出结果输入至所述第一子模型中,以使所述第一子模型输出所述搜索文本的识别结果。

在一个可能的实施方式中,所述确定待识别的搜索文本对应的分词集合和近义词集合,包括:

对所述搜索文本进行分词处理,得到包含有多个词和/或词组的分词集合;针对所述分词集合中的每个词和/或词组进行语义匹配,将与每个所述词语义相似度大于设定阈值的一个或多个近义词,和/或,与每个所述词组语义相似度大于所述设定阈值的一个或多个近义词组作为所述分词集合对应的近义词集合。

在一个可能的实施方式中,所述第一输入集合包括:第一向量集合和第二向量集合;

所述第三输入集合至少包括以下中两个:第一向量集合、第二向量集合、第三向量集合、第四向量集合或第五向量集合;

所述第一向量集合包括:所述分词集合中每个分词对应的词维度的向量表示;

所述第二向量集合包括:所述分词集合中每个分词对应的字符维度的向量表示;

所述第三向量集合包括:所述搜索文本对应的文本维度的向量表示;

所述第四向量集合包括:所述搜素文本对应的文本分布维度的向量表示;

所述第五向量集合包括:所述分词集合中每个分词对应分词语义的向量表示。

在一个可能的实施方式中,所述第一子模型为:Wide&Deep模型,所述Wide&Deep模型包括神经网络部分和线性部分;

所述将所述第一输入集合、所述第二输入集合和所述第三输出结果输入至所述第一子模型中,以使所述第一子模型输出所述搜索文本的识别结果,包括:

将所述第一输入集合和所述第三输出结果输入至所述神经网络部分,以使所述神经网络部分输出所述搜索文本对应的所述第一输出结果;

将所述第二输入集合和所述第三输出结果输入至所述线性部分,以使所述线性部分输出所述搜索文本对应的所述第二输出结果;

将所述第一输出结果和所述第二输出结果作为所述搜索文本的识别结果。

在一个可能的实施方式中,所述第二子模型为:Xgboost模型,所述Xgboost模型输出的第三输出结果中包含有所述搜索文本对应的概率值以及所述分词集合和所述近义词集合对应的叶子节点编号特征;

所述将所述第一输入集合和所述第三输出结果输入至所述神经网络部分,以使所述神经网络部分输出所述搜索文本对应的所述第一输出结果,包括:

将所述第一输入集合输入至所述神经网络部分,以使所述神经网络部分从所述第一输入集合提取所述分词集合的局部特征,融合所述局部特征得到所述分词集合的全局特征,以及通过全局特征结合所述第三输出结果中的所述概率值得到所述搜索文本的所述第一输出结果。

在一个可能的实施方式中,所述将所述第二输入集合和所述第三输出结果输入至所述线性部分,以使所述线性部分输出所述搜索文本对应的所述第二输出结果,包括:

将所述第二输入集合输入至所述线性部分,以使所述线性部分根据所述分词集合和所述近义词集合,再结合所述第三输出结果中叶子节点编号特征得到所述搜索文本的所述第二输出结果。

在一个可能的实施方式中,所述搜索文本识别模型通过以下方式构建:

针对训练样本中的任一搜索文本,对所述搜索文本进行分词,得到所述搜索文本对应的分词集合,以及对所述分词集合中的每个分词进行词扩充处理,得到所述分词集合对应的近义词集合;根据所述分词集合确定所述第一子模型的第一输入集合,根据所述分词集合和所述近义词集合确定所述第一子模型的第二输入集合,根据所述分词集合确定所述第二子模型的第三输入集合;将所述第三输入集合输入至所述第二子模型中,以使所述第二子模型输出对应的第三输出结果;利用所述第一输入集合、所述第二输入集合以及所述第三输出结果对所述第一子模型进行训练,在所述第一子模型训练完成时确定所述搜索文本识别模型训练完成。

在一个可能的实施方式中,所述第一子模型为:Wide&Deep模型,所述Wide&Deep模型包括神经网络部分和线性部分;

所述利用所述第一输入集合、所述第二输入集合以及所述第三输出结果对所述第一子模型进行训练,包括:

将所述第一输入集合和所述第三输出结果输入至所述神经网络部分,对所述神经网络部分进行训练;将所述第二输入集合和所述第三输出结果输入至所述线性部分,对所述线性部分进行训练。

在一个可能的实施方式中,根据所述神经网络部分的第一输出结果和所述线性部分的第二输出结果构建损失函数;利用所述损失函数辅助所述第一子模型进行训练;

其中,所述第一子模型训练完成的条件包括:所述损失函数满足预设的收敛条件。

第二方面,本发明实施例提供一种搜索文本的识别装置,所述搜索文本识别模型包括第一子模型和第二子模型,所述装置包括:

集合确定模块,用于确定待识别的搜索文本对应的分词集合和近义词集合;

提取模块,用于对所述分词集合进行多维度特征提取,得到第一输入集合和第三输入集合,所述第一输入集合包括两个预设的特征向量集合,所述第三输入集合至少包括所述第一输入集合;

所述集合确定模块,还用于将所述分词集合和所述近义词集合作为第二输入集合;

输出确定模块,用于将所述第三输入集合输入至第二子模型中,得到第三输出结果;

结果确定模块,用于将所述第一输入集合、所述第二输入集合和所述第三输出结果输入至所述第一子模型中,以使所述第一子模型输出所述搜索文本的识别结果。

第三方面,本发明实施例提供一种计算机设备,包括:处理器和存储器,所述处理器用于执行所述存储器中存储的搜索文本识别模型的构建程序,以实现上述第一方面中任一项所述的搜索文本的识别方法。

第四方面,本发明实施例提供一种存储介质,其特征在于,所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现上述第一方面中任一项所述的搜索文本的识别方法。

本发明实施例提供的搜索文本的识别方案,通过对搜索文本的分词以及词扩充处理,使得搜索文本的语义不再匮乏,扩大该搜索文本的语义范围,再从分词集合和近义词集合中进行多维特征提取,模型再对提取到的特征向量进行分类识别,得到搜索文本的识别结果,进而从整体上对短小、语义匮乏的搜索文本实现精准的识别。

附图说明

图1为本发明实施例提供的一种搜索文本识别模型的构建方法的流程示意图;

图2为本发明实施例涉及的对所述搜索文本进行分词以及扩充处理,得到所述搜索文本对应的分词集合和近义词集合的流程示意图;

图3为本发明实施例涉及的确定输入集合的流程示意图;

图4为本发明实施例涉及的得到第三输出结果的流程示意图;

图5为本发明实施例涉及的对第一子模型进行训练的流程示意图;

图6为本发明实施例提供一种搜索文本识别模型的结构示意图;

图7为本发明实施例提供一种搜索文本的识别方法的流程示意图;

图8为本发明实施例提供一种搜索文本的识别装置的结构示意图;

图9为本发明实施例提供的一种的计算机设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

为便于对本发明实施例的理解,下面将结合附图以具体实施例做进一步的解释说明,实施例并不构成对本发明实施例的限定。

图1为本发明实施例提供的一种搜索文本识别模型的构建方法的流程示意图,如图1所示,该方法具体包括:

S11、针对训练样本中的任一搜索文本,对所述搜索文本进行分词以及扩充处理,得到所述搜索文本对应的分词集合和近义词集合。

本发明实施例提供的搜索文本识别模型的构建方法应用于搜索文本识别模型的训练,搜索文本识别模型包括第一子模型和第二子模型,第一子模型包括神经网络部分和线性部分,例如,第一子模型可以是:Wide&Deep模型,第二子模型可以是:Xgboost模型,神经网络部分可以是:Wide&Deep模型中的Deep侧部分,线性部分可以是:Wide&Deep模型中的Wide侧部分。

进一步地,第二子模型可以是预先训练好的模型,第一子模型为待训练的模型,通过对第一子模型的训练完成对搜索文本识别模型的构建。

本实施例涉及到的搜索文本为可以是输入搜索引擎的搜索词,其具备长度较短、语义匮乏等特征,搜索文本识别模型主要针对一些携带有特殊含义的搜索词进行识别,例如,搜索文本识别模型可以针对携带有“软色情”信息的搜索词进行识别,相应的,用于训练搜索文本识别模型的训练样本可以是预先已被标注为“软色情”的搜索文本。

进一步地,针对训练样本中的任一搜索文本,对该搜索文本进行分词处理,具体可以采用分词工具(如jieba、SnowNLP、THULAC、NLPIR等)执行搜索文本的分词操作,搜索文本经分词处理后,得到分词集合,该分词集合包括多个词和/或词组。

针对搜索文本分词处理后的每个词和词组进行扩充处理,扩充处理的目的在于扩大搜索文本的语义,可通过对每个词和词组进行近义词匹配,获得多个与每个词对应的近义词,和,多个与每个词组对应的近义词组,进而得到近义词集合。

S12、根据所述分词集合确定所述第一子模型的第一输入集合,根据所述分词集合和所述近义词集合确定所述第一子模型的第二输入集合,根据所述分词集合确定所述第二子模型的第三输入集合。

在本实施例中,根据上述步骤中搜索文本确定的分词集合和近义词集合,依次确定第一子模型和第二子模型的输入,且第一子模型中分为神经网络部分和线性部分,因此,第一子模型中包括两个输入。

进一步地,将分词集合确定所述第一子模型的第一输入集合(神经网络部分的输入),将分词集合和近义词集合确定第一子模型的第二输入集合(线性部分的输入),将分词集合确第二子模型的第三输入集合。

S13、将所述第三输入集合输入至所述第二子模型中,以使所述第二子模型输出对应的第三输出结果。

S14、利用所述第一输入集合、所述第二输入集合以及所述第三输出结果对所述第一子模型进行训练,在所述第一子模型训练完成时确定所述搜索文本识别模型训练完成。

具体地,对第一子模型的训练过程可以包括:将所述第一输入集合和所述第三输出结果输入至所述神经网络部分,对所述神经网络部分进行训练;将所述第二输入集合和所述第三输出结果输入至所述线性部分,对所述线性部分进行训练。

在本发明实施例的一可选方案中,根据所述神经网络部分的第一输出结果和所述线性部分的第二输出结果构建损失函数;利用所述损失函数辅助所述第一子模型进行训练。

相应地,S14具体可以包括如下子步骤:

S141(图中未示出)、将所述第一输入集合和所述第三输出结果作为所述神经网络部分的输入,将所述第二输入集合和所述第三输出结果作为所述线性部分的输入,对所述第一子模型进行训练。

将第三输入集合输入至第二子模型中,以使第二子模型输出对应的第三输出结果,也即通过Xgboost模型利用第三输入集合输出搜索文本对应的预测概率值以及所述分词集合和所述近义词集合对应的叶子节点编号特征。

将第一输入集合和第三输出结果作为第一子模型中神经网络部分的输入,将第二输入集合和第三输出结果作为第一子模型中线性部分的输入,对第一子模型进行训练。

S142(图中未示出)、在对所述第一子模型进行训练过程中,根据所述第一子模型中所述神经网络部分的第一输出结果和所述线性部分的第二输出结果,构建损失函数,所述损失函数用于表征所述搜索文本识别模型的训练结果。

S143(图中未示出)、基于所述损失函数辅助所述搜索文本识别模型进行训练,直至所述损失函数满足预设收敛条件,确定所述搜索文本识别模型训练完成。

在本实施例中,利用训练第一子模型完成对搜索文本识别模型的训练,因此,以第一子模型的训练结果作为搜索文本识别模型的训练结果,在第一子模型进行训练过程中,根据神经网络部分的第一输出结果和线性部分的第二输出结果构建用于表征第一子模型训练结果的损失函数,该损失函数还可以表征搜索文本识别模型的训练结果。

通过该损失函数辅助搜索文本识别模型进行训练,在该损失函数满足预设收敛条件时(如,损失函数的值不再减小),确定搜索文本识别模型训练完成,在该损失函数不满足预设收敛条件时,通过调整第一子模型的运算参数继续执行对搜索文本识别模型的训练,直至该损失函数满足预设收敛条件。

本发明实施例提供的搜索文本识别模型的构建方法,通过对搜索文本的分词以及词扩充处理,使得搜索文本的语义不再匮乏,扩大该搜索文本的语义范围,再从分词集合和近义词集合中进行多维特征提取,模型再对提取到的特征向量进行分类识别,得到搜索文本的识别结果,进而从整体上对短小、语义匮乏的搜索文本实现精准的识别。

图2为本发明实施例涉及的对所述搜索文本进行分词以及扩充处理,得到所述搜索文本对应的分词集合和近义词集合的流程示意图,如图2所示,具体包括:

S21、对所述搜索文本进行分词处理,得到包含有多个词和/或词组的分词集合。

S22、针对所述分词集合中的每个词和/或词组进行语义匹配,将与每个所述词语义相似度大于设定阈值的一个或多个近义词,和/或,与每个所述词组语义相似度大于所述设定阈值的一个或多个近义词组作为所述分词集合对应的近义词集合。

在本实施例中,采用分词工具对搜索文本进行分词处理,得到多个词和/或词组(以下,词和词组统称为token序列)的分词集合,分词的规则可以是得到的词或词组均为最小且不可再拆分,例如,搜索文本为:延禧攻略大结局,对应的分词集合为:“延禧”、“攻略”和“大结局”。

进一步地,针对分词集合中的每个词和/或词组,从词库中进行近义词匹配,将与每个词相似度大于设定阈值的一个或多个近义词,和/或,与每个词组相似度大于设定阈值的一个或多个近义词组作为分词集合对应的近义词集合。

在近义词匹配过程中,还可以设置每个词或词组最大的近义词数量,以及根据匹配的结果调整设定阈值的大小,例如,设置每个词或词组的最大近义词词数量为100个,设定阈值为80%,针对词或词组,匹配的近义词结果可以是:“大结局”-“最后一集”等等。

图3为本发明实施例涉及的确定输入集合的流程示意图,如图3所示,具体包括:

在本实施例中,所述第一输入集合包括两个预设的特征向量集合,该两个预设的特征向量可以是:第一向量集合和第二向量集合,所述第三输入集合至少包括所述第一输入集合。

输入集合中的向量集合可采用模型进行提取,在一示例中,第一向量集合和第二向量集合可以采用第一模型进行提取,第三向量集合和第四向量集合可以采用第二模型进行提取,第五向量集合利用第三模型可以采用第三模型进行提取,其中,所述第一向量集合包括:所述分词集合中每个分词对应的词维度的向量表示;所述第二向量集合包括:所述分词集合中每个分词对应的字符维度的向量表示;所述第三向量集合包括:所述搜索文本对应的文本维度的向量表示;所述第四向量集合包括:所述搜素文本对应的文本分布维度的向量表示;所述第五向量集合包括:所述分词集合中每个分词对应分词语义的向量表示。

在一示例中,第一向量集合可以是:token level embeddin向量的集合,第二向量集合可以是:char level embedding向量的集合,第三向量集合可以是:query-levelembedding向量的集合,第四向量集合可以是:query-channel distribution向量的集合,第五向量集合可以是:DSSM token embedding向量的集合,第一模型可以是:ngram2vec模型,第二模型可以是:FastText模型,第三模型可以是DSSM模型,上述五组向量集合除上述提到的三种模型外,还可以采用其它模型(如,Bert模型提取token level embeddin向量)或其它技术手段得到,对此本实施例不作具体限定。

以下,将以第一模型、第二模型、第三模型进行五组向量集合的提取为例进行介绍。

S31、利用第一模型确定所述分词集合对应的第一向量集合和第二向量集合,将所述第一向量集合和第二向量集合作为所述第一子模型的所述第一输入集合。

S32、将所述分词集合和所述近义词集合作为所述第一子模型的第二输入集合。

S33、利用第二模型确定所述分词集合对应的第三向量集合和第四向量集合,利用第三模型确定所述分词集合对应的第五向量集合,将所述第一向量集合、所述第二向量集合、所述第三向量集合、所述第四向量集合和所述第五向量集合的部分或全部作为所述第二子模型的第三输入集合。

在本实施例中第一模型可以是:ngram2vec模型,将所述分词集合中的每个token输入至ngram2vec模型,ngram2vec模型从词的维度对每个token进行特征提取,得到每个token对应的token level embedding向量,ngram2vec模型从字符的维度对token进行特征提取,得到每个token对应的char level embedding向量,将全部的token levelembedding向量作为第一向量集合,将全部的char level embedding向量作为第二向量集合,将第一向量集合和第二向量集合作为第一输入集合,以及,将全部token和releventtoken作为第二输入集合。

进一步地,第二模型可以是:FastText模型,第三模型可以是DSSM模型;将所述分词集合中的全部token输入至FastText模型,FastText模型从文本的维度对搜索文本对应的全部token进行特征提取得到搜索文本对应的query-level embedding向量,FastText模型从文本分布的维度对搜索文本对应的全部token进行特征提取得到搜索文本对应的query-channel distribution向量,,将搜索文本对应的query-level embedding向量作为第三向量集合,将搜索文本对应的query-channel distribution向量作为第四向量集合;将所述分词集合中的全部token输入至DSSM模型,DSSM模型从分词语义的维度对全部的token进行特征提取,得到全部token对应的DSSM token embedding向量,将全部的DSSMtoken embedding向量作为第五向量集合,将第一向量集合、第二向量集合、第三向量集合、第四向量集合和第五向量集合中的部分或全部作为第二子模型的第三输入集合,通过将多个维度的向量作为第二子模型的输入,使得第二子模型可以从char、token、query-level、query-channel以及DSSM token中的部分或全部维度对搜索文本进行分别识别,在识别过程中增强了搜索文本的语义,从而提升了搜索文本的精准度。

例如,第三输入集合可以包括:第一向量集合、第二向量集合、第三向量集合、第四向量集合和第五向量集合,第三输入集合还可以包括:第一向量集合和第二向量集合等,第三输入集合具体包括的向量集合可根据实际需求进行设定,对此,本实施例不作具体限定。

图4为本发明实施例涉及的得到第三输出结果的流程示意图,如图4所示,具体包括:

S41、将所述第三输入集合中的至少两个向量集合组合为多维特征向量。

进一步地,特征向量的维度可根据第三输入集合中向量集合的数量确定,例如,多维特征向量可以是二维特性向量或五位特征向量,特性向量的维度可根据实际需求进行设定,对此,本实施例不作具体限定。

S42、将所述多维特征向量输入至所述第二子模型中,以使所述第二子模型输出所述第三输出结果,所述第三输出结果包含有所述搜索文本对应的预测概率值以及所述分词集合和所述近义词集合对应的叶子节点编号特征。

在本实施例中第二子模型采用Xgboost模型,Xgboost模型中树的颗数可以设置为:n_estimators=2000,树的深度设置为:max_depth=7,将每个搜索文本中的每个token对应的token level embedding向量、char level embedding向量、query-levelembedding向量、query-channel向量和DSSM token embedding向量作为Xgboost模型的输入,Xgboost模型输出搜索文本的预测概率值以及分词集合和所近义词集合对应的叶子节点编号特征。

图5为本发明实施例涉及的对第一子模型进行训练的流程示意图,如图5所示,具体包括:

S51、将所述第一输入集合输入至所述神经网络部分,以使所述神经网络部分从所述第一输入集合提取所述分词集合的局部特征,融合所述局部特征得到所述分词集合的全局特征,以及通过全局特征结合所述第三输出结果中的所述概率值得到所述搜索文本的所述第一输出结果。

在本实施例中,将第一输入集合(token level embedding向量)输入至第一子模型中的神经网络部分,通过神经网络部分中的CNN(卷积神经网络)提取token序列中的局部特征,再通过神经网络部分中的Attention融合token序列的局部特征得到全局特征。

进一步地,再通过CNN拼接上Xgboost模型输出的预测概率值,最后再经过三层全连接层得到搜索文本的第一输出结果,该第一输出结果为:搜索文本在第一子模型中的神经网络部分的预测结果。

S52、将所述第二输入集合输入至所述线性部分,以使所述线性部分根据所述分词集合和所述近义词集合,再结合所述第三输出结果中叶子节点编号特征得到所述搜索文本的所述第二输出结果。

第一子模型中的线性部分将第二输入集合(token和relevent token)拼接Xgboost模型输出分词集合和所近义词集合对应的叶子节点编号特征,得到搜索文本的第二输出结果,该第二输出结果为:搜索文本在第一子模型中的线性部分的预测结果。

S53、根据所述训练样本中每个所述搜索文本对所述第一子模型进行训练。

S54、根据所述第一输出结果和所述第二输出结果确定所述搜索文本识别模型的第四输出结果。

第一子模型对应的第四输出结果为:第一输出结果和第二输出结果之和,第一子模型的第四输出结果也为搜索文本识别模型的第四输出结果。

logit=logit

其中,logit为第四输出结果,logit

S55、根据所述第一输出结果、所述第二输出结果和所述第四输出结果构建所述损失函数。

S56、基于所述损失函数辅助所述第一子模型进行训练,直至所述损失函数满足预设收敛条件,确定所述第一子模型训练完成。

损失函数可以是:

Loss=CE(logit

其中,CE表示交叉熵。

本发明实施例提供的搜索文本识别模型的构建方法,通过对搜索文本的分词以及扩充处理,使得搜索文本的语义不再匮乏,扩大该搜索文本的语义范围,再结合第一子模型中的神经网络部分的提升搜索文本的泛化特点以及线性部分增强搜索文本的记忆能力,再通过第二子模型提升第一子模型的线性部分的识别能力,进而从整体上对短小、语义匮乏的搜索文本实现精准的识别。

图7为本发明实施例提供一种搜索文本的识别方法的流程示意图,如图7所示,该方法具体包括:

S71、确定待识别的搜索文本对应的分词集合和近义词集合。

S72、对所述分词集合进行多维度特征提取,得到第一输入集合和第三输入集合,所述第一输入集合包括两个预设的特征向量集合,所述第三输入集合至少包括所述第一输入集合。

在本实施例中第一输入集合包括两个预设的特征向量集合,该特征向量集合可以是:所述分词集合中每个分词对应的词维度的向量表示和所述分词集合中每个分词对应的字符维度的向量表示。

所述第三输入集合除包括第一输入集合外,还可以包括:所述搜索文本对应的文本维度的向量表示、所述搜素文本对应的文本分布维度的向量表示、所述分词集合中每个分词对应分词语义的向量表示中的部分或全部(其中,部分可以是为零)。

进一步地,对于第一输入集合和第三输入集合与图3中的第一输入集合和第三输入集合类似,具体可参照图3的相关描述,在此不作赘述。

S73、将所述分词集合和所述近义词集合作为第二输入集合。

S74、将所述第三输入集合输入至第二子模型中,得到第三输出结果。

S75、将所述第一输入集合、所述第二输入集合和所述第三输出结果输入至所述第一子模型中,以使所述第一子模型输出所述搜索文本的识别结果。

在本实施例中,利用图1-5中构建好的搜索文本识别模型,进行搜索文本的识别,搜索文本识别的过程与搜索文本识别模型的构建过程部分类似。

在本发明实施例的一可选方案中,S71可包括如下子步骤:

S711(图中未示出)、对所述搜索文本进行分词处理,得到包含有多个词和/或词组的分词集合。

S712(图中未示出)、针对所述分词集合中的每个词和/或词组进行语义匹配,将与每个所述词语义相似度大于设定阈值的一个或多个近义词,和/或,与每个所述词组语义相似度大于所述设定阈值的一个或多个近义词组作为所述分词集合对应的近义词集合。

在本发明实施例的一可选方案中,S75可包括如下子步骤:

S751(图中未示出)、将所述第一输入集合和所述第三输出结果输入至所述神经网络部分,以使所述神经网络部分输出所述搜索文本对应的所述第一输出结果。

S752(图中未示出)、将所述第二输入集合和所述第三输出结果输入至所述线性部分,以使所述线性部分输出所述搜索文本对应的所述第二输出结果。

S753(图中未示出)、将所述第一输出结果和所述第二输出结果作为所述搜索文本的识别结果。

S71(S711-S712)与图2中的S21-S22类似、S72-S73与图1中的S12/图3中的S31-S33、S74与图4中的S41-S42类似、S75(S751-S755)与图5中的S51-S54类型,具体可参照上述图2-图5的相关描述,在此不作赘述。

本发明实施例提供的搜索文本的识别方案,通过对搜索文本的分词以及词扩充处理,使得搜索文本的语义不再匮乏,扩大该搜索文本的语义范围,再从分词集合和近义词集合中进行多维特征提取,模型再对提取到的特征向量进行分类识别,得到搜索文本的识别结果,进而从整体上对短小、语义匮乏的搜索文本实现精准的识别。

图8为本发明实施例提供一种搜索文本的识别装置的结构示意图,如图8所示,该装置应用于所述搜索文本识别模型的训练,所述搜索文本识别模型包括第一子模型和第二子模型,具体包括:

集合确定模块81,用于确定待识别的搜索文本对应的分词集合和近义词集合;

提取模块82,用于对所述分词集合进行多维度特征提取,得到第一输入集合和第三输入集合,所述第一输入集合包括两个预设的特征向量集合,所述第三输入集合至少包括所述第一输入集合;

所述集合确定模块81,还用于将所述分词集合和所述近义词集合作为第二输入集合;

输出确定模块83,用于将所述第三输入集合输入至第二子模型中,得到第三输出结果;

结果确定模块84,用于将所述第一输入集合、所述第二输入集合和所述第三输出结果输入至所述第一子模型中,以使所述第一子模型输出所述搜索文本的识别结果。

本实施例提供的搜索文本的识别装置可以是如图8中所示的搜索文本的识别装置,可执行如图7中搜索文本的识别方法的所有步骤,进而实现图7所示搜索文本的识别方法的技术效果,具体请参照图7相关描述,为简洁描述,在此不作赘述。

图9为本发明实施例提供的一种的计算机设备的结构示意图,图9所示的计算机设备900包括:至少一个处理器901、存储器902、至少一个网络接口904和其他用户接口903。计算机设备900中的各个组件通过总线系统905耦合在一起。可理解,总线系统905用于实现这些组件之间的连接通信。总线系统905除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图9中将各种总线都标为总线系统905。

其中,用户接口903可以包括显示器、键盘或者点击设备(例如,鼠标,轨迹球(trackball)、触感板或者触摸屏等。

可以理解,本发明实施例中的存储器902可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable ROM,PROM)、可擦除可编程只读存储器(Erasable PROM,EPROM)、电可擦除可编程只读存储器(Electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(Static RAM,SRAM)、动态随机存取存储器(Dynamic RAM,DRAM)、同步动态随机存取存储器(Synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data RateSDRAM,DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(Synch link DRAM,SLDRAM)和直接内存总线随机存取存储器(DirectRambus RAM,DRRAM)。本文描述的存储器902旨在包括但不限于这些和任意其它适合类型的存储器。

在一些实施方式中,存储器902存储了如下的元素,可执行单元或者数据结构,或者他们的子集,或者他们的扩展集:操作系统9021和应用程序9022。

其中,操作系统9021,包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序9022,包含各种应用程序,例如媒体播放器(Media Player)、浏览器(Browser)等,用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序9022中。

在本发明实施例中,通过调用存储器902存储的程序或指令,具体的,可以是应用程序9022中存储的程序或指令,处理器901用于执行各方法实施例所提供的方法步骤,例如包括:

确定待识别的搜索文本对应的分词集合和近义词集合;对所述分词集合进行多维度特征提取,得到第一输入集合和第三输入集合,所述第一输入集合包括两个预设的特征向量集合,所述第三输入集合至少包括所述第一输入集合;将所述分词集合和所述近义词集合作为第二输入集合;将所述第三输入集合输入至第二子模型中,得到第三输出结果;将所述第一输入集合、所述第二输入集合和所述第三输出结果输入至所述第一子模型中,以使所述第一子模型输出所述搜索文本的识别结果。

在一个可能的实施方式中,对所述搜索文本进行分词处理,得到包含有多个词和/或词组的分词集合;针对所述分词集合中的每个词和/或词组进行语义匹配,将与每个所述词语义相似度大于设定阈值的一个或多个近义词,和/或,与每个所述词组语义相似度大于所述设定阈值的一个或多个近义词组作为所述分词集合对应的近义词集合。

在一个可能的实施方式中,所述第一输入集合包括:第一向量集合和第二向量集合;所述第三输入集合至少包括以下中两个:第一向量集合、第二向量集合、第三向量集合、第四向量集合或第五向量集合;所述第一向量集合包括:所述分词集合中每个分词对应的词维度的向量表示;所述第二向量集合包括:所述分词集合中每个分词对应的字符维度的向量表示;所述第三向量集合包括:所述搜索文本对应的文本维度的向量表示;所述第四向量集合包括:所述搜素文本对应的文本分布维度的向量表示;所述第五向量集合包括:所述分词集合中每个分词对应分词语义的向量表示。

在一个可能的实施方式中,所述第一子模型为:Wide&Deep模型,所述Wide&Deep模型包括神经网络部分和线性部分;

将所述第一输入集合和所述第三输出结果输入至所述神经网络部分,以使所述神经网络部分输出所述搜索文本对应的所述第一输出结果;将所述第二输入集合和所述第三输出结果输入至所述线性部分,以使所述线性部分输出所述搜索文本对应的所述第二输出结果;将所述第一输出结果和所述第二输出结果作为所述搜索文本的识别结果。

在一个可能的实施方式中,所述第二子模型为:Xgboost模型,所述Xgboost模型输出的第三输出结果中包含有所述搜索文本对应的概率值以及所述分词集合和所述近义词集合对应的叶子节点编号特征;

将所述第一输入集合输入至所述神经网络部分,以使所述神经网络部分从所述第一输入集合提取所述分词集合的局部特征,融合所述局部特征得到所述分词集合的全局特征,以及通过全局特征结合所述第三输出结果中的所述概率值得到所述搜索文本的所述第一输出结果。

在一个可能的实施方式中,将所述第二输入集合输入至所述线性部分,以使所述线性部分根据所述分词集合和所述近义词集合,再结合所述第三输出结果中叶子节点编号特征得到所述搜索文本的所述第二输出结果。

在一个可能的实施方式中,针对训练样本中的任一搜索文本,对所述搜索文本进行分词,得到所述搜索文本对应的分词集合,以及对所述分词集合中的每个分词进行词扩充处理,得到所述分词集合对应的近义词集合;根据所述分词集合确定所述第一子模型的第一输入集合,根据所述分词集合和所述近义词集合确定所述第一子模型的第二输入集合,根据所述分词集合确定所述第二子模型的第三输入集合;将所述第三输入集合输入至所述第二子模型中,以使所述第二子模型输出对应的第三输出结果;利用所述第一输入集合、所述第二输入集合以及所述第三输出结果对所述第一子模型进行训练,在所述第一子模型训练完成时确定所述搜索文本识别模型训练完成。

在一个可能的实施方式中,所述第一子模型为:Wide&Deep模型,所述Wide&Deep模型包括神经网络部分和线性部分;

将所述第一输入集合和所述第三输出结果输入至所述神经网络部分,对所述神经网络部分进行训练;将所述第二输入集合和所述第三输出结果输入至所述线性部分,对所述线性部分进行训练。

在一个可能的实施方式中,根据所述神经网络部分的第一输出结果和所述线性部分的第二输出结果构建损失函数;利用所述损失函数辅助所述第一子模型进行训练;

其中,所述第一子模型训练完成的条件包括:所述损失函数满足预设的收敛条件。

上述本发明实施例揭示的方法可以应用于处理器901中,或者由处理器901实现。处理器901可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器901中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器901可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(FieldProgrammable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件单元组合执行完成。软件单元可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器902,处理器901读取存储器902中的信息,结合其硬件完成上述方法的步骤。

可以理解的是,本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现,处理单元可以实现在一个或多个专用集成电路(ApplicationSpecific Integrated Circuits,ASIC)、数字信号处理器(Digital Signal Processing,DSP)、数字信号处理设备(DSPDevice,DSPD)、可编程逻辑设备(Programmable LogicDevice,PLD)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。

对于软件实现,可通过执行本文所述功能的单元来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。

本实施例提供的计算机设备可以是如图9中所示的计算机设备,可执行如图7中搜索文本的识别方法的所有步骤,进而实现图7所示搜索文本的识别方法的技术效果,具体请参照图7相关描述,为简洁描述,在此不作赘述。

本发明实施例还提供了一种存储介质(计算机可读存储介质)。这里的存储介质存储有一个或者多个程序。其中,存储介质可以包括易失性存储器,例如随机存取存储器;存储器也可以包括非易失性存储器,例如只读存储器、快闪存储器、硬盘或固态硬盘;存储器还可以包括上述种类的存储器的组合。

当存储介质中一个或者多个程序可被一个或者多个处理器执行,以实现上述在搜索文本的识别设备侧执行的搜索文本的识别方法。

所述处理器用于执行存储器中存储的搜索文本的识别程序,以实现以下在搜索文本的识别设备侧执行的搜索文本的识别方法的步骤:

确定待识别的搜索文本对应的分词集合和近义词集合;对所述分词集合进行多维度特征提取,得到第一输入集合和第三输入集合,所述第一输入集合包括两个预设的特征向量集合,所述第三输入集合至少包括所述第一输入集合;将所述分词集合和所述近义词集合作为第二输入集合;将所述第三输入集合输入至第二子模型中,得到第三输出结果;将所述第一输入集合、所述第二输入集合和所述第三输出结果输入至所述第一子模型中,以使所述第一子模型输出所述搜索文本的识别结果。

在一个可能的实施方式中,对所述搜索文本进行分词处理,得到包含有多个词和/或词组的分词集合;针对所述分词集合中的每个词和/或词组进行语义匹配,将与每个所述词语义相似度大于设定阈值的一个或多个近义词,和/或,与每个所述词组语义相似度大于所述设定阈值的一个或多个近义词组作为所述分词集合对应的近义词集合。

在一个可能的实施方式中,所述第一输入集合包括:第一向量集合和第二向量集合;所述第三输入集合至少包括以下中两个:第一向量集合、第二向量集合、第三向量集合、第四向量集合或第五向量集合;所述第一向量集合包括:所述分词集合中每个分词对应的词维度的向量表示;所述第二向量集合包括:所述分词集合中每个分词对应的字符维度的向量表示;所述第三向量集合包括:所述搜索文本对应的文本维度的向量表示;所述第四向量集合包括:所述搜素文本对应的文本分布维度的向量表示;所述第五向量集合包括:所述分词集合中每个分词对应分词语义的向量表示。

在一个可能的实施方式中,所述第一子模型为:Wide&Deep模型,所述Wide&Deep模型包括神经网络部分和线性部分;

将所述第一输入集合和所述第三输出结果输入至所述神经网络部分,以使所述神经网络部分输出所述搜索文本对应的所述第一输出结果;将所述第二输入集合和所述第三输出结果输入至所述线性部分,以使所述线性部分输出所述搜索文本对应的所述第二输出结果;将所述第一输出结果和所述第二输出结果作为所述搜索文本的识别结果。

在一个可能的实施方式中,所述第二子模型为:Xgboost模型,所述Xgboost模型输出的第三输出结果中包含有所述搜索文本对应的概率值以及所述分词集合和所述近义词集合对应的叶子节点编号特征;

将所述第一输入集合输入至所述神经网络部分,以使所述神经网络部分从所述第一输入集合提取所述分词集合的局部特征,融合所述局部特征得到所述分词集合的全局特征,以及通过全局特征结合所述第三输出结果中的所述概率值得到所述搜索文本的所述第一输出结果。

在一个可能的实施方式中,将所述第二输入集合输入至所述线性部分,以使所述线性部分根据所述分词集合和所述近义词集合,再结合所述第三输出结果中叶子节点编号特征得到所述搜索文本的所述第二输出结果。

在一个可能的实施方式中,针对训练样本中的任一搜索文本,对所述搜索文本进行分词,得到所述搜索文本对应的分词集合,以及对所述分词集合中的每个分词进行词扩充处理,得到所述分词集合对应的近义词集合;根据所述分词集合确定所述第一子模型的第一输入集合,根据所述分词集合和所述近义词集合确定所述第一子模型的第二输入集合,根据所述分词集合确定所述第二子模型的第三输入集合;将所述第三输入集合输入至所述第二子模型中,以使所述第二子模型输出对应的第三输出结果;利用所述第一输入集合、所述第二输入集合以及所述第三输出结果对所述第一子模型进行训练,在所述第一子模型训练完成时确定所述搜索文本识别模型训练完成。

在一个可能的实施方式中,所述第一子模型为:Wide&Deep模型,所述Wide&Deep模型包括神经网络部分和线性部分;

将所述第一输入集合和所述第三输出结果输入至所述神经网络部分,对所述神经网络部分进行训练;将所述第二输入集合和所述第三输出结果输入至所述线性部分,对所述线性部分进行训练。

在一个可能的实施方式中,根据所述神经网络部分的第一输出结果和所述线性部分的第二输出结果构建损失函数;利用所述损失函数辅助所述第一子模型进行训练;

其中,所述第一子模型训练完成的条件包括:所述损失函数满足预设的收敛条件。

专业人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

相关技术
  • 搜索文本的识别方法、装置、计算机设备及存储介质
  • 图像文本识别方法、装置、计算机设备及计算机存储介质
技术分类

06120113212542