掌桥专利:专业的专利平台
掌桥专利
首页

文本匹配和对抗文本识别方法、装置及设备

文献发布时间:2023-06-19 09:40:06


文本匹配和对抗文本识别方法、装置及设备

技术领域

本文件涉及计算机技术领域,尤其涉及一种文本匹配和对抗文本识别方法、装置及设备。

背景技术

深度学习技术的快速发展,大幅提升了众多自然语言处理任务(比如文本分类,机器翻译等)的效果,越来越多的深度学习模型被用于现实生活中。但是深度学习模型本质上的黑箱属性,也为实际应用带来了潜在的风险。早在2014年,相关技术人员发现只要对深度学习模型的输入添加一些微小的扰动就能轻易改变模型的预测结果。后续的研究将该种扰动称之为对抗扰动,扰动后的输入称为对抗样本,将输入对抗样本误导模型的这一过程称为对抗攻击。目前在反洗钱制裁扫描、电商交易、内容安全等业务领域中,存在着大量的文本对抗场景,对手方通过关键词改写、特殊字符、字符重复、音节替换、部分缺失、同/近义词替换、语种混写等各种对抗形式以绕过系统的拦截进行交易或者发表言论。业界常用的文本清洗纠错以及关键词检索匹配方案难以应对种类繁多且日益复杂的对抗形式,导致系统对相关对抗样本的覆盖不足。

因此,需要提供更加高效的方案。

发明内容

本说明书实施例提供一种文本匹配和对抗文本识别方法、装置及设备,用以从文本维度进行文本匹配,提高文本匹配精确度和效率。

本说明书实施例还提供一种文本匹配方法,包括:

确定第一文本的第一文本向量和第二文本的第二文本向量;

确定所述第一文本向量和所述第二文本向量的对齐信息,所述对齐信息用于描述所述第一文本和所述第二文本中的文本单元之间的相似关系以及各文本单元在所述第一文本和所述第二文本的文本相似度中所占的权重;

对所述对齐信息进行特征抽取聚集处理,得到关键对齐信息,所述关键对齐信息用于描述所述第一文本和所述第二文本中的关键文本单元之间的相似关系以及关键文本单元在所述第一文本和所述第二文本的文本相似度中所占的权重;

基于所述第一文本向量、所述第二文本向量和所述关键对齐信息,确定所述第一文本和所述第二文本之间的匹配关系。

本说明书实施例还提供一种对抗文本识别方法,包括:

从风险文本库中筛选出与第一文本相关的第二文本,所述风险文本库中保存有风险文本的黑名单;

确定所述第一文本的第一文本向量和各第二文本的第二文本向量;

分别确定所述第一文本向量和各第二文本向量的对齐信息,所述对齐信息用于描述所述第一文本和所述第二文本中的文本单元之间的相似关系以及各文本单元在所述第一文本和所述第二文本的文本相似度中所占的权重;

对所述对齐信息进行特征抽取聚集处理,得到关键对齐信息,所述关键对齐信息用于描述所述第一文本和所述第二文本中的关键文本单元之间的相似关系以及关键文本单元在所述第一文本和所述第二文本的文本相似度中所占的权重;

基于所述第一文本向量、所述第二文本向量和所述关键对齐信息,若确定存在与所述第一文本相匹配的第二文本,则确定所述第一文本为所述风险文本库相关的对抗文本。

本说明书实施例还提供一种文本匹配装置,包括:

确定模块,确定第一文本的第一文本向量和第二文本的第二文本向量;

交互模块,确定所述第一文本向量和所述第二文本向量的对齐信息,所述对齐信息用于描述所述第一文本和所述第二文本中的文本单元之间的相似关系以及各文本单元在所述第一文本和所述第二文本的文本相似度中所占的权重;

聚集模块,对所述对齐信息进行特征抽取聚集处理,得到关键对齐信息,所述关键对齐信息用于描述所述第一文本和所述第二文本中的关键文本单元之间的相似关系以及关键文本单元在所述第一文本和所述第二文本的文本相似度中所占的权重;

预测模块,所述第一文本向量、所述第二文本向量和所述关键对齐信息,确定所述第一文本和所述第二文本之间的匹配关系。

本说明书实施例还提供一种对抗文本识别装置,包括:

初筛模块,从风险文本库中筛选出与第一文本相关的第二文本,所述风险文本库中保存有风险文本的黑名单;

确定模块,确定所述第一文本的第一文本向量和各第二文本的第二文本向量;

交互模块,分别确定所述第一文本向量和各第二文本向量的对齐信息,所述对齐信息用于描述所述第一文本和所述第二文本中的文本单元之间的相似关系以及各文本单元在所述第一文本和所述第二文本的文本相似度中所占的权重;

聚集模块,对所述对齐信息进行特征抽取聚集处理,得到关键对齐信息,所述关键对齐信息用于描述所述第一文本和所述第二文本中的关键文本单元之间的相似关系以及关键文本单元在所述第一文本和所述第二文本的文本相似度中所占的权重;

预测模块,基于所述第一文本向量、所述第二文本向量和所述关键对齐信息,若确定存在与所述第一文本相匹配的第二文本,则确定所述第一文本为所述风险文本库相关的对抗文本。

本说明书实施例还提供一种电子设备,包括:

处理器;以及

被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:

确定第一文本的第一文本向量和第二文本的第二文本向量;

确定所述第一文本向量和所述第二文本向量的对齐信息,所述对齐信息用于描述所述第一文本和所述第二文本中的文本单元之间的相似关系以及各文本单元在所述第一文本和所述第二文本的文本相似度中所占的权重;

对所述对齐信息进行特征抽取聚集处理,得到关键对齐信息,所述关键对齐信息用于描述所述第一文本和所述第二文本中的关键文本单元之间的相似关系以及关键文本单元在所述第一文本和所述第二文本的文本相似度中所占的权重;

基于所述第一文本向量、所述第二文本向量和所述关键对齐信息,确定所述第一文本和所述第二文本之间的匹配关系。

本说明书实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如下操作:

确定第一文本的第一文本向量和第二文本的第二文本向量;

确定所述第一文本向量和所述第二文本向量的对齐信息,所述对齐信息用于描述所述第一文本和所述第二文本中的文本单元之间的相似关系以及各文本单元在所述第一文本和所述第二文本的文本相似度中所占的权重;

对所述对齐信息进行特征抽取聚集处理,得到关键对齐信息,所述关键对齐信息用于描述所述第一文本和所述第二文本中的关键文本单元之间的相似关系以及关键文本单元在所述第一文本和所述第二文本的文本相似度中所占的权重;

基于所述第一文本向量、所述第二文本向量和所述关键对齐信息,确定所述第一文本和所述第二文本之间的匹配关系。

本说明书实施例还提供一种电子设备,包括:

处理器;以及

被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:

从风险文本库中筛选出与第一文本相关的第二文本,所述风险文本库中保存有风险文本的黑名单;

确定所述第一文本的第一文本向量和各第二文本的第二文本向量;

分别确定所述第一文本向量和各第二文本向量的对齐信息,所述对齐信息用于描述所述第一文本和所述第二文本中的文本单元之间的相似关系以及各文本单元在所述第一文本和所述第二文本的文本相似度中所占的权重;

对所述对齐信息进行特征抽取聚集处理,得到关键对齐信息,所述关键对齐信息用于描述所述第一文本和所述第二文本中的关键文本单元之间的相似关系以及关键文本单元在所述第一文本和所述第二文本的文本相似度中所占的权重;

基于所述第一文本向量、所述第二文本向量和所述关键对齐信息,若确定存在与所述第一文本相匹配的第二文本,则确定所述第一文本为所述风险文本库相关的对抗文本。

本说明书实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如下操作:

从风险文本库中筛选出与第一文本相关的第二文本,所述风险文本库中保存有风险文本的黑名单;

确定所述第一文本的第一文本向量和各第二文本的第二文本向量;

分别确定所述第一文本向量和各第二文本向量的对齐信息,所述对齐信息用于描述所述第一文本和所述第二文本中的文本单元之间的相似关系以及各文本单元在所述第一文本和所述第二文本的文本相似度中所占的权重;

对所述对齐信息进行特征抽取聚集处理,得到关键对齐信息,所述关键对齐信息用于描述所述第一文本和所述第二文本中的关键文本单元之间的相似关系以及关键文本单元在所述第一文本和所述第二文本的文本相似度中所占的权重;

基于所述第一文本向量、所述第二文本向量和所述关键对齐信息,若确定存在与所述第一文本相匹配的第二文本,则确定所述第一文本为所述风险文本库相关的对抗文本。

本说明书一个实施例实现了,通过确定文本维度的文本向量之间的对齐信息并从中抽取出关键对齐信息,基于关键对齐信息和文本向量确定文本之间的匹配关系,实现从文本样本的维度进行文本匹配分析的目的,从而有效提高文本匹配精确度和效率。

附图说明

此处所说明的附图用来提供对本说明书的进一步理解,构成本说明书的一部分,本说明书的示意性实施例及其说明用于解释本说明书,并不构成对本说明书的不当限定。在附图中:

图1为本说明书一实施例一种文本匹配方法的流程示意图;

图2为本说明书一实施例提供的步骤102的一种实现方式的流程示意图;

图3为本说明书一实施例提供的步骤206的另一种实现方式的流程示意图;

图4为本说明书另一实施例提供的一种对抗文本识别方法的流程示意图;

图5为本说明书一实施例提供的对抗文本识别方案的原理示意图;

图6为本说明书一实施例提供的文本匹配模型的通用结构示意图;

图7为本说明书一实施例提供的一种文本匹配装置的结构示意图;

图8为本说明书一实施例提供的一种对抗文本识别装置的结构示意图;

图9为本说明书一实施例提供的一种电子设备的结构示意图;

图10为本说明书一实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本说明书的目的、技术方案和优点更加清楚,下面将结合本说明书具体实施例及相应的附图对本说明书技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本文件保护的范围。

以下结合附图,详细说明本说明书各实施例提供的技术方案。

图1为本说明书一实施例一种文本匹配方法的流程示意图,参见图1,所述方法具体可以包括如下步骤:

步骤102、确定第一文本的第一文本向量和第二文本的第二文本向量;

其中,第一文本向量是指对第一文本进行向量化的结果,第二文本向量是指对第二文本进行向量化的结果。

参见图2,步骤102的一种实现方式可以为:

步骤202、分别对所述第一文本和所述第二文本进行文本切分,得到第一文本单元集和第二文本单元集;

其中,文本切分的维度可以视情况而定,包括字符级(character level,子词级(sub-word level)和词汇级(word level)等,对应的文本切分的结果为对应维度的文本单元,若进行的是字符级的文本切分,则文本单元集中的是字符级的文本单元,若进行的是子词级的文本切分,则文本单元集中的是子词级的文本单元,若进行的是词汇级的文本切分,则文本单元集中的是词汇级的文本单元。

对于上述的文本切分维度的选择,具体可以示例为:

确定所述第一文本和所述第二文本的文本类型;若所述文本类型属于预设的强语义场景,则选择词汇级的文本单元维度进行文本切分;若所述文本类型属于预设的弱语义场景,则选择字符级或者子词级的文本单元维度进行文本切分。其中,强语义场景包括内容域相关对抗的文本类型等,弱语义场景包括地址、企业实体相关对抗等。

基于此,本实施例通过合理选择文本切分维度进行文本切分,确保切分出的文本单元的合理性,为后续文本向量及特征抽取提供支持,从而有效提高文本匹配关系的确定精确度。

步骤204、分别对所述第一文本单元集和所述第二文本单元集进行向量化,得到第一文本单元向量集和第二文本单元向量集;

具体地:分别对第一文本单元集中的文本单元进行向量化,得到第一文本单元向量集;同理,分别对第二文本单元集中的文本单元进行向量化,得到第二文本单元向量集。

其中,对于文本单元维度的向量化需要说明的是:

若所述第一文本和所述第二文本属于预设的特定领域,则将所述第一文本单元集和所述第二文本单元集分别输入至词向量模型中,得到第一文本单元向量集和第二文本单元向量集,所述词向量模型基于所述特定领域的语料训练,用于生成文本单元集中的每个文本单元的文本单元向量。

例如,文本为‘当价格运行在布林通道的中轨和上轨之间的区域时,只要不破中轨,说明市场处于多头行情中,只考虑逢低买进,不考虑做空’,通过文本版识别,可确定该文本属于金融领域,存在较多专利性的字词,如布林通道、中轨、多头行情等,若使用常规向量模型可能无法表达文本或文本单元的语义,因此,本实施例通过金融领域的语料进行词向量模型的训练,确保文本或文本单元的表征效果。

基于此,本实施例通过使用特定领域的语料进行词向量模型的训练,并使用训练完成的词向量构建该特定领域的文本的文本单元的文本单元向量,确保能够有效表征文本单元,为后续提供数据支持。

步骤206、基于第一文本单元向量集和第二文本单元向量集,分别生成所述第一文本的第一文本向量和第二文本的第二文本向量。

其中,第一文本向量是基于第一文本单元向量集构建的,第二文本向量是基于第二文本单元向量构建的。

步骤206的一种实现方式可以为:

对所述第一文本单元向量集内的文本单元向量进行拼接,得到第一文本向量;对所述第二文本单元向量集内的文本单元向量进行拼接,得到第二文本向量。其中,拼接方式可以为各文本单元向量的相加,或者使用tf-idf算法加权。

参见图3,步骤206的另一种实现方式可以为:

步骤302、分别对所述第一文本单元向量集内的文本单元向量和所述第二文本单元向量集内的文本单元向量进行拼接,得到第一拼接文本向量和第二拼接文本向量;其中,第一拼接文本向量由第一文本单元向量集内的文本单元向量拼接而成,第二拼接文本向量由第二文本单元向量集内的文本单元向量拼接而成。具体拼接方式可以为各文本单元向量的相加,或者使用tf-idf算法加权。

步骤304、基于预设深度学习文本特征抽取器,分别分析所述第一拼接文本向量中的向量之间上下文关联和所述第二拼接文本向量中的向量之间的上下文关联;

对于深度学习文本特征抽取器的选择,具体可以示例为:

确定所述第一文本和所述第二文本的文本复杂类型;若所述文本复杂类型属于短文本类型,则选择基于卷积神经网络(Convolutional Neural Networks,CNN)或者循环神经网络(Rerrent Neural Network,RNN)结构的文本特征抽取器;若所述文本复杂类型属于长文本类型或者语义复杂类型,则选择基于自注意力机制的文本特征抽取器。

其中,文本复杂类型的区分属于较为成熟的技术,如短句主要是含有主谓宾这些主要成分的句子,长句除了有主谓宾等成分外,还会有定状补等,主要起修饰、补充、说明等作用,此处不限定文本复杂类型的区分算法。

基于此,本实施例通过依据文本复杂类型选择合适的文本特征抽取器,可有效提高文本特征的抽取效果,即文本向量之间的上下文关系的分析准确度,进而提高构建的文本向量的表征准确度。

步骤306、基于所述向量之间的上下文关联,分别生成所述第一拼接文本向量和所述第二拼接文本向量的句子级别的表示,得到第一文本向量和第二文本向量。

基于此,本实施例首先依据文本单元向量拼接出文本的文本向量,然后从中抽取文本特征并结合向量之间的上下文关系重新构建文本向量,从而获取更好的文本表示。

由此可知,基于步骤102的一种实现方式,本实施例通过合理选择文本切分维度及文本特征抽取器,可有效提高构建的文本向量的文本表示效果。而且,本说明书实施例在此示出了步骤102的一种具体实现方式。当然,应理解,步骤102也可以采用其它的方式实现,本申请实施例对此不作限制。

步骤104、确定所述第一文本向量和所述第二文本向量的对齐信息,所述对齐信息用于描述所述第一文本和所述第二文本中的文本单元之间的相似关系以及各文本单元在所述第一文本和所述第二文本的文本相似度中所占的权重;

其中,对齐信息具体可以示例为:

假设第一文本为中楼层/14层东西西直门南大街3号院1985年建板楼和第二文本为中楼层/23层南北通惠南路6号2003年建板楼,基于文本切分及对齐之后,可得到下表的表格样式:

然后,依据该表分析两者之间的对齐信息。其一种实现方式可以为:

首先,确定所述第一文本向量对应的句内上下文关联依赖关系和所述第二文本向量对应的句内上下文关联依赖关系;然后,基于所述第一文本向量和所述第二文本向量的语义信息,对所述第一文本向量和所述第二文本向量进行句间对齐处理,得到句间对齐信息,所述句间对齐信息用于描述文本向量之间的文本单元的相似关系;再基于所述句内上下文关联依赖关系和所述句间对齐信息,生成所述第一文本向量和所述第二文本向量的对齐信息。

可见,本实现方式是从句间和句内两个维度进行的分析,基于此,本实施例能够有效且准确出分析两个文本之间的对齐信息,为后续分析提供数据支持。

步骤106、对所述对齐信息进行特征抽取聚集处理,得到关键对齐信息,所述关键对齐信息用于描述所述第一文本和所述第二文本中的关键文本单元之间的相似关系以及关键文本单元在所述第一文本和所述第二文本的文本相似度中所占的权重;

具体地:基于所述句内上下文关联依赖关系,抽取所述第一文本和所述第二文本中的关键文本单元;对所述关键文本单元对应的句间对齐信息进行整合处理,得到关键对齐信息。

其中,关键文本单元一般包括文本中处于支配地位的文本单元,以词维度为例,文本中的关键词一般包括处于支配地位的动词,如‘白帝你都不认识’的文本中,‘认识’一词处于支配地位。

基于此,本实施例通过抽取文本中的关键文本单元并从对齐信息中抽取关键文本单元关联的对齐信息,而筛除其他的对齐信息,从而有效降低所需处理的数据量,为提高分析文本匹配关系的效率提供支持。

步骤108、基于所述第一文本向量、所述第二文本向量和所述关键对齐信息,确定所述第一文本和所述第二文本之间的匹配关系。

具体地:首先,将第一文本向量和第二文本向量整合为一个向量,然后,将整合出的向量和所述关键对齐信息输入至预训练的匹配模型中,得到该匹配模型输入的匹配结果,若匹配结果符合文本匹配条件,则第一文本和第二文本相匹配,否则,第一文本和第二文本不相匹配。

其中,匹配模型可通过批量的文本向量样本和文本匹配标签训练获得,文本向量样本由文本向量对整合而成,文本匹配标签用于表征文本向量对或者说文本向量对对应的文本对是否相匹配。

综上所述,本实施例通过确定文本维度的文本向量之间的对齐信息并从中抽取出关键对齐信息,基于关键对齐信息和文本向量确定文本之间的匹配关系,实现从文本样本的维度进行文本匹配分析的目的,从而有效提高文本匹配精确度和效率。

图4为本说明书一实施例提供的一种对抗文本识别方法的流程示意图,参见图4,所述方法具体可以包括如下步骤:

步骤402、从风险文本库中筛选出与第一文本相关的第二文本,所述风险文本库中保存有风险文本的黑名单;

具体地:确定与所述第一文本相关的关键词;基于所述关键词,生成筛选条件,并基于所述筛选条件从风险文本库中筛选出符合条件的第二文本;其中,所述关键词包括:所述第一文本中的关键词、与对抗文本识别范围相关的关键词。其中,所述第一文本相关的关键词可以是指第一文本中的部分关键词,也可以是第一文本关联内容中的部分关键词。

基于此,本实施例通过在文本匹配之前,预先进行风险文本库的初步筛选,降低后续文本匹配所需匹配的文本量,从而有效提高对抗文本识别效率。

进一步地,为提高对抗文本的识别精确度,还可对风险文本库中的文本进行扩展,在所述风险文本库中保存有风险文本的黑名单的历史对抗样本和对抗增强样本,由此,可有效增加风险文本库中的文本的覆盖范围。

步骤404、确定所述第一文本的第一文本向量和各第二文本的第二文本向量;

其中,第二文本可能有多个,因此,需要确定每一个第二文本的第二文本向量,并分别对第一文本向量和每一个第二文本向量进行后续处理。

步骤406、分别确定所述第一文本向量和各第二文本向量的对齐信息,所述对齐信息用于描述所述第一文本和所述第二文本中的文本单元之间的相似关系以及各文本单元在所述第一文本和所述第二文本的文本相似度中所占的权重;

步骤408、对所述对齐信息进行特征抽取聚集处理,得到关键对齐信息,所述关键对齐信息用于描述所述第一文本和所述第二文本中的关键文本单元之间的相似关系以及关键文本单元在所述第一文本和所述第二文本的文本相似度中所占的权重;

步骤410、基于所述第一文本向量、所述第二文本向量和所述关键对齐信息,若确定存在与所述第一文本相匹配的第二文本,则确定所述第一文本为所述风险文本库相关的对抗文本。

其中,步骤404-步骤410与图1对应实施例中的步骤102-步骤108相对应,其实现方式也对应相似,故,此处不再对其进行展开说明。

由此可知,本实施例利用文本匹配模型比对目标文本与黑样本评估目标文本与黑样本的相似程度,从而评估目标文本的风险,本方案对于不同类型的对抗文本具有良好的覆盖,同时文本匹配模型具有良好的泛化性能,对于训练数据中未出现的对抗类型具有发现能力。

图5为本说明书一实施例提供的对抗文本识别方案的原理示意图,下面结合图5,对图1和图4对应的实施例进行原理性说明:

S1、建立风险文本库

风险文本库由待检测的风险文本组成,同时可以通过补充历史对抗样本,对风险文本的对抗数据增强等增加对各种文本对抗形式覆盖和及时响应新的文本对抗形式。

S2、文本初筛召回

初筛召回的目的是从文本库中筛选出与目标样本相关的样本集,进入文本匹配流程,以避免目标文本(待检测文本)与文本库所有文本匹配带来的复杂度和效率低下问题。初筛部分可采用规则过滤,关键字/词检索等方案设定相应阈值进行粗粒度的召回,如对于在对克里米亚地区对抗地址的识别中,可以先限定召回的地址中包含ru(俄罗斯缩写)或与克里米亚某一语种词汇相似度达到60%以上,对于内容相关对抗文本,可以通过对具体风险相关字词的检索进行初步召回。当名单库样本数目较多时,可以采用字典树、BM25、SimHash等索引和检索领域常用算法提升召回效率。

S3、文本匹配

文本匹配是通过建立深度文本匹配模型,对目标样本和召回的样本库中各样本进行匹配,结合匹配得分、目标样本匹配度排名头部的样本以及与目标样本匹配的样本数目等信息,对目标样本是否为对抗样本进行识别。

其中,文本匹配模型的通用结构如图6所示,模型结构一般由5个部分组成,分别是嵌入层(Embedding layer),编码/表示层(Encoding/Representation layer),交互层(Interaction layer),聚集/池化层(Aggregation layer)以及预测层(Predictionlayer)组成。各层的作用与常用算法说明如下:

(1)嵌入层:嵌入层的作用是将输入的文本切分成字/子词/词等文本单元,将这些文本单元表示成向量,即词向量(word2vec),同时尽可能的保留文本单元的语义信息。嵌入层的算法根据强弱语义的差异分为字符级(character level,子词级(sub-word level)和词汇级(word level)的表征,通常对于强语义场景,如内容域相关对抗,采用词汇级表征,对于弱语义场景,如地址、企业实体相关对抗,采用字符/子词级表征,也可以综合几个不同级别的表征获得更准确的表示。对于通用领域,嵌入层可以引入预训练的词向量(如BERT在维基百科等语料上预训练得到的词向量),对于特定领域,可以在领域语料上进一步训练词向量模型,提升表征效果。

(2)编码/表示层:编码表示层的作用是在嵌入层对文本单元的词向量嵌入表示基础上,利用深度学习文本特征抽取器,分析上下文关联,获得文本句子级别的表示。编码层的算法有基于CNN结构的(如TextCNN),基于RNN结构的(如双向LSTM,双向GRU),以及基于自注意力机制的(如Transformer),可根据文本的长短和语义的复杂性进行选用。亦可根据实际场景需求,通过级联或者残差连接(residual connection)的方式建立多层结构的文本特征抽取器,获取更好的文本表示。

(3)交互层:交互层的作用是基于句子的向量表示获得对齐信息,交互层分为句子间交互和句子内交互,通常采用注意力机制(对于句间,全局注意力或局部注意力,对于句内,自注意力)获得句间字词文本,语义级的对齐信息和句内的上下文关联依赖。为了增强模型框架的表达能力,可以将嵌入层与交互层打包成一个Block,通过堆叠多个Block,通过多次的句间对齐(inter-sentence alignment),可以模型更充分地理解两句文本之间的匹配关系。

(4)聚集层:聚集层的作用是聚合交互层的信息,为预测层提供特征。通常聚集层采用池化技术(最大池化max pooling,平均池化average pooling等),对交互层的对齐匹配信息进行抽取聚集,保留主要的特征同时减少参数和计算量,防止过拟合。

(5)预测层:预测层通过对两个文本聚集层输出向量及其点积,差等通过全连接网络与softmax输出层得到匹配度的预测结果。

由此可知,针对风险词包+关键词匹配方案对抗模式覆盖不足,词包准确率低,维护成本高的问题,上述实施例提供的文本匹配模型能综合字词、多语种、字面和语义等多角度信息,进行目标样本与召回样本的匹配,能覆盖各种文本对抗形式。同时,通过增加风险库样本各种形式的对抗增强样本可以实现文本匹配模型的快速迭代,并提升对新型对抗形式的泛化能力。

另外,针对分类模型特征工程复杂,管控尺度难以调整,可解释性差,新型对抗形式响应慢等问题等缺点,上述实施例提供的文本匹配模型为端到端的深度学习模型,无需人工特征工程,并且可以通过对初筛规则或者匹配阈值的调整灵活调整管控尺度。同时,本方案从样本去对比识别对抗样本,具有较好的可解释型。此外,对于新型文本对抗形式,文本对抗模型具有一定的泛化能力,并且可以通过补充相应对抗模式的增强样本对模型进行微调迭代。

图7为本说明书一实施例提供的一种文本匹配装置的结构示意图,参见图7,所述装置具体可以包括:

确定模块701,确定第一文本的第一文本向量和第二文本的第二文本向量;

交互模块702,确定所述第一文本向量和所述第二文本向量的对齐信息,所述对齐信息用于描述所述第一文本和所述第二文本中的文本单元之间的相似关系以及各文本单元在所述第一文本和所述第二文本的文本相似度中所占的权重;

聚集模块703,对所述对齐信息进行特征抽取聚集处理,得到关键对齐信息,所述关键对齐信息用于描述所述第一文本和所述第二文本中的关键文本单元之间的相似关系以及关键文本单元在所述第一文本和所述第二文本的文本相似度中所占的权重;

预测模块704,所述第一文本向量、所述第二文本向量和所述关键对齐信息,确定所述第一文本和所述第二文本之间的匹配关系。

可选的,所述确定模块701,具体用于:

分别对所述第一文本和所述第二文本进行文本切分,得到第一文本单元集和第二文本单元集;分别对所述第一文本单元集和所述第二文本单元集进行向量化,得到第一文本单元向量集和第二文本单元向量集;基于第一文本单元向量集和第二文本单元向量集,分别生成所述第一文本的第一文本向量和第二文本的第二文本向量。

可选的,装置还包括:

第一选择模块,用于确定所述第一文本和所述第二文本的文本类型;若所述文本类型属于预设的强语义场景,则选择词汇级的文本单元维度进行文本切分;若所述文本类型属于预设的弱语义场景,则选择字符级或者子词级的文本单元维度进行文本切分。

可选的,所述确定模块701,具体用于:

若所述第一文本和所述第二文本属于预设的特定领域,则将所述第一文本单元集和所述第二文本单元集分别输入至词向量模型中,得到第一文本单元向量集和第二文本单元向量集,所述词向量模型基于所述特定领域的语料训练,用于生成文本单元集中的每个文本单元的文本单元向量。

可选的,所述确定模块701,具体用于:

分别对所述第一文本单元向量集内的文本单元向量和所述第二文本单元向量集内的文本单元向量进行拼接,得到第一拼接文本向量和第二拼接文本向量;基于预设深度学习文本特征抽取器,分别分析所述第一拼接文本向量中的向量之间上下文关联和所述第二拼接文本向量中的向量之间的上下文关联;基于所述向量之间的上下文关联,分别生成所述第一拼接文本向量和所述第二拼接文本向量的句子级别的表示,得到第一文本向量和第二文本向量。

可选的,装置还包括:

第二选择模块,用于确定所述第一文本和所述第二文本的文本复杂类型;若所述文本复杂类型属于短文本类型,则选择基于卷积神经网络CNN或者循环神经网络RNN结构的文本特征抽取器;若所述文本复杂类型属于长文本类型或者语义复杂类型,则选择基于自注意力机制的文本特征抽取器。

可选的,交互模块702,具体用于:

确定所述第一文本向量对应的句内上下文关联依赖关系和所述第二文本向量对应的句内上下文关联依赖关系;基于所述第一文本向量和所述第二文本向量的语义信息,对所述第一文本向量和所述第二文本向量进行句间对齐处理,得到句间对齐信息,所述句间对齐信息用于描述文本向量之间的文本单元的相似关系;基于所述句内上下文关联依赖关系和所述句间对齐信息,生成所述第一文本向量和所述第二文本向量的对齐信息。

可选的,聚集模块703,具体用于:

基于所述句内上下文关联依赖关系,抽取所述第一文本和所述第二文本中的关键文本单元;对所述关键文本单元对应的句间对齐信息进行整合处理,得到关键对齐信息。

由此可知,本实施例通过确定文本维度的文本向量之间的对齐信息并从中抽取出关键对齐信息,基于关键对齐信息和文本向量确定文本之间的匹配关系,实现从文本样本的维度进行文本匹配分析的目的,从而有效提高文本匹配精确度和效率。

图8为本说明书一实施例提供的一种对抗文本识别装置的结构示意图,参见图8,所述装置具体可以包括:

初筛模块801,从风险文本库中筛选出与第一文本相关的第二文本,所述风险文本库中保存有风险文本的黑名单;

确定模块802,确定所述第一文本的第一文本向量和各第二文本的第二文本向量;

交互模块803,分别确定所述第一文本向量和各第二文本向量的对齐信息,所述对齐信息用于描述所述第一文本和所述第二文本中的文本单元之间的相似关系以及各文本单元在所述第一文本和所述第二文本的文本相似度中所占的权重;

聚集模块804,对所述对齐信息进行特征抽取聚集处理,得到关键对齐信息,所述关键对齐信息用于描述所述第一文本和所述第二文本中的关键文本单元之间的相似关系以及关键文本单元在所述第一文本和所述第二文本的文本相似度中所占的权重;

预测模块805,基于所述第一文本向量、所述第二文本向量和所述关键对齐信息,若确定存在与所述第一文本相匹配的第二文本,则确定所述第一文本为所述风险文本库相关的对抗文本。

可选的,初筛模块801,具体用于:

确定与所述第一文本相关的关键词;基于所述关键词,生成筛选条件,并基于所述筛选条件从风险文本库中筛选出符合条件的第二文本;其中,所述关键词包括:所述第一文本中的关键词、与对抗文本识别范围相关的关键词。

可选的,所述风险文本库中还保存有风险文本的黑名单的历史对抗样本和对抗增强样本。

由此可知,本实施例利用文本匹配模型比对目标文本与黑样本评估目标文本与黑样本的相似程度,从而评估目标文本的风险,本方案对于不同类型的对抗文本具有良好的覆盖,同时文本匹配模型具有良好的泛化性能,对于训练数据中未出现的对抗类型具有发现能力。

另外,不难理解的是,由于图7和8对应的装置实施例与上述方法实施例相似,装置实施例中的相关内容已详述在方法实施例中,故,此处不再展开说明。而且,应当注意的是,在本说明书的装置的各个部件中,根据其要实现的功能而对其中的部件进行了逻辑划分,但是,本说明书不受限于此,可以根据需要对各个部件进行重新划分或者组合。

图9为本说明书一实施例提供的一种电子设备的结构示意图,参见图9,该电子设备包括处理器、内部总线、网络接口、内存以及非易失性存储器,当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成文本匹配装置。当然,除了软件实现方式之外,本说明书并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。

网络接口、处理器和存储器可以通过总线系统相互连接。总线可以是ISA(Industry Standard Architecture,工业标准体系结构)总线、PCI(PeripheralComponent Interconnect,外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图9中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。

存储器用于存放程序。具体地,程序可以包括程序代码,所述程序代码包括计算机操作指令。存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据。存储器可能包含高速随机存取存储器(Random-Access Memory,RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少1个磁盘存储器。

处理器,用于执行所述存储器存放的程序,并具体执行:

确定第一文本的第一文本向量和第二文本的第二文本向量;

确定所述第一文本向量和所述第二文本向量的对齐信息,所述对齐信息用于描述所述第一文本和所述第二文本中的文本单元之间的相似关系以及各文本单元在所述第一文本和所述第二文本的文本相似度中所占的权重;

对所述对齐信息进行特征抽取聚集处理,得到关键对齐信息,所述关键对齐信息用于描述所述第一文本和所述第二文本中的关键文本单元之间的相似关系以及关键文本单元在所述第一文本和所述第二文本的文本相似度中所占的权重;

基于所述第一文本向量、所述第二文本向量和所述关键对齐信息,确定所述第一文本和所述第二文本之间的匹配关系。

上述如本说明书图7所示实施例揭示的文本匹配装置或管理者(Master)节点执行的方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(CentralProcessing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific IntegratedCircuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本说明书实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本说明书实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。

文本匹配装置还可执行图1-3的方法,并实现管理者节点执行的方法。

基于相同的发明创造,本说明书实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行图1-3对应的实施例提供的文本匹配处理方法。

图10为本说明书一实施例提供的一种电子设备的结构示意图,参见图10,该电子设备包括处理器、内部总线、网络接口、内存以及非易失性存储器,当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成对抗文本识别装置。当然,除了软件实现方式之外,本说明书并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。

网络接口、处理器和存储器可以通过总线系统相互连接。总线可以是ISA(Industry Standard Architecture,工业标准体系结构)总线、PCI(PeripheralComponent Interconnect,外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图10中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。

存储器用于存放程序。具体地,程序可以包括程序代码,所述程序代码包括计算机操作指令。存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据。存储器可能包含高速随机存取存储器(Random-Access Memory,RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少1个磁盘存储器。

处理器,用于执行所述存储器存放的程序,并具体执行:

从风险文本库中筛选出与第一文本相关的第二文本,所述风险文本库中保存有风险文本的黑名单;

确定所述第一文本的第一文本向量和各第二文本的第二文本向量;

分别确定所述第一文本向量和各第二文本向量的对齐信息,所述对齐信息用于描述所述第一文本和所述第二文本中的文本单元之间的相似关系以及各文本单元在所述第一文本和所述第二文本的文本相似度中所占的权重;

对所述对齐信息进行特征抽取聚集处理,得到关键对齐信息,所述关键对齐信息用于描述所述第一文本和所述第二文本中的关键文本单元之间的相似关系以及关键文本单元在所述第一文本和所述第二文本的文本相似度中所占的权重;

基于所述第一文本向量、所述第二文本向量和所述关键对齐信息,若确定存在与所述第一文本相匹配的第二文本,则确定所述第一文本为所述风险文本库相关的对抗文本。

上述如本说明书图8所示实施例揭示的对抗文本识别装置或管理者(Master)节点执行的方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本说明书实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本说明书实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。

对抗文本识别装置还可执行图4的方法,并实现管理者节点执行的方法。

基于相同的发明创造,本说明书实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行图4对应的实施例提供的对抗文本识别方法。

本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。

本领域内的技术人员应明白,本说明书的实施例可提供为方法、系统、或计算机程序产品。因此,本说明书可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本说明书是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。

还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白,本说明书的实施例可提供为方法、系统或计算机程序产品。因此,本说明书可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上所述仅为本说明书的实施例而已,并不用于限制本说明书。对于本领域技术人员来说,本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书的权利要求范围之内。

相关技术
  • 文本匹配和对抗文本识别方法、装置及设备
  • 文本匹配模型训练方法、文本匹配方法、装置和电子设备
技术分类

06120112252797