掌桥专利:专业的专利平台
掌桥专利
首页

一种关键词查找方法、装置、电子设备及介质

文献发布时间:2024-04-18 20:01:30


一种关键词查找方法、装置、电子设备及介质

技术领域

本公开涉及计算机技术领域,尤其涉及文本审核技术领域。

背景技术

为了维护健康安全的网络环境,网络平台每天需要对大量的文本进行审核,例如需要审核的文本包括:用户发表的评论、发布的文章以及视频的标题等。为了提高文本审核速度,一般采用关键词查找的方式,即查找文本中是否存在预设的关键词,若存在,则确定该文本审核不通过,若不存在,则确定该文本审核通过。

发明内容

本公开实施例提供了一种关键词查找方法、装置、电子设备及介质。

本公开实施例的第一方面,提供了一种关键词查找方法,包括:

获取待匹配语句和字典树,所述字典树包括根节点、多个关键词节点和多个中间节点,每个关键词节点包括预设词表中的一个关键词的最后一个字符,从根节点至该关键词节点的路径中,各中间节点依次包括该关键词中第一个字符至倒数第二个字符;

按照从所述根节点到关键词节点的顺序,查找与所述待匹配语句包括的词语匹配的目标路径,所述目标路径中各中间节点以及目标关键词节点包括的字符组成所述待匹配语句包括的一个词语,所述目标关键词节点为关键词节点且为所述目标路径中的最后一个节点;

根据所述目标路径表示的目标关键词和所述目标关键词节点包括的配置信息,确定所述待匹配语句的匹配结果,所述配置信息包括:所述目标关键词的类型。

本公开实施例的第二方面,提供了一种关键词查找装置,包括:

获取模块,用于获取待匹配语句和字典树,所述字典树包括根节点、多个关键词节点和多个中间节点,每个关键词节点包括预设词表中的一个关键词的最后一个字符,从根节点至该关键词节点的路径中,各中间节点依次包括该关键词中第一个字符至倒数第二个字符;

查找模块,用于按照从所述根节点到关键词节点的顺序,查找与所述待匹配语句包括的词语匹配的目标路径,所述目标路径中各中间节点以及目标关键词节点包括的字符组成所述待匹配语句包括的一个词语,所述目标关键词节点为关键词节点且为所述目标路径中的最后一个节点;

确定模块,用于根据所述目标路径表示的目标关键词和所述目标关键词节点包括的配置信息,确定所述待匹配语句的匹配结果,所述配置信息包括:所述目标关键词的类型。

本公开实施例的第三方面,提供了一种电子设备,包括:

至少一个处理器;以及

与所述至少一个处理器通信连接的存储器;其中,

所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行第一方面中任一项所述的方法。

本公开实施例的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据第一方面中任一项所述的方法。

本公开实施例的第五方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据第一方面中任一项所述的方法。

应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案,不构成对本公开的限定。其中:

图1是本公开实施例提供的一种关键词查找方法的流程图;

图2是本公开实施例提供的一种字典树构建方法的流程图;

图3是本公开实施例提供的一种字典树的示例性示意图;

图4是本公开实施例提供的一种查找目标路径的方法流程图;

图5是本公开实施例提供的一种确定匹配结果的方法流程图;

图6是本公开实施例提供的一种关键词查找装置的结构实体图;

图7是用来实现本公开实施例的关键词查找方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。

目前在对文本进行关键词查找时,需要先对文本进行分词,然后将分词得到的每个词语与词表中每个关键词进行循环匹配。

在实际业务场景中,为了增大召回率以及应对一些突发事件,需要建立庞大的词表,而随着词表包括的关键词越来越多,使得利用这种方式进行关键词查找的速度越来越慢。而且,目前仅可以查找到文本中是否存在关键词,使得查找结果较为单一。

为了在提高关键词查找的速度的基础上,丰富查找结果,本公开实施例提供了一种关键词查找方法,该方法应用于电子设备,例如电子设备可以是服务器或者台式计算机等具备数据处理能力的设备。

如图1所示,本公开实施例提供的关键词查找方法,包括如下步骤:

S101、获取待匹配语句和字典树。

其中,字典树(trie tree)包括根节点、多个关键词节点和多个中间节点。每个关键词节点包括预设词表中的一个关键词的最后一个字符,从根节点至该关键词节点的路径中,各中间节点依次包括该关键词中第一个字符至倒数第二个字符。

即,字典树的根节点不包括字符,其余的每个节点包括一个字符。根节点到每个关键词节点之间的路径上,各节点包括的字符组成预设词表中的一个关键词。可见字典树的叶子节点均为关键词节点。而且,由于可能存在一个关键词包括另一个关键词的情况,因此关键词节点可以作为其他关键词的中间节点。

待匹配语句可以是任意一段需要进行关键词查找的语句。待匹配语句可以包括:英文字符、中文字符、韩文字符和日文字符等任意一种或多种语言的字符。

例如,待匹配语句可以由中文字符构成,包括“构建字典树”。或者,待匹配语句可以由英文字符构成,包括“trie tree”。或者,待匹配语句可以由中文字符和英文字符构成,包括“构建trie tree”。

S102、按照从根节点到关键词节点的顺序,查找与待匹配语句包括的词语匹配的目标路径。

其中,目标路径中各中间节点以及目标关键词节点包括的字符组成待匹配语句包括的一个词语,目标关键词节点为关键词节点且为目标路径中的最后一个节点。

若能够查找到至少一条目标路径,说明待匹配语句中包括预设词表中的关键词,且每条目标路径上的各节点包括的字符组成一个关键词。

S103、根据目标路径表示的目标关键词和目标关键词节点包括的配置信息,确定待匹配语句的匹配结果。

其中,配置信息包括:目标关键词的类型。

例如,可以将目标路径表示的目标关键词和目标关键词的类型,作为匹配结果。

在本公开实施例中,当未查找到任一目标路径时,确定匹配结果为待匹配语句中不包括预设词表中的关键词。

由于本公开实施例的字典树中,每个关键词节点包括预设词表中的一个关键词的最后一个字符,从根节点至该关键词节点的路径中,各中间节点依次包括该关键词中第一个字符至倒数第二个字符,因此本公开实施例可以利用树型结构表示预设词表中的各关键词。使得本公开实施例基于字典树,对待匹配语句进行关键词查找时,可以按照从根节点到关键词节点的顺序,查找与待匹配语句包括的每个词语匹配的目标路径,若查找到目标路径,说明待匹配语句中包括关键词。可见在查找时不用对比每个关键词节点的路径表示的关键词是否处于待匹配语句中,因此提高了关键词查找的速度。而且本公开实施例中的关键词节点的配置信息包括关键词的类型,因此本公开实施例不但能够确定待匹配语句中是否存在关键词,还能获得待匹配语句中存在的关键词的类型,从而丰富了匹配结果。即本公开实施例能够在提高关键词查找速度的基础上,丰富匹配结果。

为了实现基于字典树进行关键词匹配,可以在上述S101之前预先构建字典树,参见图2,构建字典树的方法包括如下步骤:

S201、获取预设词表。

可以从其他设备中获取预设词表,例如其他设备为其他电子设备或者云设备等。或者,可以获取本地存储的预设词表。

预设词表包括多个关键词。在审核场景下,预设词表包括影响语句敏感性的关键词。例如,预设词表包括的各关键词均为违规词语。

S202、针对预设词表包括的每个关键词,将该关键词包括的第一个字符作为当前字符,将字典树的根节点作为当前节点。

S203、查找当前节点的子节点中是否存在目标子节点。其中,目标子节点包括的字符为当前字符。

若存在,则执行S204;若不存在,则执行S205。

S204、判断当前字符是否为该关键词的最后一个字符。

若当前字符是该关键词的最后一个字符,则执行S206;若当前字符不是该关键词的最后一个字符,则执行S207。

S205、为当前节点新增一个子节点作为目标子节点,设置目标子节点包括的字符为当前字符,并判断当前字符是否为该关键词的最后一个字符。

若当前字符是该关键词的最后一个字符,则执行S206;若当前字符不是该关键词的最后一个字符,则执行S207。

S206、将该关键词的关键词信息,作为当前节点的配置信息。

如果当前字符是该关键词的最后一个字符,说明当前节点的路径是该关键词匹配的路径,当前节点是该关键词匹配的关键词节点,因此将该关键词的关键词信息,作为当前节点的配置信息。其中,每个节点的路径是指从根节点到该节点之间的路径。

其中,关键词信息包括关键词的类型。关键词的类型可以包括关键词的业务类型和敏感词类型。例如业务类型为:语音识别、光学字符识别(Optical CharacterRecognition,OCR)或者文本识别等。敏感词类型可以是:涉黄、涉赌或者涉政等。

可选的,关键词信息还可以包括:关键词是否与其他关键词存在关联关系、与关键词存在关联关系的其他关键词、或者与关键词存在关联关系的其他关键词匹配的关键词节点的编号等。

通过为字典树中的关键词节点设置配置信息,可以使得每个关键词节点包括以下四个属性:is_word、match_type、sensitive_type和is_merge。其中,is_word=false表示节点的路径不表示一个完整的关键词,is_word=true表示节点的路径表示一个完整的关键词,因此关键词节点的is_word=true。match_type表示节点的路径表示的关键词的业务类型,例如match_type=1表示节点的路径表示的关键词的业务类型为语音识别,match_type=2表示节点的路径表示的关键词的业务类型为OCR等。sensitive_type表示节点的路径表示的关键词的敏感词类型,例如sensitive_type=1表示节点的路径表示的关键词的敏感词类型为涉黄,sensitive_type=2表示节点的路径表示的关键词的敏感词类型为涉政等。is_merge表示节点的路径表示的关键词是否与其他关键词存在关联关系,例如,is_merge=0表示节点的路径表示的关键词不与其他关键词存在关联关系,is_merge=1表示节点的路径表示的关键词与其他关键词存在关联关系。

非关键词节点的中间节点也可以包括以上四个属性,这种中间节点的is_word=false,且match_type、sensitive_type和is_merge均为空。

S207、将目标子节点作为当前节点,将当前字符的下一个字符作为当前字符,并返回S203。

如果当前字符是该关键词的最后一个字符,说明对该关键词而言,当前节点是中间节点,需要继续向叶子节点方向寻找与该关键词的最后一个字符匹配的节点,因此将目标子节点作为当前节点,将当前字符的下一个字符作为当前字符,并返回S203继续匹配。

通过上述方法,本公开实施例能够以树型结构,在字典树中存储预设词表中的每个关键词,并为每个关键词匹配的关键词节点设置该关键词的关键词信息,从而使得后续查找字典树时,不仅能够确定待匹配语句中是否存在关键词,还能获取到待匹配语句中存在的关键词的类型,从而丰富了查找结果,使得本公开实施例的应用范围更广。

参见图3,以下结合一个实例对本公开实施例提供的字典树构建过程进行说明:

假设需要将预设词表中的关键词“hello”加入图3的左图所示的字典树,其中字典树中每个圆圈表示一个节点,每个箭头表示两个节点之间的父子关系,其中格纹圆表示根节点,空心圆表示中间节点,实心圆表示关键词节点,每个节点旁边的字符为节点包括的字符,节点内部的数字表示节点的序号。

添加关键词“hello”时,记当前节点为curNode,记当前字符为curChar。

置curNode=根节点,curChar=h,查找curNode的子节点中是否存在包括的字符为curChar的目标子节点,查找到节点12包括字符为h,即节点12为目标子节点。

由于curChar=h不是“hello”的最后一个字符,因此置curChar=e,置curNode=节点12,并查找curNode的子节点中是否存在包括的字符为curChar的目标子节点。查找结果为不存在,因此参见图3的右图,在curNode下新增一个子节点,即节点13,作为目标子节点,设置节点13包括的字符为curChar,即e。

由于curChar=e不是“hello”的最后一个字符,因此置curChar=l,置curNode=节点13,并查找curNode的子节点中是否存在包括的字符为curChar的目标子节点。查找结果为不存在,因此在curNode下新增一个子节点,即节点14,作为目标子节点,设置节点14包括的字符为curChar,即l。

由于curChar=l不是“hello”的最后一个字符,因此置curChar=l,置curNode=节点14,并查找curNode的子节点中是否存在包括的字符为curChar的目标子节点。查找结果为不存在,因此在curNode下新增一个子节点,即节点15,作为目标子节点,设置节点15包括的字符为curChar,即l。

由于curChar=l不是“hello”的最后一个字符,因此置curChar=o,置curNode=节点15,并查找curNode的子节点中是否存在包括的字符为curChar的目标子节点。查找结果为不存在,因此在curNode下新增一个子节点,即节点16,作为目标子节点,设置节点16包括的字符为curChar,即o。

由于curChar=o是“hello”的最后一个字符,因此将“hello”的关键词信息,作为curNode,即节点16,的配置信息。更新后的字典树如图3的右图所示。

在构建字典树之后,还可以在字典树添加其他关键词,即针对每个需要添加的关键词,利用S202~S207的方法在字典树中添加该关键词。

构建字典树之后,可以采用图1所示的方式对待匹配语句进行关键词查找。

在本公开实施例中,上述S101获取待匹配语句的方式,可以实现为:获取待匹配文本,基于待匹配文本中的指定标点符号,对待匹配文本进行分割,得到至少一条待匹配语句。

其中,待匹配文本为需要进行关键词查找的文本,例如用户上传的评论、弹幕或者视频标题等,本公开实施例对此不作具体限定。

指定标点符号可以是预设的标点符号,例如逗号和句号等,或者指定标点符号可以是任意标点符号。

示例性的,假设待匹配文本为“abcdef,ghijklmn”,指定标点符号为逗号,则将“abcdef”和“ghijklmn”分别作为一条待匹配语句。

在另一种实施方式中,在获取待匹配语句时,本公开实施例可以对待匹配文本进行分词处理,将分词后的每个词语作为一个待匹配语句。但由于分词算法本身可能存在不准确的问题,例如将多个词错误地组合为一个词,使得利用分词后得到的每个词语进行关键词匹配的准确度低。

而通过本公开实施例提供的方法,可以按照标点符号对待匹配文本进行分割,由于标点符号两端的词大概率不属于同一个词,而且分割后得到的待匹配语句的长度小于待匹配文本的长度。因此本公开实施例基于待匹配语句进行关键词查找,不但能够提高查找的准确度,还能够提高查找的速度,降低关键词查找时的内存占用率。

在本公开实施例中,参见图4,在上述S102查找目标路径的方式,包括以下步骤:

S401、将待匹配语句包括的第一个字符作为当前字符,并将根节点的子节点作为当前节点。

由于字典树的根节点不包括任何字符,因此可以将根节点的子节点作为当前节点,并判断当前节点包括的字符是否与当前字符相同,即从根节点的子节点开始查找待匹配语句中是否包括关键词。

S402、判断当前节点包括的字符是否与当前字符相同。

若不同,则执行S403;若相同,则执行S404。

S403、将当前字符的下一个字符作为当前字符,将根节点的子节点作为当前节点,并返回S402。

若当前节点包括的字符与当前字符不同,说明当前节点下没有包括当前字符的关键词,因此更新当前字符为当前字符的下一个字符,并从根节点的子节点开始重新查找。

S404、判断当前节点是否为关键词节点。

若当前节点为关键词节点,则执行S405;若当前节点不为关键词节点,则执行S406。

S405、将根节点至当前节点之间的路径作为一条目标路径,将当前节点的子节点作为当前节点,将当前字符的下一个字符作为当前字符,并执行S407。

若当前节点为关键词节点,说明待匹配语句中存在当前节点的路径表示的关键词,因此将根节点至当前节点的路径作为一条目标路径,且当前节点是这条目标路径的目标关键词节点。由于当前节点之后还可能存在其他关键词节点,且其他关键词节点的路径表示的关键词也可能处于待匹配语句中,因此可以将当前节点的子节点作为当前节点,将当前字符的下一个字符作为当前字符,并执行S407继续查找。

如果当前节点不存在子节点,则将当前节点包括的字符在待匹配语句中的下一个字符作为当前字符,将根节点的子节点作为当前节点,并返回S402。

S406、将当前节点的子节点作为当前节点,将当前字符的下一个字符作为当前字符,并执行S407。

若当前节点不为关键词节点,且当前节点包括的字符与当前字符相同,则需要继续查找,因此将当前节点的子节点作为当前节点,将当前字符的下一个字符作为当前字符,并执行S407。

由于字典树的叶子节点均为关键词节点,因此不存在当前节点不存在子节点,且当前节点不是关键词节点的情况。

S407、判断当前节点包括的字符是否为当前字符。

若当前节点包括的字符是当前字符,则返回S404。若当前节点包括的字符不是当前字符,则执行S408。

S408、将上一次查找到的关键词节点包括的字符在待匹配语句中的下一个字符作为当前字符,将根节点的子节点作为当前节点,并返回S402。

若当前节点包括的字符不是当前字符,说明上一次查找到的关键词节点之后的关键词节点的路径表示的关键词均不处于待匹配语句中,因此可以将上一次查找到的关键词节点包括的字符在待匹配语句中的下一个字符作为当前字符,将根节点的子节点作为当前节点,并返回S402继续查找。

通过上述方法,本公开实施例能够实现基于每条语句进行关键词查找,既避免了文本分词带来的误差,提高了关键词查找的准确性,又提高了关键词查找的速度。

在本公开实施例中,上述S103确定匹配结果的方式,可以实现为:若查找到至少一条目标路径,则确定匹配结果为待匹配语句中包括关键词;若未查找到目标路径,则确定匹配结果为待匹配语句中不包括关键词。

或者,由于本公开实施例中,目标关键词的类型包括业务类型,因此上述S103确定匹配结果的方式,可以实现为:筛选业务类型为指定业务类型的目标关键词,基于筛选出的目标关键词,得到待匹配语句的匹配结果。

例如,可以将筛选出的目标关键词,作为待匹配语句的匹配结果。从而表示待匹配语句中包括指定业务的目标关键词。

不同的业务类型涉及的关键词可能不同。例如,OCR业务涉及书面表达,因此对语句的敏感性判断更严谨;而语音识别业务涉及口语表达,因此对语句的敏感性判断更宽松,可见存在OCR业务中的关键词,不是语音识别业务的关键词的情况。

因此,本公开实施例基于指定业务类型的目标关键词,得到待匹配语句的匹配结果,能够在指定业务下,更准确地确定待匹配语句中是否包括关键词。

在本公开实施例中,由于关键词在语句中单独出现时,可能不影响语句的敏感性,但多个关键词在语句中一起出现时,可能影响了语句的敏感性,因此本公开实施例还可以预先为预设词表中关键词设置的关联关系。例如,预设词表中可以记录:AA&BB,CC&DD,其中,AA、BB、CC和DD均为一个关键词,且AA和BB之间存在关联关系,CC和DD之间存在关联关系。

示例性的,关键词为“某组织”,与该关键词存在关联关系的关键词为“陷阱”,则语句1“某组织成立五周年了”仅包括关键词“某组织”,因此语句1不具有敏感性。语句2“掉入某组织的陷阱”既包括关键词“某组织”又包括关键词“陷阱”,因此语句2具有敏感性。

因此,为了更准确的进行关键词查找,本公开实施例中,目标关键词节点的配置信息除了包括目标关键词的类型之外,还可以还包括关系属性,其中关系属性表示目标关键词是否与其他关键词存在关联关系。

在此基础上,参见图5,上述S103的实现方式中,基于筛选出的目标关键词,得到待匹配语句的匹配结果的方式,包括以下步骤:

S501、从筛选出的目标关键词中,确定满足第一指定条件的第一目标关键词。其中,第一指定条件包括:目标关键词的关系属性表示目标关键词与其他关键词存在关联关系。

目标关键词节点的配置信息包括目标关键词的关系属性,即is_merge,因此可以筛选出is_merge=1的第一目标关键词。

S502、获取与每个第一目标关键词存在关联关系的其他关键词。

一种实现方式中,可以根据各关键词之间的预设关联关系,获取与每个第一目标关键词存在关联关系的其他关键词。其中,各关键词之间的预设关联关系可以记录于预设词表中。

本公开实施例通过查找各关键词之间的预设关联关系,得到与每个第一目标关键词存在关联关系的其他关键词,由于预设的关联关系的准确性高,因此提高了获取的其他关键词的准确性。

另一种实现方式中,关键词节点的配置信息中还可以包括:与目标关键词存在关联关系的其他关键词。使得执行S502时,可以从每个目标关键词节点的配置信息中,获取与该目标关键词节点匹配的目标关键词存在关联关系的其他关键词。

或者还可以通过其他方式获取与每个第一目标关键词存在关联关系的其他关键词,本公开实施例对此不作具体限定。

S503、基于各第一目标关键词和其他关键词,确定待匹配语句中是否包括存在关联关系的目标关键词组合。

若是,则执行S504;若否,则说明待匹配语句中没有目标关键词组合。

由于已获得每个第一目标关键词关联的其他关键词,因此在待匹配语句中,如果具有关联关系的第一目标关键词同时存在,则说明待匹配语句中包括存在关联关系的目标关键词组合。

反之,如果待匹配语句中各第一目标关键词之间均不存在关联关系,或者待匹配语句中第一目标关键词的数量少于两个,则说明待匹配语句中不包括存在关联关系的目标关键词组合。

S504、将目标关键词组合加入待匹配语句的匹配结果列表。

在本公开实施例中,可以直接将目标关键词组合加入待匹配语句的匹配结果列表。

另一种实现方式中,由于目标关键词的类型还可以包括敏感词类型,因此可以将每个目标关键词组合与该目标关键词组合中各目标关键词的敏感词类型,对应加入匹配结果列表。即本公开实施例不仅可以查找到待匹配语句包括的目标关键词组合,还可以获取目标关键词组合中目标关键词的敏感词类型,使得查找结果更丰富。

由于存在多个关键词同时出现才影响语句敏感性的情况,因此相比于在待匹配语句中独立查找是否包括每个关键词,本公开实施例可以查找待匹配语句中是否包括存在关联关系的目标关键词组合,因此能够实现更为复杂的关键词查找,使得确定的查找结果更准确。

在本公开实施例中,在字典树中查找到的各目标关键词中,除了存在与其他关键词存在关联关系的目标关键词之外,还可能存在不与其他关键词存在关联关系的目标关键词。即,还可能存在单独出现即可影响语句敏感性的关键词。

因此针对这部分目标关键词,在确定匹配结果时,本公开实施例还可以从筛选出的各目标关键词中,确定满足第二指定条件的第二目标关键词,将第二目标关键词加入匹配结果列表。

其中,第二指定条件包括:目标关键词的关系属性表示目标关键词不与其他关键词存在关联关系。

利用第二指定条件,本公开实施例可以从指定业务类型的各目标关键词中,筛选出在语句中单独出现就能影响语句敏感性的第二目标关键词,丰富了关键词查找的方式,也提高了关键词查找的准确性。

在本公开实施例中,目标关键词的类型还可以包括:敏感词类型。在此基础上,将第二目标关键词加入匹配结果列表时,可以将每个第二目标关键词和该第二目标关键词的敏感词类型,对应加入匹配结果列表。

本公开实施例不仅可以查找到待匹配语句包括的第二目标关键词,还可以获取第二目标关键词的敏感词类型,使得查找结果更丰富。

在本公开实施例中,上述S503中基于各第一目标关键词和其他关键词,确定待匹配语句中是否包括存在关联关系的目标关键词组合的方式,可以实现为:确定各第一目标关键词是否均处于关键词列表中。其中,关键词列表包括:S502获取的其他关键词。

若是,则确定待匹配语句中包括目标关键词组合。

若否,则确定待匹配语句中不包括目标关键词组合。

将第一目标关键词记为key,将各其他关键词组成的关键词列表记为key_list。例如,预设词表包括:AA&BB,CC&DD。假设第一目标关键词为AA、BB,即key1=AA,key2=BB,与AA存在关联关系的关键词为BB,与BB存在关联关系的关键词为AA,因此key_list包括AA和BB。由于key1和key2均处于key_list中,因此确定AA和BB为目标关键词组合,即待匹配语句中包括目标关键词组合。

同理,假设第一目标关键词为AA、CC,即key1=AA,key2=CC,与AA存在关联关系的关键词为BB,与CC存在关联关系的关键词为DD,因此key_list包括BB和DD。由于key1和key2均不处于key_list中,因此确定待匹配语句中不包括目标关键词组合。

又例如,预设词表包括:AA&BB,AA&CC,CC&DD。假设第一目标关键词为AA、CC,即key1=AA,key2=CC,与AA存在关联关系的关键词为BB和CC,与CC存在关联关系的关键词为AA和DD,因此key_list包括AA、BB、CC和DD。由于key1和key2均处于key_list中,因此确定确定AA和CC为目标关键词组合,即待匹配语句中包括目标关键词组合。

通过上述方法,本公开实施例可以实现确定待匹配语句中是否存在目标关键词组合,从而丰富了关键词查找的方式,使得关键词查找的结果更准确,适用于基于复杂词表的查找场景。

以下结合一个实例,对本公开实施例从字典树中查找关键词的方式进行说明:

假设待匹配语句为:abcdefghij,字典树如图3的右图所示。

记当前字符为key,当前节点为node。置key=a,node=根节点的子节点。

查找到节点1包括的字符为key,且节点1不是关键词节点,则置node=节点1的子节点,置key=b。

查找到节点2包括的字符为key,且节点2不是关键词节点,则置node=节点2的子节点,置key=c。

查找到节点3包括的字符为key,且节点3是关键词节点,将根节点到节点3的路径作为一条目标路径,将目标路径表示的关键词,即abc,作为目标关键词。置node=节点3的子节点,置key=d。

查找到节点5包括的字符为key,且节点5是关键词节点,将根节点到节点5的路径作为一条目标路径,将目标路径表示的关键词,即abcd,作为目标关键词。之后置node=根节点的子节点,置key=e。

之后按照同样的方式,查找到目标关键词b、efg和h。即得到的各目标关键词为:abc、abcd、b、efg和h。结合各关键词匹配的关键词节点的配置信息,得到[KEY,key_type,sensitive_type,key_list]。

假设abc和efg的业务类型均为语音识别,abcd、b和h的业务类型为OCR,且指定业务类型为语音识别,则筛选出abc和efg。

假设与abc存在关联关系的关键词为efg,与efg存在关联关系的关键词为abc,则key_list包括abc和efg。筛选出的abc和efg均处于key_list中,因此将abc和efg,以及abc和efg各自的敏感词类型,加入匹配结果列表。

传统直接使用词表中的每个关键词匹配文本的方法中,假设词表中关键词数量N=10万,待匹配的文本长度L=20,则该匹配方式的时间复杂度为:O(N*L/2)。

而本公开实施例中,基于字典树进行关键词查找,假设字典树的平均树深度D=10,待匹配语句的平均长度L=10,则本公开实施例提供的查找方式的时间复杂度为:O(L*D)。本公开实施例基于字典树查找关键词,能够利用各关键词的公共前缀来减少查询时间,最大限度地减少无谓的字符比较,加快了关键词匹配速度。

而且,由于本公开实施例能够减少无谓的字符比较,因此字典树的规模对关键词查找的速度影响较小。所以本公开实施例可以允许字典树中存储有大量的关键词,从而应对实际业务中同种含义的词语的多种变换形式,提高关键词匹配的泛化能力。例如,“陷阱”、“陷井”和“馅阱”虽然形式不同,但含义均为“陷阱”,因此为了提高召回率,可以将这三个关键词均添加到字典树中。

本公开的技术方案中,所涉及的待匹配文本和预设词表的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。

需要说明的是,本公开实施例中的待匹配文本可以来自于公开数据集或者已被授权的数据集。

基于相同的发明构思,本公开实施例还提供了一种关键词查找装置,如图6所示,该装置包括:获取模块601、查找模块602和确定模块603;

获取模块601,用于获取待匹配语句和字典树,字典树包括根节点、多个关键词节点和多个中间节点,每个关键词节点包括预设词表中的一个关键词的最后一个字符,从根节点至该关键词节点的路径中,各中间节点依次包括该关键词中第一个字符至倒数第二个字符;

查找模块602,用于按照从根节点到关键词节点的顺序,查找与待匹配语句包括的词语匹配的目标路径,目标路径中各中间节点以及目标关键词节点包括的字符组成待匹配语句包括的一个词语,目标关键词节点为关键词节点且为目标路径中的最后一个节点;

确定模块603,用于根据目标路径表示的目标关键词和目标关键词节点包括的配置信息,确定待匹配语句的匹配结果,配置信息包括:目标关键词的类型。

在本公开的一个实施例中,其中,查找模块602,具体用于:

将待匹配语句包括的第一个字符作为当前字符,并将根节点的子节点作为当前节点,判断当前节点包括的字符是否与当前字符相同;

若不同,则将当前字符的下一个字符作为当前字符,将根节点的子节点作为当前节点,并返回判断当前节点包括的字符是否与当前字符相同的步骤;

若相同,则判断当前节点是否为关键词节点;

若当前节点为关键词节点,则将根节点至当前节点之间的路径作为一条目标路径,将当前字符的下一个字符作为当前字符,将当前节点的子节点作为当前节点,并判断当前节点包括的字符是否为当前字符;

若当前节点不为关键词节点,则将当前节点的子节点作为当前节点,将当前字符的下一个字符作为当前字符,并判断当前节点包括的字符是否为当前字符;

若当前节点包括的字符是当前字符,则返回判断当前节点是否为关键词节点的步骤;

若当前节点包括的字符不是当前字符,则将上一次查找到的关键词节点包括的字符在待匹配语句中的下一个字符作为当前字符,将根节点的子节点作为当前节点,并返回判断当前节点包括的字符是否与当前字符相同的步骤。

在本公开的一个实施例中,其中,目标关键词的类型包括业务类型;确定模块603,具体用于:

筛选业务类型为指定业务类型的目标关键词;

基于筛选出的目标关键词,得到待匹配语句的匹配结果。

在本公开的一个实施例中,其中,配置信息还包括目标关键词的关系属性,关系属性表示目标关键词是否与其他关键词存在关联关系;确定模块603,具体用于:

从筛选出的目标关键词中,确定满足第一指定条件的第一目标关键词,第一指定条件包括:目标关键词的关系属性表示目标关键词与其他关键词存在关联关系;

获取与每个第一目标关键词存在关联关系的其他关键词;

基于各第一目标关键词和其他关键词,确定待匹配语句中是否包括存在关联关系的目标关键词组合;

若是,则将目标关键词组合加入待匹配语句的匹配结果列表。

在本公开的一个实施例中,其中,确定模块603,具体用于:

根据各关键词之间的预设关联关系,获取与每个第一目标关键词存在关联关系的其他关键词。

在本公开的一个实施例中,该装置还可以包括:

筛选模块,用于在筛选业务类型为指定业务类型的目标关键词之后,从筛选出的各目标关键词中,确定满足第二指定条件的第二目标关键词,第二指定条件包括:目标关键词的关系属性表示目标关键词不与其他关键词存在关联关系;

添加模块,用于将第二目标关键词加入匹配结果列表。

在本公开的一个实施例中,其中,确定模块603,具体用于:

确定各第一目标关键词是否均处于关键词列表中,关键词列表包括其他关键词;

若是,则确定待匹配语句中包括目标关键词组合;

若否,则确定待匹配语句中不包括目标关键词组合。

在本公开的一个实施例中,其中,目标关键词的类型还包括:敏感词类型;确定模块603,具体用于:

将每个目标关键词组合与该目标关键词组合中各目标关键词的敏感词类型,对应加入匹配结果列表。

在本公开的一个实施例中,其中,目标关键词的类型还包括:敏感词类型;添加模块,具体用于:

将每个第二目标关键词和该第二目标关键词的敏感词类型,对应加入匹配结果列表。

在本公开的一个实施例中,该装置还可以包括构建模块,构建模块,用于:

获取预设词表;

针对预设词表包括的每个关键词,将该关键词包括的第一个字符作为当前字符,将字典树的根节点作为当前节点,查找当前节点的子节点中是否存在目标子节点,目标子节点包括的字符为当前字符;

若存在,则判断当前字符是否为该关键词的最后一个字符;

若不存在,则为当前节点新增一个子节点作为目标子节点,设置目标子节点包括的字符为当前字符,并判断当前字符是否为该关键词的最后一个字符;

若当前字符是该关键词的最后一个字符,则将该关键词的关键词信息,作为当前节点的配置信息,关键词信息包括关键词的类型;

若当前字符不是该关键词的最后一个字符,则将目标子节点作为当前节点,将当前字符的下一个字符作为当前字符,并返回查找当前节点的子节点中是否存在目标子节点的步骤。

在本公开的一个实施例中,其中,获取模块601,具体用于:

获取待匹配文本;

基于待匹配文本中的指定标点符号,对待匹配文本进行分割,得到至少一条待匹配语句。

根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图7示出了可以用来实施本公开的实施例的示例电子设备700的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图7所示,电子设备700包括计算单元701,其可以根据存储在只读存储器(ROM)702中的计算机程序或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序,来执行各种适当的动作和处理。在RAM 703中,还可存储电子设备700操作所需的各种程序和数据。计算单元701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

电子设备700中的多个部件连接至I/O接口705,包括:输入单元706,例如键盘、鼠标等;输出单元707,例如各种类型的显示器、扬声器等;存储单元708,例如磁盘、光盘等;以及通信单元709,例如网卡、调制解调器、无线通信收发机等。通信单元709允许电子设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理,例如关键词查找方法。例如,在一些实施例中,关键词查找方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元708。在一些实施例中,计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到电子设备700上。当计算机程序加载到RAM 703并由计算单元701执行时,可以执行上文描述的关键词查找方法的一个或多个步骤。备选地,在其他实施例中,计算单元701可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行关键词查找方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。

应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。

上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

技术分类

06120116556416