掌桥专利:专业的专利平台
掌桥专利
首页

技术领域

本申请涉及计算机技术领域,具体而言,涉及一种字符串的处理方法、装置及设备。

背景技术

在中文的文本反垃圾处理场景中,一个具有挑战的任务即是解决文本变异问题。通常变异可分为四种:同音/近音变异,例如:“加微信”——>“加薇信”;字形变异,例如:“习相近”——>“刁相近”;拆字变异,例如:“原味丝袜”——>“原口未丝袜";干扰变异,例如:"加微信"——>“加--微--信”;其中,同音/近音变异、字形变异在垃圾短信、电商平台垃圾评价等业务中出现十分频繁。

由于反垃圾场景对时效性要求很高,需要快速识别并拦截,因此有必要设计一种高效的检测文本变异的技术方案。

针对上述的问题,目前尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种字符串的处理方法、装置及设备,以至少解决现有技术在文本反垃圾任务中无法实现有效检测文本变异的技术问题。

根据本申请实施例的一个方面,提供了一种字符串的处理方法,包括:获取待匹配字符串;将上述待匹配字符串与预设数据结构进行匹配处理,得到匹配结果,其中,上述预设数据结构是由多个待匹配的关键词构建的树状结构;基于上述匹配结果;基于上述匹配结果,判断上述待匹配字符串是否为待拦截的异常信息。

根据本申请实施例的另一方面,还提供了一种字符串的处理装置,包括:获取模块,用于获取待匹配字符串;匹配模块,用于将上述待匹配字符串与预设数据结构进行匹配处理,得到匹配结果,其中,上述预设数据结构是由多个待匹配的关键词构建的树状结构;基于上述匹配结果;判断模块,用于基于上述匹配结果,判断上述待匹配字符串是否为待拦截的异常信息。

根据本申请实施例的另一方面,还提供了一种存储介质,上述存储介质包括存储的程序,其中,在上述程序运行时控制上述存储介质所在设备执行任意一项上述的字符串的处理方法。

根据本申请实施例的另一方面,还提供了一种字符串的处理设备,包括:处理器;以及存储器,与上述处理器连接,用于为上述处理器提供处理以下处理步骤的指令:获取待匹配字符串;将上述待匹配字符串与预设数据结构进行匹配处理,得到匹配结果,其中,上述预设数据结构是由多个待匹配的关键词构建的树状结构;基于上述匹配结果;基于上述匹配结果,判断上述待匹配字符串是否为待拦截的异常信息。

在本申请实施例中,通过获取待匹配字符串;将上述待匹配字符串与预设数据结构进行匹配处理,得到匹配结果;基于上述匹配结果,判断上述待匹配字符串是否为待拦截的异常信息。

容易注意到的是,本申请实施例通过提供一种高效的预设数据结构,将获取到的待匹配字符串与预设数据结构进行匹配处理,得到匹配结果,进而可以基于上述匹配结果,判断上述待匹配字符串是否为待拦截的异常信息。

由此,本申请实施例达到了在文本反垃圾任务中实现有效检测文本异常信息的目的,从而实现了提高文本反垃圾任务中拦截异常信息的效率的技术效果,进而解决了现有技术在文本反垃圾任务中无法实现有效检测文本变异的技术问题。

附图说明

此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:

图1是根据本申请实施例的一种用于实现字符串的处理方法的计算机终端(或移动设备)的硬件结构框图;

图2是根据本申请实施例的一种字符串的处理方法的流程图;

图3是根据本申请实施例的一种可选的汉字异构图的示意图;

图4是根据本发明实施例的一种字符串的处理装置的结构示意图;

图5是根据本发明实施例的一种字符串的处理设备的结构示意图;

图6是根据本申请实施例的另一种计算机终端的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。

需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先,在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释:

字典树(Trie):是一种特别的树状信息检索数据结构,它的构成就像一本字典,可以让快速的进行字符插入、字符串搜索等。字典树利用了字符串的共同前缀(CommonPrefix)作为存储依据,以此来节省存储空间,并加速搜索时间

异构图:又称异构信息网络,是一种图结构,通常异构图包含一种以上的节点类型,以及一种以上的边类型。相对的,同构图只包含一种类型的节点,一种类型的边。

郑码:一种汉字形码,与五笔类似,但郑码在编码上相对五笔更有规律和逻辑。

实施例1

根据本申请实施例,提供了一种字符串的处理方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。

本申请实施例1所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于实现字符串的处理方法的计算机终端(或移动设备)的硬件结构框图,如图1所示,计算机终端10(或移动设备10)可以包括一个或多个(图中采用102a、102b,……,102n来示出)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输模块106。除此以外,还可以包括:显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为BUS总线的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,计算机终端10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。

应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外,数据处理电路可为单个独立的处理模块,或全部或部分的结合到计算机终端10(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的,该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。

存储器104可用于存储应用软件的软件程序以及模块,如本申请实施例中的字符串的处理方法对应的程序指令/数据存储装置,处理器102通过运行存储在存储器104内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的字符串的处理方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。

显示器可以例如触摸屏式的液晶显示器(LCD),该液晶显示器可使得用户能够与计算机终端10(或移动设备)的用户界面进行交互。

在上述运行环境下,本申请提供了如图2所示的一种字符串的处理方法,图2是根据本申请实施例的一种字符串的处理方法的流程图,如图2所示,该字符串的处理方法包括:

步骤S202,获取待匹配字符串;

步骤S204,将上述待匹配字符串与预设数据结构进行匹配处理,得到匹配结果,其中,上述预设数据结构是由多个待匹配的关键词构建的树状结构;基于上述匹配结果;

步骤S206,基于上述匹配结果,判断上述待匹配字符串是否为待拦截的异常信息。

在本申请实施例中,通过获取待匹配字符串;将上述待匹配字符串与预设数据结构进行匹配处理,得到匹配结果,其中,上述预设数据结构是由多个待匹配的关键词构建的树状结构;基于上述匹配结果;基于上述匹配结果,判断上述待匹配字符串是否为待拦截的异常信息。

容易注意到的是,本申请实施例通过提供一种高效的预设数据结构,将获取到的待匹配字符串与预设数据结构进行匹配处理,得到匹配结果,进而可以基于上述匹配结果,判断上述待匹配字符串是否为待拦截的异常信息。

由此,本申请实施例达到了在文本反垃圾任务中实现有效检测文本异常信息的目的,从而实现了提高文本反垃圾任务中拦截异常信息的效率的技术效果,进而解决了现有技术在文本反垃圾任务中无法实现有效检测文本变异的技术问题。

本申请实施例提出的上述字符串的处理方法,其主要涉及一种汉字字符串近似快速匹配算法,不仅可以应用于垃圾短信、电商平台垃圾评价等文本反垃圾场景,也可以用于拼写纠错、改写等涉及到汉字变异的场景中,或者应用于云盾安全产品、语音通信产品中。

在一种可选的实施例中,可以为线上短信、电商平台的垃圾评价中获取上述待匹配字符串;上述预设数据结构是由上述多个待匹配的关键词构建的字典树。

本申请实施例通过提供一种高效的预设数据结构,可以但不限于用于检测某一文本中是否包含垃圾关键词的“同音/近音变异”和“字形变异”,例如,在线上短信场景下,需要对线上短信进行快速判断是否命中关键词库的变异,若线上短信的具体内容为:“[XXX]龙唬大战,三张牌,快快来玩,点击送体验金”;关键词库中的词汇内容为“龙虎大战”、“龙魂娱乐”等等,则该可以确定该线上短信中存在关键词库的词汇变异内容,则该线上短信为待拦截的异常信息。

在一种可选的实施例中,将上述待匹配字符串与上述预设数据结构进行匹配处理,得到上述匹配结果包括:

步骤S302,将上述待匹配字符串中每个字符与上述预设数据结构中的待比对字符集合逐一进行近似匹配,得到上述匹配结果。

在上述可选的实施例中,上述待比对字符集合包括:上述预设数据结构中单个节点所包含字符以及与上述字符关联的多个近似字符。可选的,该多个近似字符可以为汉字邻居字典HCND(Han Character Neighborhood Dict)。

作为一种可选的实施例,可以针对汉字字典树进行文本近似匹配,若上述待匹配字符串为S,则可以从待匹配字符串S的第一个字符开始,将每个字符与预设数据结构(例如,汉字字典树T)的待比对字符集合逐一进行近似匹配,得到匹配结果。

在一种可选的实施例中,将上述待匹配字符串中每个字符与上述待比对字符集合逐一进行近似匹配,得到上述匹配结果包括:

步骤S402,从上述待匹配字符串获取当前待匹配字符;

步骤S404,确定上述当前待匹配字符位于上述待比对字符集合中;

步骤S406,当上述待匹配字符串存在尚未匹配字符以及上述预设数据结构中存在尚未比对的节点时,继续将上述当前待匹配字符相邻的下一个待匹配字符与下一个待比对字符集合进行近似匹配,直至上述待匹配字符串已不存在尚未匹配字符或者上述预设数据结构中已不存在尚未比对的节点,得到上述匹配结果。

在上述可选的实施例中,假设汉字字典树T的根节点在汉字邻居字典HCND的邻居集合为Tn,如果待匹配字符串S的当前待匹配字符存在上述邻居集合Tn中,则确定待匹配字符串与预设数据结构匹配成功,如果待匹配字符串S的当前待匹配字符不存在上述邻居集合Tn中,则确定待匹配字符串与预设数据结构匹配失败。

在上述可选的实施例,对待匹配字符串S和汉字字典树T进行节点跳转,其中,待匹配字符串S的待匹配字符往后移动一位,汉字字典树T的待匹配节点跳转到当前节点命中S的子节点,继续匹配逻辑。如果匹配失败,则返回构建汉字异构图,如果匹配成功则重复计算汉字邻居距离,最后得到距离和值。如果当前待匹配字符相邻的下一个待匹配字符与下一个待比对字符集合进行近似匹配,直至待匹配字符串已不存在尚未匹配字符或者预设数据结构中已不存在尚未比对的节点,得到匹配结果。并通过判断待匹配字符串当前是否处于匹配状态,如果是,则构建汉字改进字典树,如果否则确定匹配失败,并构建汉字异构图。

在上述可选的实施例中,可以根据待匹配的关键词表重新构建汉字改进字典树,再执行将每个字符与汉字改进字典树的待比对字符集合逐一进行近似匹配,得到匹配结果。

作为一种可选的实施例,如果匹配成功,则计算该待匹配字符串中每个字符与预设数据结构中对应字符之间匹配路径的距离和值。

在一种可选的实施例中,基于上述匹配结果,判断上述待匹配字符串是否为上述待拦截的异常信息包括:

步骤S502,基于上述匹配结果,计算上述待匹配字符串中每个字符与上述预设数据结构中对应字符之间匹配路径的距离和值;

步骤S504,当上述距离和值小于或等于距离阈值时,确定上述待匹配字符串为上述待拦截的异常信息。

通过本申请实施例,若待匹配字符串中每个字符与上述预设数据结构中对应字符匹配成功,为了防止过度匹配造成信息误拦截,需要对待匹配字符串中每个字符与上述预设数据结构中对应字符之间匹配路径的距离进行加和,得到距离和值。

在一种可选的实施例中,以接收到一条线上短信为“佳我威信”为例,则即上述待匹配字符串为“佳我威信”,将该待匹配字符串“佳我威信”与预设数据结构待比对字符集合逐一进行近似匹配,若该待匹配字符串“佳我威信”与待比对字符集合中的一个字符“加我微信”匹配成功,则分别计算汉字“加”和“佳”之间匹配路径的距离、“我”和“我”之间匹配路径的距离、“威”和“微”之间匹配路径的距离、“信”和“信”之间匹配路径的距离,并将上述四段距离相加求和,得到距离和值。

在上述可选的实施例中,当上述距离和值小于或等于距离阈值时,确定上述待匹配字符串为上述待拦截的异常信息。

在一种可选的实施例中,基于上述匹配结果,判断上述待匹配字符串是否为上述待拦截的异常信息包括:

步骤S602,基于上述匹配结果,计算上述待匹配字符串中每个字符与上述预设数据结构中对应字符之间匹配路径的距离和值;

步骤S604,当上述距离和值大于距离阈值时,确定上述待匹配字符串并非为上述待拦截的异常信息。

通过本申请实施例,若待匹配字符串中每个字符与上述预设数据结构中对应字符匹配成功,为了防止过度匹配造成信息误拦截,需要对待匹配字符串中每个字符与上述预设数据结构中对应字符之间匹配路径的距离进行加和,得到距离和值。

在上述可选的实施例中,当上述距离和值大于距离阈值时,确定上述待匹配字符串并非为上述待拦截的异常信息。

在一种可选的实施例中,上述方法还包括:

步骤S702,构建异构图,其中,上述异构图用于描述相近似字符之间的编码关系;

步骤S704,在上述异构图中搜索与上述字符关联的上述多个近似字符。

在上述可选的实施例中,上述异构图可以但不限于为汉字异构图,以该异构图为汉字异构图为例,则可以通过获得新华字典提供的汉字列表中的所有或多个汉字,根据新华字典提供的预设应用程序接口,将每个汉字分别转化为五笔编码、郑码编码、四角码编码、笔顺编码中的全部或部分编码,得到编码结果,并通过计算上述多个汉字中每两个汉字的编码结果之间的编辑距离,确定上述异构图。

在一种可选的实施例中,构建上述异构图包括:

步骤S802,调用预设应用程序接口,获取多个初始字符;

步骤S804,对上述多个初始字符中每个初始字符进行多种类型编码处理,得到编码结果,其中,上述编码结果包括:每个初始字符在每种类型编码下对应的字符编码;

步骤S806,计算上述多个初始字符中每两个初始字符的编码结果之间的编辑距离,确定上述异构图。

可选的,上述多个初始字符即为新华字典提供的多个汉字。

在一种可选的实施例中,上述多种类型编码处理包括以下部分或全部编码:五笔编码、郑码编码、四角码编码、笔顺编码。

例如,以汉字“科”为例,该汉字“科”的各种编码,可以为如下所示:tufh(五笔)、mfte(郑码)、24600(四角码)、撇横竖撇点点点横竖(笔顺)。

以图3所示的汉字异构图为例,汉字“未”与汉字“微”为拼音形近字、汉字“未”与汉字“末”为笔顺形近字、汉字“未”与汉字“味”为郑码形近字。

通过本申请实施例,计算多个初始字符中每两个初始字符的编码结果之间的编辑距离,可以有效保证异构图的稀疏性,对每一种编码结果只保留1%距离最短的边(即认为只有1%的汉字对是形近字)。

在一种可选的实施例中,在上述异构图中搜索与上述字符关联的上述多个近似字符包括:

步骤S602,设置多种类型编码中每种类型编码的先验系数,以及宽度优先搜索方式的搜索阶数;

步骤S604,基于每种类型编码的先验系数和上述宽度优先搜索方式的搜索阶数,采用上述宽度优先搜索方式从上述异构图中搜索与上述字符关联的上述多个近似字符。

作为一种可选的实施例,本申请实施例可以预先设置拼音、笔顺、郑码、四角码这几种类型编码的距离先验系数,例如,可以默认都为1,并还可以根据线上匹配效果对该距离先验系数进行动态调整;作为另一种可选的实施例,还可以设置宽度优先搜索方式的搜索阶数,例如,本申请实施例中可以将该宽度优先搜索方式的搜索阶数设置为4,即最多只搜索异构图上的4阶邻居。

在本申请一种可选的实施例中,通过根据宽度优先搜索(BFS)计算每个汉字和其相近的汉字,以及在距离先验系数为1的情况下,计算每个汉字与其相近的汉字的编码结果之间的编辑距离,例如,汉字“虎”与汉字“唬”的编辑距离为1,汉字“虎”与汉字“琥”的编辑距离为1;汉字“味”与汉字“未”的编辑距离为1,汉字“味”与汉字“末”的编辑距离为2;汉字“蒋”与汉字“将”的编辑距离为1,汉字“蒋”与汉字“讲”的编辑距离为1;并采用上述宽度优先搜索方式从上述异构图中搜索与上述字符关联的上述多个近似字符,最终得到汉字邻居字典HCND。

需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例的方法。

实施例2

根据本申请实施例,还提供了一种用于实施上述字符串的处理方法的字符串的处理装置实施例,图4是根据本发明实施例的一种字符串的处理装置的结构示意图,如图4所示,该装置包括:获取模块400、匹配模块402和判断模块404,其中:

获取模块400,用于获取待匹配字符串;匹配模块402,用于将上述待匹配字符串与预设数据结构进行匹配处理,得到匹配结果,其中,上述预设数据结构是由多个待匹配的关键词构建的树状结构;基于上述匹配结果;判断模块404,用于基于上述匹配结果,判断上述待匹配字符串是否为待拦截的异常信息。

在本申请实施例中,通过获取待匹配字符串;将上述待匹配字符串与预设数据结构进行匹配处理,得到匹配结果,其中,上述预设数据结构是由多个待匹配的关键词构建的树状结构;基于上述匹配结果;基于上述匹配结果,判断上述待匹配字符串是否为待拦截的异常信息。

容易注意到的是,本申请实施例通过提供一种高效的预设数据结构,将获取到的待匹配字符串与预设数据结构进行匹配处理,得到匹配结果,进而可以基于上述匹配结果,判断上述待匹配字符串是否为待拦截的异常信息。

由此,本申请实施例达到了在文本反垃圾任务中实现有效检测文本异常信息的目的,从而实现了提高文本反垃圾任务中拦截异常信息的效率的技术效果,进而解决了现有技术在文本反垃圾任务中无法实现有效检测文本变异的技术问题。

此处需要说明的是,上述获取模块400、匹配模块402和判断模块404对应于实施例1中的步骤S202至步骤S206,三个模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在实施例1提供的计算机终端10中。

需要说明的是,本实施例的优选实施方式可以参见实施例1中的相关描述,此处不再赘述。

实施例3

根据本申请实施例,还提供了一种字符串的处理设备的实施例,该字符串的处理设备可以是计算设备群中的任意一个计算设备。图5是根据本发明实施例的一种字符串的处理设备的结构示意图,如图5所示,该字符串的处理设备包括:处理器500和存储器502,其中:

存储器502,与上述处理器500连接,用于为上述处理器提供处理以下处理步骤的指令:获取待匹配字符串;将上述待匹配字符串与预设数据结构进行匹配处理,得到匹配结果,其中,上述预设数据结构是由多个待匹配的关键词构建的树状结构;基于上述匹配结果;基于上述匹配结果,判断上述待匹配字符串是否为待拦截的异常信息。

在本申请实施例中,通过获取待匹配字符串;将上述待匹配字符串与预设数据结构进行匹配处理,得到匹配结果,其中,上述预设数据结构是由多个待匹配的关键词构建的树状结构;基于上述匹配结果;基于上述匹配结果,判断上述待匹配字符串是否为待拦截的异常信息。

容易注意到的是,本申请实施例通过提供一种高效的预设数据结构,将获取到的待匹配字符串与预设数据结构进行匹配处理,得到匹配结果,进而可以基于上述匹配结果,判断上述待匹配字符串是否为待拦截的异常信息。

由此,本申请实施例达到了在文本反垃圾任务中实现有效检测文本异常信息的目的,从而实现了提高文本反垃圾任务中拦截异常信息的效率的技术效果,进而解决了现有技术在文本反垃圾任务中无法实现有效检测文本变异的技术问题。

需要说明的是,本实施例的优选实施方式可以参见实施例1中的相关描述,此处不再赘述。

实施例4

根据本申请的实施例,还提供了一种计算机终端的实施例,该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地,在本实施例中,上述计算机终端也可以替换为移动终端等终端设备。

可选地,在本实施例中,上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。

在本实施例中,上述计算机终端可以执行字符串的处理方法中以下步骤的程序代码:获取待匹配字符串;将上述待匹配字符串与预设数据结构进行匹配处理,得到匹配结果,其中,上述预设数据结构是由多个待匹配的关键词构建的树状结构;基于上述匹配结果,判断上述待匹配字符串是否为待拦截的异常信息。

可选地,图6是根据本申请实施例的另一种计算机终端的结构框图,如图6所示,该计算机终端可以包括:一个或多个(图中仅示出一个)处理器602、存储器604、以及外设接口606。

其中,存储器可用于存储软件程序以及模块,如本申请实施例中的字符串的处理方法和装置对应的程序指令/模块,处理器通过运行存储在存储器内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的字符串的处理方法。存储器可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:获取待匹配字符串;将上述待匹配字符串与预设数据结构进行匹配处理,得到匹配结果,其中,上述预设数据结构是由多个待匹配的关键词构建的树状结构;基于上述匹配结果;基于上述匹配结果,判断上述待匹配字符串是否为待拦截的异常信息。

可选的,上述处理器还可以执行如下步骤的程序代码:将上述待匹配字符串中每个字符与上述预设数据结构中的待比对字符集合逐一进行近似匹配,得到上述匹配结果,其中,上述待比对字符集合包括:上述预设数据结构中单个节点所包含字符以及与上述字符关联的多个近似字符。

可选的,上述处理器还可以执行如下步骤的程序代码:从上述待匹配字符串获取当前待匹配字符;确定上述当前待匹配字符位于上述待比对字符集合中;当上述待匹配字符串存在尚未匹配字符以及上述预设数据结构中存在尚未比对的节点时,继续将上述当前待匹配字符相邻的下一个待匹配字符与下一个待比对字符集合进行近似匹配,直至上述待匹配字符串已不存在尚未匹配字符或者上述预设数据结构中已不存在尚未比对的节点,得到上述匹配结果。

可选的,上述处理器还可以执行如下步骤的程序代码:基于上述匹配结果,计算上述待匹配字符串中每个字符与上述预设数据结构中对应字符之间匹配路径的距离和值;当上述距离和值小于或等于距离阈值时,确定上述待匹配字符串为上述待拦截的异常信息。

可选的,上述处理器还可以执行如下步骤的程序代码:基于上述匹配结果,计算上述待匹配字符串中每个字符与上述预设数据结构中对应字符之间匹配路径的距离和值;当上述距离和值大于距离阈值时,确定上述待匹配字符串并非为上述待拦截的异常信息。

可选的,上述处理器还可以执行如下步骤的程序代码:构建异构图,其中,上述异构图用于描述相近似字符之间的编码关系;在上述异构图中搜索与上述字符关联的上述多个近似字符。

可选的,上述处理器还可以执行如下步骤的程序代码:调用预设应用程序接口,获取多个初始字符;对上述多个初始字符中每个初始字符进行多种类型编码处理,得到编码结果,其中,上述编码结果包括:每个初始字符在每种类型编码下对应的字符编码;计算上述多个初始字符中每两个初始字符的编码结果之间的编辑距离,确定上述异构图。

可选的,上述处理器还可以执行如下步骤的程序代码:设置多种类型编码中每种类型编码的先验系数,以及宽度优先搜索方式的搜索阶数;基于每种类型编码的先验系数和上述宽度优先搜索方式的搜索阶数,采用上述宽度优先搜索方式从上述异构图中搜索与上述字符关联的上述多个近似字符。

采用本申请实施例,提供了一种字符串的处理的方案。在本申请实施例中,通过获取待匹配字符串;将上述待匹配字符串与预设数据结构进行匹配处理,得到匹配结果,其中,上述预设数据结构是由多个待匹配的关键词构建的树状结构;基于上述匹配结果;基于上述匹配结果,判断上述待匹配字符串是否为待拦截的异常信息。

容易注意到的是,本申请实施例通过提供一种高效的预设数据结构,将获取到的待匹配字符串与预设数据结构进行匹配处理,得到匹配结果,进而可以基于上述匹配结果,判断上述待匹配字符串是否为待拦截的异常信息。

由此,本申请实施例达到了在文本反垃圾任务中实现有效检测文本异常信息的目的,从而实现了提高文本反垃圾任务中拦截异常信息的效率的技术效果,进而解决了现有技术在文本反垃圾任务中无法实现有效检测文本变异的技术问题。

本领域普通技术人员可以理解,图6所示的结构仅为示意,计算机终端也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌声电脑以及移动互联网设备(MobileInternet Devices,MID)、PAD等终端设备。图6其并不对上述电子装置的结构造成限定。例如,计算机终端还可包括比图6中所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图6所示不同的配置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(RandomAccess Memory,RAM)、磁盘或光盘等。

实施例5

根据本申请的实施例,还提供了一种存储介质的实施例。可选地,在本实施例中,上述存储介质可以用于保存上述实施例所提供的字符串的处理方法所执行的程序代码。

可选地,在本实施例中,上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中,或者位于移动终端群中的任意一个移动终端中。

可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:获取待匹配字符串;将上述待匹配字符串与预设数据结构进行匹配处理,得到匹配结果,其中,上述预设数据结构是由多个待匹配的关键词构建的树状结构;基于上述匹配结果;基于上述匹配结果,判断上述待匹配字符串是否为待拦截的异常信息。

可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:将上述待匹配字符串中每个字符与上述预设数据结构中的待比对字符集合逐一进行近似匹配,得到上述匹配结果,其中,上述待比对字符集合包括:上述预设数据结构中单个节点所包含字符以及与上述字符关联的多个近似字符。

可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:从上述待匹配字符串获取当前待匹配字符;确定上述当前待匹配字符位于上述待比对字符集合中;当上述待匹配字符串存在尚未匹配字符以及上述预设数据结构中存在尚未比对的节点时,继续将上述当前待匹配字符相邻的下一个待匹配字符与下一个待比对字符集合进行近似匹配,直至上述待匹配字符串已不存在尚未匹配字符或者上述预设数据结构中已不存在尚未比对的节点,得到上述匹配结果。

可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:基于上述匹配结果,计算上述待匹配字符串中每个字符与上述预设数据结构中对应字符之间匹配路径的距离和值;当上述距离和值小于或等于距离阈值时,确定上述待匹配字符串为上述待拦截的异常信息。

可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:基于上述匹配结果,计算上述待匹配字符串中每个字符与上述预设数据结构中对应字符之间匹配路径的距离和值;当上述距离和值大于距离阈值时,确定上述待匹配字符串并非为上述待拦截的异常信息。

可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:构建异构图,其中,上述异构图用于描述相近似字符之间的编码关系;在上述异构图中搜索与上述字符关联的上述多个近似字符。

可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:调用预设应用程序接口,获取多个初始字符;对上述多个初始字符中每个初始字符进行多种类型编码处理,得到编码结果,其中,上述编码结果包括:每个初始字符在每种类型编码下对应的字符编码;计算上述多个初始字符中每两个初始字符的编码结果之间的编辑距离,确定上述异构图。

可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:设置多种类型编码中每种类型编码的先验系数,以及宽度优先搜索方式的搜索阶数;基于每种类型编码的先验系数和上述宽度优先搜索方式的搜索阶数,采用上述宽度优先搜索方式从上述异构图中搜索与上述字符关联的上述多个近似字符。

上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。

在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

相关技术
  • 字符串处理装置、字符串处理方法和成像装置
  • 字符串处理装置、字符串处理方法和成像装置
技术分类

06120113678268