掌桥专利:专业的专利平台
掌桥专利
首页

文本内容的异常识别方法、装置、设备、介质及产品

文献发布时间:2024-04-18 20:00:25


文本内容的异常识别方法、装置、设备、介质及产品

技术领域

本申请涉及计算机技术领域,特别涉及一种文本内容的异常识别方法、装置、设备、介质及产品。

背景技术

内容在通过互联网平台进行发布时,平台往往会需要对待发布内容进行检测,以确定待发布内容是否符合规定,以避免违规内容被发布至平台中。

相关技术中,针对文本内容的违规识别中,常用的方法是基于分句的文本分类模型(TextCNN)来实现违规内容的识别。具体的,该方法包括:对文本按句进行切分,获得待判断的文本序列;利用预训练词向量对橘子进行编码;使用TextCNN对广告的每个橘子编码进行违规分类判断。

然而,在基于分句的TextCNN实现违规内容识别时,由于其使用的文本识别窗口长度固定,而如广告等内容中的违规语句长度变化大,使用固定长度窗口无法准确输出文本中的违规语句,因而存在识别准确度较低的问题。

发明内容

本申请实施例提供了一种文本内容的异常识别方法、装置、设备、介质及产品,提升了异常识别时的识别准确度。所述技术方案如下:

一方面,提供了一种文本内容的异常识别方法,所述方法包括:

获取目标文本内容的文本特征表示,所述目标文本内容是待进行异常识别的文本内容,所述目标文本内容中包括至少一个分字;

基于所述文本特征表示确定所述目标文本内容中每个分字对应的异常起点概率和异常终点概率,所述异常起点概率用于指示所述分字作为异常内容的起点位置的概率,所述异常终点概率用于指示所述分字作为所述异常内容的终点位置的概率;

响应于第一分字的异常起点概率和第二分字的所述异常终点概率满足异常匹配条件,将所述目标文本内容中所述第一分字和所述第二分字之间的内容确定为候选异常内容,并根据所述第一分字的异常起点概率和第二分字的异常终点概率共同确定所述候选异常内容对应的组合概率;

基于所述文本特征表示对所述目标文本内容的异常类型进行预测,得到所述目标文本内容对应的目标异常类型;

响应于确定所述目标文本内容存在至少一个组合概率达到异常阈值的候选异常内容,且所述目标异常类型与指定异常类型匹配,将所述目标文本内容判别为异常状态。

另一方面,提供了一种文本内容的异常识别装置,所述装置包括:

获取模块,用于获取目标文本内容的文本特征表示,所述目标文本内容是待进行异常识别的文本内容,所述目标文本内容中包括至少一个分字;

第一确定模块,用于基于所述文本特征表示确定所述目标文本内容中每个分字对应的异常起点概率和异常终点概率,所述异常起点概率用于指示所述分字作为异常内容的起点位置的概率,所述异常终点概率用于指示所述分字作为所述异常内容的终点位置的概率;

所述第一确定模块,还用于响应于第一分字的异常起点概率和第二分字的所述异常终点概率满足异常匹配条件,将所述目标文本内容中所述第一分字和所述第二分字之间的内容确定为候选异常内容,并根据所述第一分字的异常起点概率和第二分字的异常终点概率共同确定所述候选异常内容对应的组合概率;

第二确定模块,用于基于所述文本特征表示对所述目标文本内容的异常类型进行预测,得到所述目标文本内容对应的目标异常类型;

判别模块,用于响应于确定所述目标文本内容存在至少一个组合概率达到异常阈值的候选异常内容,且所述目标异常类型与指定异常类型匹配,将所述目标文本内容判别为异常状态。

另一方面,提供了一种计算机设备,所述终端包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现本申请实施例中任一所述的文本内容的异常识别方法。

另一方面,提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条程序代码,所述程序代码由处理器加载并执行以实现本申请实施例中任一所述的文本内容的异常识别方法。

另一方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例中任一所述的文本内容的异常识别方法。

本申请的提供的技术方案至少包括以下有益效果:

在需要对目标文本内容进行异常识别时,根据目标文本内容每个分字对应的异常起点概率和异常终点概率确定目标文本内容中所包括的候选异常内容,并对目标文本内容的异常类型进行识别,当确定目标文本内容中存在至少一个组合概率达到异常阈值的候选异常内容,且目标异常类型与指定异常类型匹配时,才将目标文本内容判别为异常状态。即,以分字为粒度对目标文本中的异常内容进行识别,同时根据目标文本内容中的异常内容以及根据目标文本内容整体确定的异常类型来共同判定目标文本内容是否处于异常状态,提升了异常识别时的识别准确度。

附图说明

为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本申请一个示例性实施例提供的实施环境的示意图;

图2是本申请一个示例性实施例提供的文本内容的异常识别方法的流程图;

图3是本申请一个示例性实施例提供的文本内容的编码方法的流程图;

图4是本申请一个示例性实施例提供的文本编码的流程图;

图5是本申请一个示例性实施例提供的编码过程的示意图;

图6是本申请一个示例性实施例提供的文本内容的异常识别方法的流程图;

图7是本申请一个示例性实施例提供的Transformer的结构示意图;

图8是本申请一个示例性实施例提供的异常起点位置和异常终点位置的标注示意图;

图9是本申请一个示例性实施例提供的文本内容的异常识别方法的流程图;

图10是本申请一个示例性实施例提供的文本内容的异常识别装置结构框图;

图11是本申请一个示例性实施例提供的文本内容的异常识别装置结构框图;

图12是本申请一个示例性实施例提供的服务器的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。

首先,对本申请实施例中涉及的名词进行简要介绍:

人工智能:是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。

机器学习(Machine Learning,ML):是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

结合上述名词解释,对本申请实施例的应用场景进行示意性说明,该图像的去模糊方法可以应用于以下任一场景:

第一种,该方法可以应用于文学阅读应用中对作者发布的作品进行审核场景中。示意性的,作者账号可以在文学阅读应用提供的平台上进行作品发布,读者账号可以通过文学阅读应用阅读平台提供的作品。

在作者账号通过文学阅读应用提供的平台进行作品发布时,待发布的作品需要经过违规审核。示意性的,服务器接收作者账号发送的作品内容,将上述作品内容作为目标文本内容输入至用于异常识别的功能模块,通过本申请实施例提供的文本内容的异常识别方法来判别作品内容是否为违规内容。当确定出作品内容存在违规内容时,向作者账号指示存在违规内容,上述作品内容无法发布至平台。

值得注意的是,本申请实施例提供的文本内容的异常识别方法也可以应用于上述读者账号进行评论发布时的违规审核中。

第二种,该方法可以应用于网页内容的审核场景中。示意性的,浏览器中的安全识别组件或独立安装的安全应用对指示打开的目标网页中的网页内容进行提取,将提取到的文本内容作为目标文本内容传输至服务器,由服务器将目标文本内容输入至异常识别的功能模块,通过本申请实施例提供的文本内容的异常识别方法来判别网页内容是否存在违规情况,若存在违规情况,则向终端返回提示信息,以对存在违规内容的网页进行预警。

第三种,该方法可以应用于车载场景下地图应用中的商户推荐场景中。示意性的,商户可以通过地图应用来投放商户广告,服务器根据商户投放的商户广告进行文本内容提取,得到目标文本内容,将目标文本内容输入至异常识别的功能模块,通过本申请实施例提供的文本内容的异常识别方法来判别商户广告是否存在违规情况,若是,则指示商户无法投放该商户广告,若否,则将商户广告载入至地图应用中。当用户通过车载设备对地图应用中的进行周围商户查询时,服务器获取与车载设备当前位置匹配的候选商户,并在对候选商户进行推荐时,展示候选商户对应的商户广告。

值得注意的是,本申请实施例提供的文本内容的异常识别方法还可以应用于其它场景中,在此仅以上述三种场景为例进行示意性说明,在此不对具体场景进行限定。

请参考图1,其示出了本申请一个示例性实施例提供的实施环境的示意图。该实施环境的计算机系统中包括:终端设备110、服务器120和通信网络130。

终端设备110包括手机、平板电脑、台式电脑、便携式笔记本电脑、智能语音交互设备、智能家电、车载终端、飞行器等多种形式的设备。示意性的,终端设备110中运行有目标应用,可选地,目标应用可以是浏览器应用、社交应用、地图应用、阅读应用、视频应用等,在此不进行具体限制。可选地,目标应用可以是传统应用软件,可以是云应用软件,可以实现为宿主应用程序中的小程序或应用模块,也可以是某个网页平台,在此不进行限定。

服务器120用于为目标应用提供后端服务,其中,上述后端服务中包括异常识别功能服务。

示意性的,以上述目标应用为浏览器应用为例,终端设备110中的目标应用将指示当前需要打开的目标网页的统一资源定位标志(uniform resource locator,URL)发送至服务器120,服务器120通过上述URL获取目标网页的网页内容,并对网页内容中的文本内容进行提取,得到目标文本内容,通过获取目标文本内容的文本特征表示,基于文本特征表示确定目标文本内容中每个分字对应的异常起点概率和异常终点概率,当第一分字的异常起点概率和第二分字的异常终点概率满足异常匹配条件时,将目标文本内容中第一分字和所述第二分字之间的内容确定为候选异常内容,基于文本特征表示对目标文本内容的异常类型进行预测,得到目标文本内容对应的目标异常类型,响应于确定目标文本内容存在满足第一异常条件的候选异常内容,且目标异常类型满足第二异常条件,将目标文本内容判别为异常状态,若目标文本内容不满足上述条件,将目标文本内容判别为正常状态。服务器120将目标文本内容的判别结果作为目标网页的判别结果,并将判别结果反馈至终端设备110。终端设备110在接收到目标网页的判别结果后,根据目标网页的判别结果进行目标网页的显示,例如,若判别结果指示目标网页处于异常状态,则先显示网页异常的提示信息,当用户在接收到提示信息后仍坚持访问目标网页,再对目标网页进行显示。

值得注意的是,上述服务器120可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云安全、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(ContentDelivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

其中,云技术(Cloud Technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。云技术基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源,如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用,将来每个物品都有可能存在自己的识别标志,都需要传输到后台系统进行逻辑处理,不同程度级别的数据将会分开处理,各类行业数据皆需要强大的系统后盾支撑,只能通过云计算来实现。

在一些实施例中,上述服务器120还可以实现为区块链系统中的节点。区块链(Blockchain)是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。

示意性的,终端设备110和服务器120之间通过通信网络130连接,其中,上述通信网络130可以是有线网络,也可以是无线网络,在此不进行限定。

请参考图2,其示出了本申请一个实施例示出的文本内容的异常识别方法,在本申请实施例中,以该方法应用于如图1所示的服务器中,该方法包括:

步骤201,获取目标文本内容的文本特征表示。

示意性的,目标文本内容是待进行异常识别的文本内容,上述目标文本内容中包括至少一个分字,即,目标文本内容由至少一个分字构成。

值得注意的是,本申请实施例涉及的“异常识别”可以指示对区别于指定内容的内容进行识别,例如,违规信息识别、敏感信息识别、特殊信息识别等。在本申请实施例中,以“异常识别”指示对违规内容的识别为例进行示意性说明。

可选地,上述目标文本内容可以是终端上传的,也可以是服务器从数据库读取的,还可以是服务器通过解析指定内容得到的。

在一个示例中,当目标文本内容是用户端发布的文章内容、评论内容时,服务器接收终端发送的内容发布请求,其中,内容发布请求中包括目标文本内容,服务器通过内容发布请求获取目标文本内容。

在另一个示例中,当目标文本内容是待访问的目标网页的内容时,以识别目标网页中的广告内容为例,服务器接收终端发送的目标网页的URL,通过URL获取目标网页中的网页内容,清除网页内容中的网页标记语言,得到候选内容,对候选内容进行推荐信息识别,将候选内容中用于内容推荐的文本确定为目标文本内容。可选地,上述网页标记语言可以是目标网页中的超文本标记语言(Hyper Text Markup Language,HTML)。

在另一个示例中,目标文本内容还可以是通过对视频内容、音频内容、图片内容等非文本内容进行文本提取得到的内容。例如,对视频内容或者音频内容进行语音转文字处理,得到目标文本内容,对图片内容进行光学字符识别(Optical Character Recognition,OCR),得到目标文本内容。可选地,上述视频内容、音频内容、图片内容可以是用户端上传的待发布内容,也可以是从数据库中读取的待审核内容。

示意性的,服务器在获取到目标文本内容后,对目标文本内容进行特征提取,得到目标文本内容的文本特征表示。在一些实施例中,服务器将目标文本内容输入至文本特征提取网络进行文本特征提取,得到文本特征表示。可选地,上述文本特征提取网络可以是卷积神经网络(Convolutional Neural Networks,CNN)、循环神经网络(Recurrent NeuralNetwork,RNN)、Transformer、残差网络(Residual Network,ResNet)、自编码器(Autoencoder,AE)等至少一种能够用于对文本特征进行提取的网络,在此不进行限定。

在一些实施例中,在获取目标文本内容对应的文本特征表示时,可以先对目标文本内容进行编码,将编码得到编码表示进行特征提取,以得到更能表征文本特征的文本特征表示。

可选地,可以根据目标文本内容的分字情况进行编码,即,针对目标文本内容中的每个分字进行编码,得到字向量编码表示,通过对字向量编码表示进行特征提取以得到目标文本内容的文本特征表示。

可选地,可以根据目标文本内容的分词情况进行编码,示意性的,目标文本内容中包括至少一个分词,针对目标文本中的每个分词进行编码,得到词向量编码表示,通过对词向量编码表示进行特征提取以得到目标文本内容的文本特征表示。

可选地,可以根据目标文本内容的分字情况和分词情况共同进行编码,示意性的,基于目标文本内容的分词情况和分字情况,获取目标文本内容对应的字词融合表示,对字词融合表示进行特征提取,得到目标文本内容对应的文本特征表示。

步骤202,基于文本特征表示确定目标文本内容中每个分字对应的异常起点概率和异常终点概率。

示意性的,上述异常起点概率用于指示分字作为异常内容的起点位置的概率,异常终点概率用于指示分字作为异常内容的终点位置的概率。上述异常内容用于指示文本内容中存在异常情况的内容,例如,存在违规语句、违规短语、违规词语等。

在一些实施例中,目标文本内容中各个分字对应的异常起点概率以及异常终点概率分别通过第一分类逻辑和第二分类逻辑来获取,即,通过第一分类逻辑获取各个分字的异常起点概率,通过第二分类逻辑获取各个分字的异常终点概率。

可选地,上述第一分类逻辑和第二分类逻辑可以实现为指定分类算法,也可以实现为通过神经网络实现的分类方式。

示意性的,上述指定分类算法可以指示将各个分字与预设异常词库中各个异常词对应的首字进行匹配,响应于目标分字在预设异常词库中存在至少一个首字匹配的异常词时,通过计算目标分字所在的句子或分词与匹配异常词之间的语义相似度,通过目标分字所在的句子或分词与所有匹配的异常词之间的语义相似度得到上述目标分字对应的异常起点概率,例如,当存在多个匹配的异常词时,将对应的语义相似度进行求均值,将平均相似度作为异常起点概率。针对异常终点概率,则可以是通过尾字匹配在确定,与异常起点概率的确定方式相同,在此不进行赘述。可选地,上述语义相似度可以通过计算特征之间的欧式距离、余弦距离、马氏距离、汉明距离等中的至少一种距离来确定。

示意性的,当通过神经网络实现上述第一分类逻辑和第二分类逻辑时,可以通过支持向量机(Support Vector Machine,SVM)、CNN、RNN、全连接神经网络(Fully ConnectedNeural Network)等中的至少一种用于分类的神经网络来实现。

在一些实施例中,当上述第一分类逻辑和第二分类逻辑时由神经网络实现时,第一分类逻辑对应第一分类网络,第二分类逻辑对应第二分类网络。可选地,第一分类网络和第二分类网络可以是协同训练的,也可以是分别训练的。示意性的,当第一分类网络和第二分类网络是协同训练时,可以通过多任务学习的方式对第一分类网络和第二分类网络进行联合训练,即,同时对上述第一分类网络和第二分类网络进行训练,训练过程中通过同一损失函数来对第一分类网络和第二分类网络进行网络参数调整。

步骤203,响应于第一分字的异常起点概率和第二分字的异常终点概率满足异常匹配条件,将目标文本内容中第一分字和第二分字之间的内容确定为候选异常内容,并根据第一分字的异常起点概率和第二分字的异常终点概率共同确定候选异常内容对应的组合概率。

示意性的,在确定候选异常内容的过程中,通过分字对应的异常起点概率和异常终点概率来确定。

示意性的,上述异常匹配条件指示根据分字之间的异常起点概率和异常终点概率判断分字是否是异常分字,并根据异常分字之间的内容来确定候选异常内容。

在一些实施例中,可以通过指定阈值来对分字的异常起点概率以及异常终点概率进行筛选。示意性的,响应于第i分字对应的异常起点概率达到第一阈值,将上述第i分字确定为第一分字;响应于第j分字对应的异常终点概率达到第二阈值,将上述第j分字确定为第二分字,其中,i和j为正整数。

示意性的,通过第一阈值和第二阈值对目标文本内容中的所有分字进行筛选后,可以得到第一分字集合和第二分字集合,其中,第一分字集合中的第一分字是可能存在的候选异常内容的起点分字,第二分字集合中的第二分字是可能存在的候选异常内容的终点分字。通过上述第一分字集合和第二分字集合中分字之间的关系即可确定出候选异常内容。

在一些实施例中,从第一分字集合中获取第一分字,其中,该第一分字是目标文本内容中的第i个分字,然后从第二分字集合中获取第二分字,其中,该第二分字是目标文本内容中的第j个分字。当根据第一分字和第二分字来确定候选异常内容时,可以根据第一分字和第二分字在目标文本内容中的位置是否符合异常内容的起始和终止点的关系,示意性的,当i<j时,则满足上述起始和终止点的关系,则可以通过第一分字和第二分字来构建候选异常内容。

示意性的,根据第一分字的异常概率和第二分字的异常概率共同确定出候选异常内容对应的组合概率,该组合概率用于指示候选异常内容的异常情况。

在一些实施例中,上述组合概率可以是通过第一分字的异常起点概率和第二分字的异常终点概率之积确定的,即,将第一分字的异常起点概率和第二分字的异常终点概率相乘,得到对应的候选异常内容的组合概率。可选地,也可以通过上述第一分字的异常起点概率和第二分字的异常终点概率之间的和、平均值等来确定组合概率。

在一些实施例中,根据起始和终止点的关系来判别第一分字和第二分字是否能构成候选异常内容时,最终可能得到多个候选异常内容,其中,多个候选异常内容中可能存在具有包含关系或相交关系的候选异常内容,例如,第一候选异常内容是第二候选异常内容的子集,或者,第一候选异常内容和第二候选异常内容存在相交内容。

在一些实施例中,针对存在包含关系和/或相交关系的多个候选异常内容,可以根据指定筛选方式对上述多个候选异常内容进行筛选。可选地,上述指定筛选方式可以是针对具有包含关系的多个候选异常内容中内容范围小的候选异常内容进行保留,或者,将内容范围大的候选异常内容进行保留;针对存在相交内容的多个候选异常内容,则可以通过比较上述存在相交关系的候选异常内容之间的内容范围,将内容范围小的候选异常内容进行保留,或者,将内容范围大的候选异常内容进行保留。

可选地,上述指定筛选方式还可以是根据候选异常内容对应的异常概率来进行筛选。示意性的,将多个存在包含关系和/或相交关系的候选异常内容中,组合概率最高的n个候选异常内容进行保留,n为正整数。

步骤204,基于文本特征表示对目标文本内容的异常类型进行预测,得到目标文本内容对应的目标异常类型。

可选地,异常类型可以用于指示目标文本内容是否是异常文本,当目标文本内容被判定为异常时,还可以针对存在的异常类别来确定细化的异常类型。例如,当目标文本内容被判定为正常时,则异常类型对应的输出为“正常文本”,当目标文本内容被判定为异常时,则异常类型对应的输出为“异常文本”,当目标文本内容被判定为“异常文本”类型时,还可以对目标文本内容对应的具体异常类型进行判断,例如,“色情类型”、“暴力类型”等。

在本申请实施例中,除了通过文本特征表示确定候选异常内容之外,还需要通过文本特征表示确定目标文本整体所对应的异常类型。示意性的,上述异常类型的判定可以通过第三分类逻辑实现。

可选地,上述第三分类逻辑可以实现为指定分类算法,也可以实现为通过神经网络实现的分类方式。

示意性的,上述指定分类算法可以指示将目标文本内容与预设异常词词库进行匹配,确定目标文本内容中存在与预设异常词词库中异常词匹配的词汇数量,然后通过上述匹配的词汇数量占整体目标文本内容的比例来确定目标文本内容时“正常文本”还是“异常文本”。在一个示例中,可以通过计算上述匹配的异常词汇的词频-逆文本频率指数(TermFrequency–Inverse Document Frequency,TF-IDF)来确定。

示意性的,当通过神经网络来实现异常类型的确定时,第三分类逻辑和第三分类网络对应,可选地,上述第三分类网络可以通过SVM、CNN、RNN、全连接神经网络等中的至少一种用于分类的神经网络来实现。

步骤205,响应于确定目标文本内容存在至少一个组合概率达到异常阈值的候选异常内容,且目标异常类型与指定异常类型匹配,将目标文本内容判别为异常状态。

在本申请实施例中,只有当目标文本内容存在至少一个组合概率达到异常阈值的候选异常内容,且目标异常类型与指定异常类型匹配时,目标文本内容会被判定为处于异常状态。

示意性的,根据候选异常内容的组合概率和异常阈值的比较结果确定目标文本内容是否满足第一异常条件,根据候选异常内容对应的目标异常类型和指定异常类型之间的匹配结果确定目标文本内容是否满足第二异常条件。

在一些实施例中,上述第一异常条件也可以设定存在组合概率达到异常阈值的候选异常内容达到指定数量阈值。

示意性的,上述第二异常条件指示目标文本内容对应的目标异常类型指示目标文本内容时“异常文本”;或者,第二异常条件指示目标文本内容对应的目标异常类型指示目标文本内容时“异常文本”,且目标文本内容对应的具体异常类型与指定异常类型匹配,即,仅针对指定异常类型的目标文本内容作异常判定。

综上所述,本申请实施例提供的文本内容的异常识别方法,在需要对目标文本内容进行异常识别时,根据目标文本内容每个分字对应的异常起点概率和异常终点概率确定目标文本内容中所包括的候选异常内容,并对目标文本内容的异常类型进行识别,当确定目标文本内容中存在至少一个组合概率达到异常阈值的候选异常内容,且目标异常类型与指定异常类型匹配时,才将目标文本内容判别为异常状态。即,以分字为粒度对目标文本中的异常内容进行识别,同时根据目标文本内容中的异常内容以及根据目标文本内容整体确定的异常类型来共同判定目标文本内容是否处于异常状态,提升了异常识别时的识别准确度。

在一些实施例中,在获取目标文本内容对应的文本特征表示时,可以先对目标文本内容进行编码,将编码得到编码表示进行特征提取,以得到更能表征文本特征的文本特征表示。在本申请实施例中,通过引入字词融合的编码方式来提升文本特征表示的表达能力,请参考图3,其示出了本申请一个示例性实施例提供的文本内容的编码方法,该方法包括:

步骤301,以分字为单位对目标文本内容进行字向量编码,得到目标文本内容对应的第一维度的字向量编码表示。

在一些实施例中,通过第一编码单元对目标文本内容中的每个分字进行编码,从而得到目标文本对应的第一维度的字向量编码表示。在一个示例中,上述第一编码单元可以是通过至少一个嵌入层实现的编码单元,即,将目标文本内容以字为单位送入嵌入层,得到目标文本内容的第一维度的字向量编码表示。示意性的,上述第一维度可以是128维。

步骤302,对目标文本内容进行分词,并以分词为单位对目标文本内容进行词向量编码,得到目标文本内容对应的第二维度的第一词向量编码表示。

可选地,在对目标文本内容进行分词时,可以使用正向最大匹配分词算法、逆向最大匹配分词算法、双向最大匹配分词算法、最少切分分词算法、N元统计模型等至少一种用于实现分词处理的算法。在一个示例中,可以采用jieba分词实现,其中,上述jieba分词是一种概率语言模型分词算法,可选地,可以采用全模式jieba分词、精确模式jieba分词或者搜索引擎模式jieba分词,在此不进行限定。

示意性的,将目标文本内容进行分词后,能够得到至少一个分词,将得到的分词输入至第二编码单元进行编码,从而得到目标文本对应的第二维度的第一词向量编码表示。

示意性的,在通过对各个分词进行编码之后,得到多个分词对应的词向量,为得到目标文本内容对应的第一词向量编码表示,还需要通过全连接层将多个分词的词向量进行连接,以得到第一词向量编码表示。

在一个示例中,在对分词进行编码之前,对目标文本内容对应的每个分词进行复制处理,即,将每个分词复制N次,上述N可以是目标文本内容中分字的数量。

在一个示例中,上述第二编码单元可以是通过至少一个嵌入层实现的编码单元,即,将目标文本内容以词为单位送入嵌入层,得到目标文本内容的第二维度的第一词向量编码表示。示意性的,上述第二维度可以是256维。

步骤303,将第二维度的第一词向量编码表示转换为第二维度的第二词向量编码表示。

示意性的,在以字为单位进行编码得到字向量编码表示,以及以词为单位进行编码得到第一词向量编码表示之后,由于编码表示之间的维度不同,因此需要将字向量编码表示和第一词向量编码表示对齐。

在一些实施例中,通过将第二维度的第一词向量编码表示转换为第二维度的第二词向量编码表示来实现编码表示之间的对齐。在一个示例中,可以通过矩阵变换来将第二维度的第一词向量编码表示转换为第二维度的第二词向量编码表示。

步骤304,将字向量编码表示和第二词向量编码表示进行融合,得到字词融合表示。

可选地,在将字向量编码表示和第二词向量编码表示融合时,可以采用将字向量编码表示和第二词向量编码表示相加的形式,也可以采用将字向量编码表示和第二词向量编码表示相乘的形式。

示意性的,请参考图4,其示出了本申请一个示例性实施例提供的文本编码的流程图,目标文本内容410通过字编码得到字向量420,通过词编码得到词向量430,将词向量430输入至全连接层440进行向量连接后,和字向量420进行词向量字向量相加450,从而得到字词融合表示460。

在一个示例中,以对“今天天气好”进行编码为例,编码流程包括:

S1,字处理方式:按字的划分方式将文本分成“今”、“天”、“天”、“气”、“好”5个字,送入嵌入层,得到5个字对应的128维字向量编码;

S2,词处理方式:对输入的文本分词,得到“今天”、“天气”、“好”三个词;然后将每个词分别复制各自词的字数次,得到“今天”、“今天”、“天气”、“天气”、“好”5个词语,送入嵌入层,得到5个词对应的256维词向量编码;接着对词向量编码矩阵变换,获得128维的词向量,与字向量维度保持一致;

S3,融合方式:将每个词的128维的词向量和对应的字的128维字向量相加,得到每个字的向量表示,每个字能包含更多的语义信息。

即,如图5所示,目标文本内容501按照字为单位进行划分得到多个分字后,将多个分字进行编码,得到分字对应的字向量502,目标文本内容501按照词为单位进行划分得到多个分词后,将多个分词进行编码,得到分词对应的第一词向量,并将第一词向量进行复制得到复制后的第二词向量503,将复制后的第二词向量503通过变换矩阵504得到与字向量502维度相同的第三词向量505,将第三词向量505和字向量502相乘记得可得到最终的字词融合表示。

综上所述,本申请实施例提供的文本内容的编码方法,通过将目标文本内容分别以字为单位、以词为单位进行编码,并将编码得到的编码表示统一维度后融合,从而得到表征目标文本内容的字词融合表示,通过引入字词融合表示,有效解决了在进行异常识别时文本内容存在异形词以及分词偏差导致的干扰,并且提升了字向量的表达能力,当以字为粒度进行异常内容确定,使得整体模型更灵活。

请参考图6,其示出了本申请一个示例性实施例提供的文本内容的异常识别方法,在本申请实施例中,通过第一分类逻辑实现分字的异常起点概率预测,同个第二分类逻辑实现分字的异常终点概率预测,通过第三分类逻辑实现目标文本内容的异常类型预测。该方法包括:

步骤601,获取目标文本内容的文本特征表示。

示意性的,目标文本内容是待进行异常识别的文本内容,上述目标文本内容中包括至少一个分字,即,目标文本内容由至少一个分字构成。对目标文本内容进行特征提取,得到文本特征表示。

在本申请实施例中,以采用Transformer进行特征提取为例进行示意性说明。示意性的,当通过对目标文本内容进行编码得到字词融合表示后,将字词融合表示输入至目标数量的Transformer中进行特征提取,得到文本特征表示。在一个示例中,上述目标数量可以是6层。

示意性的,如图7所示,其示出了本申请一个示例性实施例提供的Transformer的结构示意图,其中,该结构示意图是单层Transformer700的结构。单层Transformer700包括两个子模块,分别是第一子模块710和第二子模块720,其中,第一子模块710包括第一层标准化(Layer Normalization)711、多头自注意力机制(Multi-Head Attention)712和第一残差连接(Residual Connection)713,第二子模块720包括第二层标准化721、前馈网络(Feed-Forward Network)722和第二残差连接723。

步骤602,将文本特征表示输入至第一分类逻辑,得到目标文本内容对应的异常起点概率列表。

示意性的,上述第一分类逻辑用于对文本特征表示中各个分字对应的异常起点概率进行预测。可选地,上述第一分类逻辑可以实现为指定分类算法,也可以实现为通过神经网络实现的分类方式。

在本申请实施例中,以上述第一分类逻辑通过神经网络实现为例进行说明,示意性的,上述第一分类逻辑由第一分类网络实现,其中,第一分类网络可以通过SVM、CNN、RNN、全连接神经网络等中的至少一种用于分类的神经网络来实现。

示意性的,通过上述第一分类逻辑对文本特征表示中各个分字对应的字向量进行异常起点概率的预测,最终输出异常起点概率列表,上述异常起点概率列表中包括每个分字的异常起点概率。即,第一分类逻辑对目标文本内容中的分字进行遍历,输出各个分字对应的异常起点概率,从而得到异常起点概率列表。

步骤603,将文本特征表示输入至第二分类逻辑,得到目标文本内容对应的异常终点概率列表。

示意性的,上述第二分类逻辑用于对文本特征表示中各个分字对应的异常终点概率进行预测。可选地,上述第二分类逻辑可以实现为指定分类算法,也可以实现为通过神经网络实现的分类方式。

在本申请实施例中,以上述第二分类逻辑通过神经网络实现为例进行说明,示意性的,上述第二分类逻辑由第二分类网络实现,其中,第二分类网络可以通过SVM、CNN、RNN、全连接神经网络等中的至少一种用于分类的神经网络来实现。

示意性的,通过上述第二分类逻辑对文本特征表示中各个分字对应的字向量进行异常终点概率的预测,最终输出异常终点概率列表,上述异常终点概率列表中包括每个分字的异常终点概率。即,第二分类逻辑对目标文本内容中的分字进行遍历,输出各个分字对应的异常终点概率,从而得到异常终点概率列表。

步骤604,响应于第一分字的异常起点概率和第二分字的异常终点概率满足异常匹配条件,将目标文本内容中第一分字和第二分字之间的内容确定为候选异常内容。

在一些实施例中,在异常起点概率列表中获取异常起点概率达到第一阈值的第一分字,上述第一分字是目标文本内容中第i个分字,i为正整数,在异常终点概率列表中获取异常终点概率达到第二阈值的第二分字,第二分字是所述目标文本内容中第j个分字,j为正整数,响应于确定i<j,将第一分字和第二分字之间的内容确定为候选异常内容。

在另一些实施例中,从异常起点概率列表中获取第一分字的异常起点概率,以及从异常终点概率列表中获取第二分字的异常终点概率,其中,第一分字是目标文本内容中的第i个分字,第二分字是所述目标文本内容中的第j个分字,j>i,基于第一分字的异常起点概率和第二分字的异常终点概率,得到候选语句对应的组合概率,上述候选语句是目标文本内容中第一分字和第二分字之间的内容,响应于组合概率达到指定异常阈值,将候选语句确定为上述候选异常内容。即,当第一分字位于第二分字之前,且第一分字和第二分字所组成的候选内容对应的组合概率达到指定异常阈值时,上述候选内容才会被判定为候选异常内容。在一个示例中,第一分词的异常起点概率为a

步骤605,将文本特征表示输入至第三分类逻辑,得到目标文本内容对应的目标异常类型。

可选地,异常类型可以用于指示目标文本内容是否是异常文本,当目标文本内容被判定为异常时,还可以针对存在的异常类别来确定细化的异常类型。例如,当目标文本内容被判定为正常时,则异常类型对应的输出为“正常文本”,当目标文本内容被判定为异常时,则异常类型对应的输出为“异常文本”,当目标文本内容被判定为“异常文本”类型时,还可以对目标文本内容对应的具体异常类型进行判断,例如,“色情类型”、“暴力类型”等。

在本申请实施例中,除了通过文本特征表示确定候选异常内容之外,还需要通过文本特征表示确定目标文本整体所对应的异常类型。示意性的,上述异常类型的判定可以通过第三分类逻辑实现。

可选地,上述第三分类逻辑可以实现为指定分类算法,也可以实现为通过神经网络实现的分类方式。

示意性的,当通过神经网络来实现异常类型的确定时,第三分类逻辑和第三分类网络对应,可选地,上述第三分类网络可以通过SVM、CNN、RNN、全连接神经网络等中的至少一种用于分类的神经网络来实现。

在本申请实施例中,第一分类逻辑、第二分类逻辑和第三分类逻辑是通过多任务协同训练得到的。在一些实施例中,第一分类逻辑、第二分类逻辑和第三分类逻辑可以是由一个模型中的不同处理层实现的,即,第一分类网络、第二分类网络和第三分类网络是指定模型中的不同子网络;在另一些实施例中,第一分类逻辑、第二分类逻辑和第三分类逻辑可以是由多个模型组合实现,上述多个模型在训练过程中通过联合训练得到。

示意性的,第一分类逻辑、第二分类逻辑和第三分类逻辑在多任务协同训练的过程中,通过指定损失函数进行训练,上述指定损失函数由第一分类逻辑对应的第一损失函数、第二分类逻辑对应的第二损失函数和第三分类逻辑对应的第三损失函数通过指定权重加权得到。在一些实施例中,第一损失函数和第二损失函数是类型相同的损失函数。

在一些实施例中,第三分类逻辑在针对目标文本内容进行异常类型判断时,可以是根据目标文本内容对应的文本特征表示进行整体预测,输出得到每种异常类型对应的异常类型概率,将异常类型概率最高的目标异常类型确定为目标文本内容的异常类型。

步骤606,基于第一分字的异常起点概率和第二分字的异常终点概率,确定候选异常内容的组合概率。

在一些实施例中,上述组合概率可以是通过第一分字的异常起点概率和第二分字的异常终点概率之积确定的,即,将第一分字的异常起点概率和第二分字的异常终点概率相乘,得到对应的候选异常内容的组合概率。可选地,也可以通过上述第一分字的异常起点概率和第二分字的异常终点概率之间的和、平均值等来确定组合概率。示意性的,将多个存在包含关系和/或相交关系的候选异常内容中,组合概率最高的n个候选异常内容进行保留,n为正整数。

步骤607,响应于候选异常内容的组合概率达到第三阈值,确定候选异常内容满足第一异常条件。

示意性的,上述第三阈值与上述指定异常阈值是不同的判定阈值,即,第三阈值用于根据组合概率确定候选异常内容是否满足第一异常条件,指定异常阈值用于确定第一分词和第二分词组成的候选内容是否作为候选异常内容。

可选地,上述第三阈值可以是服务器预设的,也可以是终端指定的。

步骤608,响应于目标异常类型与指定异常类型匹配,确定目标异常类型满足第二异常条件。

可选地,上述指定异常类型可以是服务器预设的,也可以是终端指定的,还可以是服务器和终端共同指定的。

在一些实施例中,以评论内容的异常识别为例,内容发布者的内容被发布至目标平台后,内容接收方可以通过目标平台对内容进行浏览,并通过目标平台发布对内容评论内容,针对评论内容的异常识别过程中,内容发布方可以自定义设设置异常类型,同时服务器中设置有默认异常类型,响应于评论内容被识别为内容发布方设置的设置异常类型,或者,被识别为服务器设置的默认异常类型,则判定该评论内容满足第二异常条件。即,获取默认异常类型和设置异常类型,默认异常类型是服务器设置的满足第二异常条件的异常类型,设置异常类型是目标账号设置的满足第二异常条件的异常类型,目标账号是目标文本内容的接收方,响应于目标异常类型与默认异常类型匹配,或者,目标异常类型与设置异常类型匹配,确定目标异常类型满足第二异常条件,即,确定目标异常类型与指定异常类型匹配。

在一些实施例中,上述设置异常类型也可以是通过目标账号对历史浏览内容的历史操作数据确定的,同时,通过上述历史操作数据也可以为目标账号训练个性化的异常识别模型。示意性的,获取目标账号的历史操作数据,历史操作数据中包括对历史浏览内容进行非偏好标记的操作,基于历史浏览内容中的非偏好标记对异常识别模型进行训练,得到目标异常识别模型,目标异常识别模型用于对目标账号待进行浏览的内容进行异常识别,目标异常识别模型中包括第一分类逻辑和第二分类逻辑,基于历史浏览内容确定目标账号的设置异常类型。

其中,上述非偏好标记指示目标账号在浏览内容时可以通过指定控件将当前内容标记为“不喜欢”。值得注意的是,上述历史浏览内容是在获取到目标账号的充分授权的情况下获取的,即,响应于服务器需要为目标账号进行异常识别模型的训练,向目标账号发送授权请求,终端根据授权请求显示授权确认信息,授权确认信息中包括服务器希望获取目标账号的历史操作数据,并明确表明将历史操作数据用于异常识别模型的训练,响应于接收到目标账号对授权确认信息的确认操作,服务器才会获取目标账号的历史操作数据。

在一个示例中,当目标账号开启非偏好内容审核时,服务器会对目标账号所接收到的目标文本内容通过目标账号对应的目标异常识别模型进行识别,筛除处于异常状态的目标文本内容。可选地,上述目标文本内容可以是目标账号接收到的推荐内容、目标账号发布内容接收到的评论内容等。

步骤609,响应于确定目标文本内容满足第一异常条件和第二异常条件,将目标文本内容判别为异常状态。

在本申请实施例中,只有当目标文本内容存在满足第一异常条件的候选异常内容,且目标异常类型满足第二异常条件时,目标文本内容会被判定为处于异常状态。

综上所述,本申请实施例提供的文本内容的异常识别方法,在需要对目标文本内容进行异常识别时,根据目标文本内容每个分字对应的异常起点概率和异常终点概率确定目标文本内容中所包括的候选异常内容,并对目标文本内容的异常类型进行识别,当确定目标文本内容中存在至少一个组合概率达到异常阈值的候选异常内容,且目标异常类型与指定异常类型匹配时,才将目标文本内容判别为异常状态。即,以分字为粒度对目标文本中的异常内容进行识别,同时根据目标文本内容中的异常内容以及根据目标文本内容整体确定的异常类型来共同判定目标文本内容是否处于异常状态,提升了异常识别时的识别准确度。

在一些实施例中,以上述文本内容的异常识别方法应用于对网页中广告内容的异常识别中为例,针对异常识别模型的训练过程进行示意性说明。示意性的,上述异常识别模型中包括编码模块、特征提取模块和分类模块,其中,编码模块用于将目标文本内容结合分字情况和分词情况进行编码,得到字词融合表示,特征提取模块用于根据字词融合表示进行特征提取得到文本特征表示,分类模块用于根据文本特征表示实现第一分类逻辑、第二分类逻辑和第三分类逻辑。

在训练阶段中,首先需要获取用于训练的样本数据,示意性的,上述样本数据可以是从多个网页中获取得到的广告文本。在一个示例中,通过对网页对应的数据进行文本预处理,从而得到用于训练的广告文本,其中,文本预处理包括:

S1,去除html标签。

示意性的,通过对网页进行解析得到的数据是超文本标记语言,里面包含文本内容及大量的html标签。直接将html标签输入模型会对模型识别产生负面影响,因此需要滤除。在一个示例中,可以采用通用的XML路径语言(XML Path Language,XPath)或者CSS选择器对html标签内的文本进行提取。XPath是一种用来确定XML文档中某部分位置的语言。XPath基于XML的树状结构,提供在数据结构树中找寻节点的能力。

S2,异常广告文本数据增强。

可选地,文本增强方法有同义词替换、同音字替换、词语随机删除、词语随机插入、词语顺序随机交换、标点符号随机插入(包含句号、分号、冒号、问号、逗号、感叹号)等。示意性的,采用上述5种方法将少量的异常广告数据生成大量的数据,从而实现样本数据的扩充,低成本条件下能够生成大量训练数据。

其中,以同音字替换来实现文本增强为例,对广告文本进行文本识别,确定广告文本中是否存在命中预设词库中指定词汇的目标词汇,响应于存在目标词汇,将目标词汇中的至少一个字进行同音字替换,从而得到至少一个增强文本。例如,广告文本为“添加微信XXXX参与返利”,其中,“微信”和“返利”均为预设词库中的词汇,使用同音字替换得到“薇信”、“溦信”、“仮利”,从而得到多个增强文本,以使得将样本数据应用于模型训练中时,模型能够学习同音字替换后的文本特征,增强模型对违规内容的识别准确度,减少通过同音字替换而逃避违规检测的可能。

在一些实施例中,部分网页中存在通过图片形式显示的广告内容,而图片内容无法直接通过对网页进行解析得到。为了加强对网页异常内容的识别准确度,除了提取网页中可直接获取的文本内容之外,还可以对网页图片中的文本通过OCR识别得到图片文本;或者,通过预训练得到的图像描述模型对图像内容进行描述,生成描述文本,将描述文本也作为网页中用于广告文本异常识别的文本内容,其中,上述描述文本是图像描述模型对图像的语义进行识别后,根据图像所包含对象之间的语义关系生成的文本内容。

示意性的,在对获取到的广告文本进行文本预处理之后,还需要对广告文本进行标注,以得到样本数据。

在本申请实施例中,需要同时判断广告是否异常以及提取相关的异常内容,因此需要构建三个二分类学习任务,因此,每个广告文本具有三种标注。

标注数据方法具体如下:对于异常内容的起点和终点任务,对广告全文标注,标签长度与广告文本长度相等,其中,异常内容起点和终点位置分别置为1,其余文本位置标签置为0;对于判断广告文本的异常类型(以5类异常类型为例),使用0-5(0为非异常,1-5分别代表5类异常类型)为整个广告文本标注。

在一个示例中,如图8所示,其示出了本申请一个示例性实施例提供的异常起点位置和异常终点位置的标注示意图,其中,广告内容800中的“半小时获得收益”810属于异常内容,因此,对于学习异常内容中异常起点位置的任务,“半”字是异常内容的起点,则将其所在位置标为1,其它位置为0,即得到学习异常内容中异常起点位置的任务对应的第一标注结果820;对于学习异常内容中异常终点位置的任务,“益”字是异常内容的终点,则将其所在位置标为1,其它位置为0,即得到学习异常内容中异常终点位置的任务对应的第二标注结果830。示意性的,针对异常类型的分类任务,则上述广告内容800属于“收益保证”异常类型,整个语句赋予一个标签1,该标签1用于指示“收益保证”异常类型。

在一些实施例中,考虑广告文本中可能存在多个异常内容的情况,在针对广告文本的异常类型进行标注时,可以选择多个异常内容中异常程度最高的异常内容的异常类型对整体广告文本的异常类型进行标注,例如,标签1-5分别代表“收益保证”、“色情低俗”、“信息敏感”、“诈骗信息”、“违法暴力”五种异常类型,其对应的异常程度与标签值呈正相关关系,当广告文本中包括“色情低俗”以及“信息敏感”的异常内容时,则将该广告文本的异常类型标注为标签3。

在另一些实施例中,当广告文本存在多个异常内容时,还可以将多个异常内容的异常类型中,命中异常类型最多的异常类型作为广告文本所标注的异常类型。例如,广告文本中包括两个“色情低俗”的异常内容以及一个“信息敏感”的异常内容,则将广告文本的异常类型标注为标签2。

在一些实施例中,当通过文本预处理以及数据标注得到异常广告样本后,还可以获取正常广告样本,其中,正常广告样本对应的第一标注结果、第二标注结果以及异常类型的标注结果均为0。将上述异常广告样本和正常广告样本合并后得到数据集。

示意性的,可以通过指定比例将数据集划分为训练集和测试集,在一个实例中,上述指定比例可以是8:2。

示意性的,针对上述异常识别模型的训练,其对应的训练任务包括两个二分类任务以及一个多分类任务,其中,两个二分类任务分别学习异常内容起点的位置以及终点的位置,多分类任务用于学习广告文本整体的异常类型。

在训练过程中所使用的损失函数可以是0-1损失函数、Hinge损失函数、交叉熵(Cross Entropy)损失函数、焦点损失(Focal Loss)函数、平方损失函数、Huber损失函数、绝对损失函数等中的至少一种。

针对训练过程中的损失函数的选择,针对异常内容起点位置以及终点位置的分类任务而言,由于只有起点位置或终点位置才属于正样本,其余位置都属于负样本,负样本数量远远大于正样本数量,因此,存在严重的样本不均衡现象,会造成模型学习的困难。在一个实例中,为解决上述问题,针对异常内容起点位置以及终点位置的分类任务,采用焦点损失作为损失函数以降低模型学习难度。对异常类型的分类任务,使用交叉熵作为损失函数。

在模型的训练过程中,使用多任务学习-联合训练的方式同时进行三个分类任务的学习。三个分类任务需要从异常广告中学习不同的特征。因此,为避免三个分类任务学习不充分,对三个任务的损失函数,需要分配不同权重。损失函数引入可训练参数α

公式一:Loss=α

示意性的,请参考图9,其示出了本申请一个示例性实施例提供的文本内容的异常识别方法的流程图,以该方法应用于广告内容的违规识别中为例进行示意性说明,该流程包括:S901,获取广告文本,对广告文本进行文本预处理;S902,标注违规与非违规文本,构建模型文本集合;S903,文本集合按比例随机分成训练集和测试集;S904,文本集合通过字词融合向量,获得样本编码表示;S905,Transformer提取深度特征;S9061,识别违规起点;S9062,识别违规终点;S907,输出违规语句;S908,输出违规类型。

请参考图10,其示出了本申请一个示例性的实施例提供的文本内容的异常识别装置结构框图,该装置包括如下模块:

获取模块1010,用于获取目标文本内容的文本特征表示,所述目标文本内容是待进行异常识别的文本内容,所述目标文本内容中包括至少一个分字;

第一确定模块1020,用于基于所述文本特征表示确定所述目标文本内容中每个分字对应的异常起点概率和异常终点概率,所述异常起点概率用于指示所述分字作为异常内容的起点位置的概率,所述异常终点概率用于指示所述分字作为所述异常内容的终点位置的概率;

所述第一确定模块1020,还用于响应于第一分字的异常起点概率和第二分字的所述异常终点概率满足异常匹配条件,将所述目标文本内容中所述第一分字和所述第二分字之间的内容确定为候选异常内容,并根据所述第一分字的异常起点概率和所述第二分字的异常终点概率共同确定所述候选异常内容对应的组合概率;

第二确定模块1030,用于基于所述文本特征表示对所述目标文本内容的异常类型进行预测,得到所述目标文本内容对应的目标异常类型;

判别模块1040,用于响应于确定所述目标文本内容存在至少一个组合概率达到异常阈值的候选异常内容,且所述目标异常类型与指定异常类型匹配,将所述目标文本内容判别为异常状态。

在一些可选的实施例中,所述目标文本内容中包括至少一个分词;

如图11所示,所述获取模块1010,还包括:

融合子模块1011,用于基于所述目标文本内容的分词情况和分字情况,获取所述目标文本内容对应的字词融合表示;

提取子模块1012,用于对所述字词融合表示进行特征提取,得到所述目标文本内容对应的文本特征表示。

在一些可选的实施例中,所述融合子模块1011,还包括:

第一编码单元1013,用于以分字为单位对所述目标文本内容进行字向量编码,得到所述目标文本内容对应的第一维度的字向量编码表示;

第二编码单元1014,对所述目标文本内容进行分词,并以分词为单位对所述目标文本内容进行词向量编码,得到所述目标文本内容对应的第二维度的第一词向量编码表示;

转换单元1015,用于将所述第二维度的所述第一词向量编码表示转换为所述第二维度的第二词向量编码表示;

融合单元1016,用于将所述字向量编码表示和所述第二词向量编码表示进行融合,得到所述字词融合表示。

在一些可选的实施例中,第一确定模块1020,还包括:

第一处理单元1021,用于将所述文本特征表示输入至第一分类逻辑,得到所述目标文本内容对应的异常起点概率列表,所述异常起点概率列表中包括所述每个分字的异常起点概率;

第二处理单元1022,用于将所述文本特征表示输入至第二分类逻辑,得到所述目标文本内容对应的异常终点概率列表,所述异常终点概率列表中包括所述每个分字的异常终点概率;

所述第二确定模块1030,还包括:

第三处理单元1031,用于将所述文本特征表示输入至第三分类逻辑,得到所述目标文本内容对应的所述目标异常类型;

其中,所述第一分类逻辑、第二分类逻辑和所述第三分类逻辑是通过多任务协同训练得到的。

在一些可选的实施例中,所述第一分类逻辑、第二分类逻辑和所述第三分类逻辑在所述多任务协同训练的过程中,通过指定损失函数进行训练,所述指定损失函数由所述第一分类逻辑对应的第一损失函数、所述第二分类逻辑对应的第二损失函数和所述第三分类逻辑对应的第三损失函数通过指定权重加权得到,所述第一损失函数和所述第二损失函数是类型相同的损失函数。

在一些可选的实施例中,所述第一确定模块1020,还包括:

第一获取单元1023,用于在所述异常起点概率列表中获取异常起点概率达到第一阈值的所述第一分字,所述第一分字是所述目标文本内容中第i个分字,i为正整数;

所述第一获取单元1023,还用于在所述异常终点概率列表中获取异常终点概率达到第二阈值的所述第二分字,所述第二分字是所述目标文本内容中第j个分字,j为正整数;

判断单元1024,用于响应于确定i<j,将所述第一分字和所述第二分字之间的内容确定为所述候选异常内容。

在一些可选的实施例中,所述判别模块1040,还包括:

第二获取单元1043,用于获取默认异常类型和设置异常类型,所述默认异常类型是服务器设置的满足所述第二异常条件的异常类型,所述设置异常类型是目标账号设置的满足所述第二异常条件的异常类型,所述目标账号是所述目标文本内容的接收方;

所述判别单元1042,还用于响应于所述目标异常类型与默认异常类型匹配,或者,所述目标异常类型与所述设置异常类型匹配,确定所述目标异常类型与所述指定异常类型匹配。

在一些可选的实施例中,所述获取模块1010,还用于获取所述目标账号的历史操作数据,所述历史操作数据中包括对历史浏览内容进行非偏好标记的操作;

所述装置还包括:

训练模块1050,用于基于所述历史浏览内容中的所述非偏好标记对异常识别模型进行训练,得到目标异常识别模型,所述目标异常识别模型用于对所述目标账号待进行浏览的内容进行异常识别,所述目标异常识别模型中包括所述第一分类逻辑和所述第二分类逻辑;

所述第二确定模块1030,还用于基于所述历史浏览内容确定所述目标账号的所述设置异常类型。

在一些可选的实施例中,所述获取模块1010,还用于获取目标网页中的网页内容;

所述装置还包括:

预处理模块1060,用于清除所述网页内容中的网页标记语言,得到候选内容;对所述候选内容进行推荐信息识别,将所述候选内容中用于内容推荐的文本确定为所述目标文本内容。

综上所述,本申请实施例提供的文本内容的异常识别装置,在需要对目标文本内容进行异常识别时,根据目标文本内容每个分字对应的异常起点概率和异常终点概率确定目标文本内容中所包括的候选异常内容,并对目标文本内容的异常类型进行识别,当确定目标文本内容中存在至少一个组合概率达到异常阈值的候选异常内容,且目标异常类型与指定异常类型匹配时,才将目标文本内容判别为异常状态。即,以分字为粒度对目标文本中的异常内容进行识别,同时根据目标文本内容中的异常内容以及根据目标文本内容整体确定的异常类型来共同判定目标文本内容是否处于异常状态,提升了异常识别时的识别准确度。

需要说明的是:上述实施例提供的文本内容的异常识别装置,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的文本内容的异常识别装置与文本内容的异常识别方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。

图12示出了本申请一个示例性实施例提供的服务器的结构示意图。具体来讲包括如下结构。

服务器1200包括中央处理单元(Central Processing Unit,CPU)1201、包括随机存取存储器(Random Access Memory,RAM)1202和只读存储器(Read Only Memory,ROM)1203的系统存储器1204,以及连接系统存储器1204和中央处理单元1201的系统总线1205。服务器1200还包括用于存储操作系统1213、应用程序1214和其他程序模块1215的大容量存储设备1206。

大容量存储设备1206通过连接到系统总线1205的大容量存储控制器(未示出)连接到中央处理单元1201。大容量存储设备1206及其相关联的计算机可读介质为服务器1200提供非易失性存储。也就是说,大容量存储设备1206可以包括诸如硬盘或者紧凑型光盘只读存储器(Compact Disc Read Only Memory,CD-ROM)驱动器之类的计算机可读介质(未示出)。

不失一般性,计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、可擦除可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、带电可擦可编程只读存储器(Electrically Erasable Programmable Read Only Memory,EEPROM)、闪存或其他固态存储器技术,CD-ROM、数字通用光盘(Digital Versatile Disc,DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器1204和大容量存储设备1206可以统称为存储器。

根据本申请的各种实施例,服务器1200还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器1200可以通过连接在系统总线1205上的网络接口单元1211连接到网络1212,或者说,也可以使用网络接口单元1211来连接到其他类型的网络或远程计算机系统(未示出)。

上述存储器还包括一个或者一个以上的程序,一个或者一个以上程序存储于存储器中,被配置由CPU执行。

本申请的实施例还提供了一种计算机设备,该计算机设备包括处理器和存储器,该存储器中存储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述各方法实施例提供的生物识别方法。可选地,该计算机设备可以是终端,也可以是服务器。

本申请的实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行,以实现上述各方法实施例提供的生物识别方法。

本申请的实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例中任一所述的生物识别方法。

可选地,该计算机可读存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、固态硬盘(SSD,Solid State Drives)或光盘等。其中,随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM,Resistance RandomAccess Memory)和动态随机存取存储器(DRAM,Dynamic Random Access Memory)。上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。

以上所述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

技术分类

06120116526711