掌桥专利:专业的专利平台
掌桥专利
首页

文本内容检测方法、装置、电子设备及存储介质

文献发布时间:2024-04-18 20:02:40


文本内容检测方法、装置、电子设备及存储介质

技术领域

本公开涉及计算机技术领域,尤其涉及一种文本内容检测方法、装置、电子设备及存储介质。

背景技术

目前,对文本的管理是互联网风险管控中的重要手段。文本的风险管控主要是检测文本中是否包括敏感词汇,从而根据敏感词汇确定文本的文本风险。

目前,检测文本中是否存在敏感词汇的方式为:先对文本中各个句子进行分词处理,得到至少一个待匹配词汇;再将各待匹配词汇与黑白名单词汇进行一一匹配,最后根据匹配结果来确定为黑名单词汇还是白名单词汇。为了进一步提高确定敏感词汇的准确性,可以对分词的分词器进行特殊设置,如将黑名单词汇的权重值设置的高一点,以在分词器分词的过程中,可以尽可能的将黑名单词汇划分在一起,从而保证从句子中查找出黑名单词汇。

但是上述方法存在文本安全性的误判以及漏判现象。尤其是在大模型爆发时代,现有的文本安全检测与业务场景不是完全匹配,存在针对诱导性有害文本检测效果不佳的问题。

发明内容

为了解决上述技术问题中的至少一个,本公开提供了一种文本内容检测方法、装置、电子设备及存储介质。

一方面,提供了一种文本内容检测方法,包括:

接收用户输入的文本信息;

响应于接收到的所述文本信息,对所述文本信息进行第一内容和第二内容的处理,得到处理结果;

基于所述处理结果确定所述文本信息的最终检测结果。

根据本公开一种优选的实施方式,响应于接收到的所述文本信息,对所述文本信息进行第一内容和第二内容的处理,得到处理结果,包括:

响应于接收到的所述文本信息,对所述文本信息进行第一内容的分类和第二内容的检测,得到和第一内容的分类匹配的第一结果以及与第二内容的检测匹配的第二结果;将所述第一结果和第二结果作为所述处理结果。

根据本公开一种优选的实施方式,响应于接收到的所述文本信息,对所述文本信息进行第一内容和第二内容的处理,得到处理结果,包括:

响应于接收到的所述文本信息,对所述文本信息进行第一内容的分类,得到第一结果;

基于所述第一结果对所述文本信息进行第二内容的检测,得到第二结果;将所述第一结果和第二结果作为所述处理结果。

根据本公开一种优选的实施方式,所述第一内容的分类包括对所述文本信息进行语义的分类,所述第二内容的检测包括对所述文本信息中预设词语义的检测。

根据本公开一种优选的实施方式,所述预设词语义的检测包括对敏感词语敏感度的检测;

对所述文本信息进行语义的分类包括基于所述文本信息的应用场景对所述文本信息进行语义的分类。

根据本公开一种优选的实施方式,基于所述处理结果确定所述文本信息的最终检测结果,包括:

获取所述文本信息的应用场景;

根据所述文本信息的应用场景、所述处理结果中包括的所述文本信息的文本标签确定所述文本信息的最终检测结果。

根据本公开一种优选的实施方式,响应于接收到的所述文本信息,对所述文本信息进行第二内容的检测,包括:

响应于接收到的所述文本信息,基于预先构建的查找树对接收到的所述文本信息进行黑名单处理,得到第一处理结果;

基于所述第一处理结果对所述文本信息进行白名单处理,得到第二处理结果;

基于所述第一处理结果与所述第二处理结果实现对所述第二内容的检测。

根据本公开一种优选的实施方式,响应于接收到的所述文本信息,基于预先构建的查找树对接收到的所述文本信息进行黑名单处理,得到第一处理结果,包括:

对所述文本信息进行分词处理;

在预先构建的查找树中查找分词后的文本信息,得到第一处理结果。

根据本公开一种优选的实施方式,所述第一处理结果中包括所述文本信息中预设词及其出现频次,所述第二处理结果中包括所述文本信息中预设词及其出现频次;

基于所述第一处理结果与所述第二处理结果实现对所述第二内容的检测,得到第一结果,包括:

基于所述第一处理结果中的所述文本信息中预设词及其出现频次以及所述第二处理结果中的所述文本信息中预设词及其出现频次实现对所述第二内容的检测。

根据本公开一种优选的实施方式,基于所述第一处理结果中的所述文本中预设词及其出现频次以及所述第二处理结果中的所述文本中预设词及其出现频次实现对所述第二内容的检测,包括:

当所述第一处理结果中的所述文本信息中预设词及其出现频次与所述第二处理结果中的所述文本信息中预设词及其出现频次相同时,确定所述第二内容检测结果为合格。

根据本公开一种优选的实施方式,响应于接收到的所述文本信息,进行第一内容的分类,包括:

加载预设模型;

对所述预设模型进行文本信息语义分类训练,得到训练后的模型;

基于训练后的模型对所述文本信息进行第一内容的分类。

根据本公开一种优选的实施方式,基于训练后的模型对所述文本信息进行第一内容的分类,包括:

基于训练后的模型对所述文本信息基于所述第一内容包括的不同子内容的类别进行标签化;

基于标签化后的不同字内容对所述文本信息进行分类。

根据本公开一种优选的实施方式,基于训练后的模型对所述文本信息基于所述第一内容包括的不同子内容的类别进行标签化,包括:

获取所述文本信息的应用场景;

基于训练后的模型对所述文本信息基于所述第一内容包括的不同子内容的类别与所述文本信息的应用场景进行标签化。

另一方面,本公开实施方式提供了一种文本内容检测装置,包括:

接收模块,所述接收模块接收用户输入的文本信息;

处理模块,所述处理模块响应于接收到的所述文本信息,对所述文本信息进行第一内容和第二内容的处理,得到处理结果;

检测模块,所述检测模块基于所述处理结果确定所述文本信息的最终检测结果。

还一方面,本公开实施方式提供了一种电子设备,包括:

存储器,所述存储器存储执行指令;

处理器,所述处理器执行所述存储器存储的执行指令,实现上述中任一项所述的方法。

再一方面,本公开实施方式提供了一种可读存储介质,其特征在于,所述可读存储介质中存储有执行指令,所述执行指令被处理器执行时实现上述中任一项所述的方法。

附图说明

附图示出了本公开的示例性实施方式,并与其说明一起用于解释本公开的原理,其中包括了这些附图以提供对本公开的进一步理解,并且附图包括在本说明书中并构成本说明书的一部分。

图1为本公开实施方式提供的文本内容检测方法流程示意图。

图2为本公开实施方式提供的文本内容检测方法中步骤S106流程示意图。

图3为本公开实施方式提供的文本内容检测方法中步骤S104流程示意图。

图4为本公开实施方式提供的文本内容检测方法第二内容处理流程示意图。

图5为本公开实施方式提供的文本内容检测方法第一内容处理流程示意图。

图6是本公开的一个实施方式的采用处理器的硬件实现方式的文本内容检测装置的结构示意框图。

具体实施方式

下面结合附图和实施方式对本公开作进一步的详细说明。可以理解的是,此处所描述的具体实施方式仅用于解释相关内容,而非对本公开的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本公开相关的部分。

需要说明的是,在不冲突的情况下,本公开中的实施方式及实施方式中的特征可以相互组合。下面将参考附图并结合实施方式来详细说明本公开的技术方案。

除非另有说明,否则示出的示例性实施方式/实施例将被理解为提供可以在实践中实施本公开的技术构思的一些方式的各种细节的示例性特征。因此,除非另有说明,否则在不脱离本公开的技术构思的情况下,各种实施方式/实施例的特征可以另外地组合、分离、互换和/或重新布置。

在附图中使用交叉影线和/或阴影通常用于使相邻部件之间的边界变得清晰。如此,除非说明,否则交叉影线或阴影的存在与否均不传达或表示对部件的具体材料、材料性质、尺寸、比例、示出的部件之间的共性和/或部件的任何其它特性、属性、性质等的任何偏好或者要求。此外,在附图中,为了清楚和/或描述性的目的,可以夸大部件的尺寸和相对尺寸。当可以不同地实施示例性实施例时,可以以不同于所描述的顺序来执行具体的工艺顺序。例如,可以基本同时执行或者以与所描述的顺序相反的顺序执行两个连续描述的工艺。此外,同样的附图标记表示同样的部件。

当一个部件被称作“在”另一部件“上”或“之上”、“连接到”或“结合到”另一部件时,该部件可以直接在所述另一部件上、直接连接到或直接结合到所述另一部件,或者可以存在中间部件。然而,当部件被称作“直接在”另一部件“上”、“直接连接到”或“直接结合到”另一部件时,不存在中间部件。为此,术语“连接”可以指物理连接、电气连接等,并且具有或不具有中间部件。

本文使用的术语是为了描述具体实施例的目的,而不意图限制本申请的范围。如这里所使用的,除非上下文另外清楚地指出,否则单数形式“一个(种、者)”和“所述(该)”也意图包括复数形式。此外,当在本说明书中使用术语“包含”和/或“包括”以及它们的变型时,说明存在所陈述的特征、整体、步骤、操作、部件、组件和/或它们的组,但不排除存在或附加一个或更多个其它特征、整体、步骤、操作、部件、组件和/或它们的组。还要注意的是,如这里使用的,术语“基本上”、“大约”和其它类似的术语被用作近似术语而不用作程度术语,如此,它们被用来解释本领域普通技术人员将认识到的测量值、计算值和/或提供的值的固有偏差。

一方面,本公开实施方式提供了一种文本内容检测方法,请参见图1,本公开实施方式文本内容检测方法M100包括:

S102、接收用户输入的文本信息。

S104、响应于接收到的文本信息,对文本信息进行第一内容和第二内容的处理,得到处理结果。

S106、基于处理结果确定文本信息的最终检测结果。

本公开实施方式提供的文本检测方法接收到用户输入的文本信息,并且响应于接收到的文本信息,对用户输入的文本信息进行第一内容和第二内容的处理,得到处理结果,可以检测出文本信息的有害性以及文本信息中包含的敏感词和非法词语或违规违法的词语。本公开实施方式提供的文本检测方法避免了文本安全性的误判以及漏判;并且从第一内容和第二内容两个不同的方面对文本信息进行检测,提高了文本信息检测效率以及文本信息检测准确度。

S102、接收用户输入的文本信息。

在本公开实施方式中提供的步骤S102中,接收用户输入的文本信息,其中,用户可以通过手机、iPad、电脑等终端输入文本信息。用户输入文本信息的方式可以是语音输入,也可以是文字输入。文本信息的内容根据应用场景进行确定,本公开实施方式对文本信息的内容不做限定。

本公开实施方式中,文本信息的形式可以包括词语、句子、段落和篇章中的至少一种。其中,句子可以包括长句和短句等。本公开实施方式对文本信息的具体形式不限于此。

S104、响应于接收到的文本信息,对文本信息进行第一内容和第二内容的处理,得到处理结果。

本公开实施方式提供的第一内容和第二内容为不同类别的内容,对文本信息进行第一内容和第二内容的处理,可以包括对文本信息在第一时间进行第一内容处理和第二内容处理,还可以包括对文本信息在第一时间对第一内容和第二内容进行先后处理,还可以包括对文本信息在第一时间对第一内容进行处理,再对第二内容进行处理。

S106、基于处理结果确定文本信息的最终检测结果。

通过对文本信息进行上述处理可以检测出文本信息中包括的敏感词和非法词语或不合规、不合法的词语,进而保证对文本信息的有害性清洗的效率,可以为线上大模型及文本信息的应用产品等的安全性起到保障。

本公开实施方式提供的内容检测方法步骤S102包括:响应于接收到的文本信息,对文本信息进行第一内容的分类和第二内容的检测,得到和第一内容的分类匹配的第一结果以及与第二内容的检测匹配的第二结果;将第一结果和第二结果作为处理结果。

根据接收到的文本信息,对文本信息进行第一内容的分类和第二内容的检测,在本公开实施方式中,对第一内容的分类和第二内容的检测可以在第一时间进行,即对第一内容的分类和对第二内容的检测不区分先后顺序。通过对第一内容的分类得到第一结果,通过对第二内容进行检测得到第二结果。通过本公开实施方式提供的上述方法减少了对文本信息检测的时间,提高了对文本信息检测的效率。

本公开实施方式提供的内容检测方法步骤S102包括:

响应于接收到的文本信息,对文本信息进行第一内容的分类,得到第一结果。

基于第一结果对文本信息进行第二内容的检测,得到第二结果;将第一结果和第二结果作为处理结果。

在本实施方式中,对第一内容的分类和对第二内容的检测有先后顺序之分。即响应于接收到的文本信息,对文本信息先进行第一内容的分类,得到第一结果,再基于第一结果对文本信息进行第二内容的检测,得到第二结果。其中,第一结果包括对文本信息的分类,第二结果包括对文本信息中敏感词、违法词语或违规词语的确定结果。

本公开实施方式中提供的文本信息可以应用到不同的场景中,由于不同场景中不同的文本信息有不同的语义,即文本信息的语境不同,其含义则不同。

本公开实施方式中先对第一内容进行分类,可以确定该文本信息所属的应用场景,也即确定该文本信息的语境,基于对文本信息分类的第一结果再对文本信息进行检测,可以提高文本信息检测的准确度。即当确定文本信息的应用场景后可以确定文本信息的语境,进而基于文本信息的应用语境对文本信息进行检测,减少对文本信息的误判,进一步提高对文本信息的检测精确度。

根据本公开优选的一种实施方式,第一内容的分类包括对文本信息进行语义的分类,第二内容的检测包括对文本信息中预设词语义的检测。

本公开实施方式提供的文本检测方法检测的文本信息可以用于大模型的训练预料,因此可以基于文本信息实际应用场景对文本信息进行语义的分类。文本信息中可能会存在敏感词、违法词语或违规词语,因此通过对第二内容的检测可以过滤掉文本信息中的敏感词、违法词语或违规词语。

根据本公开优选的一种实施方式,预设词语义的检测包括对敏感词语敏感度的检测。

可以理解的是,敏感词由于语境的不同,敏感度不同,因此本公开实施方式一方面检测文本信息的敏感词,一方面根据文本信息的应用场景检测敏感词的敏感度。进一步提高对文本信息的检测效果,减少对敏感词的误判现象,也解决了不同语境下文本信息语境的问题。

对文本信息进行语义的分类包括基于文本信息的应用场景对文本信息进行语义的分类。

请参见图2,本公开实施方式提供的文本信息内容检测方法中的步骤S106、基于处理结果确定文本信息的最终检测结果包括:

S1062、获取文本信息的应用场景。

文本信息的应用场景关乎到文本信息的应用语境,因此在确定文本信息的最终检测结果时需要基于文本信息的应用场景进行检测,以提高文本信息的检测精确度。

S1064、根据文本信息的应用场景、处理结果中包括的文本信息的文本标签确定文本信息的最终检测结果。

请参见图3,根据本公开优选的一种实施方式,本公开实施方式提供的文本信息检测内容方法中的步骤S104、响应于接收到的文本信息,对文本信息进行第二内容的检测,包括:S1042、S1044以及S1046。

S1042、响应于接收到的文本信息,基于预先构建的查找树对接收到的文本信息进行黑名单处理,得到第一处理结果。

在本公开一种优选的实施方式中,S1042、响应于接收到的文本信息,基于预先构建的查找树对接收到的文本信息进行黑名单处理,得到第一处理结果,包括:

对所述文本信息进行分词处理。

在预先构建的查找树中查找分词后的文本信息,得到第一处理结果。

根据本公开一种优选的实施方式,预先通过黑名单词汇构建查找树(又称单词查找树,一种树形结构,应用于统计,排序和保存大量的字符串,常被搜索引擎系统用于文本词频统计)包括:

对黑名单词汇进行分组,基于分组的黑名单词汇构建多个查找树进行查找、搜索。

对于本公开方式提供的文本信息,通过分词技术例如jieba(“结巴”分词是一个Python中文分词组件)对文本信息进行分词处理,再将分词处理的结果进行存储,并记录分词出现的次数。

在预先构建的黑名单树中查找分词后的本公开实施方式提供的文本信息,是否能在查找树中查找到本公开实施方式提供的文本信息,即本公开实施方式提供的文本信息中的分词是否存在于黑名单中,也即本公开实施方式中的基于预先构建的查找树对接收到的文本信息进行黑名单处理,得到第一处理结果。

S1044、基于第一处理结果对文本信息进行白名单处理,得到第二处理结果。

请参见图4,图4为本公开实施方式提供的对文本信息进行黑名单过滤和白名单过滤的简单示意图。

本公开实施方式中,在确定文本信息中的分词的第一处理结果后,即确定文本信息中的分词是否存在于黑名单后,还不能将该文本信息的分词最终确定为黑名单词汇,还需要对其进行白名单处理,进一步提高对文本检测的准确率,避免造成对文本信息的误判。

S1046、基于第一处理结果与第二处理结果实现对第二内容的检测。

根据本公开一种优选的实施方式,第一处理结果中包括文本信息中预设词及其出现频次,第二处理结果中包括文本信息中预设词及其出现频次。

基于第一处理结果与第二处理结果实现对第二内容的检测,得到第一结果,包括:

基于第一处理结果中的文本信息中预设词及其出现频次以及第二处理结果中的文本信息中预设词及其出现频次实现对第二内容的检测。

作为一种示例,请继续参见图4,输入文本信息,即图4中的文本输入步骤,对输入的文本信息进行黑名单过滤和白名单过滤,其中黑名单过滤的结果即本公开实施方式中的第一处理结果包括的文本信息中预设词及其出现频次,白名单过滤的结果即本公开实施方式中第二处理结果包括的文本信息中预设词及其出现频次。

根据本公开一种优选的实施方式,基于第一处理结果中的文本中预设词及其出现频次以及第二处理结果中的文本中预设词及其出现频次实现对第二内容的检测,包括:

当第一处理结果中的文本信息中预设词及其出现频次与第二处理结果中的文本信息中预设词及其出现频次相同时,确定第二内容检测结果为合格。

作为一种示例,请继续参见图4,当第一处理结果中的文本信息中预设词及其出现频次与第二处理结果中的文本信息中预设词及其出现频次相同时,即图4中的黑名单与白名单中的预设次及其出现频次抵消后,统计敏感词次数,当敏感词次数大于0时说明该文本信息检测结果不合格,当敏感词次数等于0时说明该文本信息检测结果合格。

作为一种示例,文本信息中包括语句“碰见一个2B,真倒霉”,此时2B一词在查找树中可查找到,即属于黑名单中,违反敏感词状态,则可判定该文本信息不合格。但另一条文本信息中包括“能借给我一支2B铅笔嘛”,则该条文本信息的检测结果是合格的。为了减少上述误判,可以将“2B铅笔”加入白名单,虽然在文本中“能借给我一支2B铅笔嘛”检测到2B位于黑名单中,但2B铅笔位于白名单中,因此,可以将黑名单中的“2B”和白名单中的“2B”进行抵消,最终得到该文本信息合格的检测结果。

根据本公开一种优选的实施方式,响应于接收到的文本信息,进行第一内容的分类,包括:

加载预设模型。

对预设模型进行文本信息语义分类训练,得到训练后的模型。

基于训练后的模型对文本信息进行第一内容的分类。

本公开实施方式采用的预设模型可以为llama(LLaMA(Large Language ModelMeta AI)是Meta公司发布的大型语言模型系列),对llama进行文本信息语义分类训练,得到训练后的模型。

请参见图5,本公开实施方式中,先基于开源7B的llama模型加入大量语料,完成plm、sft等模块的训练。其次,通过修改程序代码,使llama模型具有语义分类功能。本公开实施方式对原有llama模型的32layers结构进行缩减,只保留llama模型的的读取功能,得到16layers结构的llama模型,基于16layers结构的llama模型进行文本信息语义分类训练。最后,进行llama模型语义分类的训练。

本公开实施方式中,缩减llama模型可以提高llama模型的推理速度以及节省资源。并且在进行plm,sft等模块训练时,可以让llama模型具有更强的学习能力和文本理解能力,使缩减的llama模型与业务场景的适用更加匹配。

根据本公开一种优选的实施方式,基于训练后的模型对所述文本信息进行第一内容的分类,包括:

基于训练后的模型对文本信息基于所述第一内容包括的不同子内容的类别进行标签化。

基于标签化后的不同字内容对文本信息进行分类。

本公开实施方式采用完成训练的llama模型对文本信息基于所述第一内容包括的不同子内容的类别进行标签化,有效提升了对文本信息的分类效果。

根据本公开一种优选的实施方式,基于训练后的模型对所述文本信息基于所述第一内容包括的不同子内容的类别进行标签化,包括:

获取文本信息的应用场景。

基于训练后的模型对所述文本信息基于第一内容包括的不同子内容的类别与文本信息的应用场景进行标签化。

通过将文本信息的应用场景结合起来对第一内容包括的不同子内容的类别进行标签化提高了对文本信息检测的准确度,减少了对文本信息的误判。

图6示出了采用处理系统的硬件实现方式的装置示例图。

该装置可以包括执行上述流程图中各个或几个步骤的相应模块。因此,可以由相应模块执行上述流程图中的每个步骤或几个步骤,并且该装置可以包括这些模块中的一个或多个模块。模块可以是专门被配置为执行相应步骤的一个或多个硬件模块、或者由被配置为执行相应步骤的处理器来实现、或者存储在计算机可读介质内用于由处理器来实现、或者通过某种组合来实现。

该硬件结构可以利用总线架构来实现。总线架构可以包括任何数量的互连总线和桥接器,这取决于硬件的特定应用和总体设计约束。总线1100将包括一个或多个处理器1200、存储器1300和/或硬件模块的各种电路连接到一起。总线1100还可以将诸如外围设备、电压调节器、功率管理电路、外部天线等的各种其它电路1400连接。

总线1100可以是工业标准体系结构(ISA,Industry Standard Architecture)总线、外部设备互连(PCI,Peripheral Component)总线或扩展工业标准体系结构(EISA,Extended Industry Standard Component)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,该图中仅用一条连接线表示,但并不表示仅有一根总线或一种类型的总线。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为:表示包括一个或多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分。本公开的优选实施方式的范围可以包括其他实现方式,其中可以不按所描述的顺序,例如可以根据所涉及的功能按基本同时方式或按相反顺序来执行功能,这应被本领域技术人员所理解。处理器可以用于执行上文所描述的各个方法和处理。例如,本公开中的方法实施方式可以被实现为软件程序,存储于计算机可读存储介质,例如存储器。在一些实施方式中,软件程序的部分或全部可以经由存储器和/或通信接口而被载入和/或安装。当软件程序加载后并由处理器执行时,可以执行上文描述的方法中的一个或多个步骤。备选地,在其他实施方式中,处理器可以通过其他任何合适方式(例如,借助于固件)而被配置为执行上述方法之一。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤,可以具体实现在任何可读存储介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。

就本说明书而言,“可读存储介质”可以是任何包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。可读存储介质的更具体示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置)、便携式计算机盘盒(磁装置)、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编辑只读存储器(EPROM或闪速存储器)、光纤装置、及便携式只读存储器(CDROM)。另外,可读存储介质甚至可以是可打印程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序,然后将其存储在存储器中。

应当理解,本公开的各部分可以用硬件、软件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适指令执行系统执行的软件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或它们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路、具有合适的组合逻辑门电路的专用集成电路、可编程门阵列(PGA)、现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施方式方法的全部或部分步骤是可以通过程序来指令相关的硬件完成。程序可以存储于一种可读存储介质中。程序在执行时,包括实施方法的步骤之一或其组合。

此外,在本公开各个实施方式中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个可读存储介质中。存储介质可以是只读存储器,磁盘或光盘等。

图6是根据本公开的一个实施方式的文本内容检测装置的一种结构示意图。该文本内容检测装置1000,包括:

接收模块1002,接收模块1002接收用户输入的文本信息。

处理模块1004,处理模块1004响应于接收到的文本信息,对文本信息进行第一内容和第二内容的处理,得到处理结果。

检测模块1006,检测模块1006基于处理结果确定文本信息的最终检测结果。

根据本公开一种优选的实施方式,处理模块1004响应于接收到的文本信息,对文本信息进行第一内容的分类和第二内容的检测,得到和第一内容的分类匹配的第一结果以及与第二内容的检测匹配的第二结果;将第一结果和第二结果作为处理结果。

根据本公开一种优选的实施方式,处理模块1004包括第一处理模块和第二处理模块。

第一处理模块响应于接收到的文本信息,对文本信息进行第一内容的分类,得到第一结果。

第二处理模块基于第一结果对文本信息进行第二内容的检测,得到第二结果;将第一结果和第二结果作为处理结果。

根据本公开一种优选的实施方式,第一内容的分类包括对文本信息进行语义的分类,第二内容的检测包括对文本信息中预设词语义的检测。

根据本公开一种优选的实施方式,预设词语义的检测包括对敏感词语敏感度的检测;

对文本信息进行语义的分类包括基于文本信息的应用场景对文本信息进行语义的分类。

根据本公开一种优选的实施方式,检测模块1006包括:第一获取单元与第二获取单元。

第一获取单元获取文本信息的应用场景。

第二获取单元根据文本信息的应用场景、处理结果中包括的文本信息的文本标签确定文本信息的最终检测结果。

根据本公开一种优选的实施方式,处理模块1004还包括第三处理模块、第四处理模块以及第五处理模块。

第三处理模块响应于接收到的文本信息,基于预先构建的查找树对接收到的文本信息进行黑名单处理,得到第一处理结果。

第四处理模块基于第一处理结果对文本信息进行白名单处理,得到第二处理结果。

第五处理模块基于第一处理结果与第二处理结果实现对第二内容的检测。

根据本公开一种优选的实施方式,第三处理模块对文本信息进行分词处理。

在预先构建的查找树中查找分词后的文本信息,得到第一处理结果。

根据本公开一种优选的实施方式,第一处理结果中包括文本信息中预设词及其出现频次,第二处理结果中包括文本信息中预设词及其出现频次。

第五处理模块基于第一处理结果中的文本信息中预设词及其出现频次以及第二处理结果中的文本信息中预设词及其出现频次实现对第二内容的检测。

根据本公开一种优选的实施方式,第五处理模块当第一处理结果中的文本信息中预设词及其出现频次与第二处理结果中的文本信息中预设词及其出现频次相同时,确定第二内容检测结果为合格。

根据本公开一种优选的实施方式,处理模块1004加载预设模型。

对预设模型进行文本信息语义分类训练,得到训练后的模型。

基于训练后的模型对文本信息进行第一内容的分类。

根据本公开一种优选的实施方式,处理模块1004基于训练后的模型对文本信息基于第一内容包括的不同子内容的类别进行标签化。以及基于标签化后的不同字内容对文本信息进行分类。

根据本公开一种优选的实施方式,处理模块1004获取文本信息的应用场景;以及基于训练后的模型对文本信息基于第一内容包括的不同子内容的类别与文本信息的应用场景进行标签化。

本公开还提供了一种电子设备,包括:存储器,存储器存储执行指令;以及处理器或其他硬件模块,处理器或其他硬件模块执行存储器存储的执行指令,使得处理器或其他硬件模块执行上述的方法。

本公开还提供了一种可读存储介质,可读存储介质中存储有执行指令,所述执行指令被处理器执行时用于实现上述的方法。

在本说明书的描述中,参考术语“一个实施方式/实施例”、“一些实施方式/实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施方式/实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施方式/方式或示例中。在本说明书中,对上述术语的示意性表述不必是在相同的实施方式/实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施方式/实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施方式/实施例或示例以及不同实施方式/方式或示例的特征进行结合和组合。

此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。

本领域的技术人员应当理解,上述实施方式仅仅是为了清楚地说明本公开,而并非是对本公开的范围进行限定。对于所属领域的技术人员而言,在上述公开的基础上还可以做出其它变化或变型,并且这些变化或变型仍处于本公开的范围内。

相关技术
  • 文本检测方法、装置、电子设备及计算机可读存储介质
  • 一种文本标识的方法、装置、电子设备及存储介质
  • 文本属性字段的匹配方法、装置、电子设备及存储介质
  • 文本分析方法、装置、电子设备及可读存储介质
  • 宫廷服饰文本主题生成方法、装置、电子设备及存储介质
  • 一种文本内容检测方法、检测装置、电子设备及存储介质
  • 一种文本检测方法、文本检测装置、电子设备及存储介质
技术分类

06120116586728