掌桥专利:专业的专利平台
掌桥专利
首页

审核文本的质检方法、装置、介质以及电子设备

文献发布时间:2023-06-19 11:32:36


审核文本的质检方法、装置、介质以及电子设备

技术领域

本公开涉及人工智能技术领域,具体而言,涉及一种审核文本的质检方法、审核文本的质检装置、计算机可读介质以及电子设备。

背景技术

对人工审核结论进行质检可以保证结论的准确性。

但是,通过人工抽检的方式进行质检,会进一步耗费大量人力和时间,也无法避免人为疏忽的情况发生;而通过检查人工审核结论的关键词或敏感词的方式进行质检缺乏自适应性。

鉴于此,本领域亟需开发一种新的审核文本的质检方法及装置。

需要说明的是,在上述背景技术部分公开的信息仅用于加强对本申请的技术背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开的目的在于提供一种审核文本的质检方法、审核文本的质检装置、计算机可读介质以及电子设备,进而至少在一定程度上克服质检成本高且准确度不高的技术问题。

本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。

根据本公开实施例的一个方面,提供一种审核文本的质检方法,该方法包括:获取审核依据和审核结论,并对所述审核依据进行分词处理得到审核关键词;

确定所述审核关键词与所述审核结论之间的审核映射关系,并根据所述审核映射关系确定至少两个审核概率;

对所述至少两个审核概率进行概率计算得到与所述审核关键词对应的关键词概率;

根据所述审核关键词和所述审核依据确定所述审核关键词的审核权重;

对所述关键词概率和所述审核权重进行概率预测计算得到结论概率,并利用所述结论概率在所述审核结论中确定质检结论。

根据本公开实施例的一个方面,提供一种审核文本的质检装置,该装置包括:分词处理模块,被配置为获取审核依据和审核结论,并对所述审核依据进行分词处理得到审核关键词;

映射关系模块,被配置为确定所述审核关键词与所述审核结论之间的审核映射关系,并根据所述审核映射关系确定至少两个审核概率;

概率计算模块,被配置为对所述至少两个审核概率进行概率计算得到与所述审核关键词对应的关键词概率;

权重确定模块,被配置为根据所述审核关键词和所述审核依据确定所述审核关键词的审核权重;

结论概率模型,被配置为对所述关键词概率和所述审核权重进行概率预测计算得到结论概率,并利用所述结论概率在所述审核结论中确定质检结论。

在本公开的一些实施例中,基于以上技术方案,所述权重确定模块包括:位置确定子模块,被配置为确定所述审核关键词在所述审核依据中的文本位置;

位置权重子模块,被配置为根据所述文本位置确定所述审核关键词的审核权重。

在本公开的一些实施例中,基于以上技术方案,所述位置确定子模块模块包括:权重映射单元,被配置为确定所述文本位置与所述审核关键词的审核权重之间的权重映射关系;

映射确定单元,被配置为根据所述权重映射关系和所述文本位置确定所述审核关键词的审核权重。

在本公开的一些实施例中,基于以上技术方案,所述位置确定子模块包括:候选权重单元,被配置为根据所述文本位置确定所述审核关键词的位置权重;

权重计算单元,被配置为获取与所述审核关键词对应的影响权重,并对所述位置权重和所述影响权重进行权重计算得到审核权重。

在本公开的一些实施例中,基于以上技术方案,所述概率计算模块,包括:模型计算子模块,被配置为利用机器学习模型对所述至少两个审核概率进行概率计算得到与所述审核关键词对应的关键词概率。

在本公开的一些实施例中,基于以上技术方案,所述概率计算模块,包括:矩阵计算子模块,被配置为对所述至少两个审核概率进行概率计算得到概率矩阵;

概率查找子模块,被配置为在所述概率矩阵中确定与所述审核关键词对应的关键词概率。

在本公开的一些实施例中,基于以上技术方案,所述映射关系模块,包括:单独概率子模块,被配置为确定与所述审核结论对应的结论概率,并确定与所述审核关键词对应的文本概率;

数量确定子模块,被配置为根据所述审核映射关系确定所述审核关键词在所述审核结论中的结论数量;

审核概率子模块,被配置为根据所述结论数量确定所述审核关键词在所述审核结论中的相关概率,并确定所述结论概率、所述文本概率和所述相关概率为至少两个审核概率。

在本公开的一些实施例中,基于以上技术方案,所述结论概率模块,包括:概率个数子模块,被配置为确定所述结论概率为至少两个,至少两个结论概率是由至少两个审核依据和至少两个审核结论得到的;

概率比较子模块,被配置为对所述至少两个结论概率进行比较得到目标结论概率,并利用所述目标结论概率在所述至少两个审核结论中确定质检结论。

在本公开的一些实施例中,基于以上技术方案,所述审核文本的质检装置,还包括:结论质检模块,被配置为获取与所述审核依据对应的人工审核结论,并将所述人工审核结论与所述质检结论进行比较确定质检结果;

质检结果模块,被配置为根据所述质检结果更新所述关键词概率。

在本公开的一些实施例中,基于以上技术方案,所述质检结果模块,包括:结论复查子模块,被配置为若所述质检结果为所述人工审核结论与所述质检结论不同,复查所述质检结论得到复查结果;

概率更新子模块,被配置为若所述复查结果为所述质检结论正确,更新所述关键词概率。

在本公开的一些实施例中,基于以上技术方案,所述分词处理模块,包括:质检分词子模块,被配置为对所述审核依据进行分词处理得到质检分词;

特征提取子模块,被配置为对所述质检分词进行特征提取处理得到审核关键词。

在本公开的一些实施例中,基于以上技术方案,所述分词处理模块,包括:数据清洗子模块,被配置为对所述审核依据进行清洗处理得到目标审核依据;

目标依据子模块,被配置为对所述目标审核依据进行分词处理得到审核关键词。

根据本公开实施例的一个方面,提供一种计算机可读介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如以上技术方案中的审核文本的质检方法。

根据本公开实施例的一个方面,提供一种电子设备,该电子设备包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器被配置为经由执行所述可执行指令来执行如以上技术方案中的审核文本的质检方法。

在本公开实施例提供的技术方案中,一方面,利用审核关键词与审核结论之间的审核映射关系确定审核关键词的关键词概率和审核权重,实现了审核结论与审核依据之间相关性的量化,为审核依据和审核结论定量的应用在文本质检场景中提供了可能性;另一方面,对定量的关键词概率和审核权重进行概率预测计算得到结论概率,并进一步利用结论概率确定质检结论,是一种自动化且智能化的审核文本质检方法,提升了质检速度和质检效率,保证了质检结论的准确性和适应性,极大地减少了审核文本质检成本。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:

图1示意性地示出了应用本公开技术方案的示例性系统的架构示意图;

图2示意性地示出了本公开的一些实施例中一种审核文本的质检方法的步骤流程图;

图3示意性地示出了在本公开的一些实施例中一种得到审核关键词的方法的步骤流程图;

图4示意性地示出了在本公开的一些实施例中另一种得到审核关键词的步骤流程图;

图5示意性地示出了在本公开的一些实施例中确定至少两个审核概率的方法的步骤流程图;

图6示意性地示出了在本公开的一些实施例中确定关键词概率的方法的步骤流程图;

图7示意性地示出了在本公开的一些实施例中确定审核权重的方法的步骤流程图;

图8示意性地示出了在本公开的一些实施例中第一种进一步确定审核权重的方法的步骤流程图;

图9示意性地示出了在本公开的一些实施例中第二种进一步确定审核权重的方法的步骤流程图;

图10示意性地示出了在本公开的一些实施例中确定质检结论的方法的步骤流程图;

图11示意性地示出了在本公开的一些实施例中更新关键词概率的方法的步骤流程图;

图12示意性地示出了在本公开的一些实施例中进一步更新关键词概率的方法的步骤流程图;

图13示意性地示出了在本公开些实施例在应用场景下的审核文本的质检方法的步骤流程图;

图14示意性地示出了在本公开一些实施例中的一种审核文本的质检装置的结构框图;

图15示意性地示出了适于用来实现本公开实施例的电子设备的计算机系统的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。

此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本公开的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。

附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。

在本领域的相关技术中,通过人工保证人工审核结论的质检质量,会耗费大量人力和时间,同样也会出现人为疏忽的情况发生;而通过人工抽样的方式进行质检,虽然在一定范围内可以保证质检质量,但也存在对人工审核结论的质检不完整以及质检过程中的人为疏忽的情况;利用关键词或敏感词的检查进行人工审核结论的质检,仅能对已知或者特定的关键词或敏感词做检查和质检,十分缺乏自适应性。

基于以上方案存在的问题,本公开提供了一种基于人工智能的审核文本的质检方法、审核文本的质检装置、计算机可读介质以及电子设备。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

其中,机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

利用人工智能中的机器学习技术对审核文本进行质检的方法能够实现审核结论与审核依据之间相关性的量化,为审核依据和审核结论定量的应用在文本质检场景中提供了可能性。除此之外,还提升了质检速度和质检效率,保证了质检结论的准确性和适应性,极大地减少了审核文本质检成本。

图1示出了应用本公开技术方案的示例性系统架构示意图。

如图1所示,系统架构100可以包括终端110、网络120、服务器端130。其中,终端110和服务器端130通过网络120连接。

终端110可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。网络120可以是能够在终端110和服务器端130之间提供通信链路的各种连接类型的通信介质,例如可以是有线通信链路、无线通信链路或者光纤电缆等等,本申请在此不做限制。服务器130可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。

具体地,服务器端130获取审核依据和审核结论,并对审核结论进行分词处理得到审核关键词。然后,确定审核关键词与审核结论质检的审核映射关系,并根据审核映射关系确定至少两个审核概率,以对至少两个审核概率进行概率计算得到与审核关键词对应的关键词概率。进一步的,根据审核关键词和审核依据确定审核关键词的审核权重,并对关键词概率和审核权重进行概率预测计算得到结论概率,以利用结论概率在审核结论中确定质检结论。

值得说明的是,如本申请所公开的审核文本的质检方法或装置,其中多个服务器可组成为一区块链,而服务器为区块链上的节点。

另外,本公开实施例中的审核文本的质检方法可以应用于终端,也可以应用于服务器端,本公开对此不做特殊限定。本公开实施例主要以审核文本的质检方法应用于服务器端130来举例说明。

下面结合具体实施方式对本公开提供的审核文本的质检方法、审核文本的质检装置、计算机可读介质以及电子设备做出详细说明。

图2示意性地示出了本公开的一些实施例中审核文本的质检方法的步骤流程图,如图2所示,审核文本的质检方法主要可以包括以下步骤:

步骤S210.获取审核依据和审核结论,并对审核依据进行分词处理得到审核关键词。

步骤S220.确定审核关键词与审核结论之间的审核映射关系,并根据审核映射关系确定至少两个审核概率。

步骤S230.对至少两个审核概率进行概率计算得到与审核关键词对应的关键词概率。

步骤S240.根据审核关键词和审核依据确定审核关键词的审核权重。

步骤S250.对关键词概率和审核权重进行概率预测计算得到结论概率,并利用结论概率在审核结论中确定质检结论。

在本公开的示例性实施例中,一方面,利用审核关键词与审核结论之间的审核映射关系确定审核关键词的关键词概率和审核权重,实现了审核结论与审核依据之间相关性的量化,为审核依据和审核结论定量的应用在文本质检场景中提供了可能性;另一方面,对定量的关键词概率和审核权重进行概率预测计算得到结论概率,并进一步利用结论概率确定质检结论,是一种自动化且智能化的审核文本质检方法,提升了质检速度和质检效率,保证了质检结论的准确性和适应性,极大地减少了审核文本质检成本。

下面对审核文本的质检方法的各个步骤进行详细说明。

在步骤S210中,获取审核依据和审核结论,并对审核依据进行分词处理得到审核关键词。

在本公开的示例性实施例中,对审核依据和审核结论的质检即为质量检查,是对人工审核结果进行检查的操作。审核依据是质量检查的依据,而审核结论是由审核依据可以得到的结论。

该审核依据和审核结论是指有效的审核依据和审核结论,也就是排除驳回或者重审等无效的审核记录得到的。由于驳回和重审等无效的审核记录会标记有对应的标识信息,因此可以通过该标识信息识别驳回或无效的审核记录,以将该审核记录剔除得到有效的审核依据和审核结论。此时,该审核结论可以包括通过或不通过等结论。

在获取到有效的审核依据和审核结论之后,可以进一步对审核依据进行分词处理得到审核关键词。

图3和图4分别示出了两种得到审核关键词的方法的步骤流程图。其中,图3示出了对审核依据进行分词处理和特征提取处理得到审核关键词的方法的步骤流程图,图4示出了对审核依据进行清洗处理和分词处理得到审核关键词的方法的步骤流程图。

值得说明的是,图4中对清洗处理后的审核依据进行分词处理的方式可以包括图3所示的分词处理方式和特征提取处理方式。

在可选的实施例中,图3示出了一种得到审核关键词的方法的步骤流程图,如图3所示,该方法至少包括以下步骤:在步骤S310中,对审核依据进行分词处理得到质检分词。

对审核依据进行分词处理可以是采用结巴(jieba)分词实现的。结巴分词支持三种分词模式,分别是全模式、精确模式和搜索引擎模式。其中,全模式是把句子中所有可以成词的词语都扫描出来,速度非常快;精确模式试图将句子最精确地切开,适合文本分词;搜索引擎模式是在精确模式的基础上,对长词进行再次切分,可以提高召回率,适合搜索引擎分词。并且,结巴分词还支持繁体分词,也支持自定义词典。

由于结巴分词虽然有一定的新词识别能力,但是自行添加的新词和对应权重可以保证更高的正确率,因此,使用结巴分词的自定义词典进行分词处理。

自定义词典分为三部分,分别是词语、词频和词性,三者用空格隔开,且顺序不可颠倒。其中,词性和词频是可以省略的。举例而言,自定义词典可以包括“经查询100v”,“名单人物100n”,“黑名单100n”,……。

具体的,词性对照表如表1所示:

表1

在建立自定义词典时,除了可以利用词性和词频之外,还可以对应添加词语的业务属性、词语的位置以及词语的前后位置等信息,以使建立的自定义词典中包含的词语维度更多,保证分词处理的准确性。

并且,自定义词典中的词语可以来源于业务术语,亦即对应的审核指导手册和行业术语说明等,也可以是对步骤S320中进行特征提取时得到的新的审核关键词进行循环使用时得到的,还可以是通过其他方式得到的,本示例性实施例对此不做特殊限定。

除此之外,还可以采用基于规则分词和基于统计分词的分词处理方式得到质检分词。

其中,基于规则分词是通过预先构建词典按照匹配方式进行分词切分。该词典可以是多元文法N-gram(汉语语言模型)词典,并按照分词策略将原始文本所包含的字符串与预先构建的多元文法N-gram词典进行匹配得到每个字符所有的可能切分结果,然后采用基于多元文法N-gram词典的最短路径方法计算出最终的质检分词。

基于统计分词是利用经过标注的语料训练构建的分类器来进行分词处理。分类器可以是利用机器学习或深度学习算法进行训练构建的。这类算法通过可以采用隐含马尔柯夫模型(Hidden Markov Model,简称HMM)、条件随机场算法(conditional random fieldalgorithm,简称CRF)和深度学习等。

除此之外,也可以直接通过调用多种不同的分词工具作为分词模型,分别调用类型不同的分词工具对原始文本进行分词处理得到质检分词。该质检分词也可以称为粗分语料。调用类型不同的分词工具对原始文本进行初步分词处理得到与不同的分词工具对应的多个初始分词,将多个初始分词合并成初始分词集合。此时,初始分词集合所包含的初始分词数据较多,可以通过对每个初始分词进行投票缩减初始分词的数量。其中,投票过程可以是按照分词工具统计得到的。举例而言,对于某个初始分词,三种分词工具均可以从原始文本中切分得到该初始分词,此时该初始分词作为质检分词。如果三种分词工具对于该初始分词的分词结果不一致,直接丢弃该初始分词;如果两种分词工具对该初始分词的分词结果一致,另一种分词工具的分词结果不一致,可以确定该初始分词为质检分词。

当使用多种分词工具进行分词时,通过投票方式可以初步缩小初始分词集合中初始分词的数量,保证质检分词的有效性。

其中,分词工具可以采用开源中文分词工具,例如结巴中文分词、Hanlp分词器、哈工大语言技术平台(Language Technology Platform,简称LTP)、由清华大学自然语言处理与社会人文计算实验室研制推出的一套中文词法分析工具包(THU Lexial Analyzer forChinese,简称THULAC)、斯坦福分词器、自然语言处理与信息检索共享平台NLPIR等。这些分词工具分别具备各自的分词特点。举例而言,调用的多种分词工具分别可以是LTP、THULAV和NLPIR三种分词工具对原始文本进行分词处理。

LTP的分词模块基于CRF模型进行训练和解码,它在观测序列的基础上对目标序列进行建模,采用的数据来源是1998年1-6月人民日报中的数据。通过获取文件路径分词接口进行初始化,调用分词接口对原始文本进行分词处理得到质检分词。

THULAC工具包自带模型训练原始语料,但是需要授权。THULAC工具包的中文分词和词性标注功能具有能力强、准确率高的特点。它可以通过配置接口参数,调用分词语句来对原始文本进行分词处理得到质检分词。

NLPIR工具是一个全链条的分析工具,可以对原始文本进行分词。在具体分词过程中,需要导入预先构建的词典,通过调用词典来进行初次切分得到切分结果。进一步的,再使用概率统计方法和简单规则消除歧义词语,并利用词频信息识别未登录词语,经过消除歧义和识别未登录词后得到质检分词。

在步骤S320中,对质检分词进行特征提取处理得到审核关键词。

在得到质检分词之后,可以进一步对质检分词进行特征提取处理得到审核关键词。

特征提取是从一个初始测量的资料集合中开始做,然后构建出富含资讯性且不冗余的导出值,亦即特征值。

特征值可以帮助续接学习过程和归纳的步骤,在某些情况下可以让人更容易的对资料做出较好的诠释。特征提取是一个降低维度的步骤,初始的资料集合被降到更容易管理的族群(特征)以便于学习,同时保持描述原始资料集的精准性与完整性。

具体的,特征提取处理方式可以是利用TF-IDF(term frequency–inversedocument frequency,词频-逆文本词频)技术实现的。

TF-IDF是一种用于信息检索与文本挖掘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着字词在文件中出现的次数呈正比增加,但同时会随着字词在语料库中出现的频率呈反比下降。

TF-IDF指的是从质检分词中提取审核关键词的算法。具体的,将每一个质检分词在审核依据中所对应的词频亦即逆向文本频率的乘积作为该质检分词的TF-IDF值,再根据每一质检分词的TF-IDF值与词性权重的乘积来提取出审核关键词。

其中,词性权重的大小由高到低可以是动词>名词>形容词>助词>代词等,也可以有其他词性权重的设定方式,本示例性实施例对此不做特殊限定。

由于TF-IDF的值与该质检分词在审核依据中出现的频率呈正比,与该质检分词在整个语料库中出现的频率呈反比,因此根据TF-IDF的这一特征可以从审核依据中提取出审核关键词。利用TF-IDF提取审核关键词的方式简单快速,提高了审核关键词的提取效率。

在本示例性实施例中,通过分词处理和特征提取处理的方式得到审核关键词,保证了审核关键词的提取准确度,也提升了审核关键词的提取效率。

在可选的实施例中,图4示出了另一种得到审核关键词的方法的步骤流程图,该4所示,该方法至少包括以下步骤:在步骤S410中,对审核依据进行清洗处理得到目标审核依据。

清洗处理是对审核依据进行重新审查和校验的过程,目的在于删除重复的审核依据、纠正审核依据中存在的错误,以及提供审核依据的数据一致性。

具体的,对审核依据进行清洗处理包括移除不完整数据、移除数据格式错误、移除异常或噪音数据以及统一规格等方式。

其中,不完整数据可以包括数据缺失或不全,亦即审核依据的编码未在中文编码区间或者是审核依据的文本长度不满足第一预设长度;数据格式错误包括审核依据的显示呈现乱码,或者是审核依据中包含的身份证或其他标识信息的格式不满足预定格式,或者是空格过多等情况;异常或噪音数据包括审核依据的文本长度超出第二预设长度,或者是审核依据中的词汇属于预设的生僻词汇等。

其中,第一预设长度和第二预设长度都可以是按照实际情况预先设置的,本示例性实施例对此不做特殊限定。

对于不完整数据、数据格式错误以及异常或噪音数据的清洗处理方式均为移除处理。

而统一规格可以是对同义词或相似词进行合并处理,以及对日期、时间或地区等文本进行格式统一处理。

在对审核依据进行清洗处理之后可以得到目标审核依据。

在步骤S420中,对目标审核依据进行分词处理得到审核关键词。

在得到目标审核依据之后,可以对目标审核依据进行图3所示的分词处理方式得到审核关键词,也可以是对目标审核依据进行与步骤S310的分词处理方式得到审核关键词,本示例性实施例对此不做特殊限定。

在本示例性实施例中,通过清洗处理和分词处理得到审核关键词,保证了审核关键词的数据有效性和格式统一性,为后续确定质检结论提供了数据支持。

在步骤S220中,确定审核关键词与审核结论之间的审核映射关系,并根据审核映射关系确定至少两个审核概率。

在本公开的示例性实施例中,在得到审核关键词之后,可以确定审核关键词与审核结论之间的审核映射关系。

并且,在确定审核映射关系之前,还可以对审核结论进行清洗处理。对审核结论的清洗处理方式可以是将不在预设审核结论范围内的审核结论剔除,也可以根据实际需求设定其他清洗处理方式,本示例性实施例对此不做特殊限定。

进一步的,确定审核关键词和清洗处理后的审核结论之间的审核映射关系。

该审核映射关系可以是反映审核结论对审核关键词的包含关系。例如,审核结论1中包含审核关键词1,审核结论1中包含审核关键词2,审核结论2中包含审核关键词2等。

在确定审核映射关系之后,可以根据审核映射关系确定出审核关键词与审核结论之间的至少两个审核概率。

图5示出了确定至少两个审核概率的方法的步骤流程图,如图5所示,该方法至少包括以下步骤:在步骤S510中,确定与审核结论对应的结论概率,并确定与审核关键词对应的文本概率。

该结论概率可以是审核结论的出现概率P(A)。结论概率是审核结论的先验概率(或边缘概率),之所以将P(A)称之为“先验”是因为不考虑任何审核关键词方面的因素。

而文本概率是审核关键词的出现概率P(B)。对应的,P(B)即为审核关键词的先验概率。

在步骤S520中,根据审核映射关系确定审核关键词在审核结论中的结论数量。

举例而言,根据审核映射关系确定出的审核关键词在审核结论中的结论数量如表2所示:

表2

其中,审核关键词1在审核结论1中的结论数量为数量1,审核关键词1在审核结论2中的结论数量为数量2,审核关键词1在审核结论3中的结论数量为数量3,……,审核关键词2在审核结论1中的结论数量为数量4,审核关键词2在审核结论2中的结论数量为数量5,审核关键词2在审核结论3中的结论数量为数量6,……。

在步骤S530中,根据结论数量确定审核关键词在审核结论中的相关概率,并确定结论概率、文本概率和相关概率为至少两个审核概率。

该相关概率可以是审核结论中包含审核关键词的出现概率P(B|A)。P(B|A)是在已知审核结论出现的情况下,出现审核关键词的条件概率。

在分别得到结论概率P(A)、文本概率P(B)和相关概率P(B|A)的情况下,可以将结论概率P(A)、文本概率P(B)和相关概率P(B|A)确定为至少两个审核概率。

在本示例性实施例中,确定与审核关键词和审核结论对应的至少两个审核概率,确定方式简单准确,且与审核结论审核的应用场景紧密相关,为后续确定质检结论提供了数学理论基础。

在步骤S230中,对至少两个审核概率进行概率计算得到与审核关键词对应的关键词概率。

在本公开的示例性实施例中,在得到至少两个审核概率之后,可以对至少两个审核概率进行概率计算得到关键词概率。

具体的,按照公式(1)对至少两个审核概率进行概率计算得到关键词概率:

其中,A以及B为随机事件,事件A为出现审核结论的事件,事件B为出现审核关键词的事件,且不为零。P(A|B)是指在出现审核关键词的情况下,出现审核结论的概率。

由于已经得到结论概率P(A)、文本概率P(B)和相关概率P(B|A),因此可以按照公式(1)计算出审核关键词所对应的审核结论的概率为P(A|B)。

值得说明的是,还可以通过云计算的并行计算能力快速的提高对关键词概率的概率计算速度,以进一步提高对审核文本的质检能力和速度。

其中,云计算(cloud computing)指IT基础设施的交付和使用模式,指通过网络以按需、易扩展的方式获得所需资源;广义云计算指服务的交付和使用模式,指通过网络以按需、易扩展的方式获得所需服务。这种服务可以是IT和软件、互联网相关,也可是其他服务。云计算是网格计算(Grid Computing)、分布式计算(DistributedComputing)、并行计算(Parallel Computing)、效用计算(Utility Computing)、网络存储(Network StorageTechnologies)、虚拟化(Virtualization)、负载均衡(Load Balance)等传统计算机和网络技术发展融合的产物。

随着互联网、实时数据流、连接设备多样化的发展,以及搜索服务、社会网络、移动商务和开放协作等需求的推动,云计算迅速发展起来。不同于以往的并行分布式计算,云计算的产生从理念上将推动整个互联网模式、企业管理模式发生革命性的变革。

不仅如此,云计算的并行能力不仅可以用于此处的概率计算,还可以应用在本公开中涉及到的权重计算和概率预测计算等其他可以利用云计算实现的过程中。

除此之外,还可以通过机器学习模型计算关键词概率。

在可选的实施例中,利用机器学习模型对至少两个审核概率进行概率计算得到与审核关键词对应的关键词概率。

该机器学习模型是使用朴素贝叶斯算法训练而成的。该机器学习模型的训练实际上是利用已知审核依据中的审核关键词的对应关系计算出关键词概率的过程。

贝叶斯定理(Bayes’theorem)是概率论中的一个定理,描述在已知一些条件下,某事件的发生几率。举例而言,如果已知某癌症与寿命相关,使用贝叶斯定理可以通过得知某人年龄来准确地计算出该人罹患癌症的几率。

在机器学习中,朴素贝叶斯算法是一系列以假定特征之间强(朴素)独立下运用贝叶斯定理为基础的概率分类器。利用朴素贝叶斯算法训练出的机器学习模型对至少两个审核概率进行概率计算可以将审核结果的质检问题转变为分类判断问题。

利用朴素贝叶斯算法训练机器学习模型主要包括准备工作阶段和分类器训练阶段两个阶段。

其中,准备工作阶段的任务是为朴素贝叶斯分类做必要的准备,主要工作是根据具体情况确定特征属性,并对每个特征属性进行适当划分,然后由人工对一部分待分类项进行分类形成训练样本集合。这一阶段的输入是所有待分类数据,输出是特征属性和训练样本。这一阶段是整个朴素贝叶斯分类中唯一需要人工完成的阶段,这一阶段的质量对整个过程有重要影响,后续分类器的质量很大程度上是由特征属性、特征属性划分和训练样本质量决定的。

分类器训练阶段的任务是生成分类器,主要工作是计算每个类别在训练样本中的出现频率及每个特征属性划分对每个类别的条件概率估计,并记录结果。这一阶段的输入是特征属性和训练样本,输出是分类器。这一阶段是机械性阶段,根据公式(1)可自动计算完成。

当该机器学习模型训练完成之后,可以利用预先训练好的机器学习模型计算出与审核关键词对应的关键词概率。

除此之外,该机器学习模型并不局限于利用朴素贝叶斯算法进行训练,也可以利用其他有监督或者无监督的分类算法进行训练,还可以将多种算法进行组合达到训练目的,本示例性实施例对此不做特殊限定。

在本示例性实施例中,利用机器学习模型计算关键词概率,实现了关键词概率的自动计算和智能化预测。

利用机器学习模型计算关键词概率可以应用在机器学习模型的训练阶段和实际使用阶段,但是由于还可以将训练阶段计算出的关键词概率进行记录,因此,还可以在实际使用阶段通过查询记录好的关键词概率的方式确定对应的关键词概率。

在可选的实施例中,图6示出了确定关键词概率的方法的步骤流程图,如图6所示,该方法至少包括以下步骤:在步骤S610中,对至少两个审核概率进行概率计算得到概率矩阵。

对至少两个审核概率进行概率计算得到概率矩阵可以通过三步实现,首先,利用公式(1)或预先训练好的机器学习模型得到一个审核关键词对应的关键词概率,然后,按照这种方式对其他审核关键词对应的关键词概率进行计算得到其他的关键词概率,最后,通过所有计算出的关键词概率组成概率矩阵。该概率矩阵为贝叶斯概率矩阵。

具体的,概率矩阵可以参照表3:

表3

其中,P11、P12、P21、P22、P31和P32、……,为各个审核关键词对应的关键词概率。因此,通过P11、P12、P21、P22、P31和P32、……可以组成一个一维的概率矩阵。

该概率矩阵可以定期执行,以保证后续查询到的关键词概率的准确性和适应性。

在步骤S620中,在概率矩阵中确定与审核关键词对应的关键词概率。

在实际应用阶段已经得到概率矩阵之后,可以通过要查询的审核关键词从该概率矩阵中查询出对应的关键词概率。

在本示例性实施例中,通过查询的方式确定关键词概率,实现了对训练阶段的关键词概率的最大化应用,节省了关键词概率的确定时间,提高了关键词概率的确定效率。

在步骤S240中,根据审核关键词和审核依据确定审核关键词的审核权重。

在本公开的示例性实施例中,还可以通过审核关键词和审核依据确定审核关键词的审核权重。

在可选的实施例中,图7示出了确定审核权重的方法的步骤流程图,如图7所示,该方法至少包括以下步骤:在步骤S710中,确定审核关键词在审核依据中的文本位置。

审核关键词在审核依据中的文本位置可以利用审核关键词在审核依据中的第几个字数确定。举例而言,当审核关键词为C,审核依据为AABC时,文本位置为4。除此之外,也可以有其他确定文本位置的方法,本示例性实施例对此不做特殊限定。

审核关键词在审核依据中的文本位置可以参照表4:

表4

在步骤S720中,根据文本位置确定审核关键词的审核权重。

在可选的实施例中,图8示出了第一种进一步确定审核权重的方法的步骤流程图,如图8所示,该方法至少包括以下步骤:在步骤S810中,确定文本位置与审核关键词的审核权重之间的权重映射关系。

权重映射关系可以表征文本位置与审核权重之间的正比关系,也可以表征文本位置与审核权重质检的反比关系,本示例性实施例对此不做特殊限定。

其中,正比关系表示文本位置越靠后,审核权重越大;反比关系表示文本位置越靠前,审核权重越大。并且,审核权重越大,对最终的结果影响越大。

该权重映射关系可以是通过正比关系或反比关系的比例关系查询出或者比例关系计算出的,也可以是通过函数关系计算的,该函数关系可以不是呈比例关系的,本示例性实施例对此不做特殊限定。

在步骤S820中,根据权重映射关系和文本位置确定审核关键词的审核权重。

在已知权重映射关系和文本位置的情况下,可以通过权重映射关系查询或计算出审核关键词的审核权重。

值得说明的是,可以确定审核依据中的所有审核关键词的审核权重,也可以是只确定审核依据中的部分审核关键词的审核权重,以满足不同应用场景下的审核关键词的影响程度。

在本示例性实施例中,通过确定出的权重映射关系和文本位置可以确定审核权重,确定方式简单准确,且能够满足不同情况下对审核权重的需求。

在可选的实施例中,图9示出了第二种进一步确定审核权重的方法的步骤流程图,如图9所示,该方法至少包括以下步骤:在步骤S910中,根据文本位置确定审核关键词的位置权重。

利用文本位置确定位置权重的方式与图8所示的确定方式相同,亦即先确定文本位置与审核关键词的位置权重之间的权重映射关系,并根据该权重映射关系与文本位置确定审核关键词的位置权重,因此,在此不再赘述。

其中,文本位置与审核关键词的位置权重之间的权重映射关系可以和文本位置与审核关键词的审核权重之间的权重映射关系相同,也可以不同,本示例性实施例对此不做特殊限定。

在步骤S920中,获取与审核关键词对应的影响权重,并对位置权重和影响权重进行权重计算得到审核权重。

该影响权重可以是根据审核关键词的业务价值确定的,可以是人为设定的,也可以是根据审核关键词与业务价值的定量标准质检的关系计算或查询出的,本示例性实施例对此不做特殊限定。

在得到影响权重之后,可以对位置权重和影响权重进行权重计算得到审核权重。其中,权重计算方式可以是对位置权重和影响权重进行相乘计算,也可以是根据位置权重和影响权重之间的函数关系进行计算,本示例性实施例对此不做特殊限定。

因此,审核权重的决定因素不仅局限于位置权重,还可以包括位置权重,或者是在实际情况中看重的其他权重。当其他权重也会影响审核权重时,也可以通过计算等方式得到对应的审核权重。

在本示例性实施例中,通过位置权重和影响权重计算出审核权重,计算方式简单准确,也丰富了审核权重的确定方式,进一步丰富了审核文本的质检方法的应用场景。

在步骤S250中,对关键词概率和审核权重进行概率预测计算得到结论概率,并利用结论概率在审核结论中确定质检结论。

在本公开的示例性实施例中,在计算出关键词概率和审核权重之后,可以进一步对关键词概率和审核权重进行概率预测计算得到结论概率。

举例而言,当审核依据中存在一个审核关键词时,也就是存在一个关键词概率和一个审核权重,该概率预测计算的方式可以是将一个关键词概率和一个审核权重进行相乘运算得到结论概率;当审核依据中存在至少两个审核关键词时,也可以存在至少两个关键词概率和至少两个审核权重,该概率预测计算的方式可以是分别将至少两个关键词概率与至少两个审核权重进行连乘计算得到结论概率。

具体的,至少两个关键词概率与至少两个审核权重进行连乘计算的方式可以参考公式(2):

P1=P1*W1*P2*W2*P3*W3 (2)

其中,P1、P2和P3表征至少两个关键词概率,W1、W2和W3表征至少两个审核权重。

若仅存在一个审核结论时,在计算出结论概率之后,可以将结论概率与对应的概率阈值进行比较,且结论概率满足概率阈值的要求时,确定该审核结论为质检结论。也可以是直接将这一个审核结论确定为质检结论,本示例性实施例对此不做特殊限定。

当存在两个或者两个以上的审核结论时,还可以对计算出的两个结论概率进行比较确定质检结论。

在可选的实施例中,图10示出了确定质检结论的方法的步骤流程图,如图10所示,该方法至少包括以下步骤:在步骤S1010中,确定结论概率为至少两个,至少两个结论概率是由至少两个审核结论确定的。

当在步骤S210中获取到同一个审核依据与对应的至少两个审核结论时,或者是至少两个审核依据和对应的至少两个审核结论时,可以按照步骤S210-步骤S250计算得到至少两个结论概率。

其中,当由同一个审核依据和至少两个审核结论确定至少两个结论概率时,对该审核依据进行分词处理得到的审核关键词与至少两个审核结论质检存在审核映射关系,可以确定出至少两个审核概率,并且还可以根据审核关键词和该审核依据确定出至少两个审核权重,以得到至少两个结论概率;当由至少两个审核依据和对应的至少两个审核结论确定至少两个结论概率时,根据至少两个审核依据确定出的审核关键词是相同的,并且对单独的审核关键词和审核结论的处理与步骤S210-步骤S250相同,因此,可以分别计算出至少两个结论概率。

举例而言,审核关键词与审核权重之间的对应关系如表5所示:

表5

并且,词1、词2和词3同时对应两个审核结论。进一步的,对审核结论1的三个关键词概率P11、P21和P31以及三个审核权重W1、W2和W3进行连乘计算可以得到结论概率为P1=P11*W1*P21*W2*P31*W3;对审核结论2的三个关键词概率P12、P22和P32和三个审核权重W1、W2和W3进行连乘计算可以得到结论概率为P2=P12*W1*P22*W2*P32*W3。其中,三个关键词概率是按照步骤S230得到的,在此不再赘述。

在步骤S1020中,对至少两个结论概率进行比较得到目标结论概率,并利用目标结论概率在至少两个审核结论中确定质检结论。

在得到至少两个结论概率之后,可以对至少两个结论概率进行比较,以从至少两个结论概率中确定出目标结论概率。

举例而言,当存在两个结论概率P1和P2时,可以比较P1和P2的大小,并从P1和P2中确定出较大的结论概率作为目标结论概率。

并且,确定目标结论概率对应的审核结论为质检结论。亦即,当P2较大时,确定审核结论2为质检结论。

在本示例性实施例中,给出了在至少两个结论概率的情况下确定质检概率的方法,计算和确定方式高效,降低了质检结论的确定成本。

在确定出质检结论之后,可以利用该质检结论对人工审核结论进行质检,以不断按照质检结果对关键词概率进行更新,长期保证质检结论的准确性和适应性。

在可选的实施例中,图11示出了更新关键词概率的方法的步骤流程图,如图11所示,该方法至少包括以下步骤:在步骤S1110中,获取与审核依据对应的人工审核结论,并将人工审核结论与质检结论进行比较确定质检结果。

该人工审核结论可以是人工根据审核依据确定出的审核结论。对人工审核结论和质检结论的比较可以是比较结论文本是否相同,或者是比较人工审核结论和质检结论的语义是否相同等方式,以确定出质检结果为人工审核结论与质检结论一致或者不一致。

在步骤S1120中,根据质检结果更新关键词概率。

在可选的实施例中,图12示出了进一步更新关键词概率的方法的步骤流程图,如图12所示,该方法至少包括以下步骤:在步骤S1210中,若质检结果为人工审核结论与质检结论不同,复查质检结论得到复查结果。

当质检结果为人工审核结论与质检结论的文本不同,或者是人工审核结论与质检结论的语义不同时,确定人工审核结论与质检结论不同。

进一步的,可以通过人工或者其他方式对质检结论进行复查,以确定质检结论是否正确。

在步骤S1220中,若复查结果为质检结论正确,更新关键词概率。

当复查结果为质检结论正确时,表明步骤S210-步骤S250对质检结论的确定是错误的。因此,可以重新对计算关键词概率的机器学习模型进行优化,以利用优化后的机器学习模型更新关键词概率,保证质检概率确定的准确性。

在本示例性实施例中,在得到质检结论之后,为了保证质检结论的准确性,还可以定期对关键词概率进行更新,以保证审核文本的质检准确性和适应性。

除此之外,确定出的质检结论不仅适用于对人工审核结论的质检,也可以作为应用场景中的审核结论,为审核结论的确定提供一种自动化且智能化的确定方式,提高此种应用场景下审核结论确定的时效性,降低审核结论的确定成本。

下面结合一具体应用场景对本公开实施例中提供的审核文本的质检方法做出详细说明。

图13示出了应用场景下审核文本的质检方法的步骤流程图,如图13所示,在步骤S1301中,数据收集。

亦即获取审核结论和审核依据。该审核依据和审核结论是指有效的审核依据和审核结论,也就是排除驳回或者重审等无效的审核记录。由于驳回和重审等无效的审核记录会标记有对应的标识信息,因此可以通过该标识信息识别驳回或无效的审核记录,以将该审核记录剔除得到有效的审核依据和审核结论。

在步骤S1302中,分词处理。

在获取到有效的审核依据和审核结论之后,可以进一步对审核依据进行分词处理得到审核关键词。

对审核依据进行分词处理可以是采用结巴(jieba)分词实现的。由于结巴分词虽然有一定的新词识别能力,但是自行添加的新词和对应权重可以保证更高的正确率,因此,使用结巴分词的自定义词典进行分词处理。

除此之外,还可以采用基于规则分词和基于统计分词的分词处理方式得到质检分词,也可以调用多种不同的分词工具作为分词模型进行分词处理得到质检分词,本示例性实施例对此不做特殊限定。

在步骤S1303中,数据清洗。

清洗处理是对审核依据进行重新审查和校验的过程,目的在于删除重复的审核依据、纠正审核依据中存在的错误,以及提供审核依据的数据一致性。

具体的,对审核依据进行清洗处理包括移除不完整数据、移除数据格式错误、移除异常或噪音数据以及统一规格等方式。其中,不完整数据可以包括数据缺失或不全,亦即审核依据的编码未在中文编码区间或者是审核依据的文本长度不满足第一预设长度;数据格式错误包括审核依据的显示呈现乱码,或者是审核依据中包含的身份证或其他标识信息的格式不满足预定格式,或者是空格过多等情况;异常或噪音数据包括审核依据的文本长度超出第二预设长度,或者是审核依据中的词汇属于预设的生僻词汇等。

对于不完整数据、数据格式错误以及异常或噪音数据的清洗处理方式均为移除处理。

而统一规格可以是对同义或相似词进行合并处理,以及对日期、时间或地区等文本进行格式统一处理。

在对审核依据进行清洗处理之后可以得到目标审核依据。

因此,此时的质检分词可以是目标审核依据对应的质检分词,亦即通过对审核依据的清洗处理可以将步骤S1302中得到的质检分词进行清洗处理,以利用清洗处理后的质检分词进行特征提取处理。

在步骤S1304中,特征提取。

其中,特征提取处理方式可以是利用TF-IDF技术实现的。具体的,将每一个质检分词在审核依据中所对应的词频亦即逆向文本频率的乘积作为该质检分词的TF-IDF值,再根据每一质检分词的TF-IDF值与词性权重的乘积来提取出审核关键词。

其中,词性权重的大小由高到低可以是动词>名词>形容词>助词>代词等,也可以有其他词性权重的设定方式,本示例性实施例对此不做特殊限定。

在步骤S1305中,训练。

亦即即训练机器学习模型。具体的,在得到审核关键词之后,可以确定审核关键词与审核结论之间的审核映射关系。

在确定审核映射关系之后,可以根据审核映射关系确定出审核关键词与审核结论之间的至少两个审核概率。

具体的,确定与审核结论对应的结论概率,并确定与审核关键词对应的文本概率。该结论概率可以是审核结论的出现概率。而文本概率是审核关键词的出现概率。

进一步的,根据审核映射关系确定审核关键词在审核结论中的结论数量,以根据结论数量确定审核关键词在审核结论中的相关概率。该相关概率可以是审核结论中包含审核关键词的出现概率,也是已知审核结论出现的情况下,出现审核关键词的条件概率。

在确定结论概率、文本概率和相关概率确定为至少两个审核概率之后,可以利用朴素贝叶斯算法训练机器学习模型,以对该至少两个审核概率进行概率计算得到关键词概率。

该机器学习模型是使用朴素贝叶斯算法训练而成的。该机器学习模型的训练实际上是利用已知审核依据中的审核关键词的对应关系计算出关键词概率的过程。

在步骤S1306中,数据收集。

具体的,获取当前提交的待质检的审核依据和审核结论。

在步骤S1307中,分词处理。

亦即,对待质检的审核依据进行与步骤S1302相同的分词处理,在此不再赘述。

在步骤S1308中,数据清洗。

亦即,对待质检的审核依据进行与步骤S1303相同的数据清洗处理,不再赘述。

在步骤S1309中,预测结论。

在步骤S1305中得到关键词概率之后,还可以根据该关键词概率生成对应的概率矩阵。因此,利用步骤S1305得到的概率矩阵可以查询到与步骤S1308中得到的审核关键词对应的审核概率,并且根据该审核关键词对应的审核权重可以计算出对应的结论概率。

其中,该审核权重是首先确定审核关键词在审核依据中的文本位置,然后根据文本位置确定出的审核关键词的审核权重。具体的,可以是先确定文本位置与审核关键词的审核权重之间的权重映射关系,再根据权重映射关系和文本位置确定审核关键词的审核权重;也可以是根据文本位置确定审核关键词的位置权重,再获取与审核关键词对应的影响权重,并对位置权重和影响权重进行权重计算得到审核权重。

在得到结论概率之后,可以利用该结论概率确定出质检结论。

若仅存在一个审核结论时,在计算出结论概率之后,可以将结论概率与对应的概率阈值进行比较,且结论概率满足概率阈值的要求时,确定该审核结论为质检结论。

当存在两个或者两个以上的审核结论时,还可以对计算出的两个结论概率进行比较确定质检结论。

在步骤S1310中,人工确认。

在确定出质检结论之后,可以利用该质检结论对人工审核结论进行质检,以不断按照质检结果对关键词概率进行更新,长期保证质检结论的准确性和适应性。

当质检结果为人工审核结论与质检结论的文本不同,或者是人工审核结论与质检结论的语义不同时,确定人工审核结论与质检结论不同。

进一步的,可以通过人工或者其他方式对质检结论进行复查,以确定质检结论是否正确。

当复查结果为质检结论正确时,表明对质检结论的确定是错误的。因此,可以重新对计算关键词概率的机器学习模型进行优化,以利用优化后的机器学习模型更新关键词概率,保证质检概率确定的准确性。

利用图13所示的审核文本的质检方法对现有的审核结果进行单词质检质检耗费时间约在100毫秒左右,而人工单次质检质检的时间耗费在2分钟左右,因此本公开的审核文本的质检方法是人工质检方式的1000倍。

除此之外,从人工复查记录来看,本公开的审核文本的质检方法的成功率也能够保持至少在83%左右,成功率极高。

基于以上应用场景可知,本公开实施例提供的审核文本的质检方法,一方面,利用审核关键词与审核结论之间的审核映射关系确定审核关键词的关键词概率和审核权重,实现了审核结论与审核依据之间相关性的量化,为审核依据和审核结论定量的应用在文本质检场景中提供了可能性;另一方面,对定量的关键词概率和审核权重进行概率预测计算得到结论概率,并进一步利用结论概率确定质检结论,是一种自动化且智能化的审核文本质检方法,提升了质检速度和质检效率,保证了质检结论的准确性和适应性,极大地减少了审核文本质检成本。

应当注意,尽管在附图中以特定顺序描述了本公开中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。

以下介绍本公开的装置实施例,可以用于执行本公开上述实施例中的审核文本的质检方法。对于本公开装置实施例中未披露的细节,请参照本公开上述的审核文本的质检方法的实施例。

图14示意性地示出了在本公开一些实施例中的一种审核文本的质检装置的结构框图,如图14所示,审核文本的质检装置1400主要可以包括:分词处理模块1410、映射关系模块1420、概率计算模块1430、权重确定模块1440和结论概率模块1450。

分词处理模块1410,被配置为获取审核依据和审核结论,并对审核依据进行分词处理得到审核关键词;映射关系模块1420,被配置为确定审核关键词与审核结论之间的审核映射关系,并根据审核映射关系确定至少两个审核概率;概率计算模块1430,被配置为对至少两个审核概率进行概率计算得到与审核关键词对应的关键词概率;权重确定模块1440,被配置为根据审核关键词和审核依据确定审核关键词的审核权重;结论概率模块1450,被配置为对关键词概率和审核权重进行概率预测计算得到结论概率,并利用结论概率在审核结论中确定质检结论。

在本公开的一些实施例中,权重确定模块包括:位置确定子模块,被配置为确定审核关键词在所述审核依据中的文本位置;

位置权重子模块,被配置为根据文本位置确定审核关键词的审核权重。

在本公开的一些实施例中,位置确定子模块模块包括:权重映射单元,被配置为确定文本位置与审核关键词的审核权重之间的权重映射关系;

映射确定单元,被配置为根据权重映射关系和文本位置确定审核关键词的审核权重。

在本公开的一些实施例中,位置确定子模块包括:候选权重单元,被配置为根据文本位置确定审核关键词的位置权重;

权重计算单元,被配置为获取与审核关键词对应的影响权重,并对位置权重和影响权重进行权重计算得到审核权重。

在本公开的一些实施例中,概率计算模块,包括:模型计算子模块,被配置为利用机器学习模型对至少两个审核概率进行概率计算得到与审核关键词对应的关键词概率。

在本公开的一些实施例中,概率计算模块,包括:矩阵计算子模块,被配置为对至少两个审核概率进行概率计算得到概率矩阵;

概率查找子模块,被配置为在概率矩阵中确定与审核关键词对应的关键词概率。

在本公开的一些实施例中,映射关系模块,包括:单独概率子模块,被配置为确定与审核结论对应的结论概率,并确定与审核关键词对应的文本概率;

数量确定子模块,被配置为根据审核映射关系确定审核关键词在审核结论中的结论数量;

审核概率子模块,被配置为根据结论数量确定审核关键词在审核结论中的相关概率,并确定结论概率、文本概率和相关概率为至少两个审核概率。

在本公开的一些实施例中,结论概率模块,包括:概率个数子模块,被配置为确定结论概率为至少两个,至少两个结论概率是由至少两个审核依据和至少两个审核结论得到的;

概率比较子模块,被配置为对至少两个结论概率进行比较得到目标结论概率,并利用目标结论概率在至少两个审核结论中确定质检结论。

在本公开的一些实施例中,审核文本的质检装置,还包括:结论质检模块,被配置为获取与审核依据对应的人工审核结论,并将人工审核结论与质检结论进行比较确定质检结果;

质检结果模块,被配置为根据质检结果更新关键词概率。

在本公开的一些实施例中,质检结果模块,包括:结论复查子模块,被配置为若质检结果为人工审核结论与质检结论不同,复查质检结论得到复查结果;

概率更新子模块,被配置为若复查结果为质检结论正确,更新关键词概率。

在本公开的一些实施例中,分词处理模块,包括:质检分词子模块,被配置为对审核依据进行分词处理得到质检分词;

特征提取子模块,被配置为对质检分词进行特征提取处理得到审核关键词。

在本公开的一些实施例中,分词处理模块,包括:数据清洗子模块,被配置为对审核依据进行清洗处理得到目标审核依据;

目标依据子模块,被配置为对目标审核依据进行分词处理得到审核关键词。

本公开各实施例中提供的审核文本的质检装置的具体细节已经在对应的方法实施例中进行了详细的描述,因此此处不再赘述。

图15示出了适于用来实现本公开实施例的电子设备的计算机系统的结构示意图。

需要说明的是,图15示出的电子设备的计算机系统1500仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。

如图15所示,计算机系统1500包括中央处理单元(Central Processing Unit,CPU)1501,其可以根据存储在只读存储器(Read-Only Memory,ROM)1502中的程序或者从储存部分1508加载到随机访问存储器(Random Access Memory,RAM)1503中的程序而执行各种适当的动作和处理。在RAM 1503中,还存储有系统操作所需的各种程序和数据。CPU1501、ROM 1502以及RAM 1503通过总线1504彼此相连。输入/输出(Input/Output,I/O)接口1505也连接至总线1504。

以下部件连接至I/O接口1505:包括键盘、鼠标等的输入部分1506;包括诸如阴极射线管(Cathode Ray Tube,CRT)、液晶显示器(Liquid Crystal Display,LCD)等以及扬声器等的输出部分1507;包括硬盘等的储存部分1508;以及包括诸如LAN(Local AreaNetwork,局域网)卡、调制解调器等的网络接口卡的通信部分1509。通信部分1509经由诸如因特网的网络执行通信处理。驱动器1510也根据需要连接至I/O接口1505。可拆卸介质1511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1510上,以便于从其上读出的计算机程序根据需要被安装入储存部分1508。

特别地,根据本公开的实施例,各个方法流程图中所描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分1509从网络上被下载和安装,和/或从可拆卸介质1511被安装。在该计算机程序被中央处理单元(CPU)1501执行时,执行本申请的系统中限定的各种功能。

需要说明的是,本公开实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。

附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本公开实施方式的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。

应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

相关技术
  • 审核文本的质检方法、装置、介质以及电子设备
  • 审核文本的方法、装置、电子设备和存储介质
技术分类

06120112965294