掌桥专利:专业的专利平台
掌桥专利
首页

基于神经自回归分布估计的涉案新闻主题模型构建方法及装置

文献发布时间:2023-06-19 10:05:17


基于神经自回归分布估计的涉案新闻主题模型构建方法及装置

技术领域

本发明涉及基于神经自回归分布估计的涉案新闻主题模型构建方法及装置,属于自然语言处理技术领域。

背景技术

涉案新闻是指与司法案件相关的新闻,准确抽取涉案新闻主题信息对进一步开展涉案新闻检索、涉案新闻事件分析等研究具有重要价值。概率主题模型是文档主 题抽取、文档语义表征的有效方式,常用于信息检索、文本分类或摘要任务。传统 主题模型主要考虑词频统计特征,而忽略了文档中的词语出现的次序及上下文信息。 神经主题模型由于能够获得文本的深层语义信息,既可以在文本中捕获词汇之间的 依赖关系,也能利用潜在主题捕获全局语义信息,有效弥补了传统主题模型的缺陷, 近年来在文本检索、文本分类、文本摘要等自然语言处理任务中表现出较好的效果。

涉案新闻通常包含了案件名称、涉案人员、涉案地点、涉案触发词等案件要素, 这些案件要素能够简洁、准确地描绘一个案件的重要特征。由此可见,涉案新闻主 题分析任务的关键在于分析主题词与案件之间的关联关系,以此作为先验知识指导 文本中词语的主题分布和文本的主题表征。然而,针对通用文档建模的神经主题模 型不能将案件要素作为先验知识来帮助提升涉案新闻文本中词语主题分布的准确性。

发明内容

为解决上述问题,本发明提供了基于神经自回归分布估计的涉案新闻主题模型构建方法及装置,本发明在困惑度、主题连贯性以及文档检索精确率等指标上表现 均优于基线模型,精确率普遍都有所提升。

第一方面,本发明提供一种基于神经自回归分布估计的涉案新闻主题模型构建方法,首先构建涉案新闻数据并预处理,得到案件要素库和涉案词向量;然后由 iDocNADEe模型计算新闻和案件要素的双向隐状态;再用案件要素和新闻的双向隐 状态构建注意力机制,对新闻隐状态加权;接下来利用神经自回归算法和案件要素 加权的新闻隐状态计算案件要素指导的自回归条件概率;依据涉案新闻的自回归条 件概率构建涉案主题模型,并利用涉案新闻主题模型进行涉案新闻检索。

其中,所述构建涉案新闻数据并预处理,得到案件要素库和涉案词向量包括如下:

对涉案新闻和案件本体进行分析,根据其涉案人名、地名、事件描述以及案件 触发词案件特征构建案件要素库作为模型的涉案外部知识;

利用裁判文书数据、涉案新闻数据以及word2vec算法预训练涉案领域的词向量作为模型的涉案先验知识。

其中,由iDocNADEe模型计算新闻和案件要素的双向隐状态具体包括:

不同于iDocNADEe的输入,将新闻分别表示为词序列v以及新闻中包含的案件 要素序列k;

利用词序列v、案件要素序列k以及iDocNADEe模型和双向语言模型的计算方 式,结合作为涉案先验知识的涉案领域词向量计算涉案新闻的双向隐状态以及新闻 中包含的案件要素的双向隐状态;

其中,

其中,用案件要素和新闻的双向隐状态构建注意力机制,对新闻隐状态加权的 具体步骤如下:

A、利用平均池化操作和案件要素隐状态计算双向注意力向量作为新闻中所包含的案件要素信息:

其中,

B、利用案件要素隐状态的双向注意力向量与涉案新闻的双向隐状态计算案件要素信息与新闻文本之间的双向相关度:

其中,

C、利用案件要素与新闻文本的相关度构建基于案件要素的注意力机制,从而对新闻文本的隐状态进行案件要素加权,使其具有案件信息:

其中,

其中,利用神经自回归算法和案件要素加权的新闻隐状态计算案件要素指导的自回归条件概率为:

其中,w∈{1,...,V},

其中,依据涉案新闻的自回归条件概率构建涉案主题模型,并利用涉案新闻主 题模型进行涉案新闻检索包括:

根据每个词在案件要素指导下的自回归条件,计算新闻的对数似然函数logp(v):

其中,D代表了新闻文本的长度,p(v

利用梯度下降算法训练参数以最大化对数似然函数,由此构建涉案新闻的主题模型。

本发明还提供一种基于神经自回归分布估计的涉案新闻主题模型构建装置,该装置包括用于执行第一方面的所述方法的模块。

本发明的有益效果是:

本发明将上下文信息和案件信息进行融合,既能利用上下文信息弥补传统主题模型忽略文本语序的问题,又能利用案件要素增强文本中与案件信息有关的词语的 语义特征表示,从而提高了用于涉案新闻领域的主题模型的性能;

实验结果表明本发明提出的方法在困惑度、主题连贯性以及文档检索精确率等指标表现上均优于基线系统。

附图说明

图1为本发明中的模型构建示意图;

图2为本发明中的隐状态计算示意图;

图3为本发明中的文档检索实验精确率对比图;

图4为本发明中的装置结构框图;

图5为本发明中的流程图。

具体实施方式

实施例1:如图1-5所示,第一方面,本发明提供一种基于神经自回归分布估计 的涉案新闻主题模型构建方法,首先构建涉案新闻数据并预处理,得到案件要素库 和涉案词向量;然后由iDocNADEe模型计算新闻和案件要素的双向隐状态;再用案 件要素和新闻的双向隐状态构建注意力机制,对新闻隐状态加权;接下来利用神经 自回归算法和案件要素加权的新闻隐状态计算案件要素指导的自回归条件概率;依 据涉案新闻的自回归条件概率构建涉案主题模型,并利用涉案新闻主题模型进行涉 案新闻检索。

具体步骤如下:

Step1、涉案新闻数据爬取并根据涉案特性进行数据预处理;

Step1.1、根据近年来的数十起热点案件的关键词从互联网爬取相关新闻,并通过人民法院涉法涉诉舆情监测系统(http://116.55.241.12:8080/zhfyfull)判断该新闻是 否属于涉案新闻,最后得到涉及65个案件的新闻40000余条;

Step1.2、对涉案新闻和案件本体进行分析,根据其涉案人名、地名、事件描述 以及案件触发词等案件特征构建案件要素库作为模型的涉案外部知识;

Step1.3、从中国裁判文书网爬取裁判文书数据(约9G),并利用裁判文书数据 和涉案新闻数据以及word2vec算法预训练涉案领域的词向量作为模型的涉案先验知 识。

Step2、构建基于神经自回归分布估计的涉案新闻主题模型;

由iDocNADEe模型计算新闻和案件要素的双向隐状态具体包括:

Step2.1、不同于iDocNADEe的输入,将新闻分别表示为词序列v以及新闻中包 含的案件要素序列k;

Step2.2、利用词序列v、案件要素序列k以及iDocNADEe模型和双向语言模型 的计算方式,结合作为涉案先验知识的涉案领域词向量计算涉案新闻的双向隐状态 以及新闻中包含的案件要素的双向隐状态;

其中,

Step2.3、利用平均池化操作和案件要素隐状态计算双向注意力向量作为新闻中所包含的案件要素信息:

其中,

Step2.4、利用案件要素隐状态的双向注意力向量与涉案新闻的双向隐状态计算案件要素信息与新闻文本之间的双向相关度:

其中,

Step2.5、利用案件要素与新闻文本的相关度构建基于案件要素的注意力机制,从而对新闻文本的隐状态进行案件要素加权,使其具有案件信息:

其中,

Step2.6、利用神经自回归算法和案件要素加权的新闻隐状态计算案件要素指导的自回归条件概率为:

其中,w∈{1,...,V},

Step2.7、根据每个词在案件要素指导下的自回归条件,计算新闻的对数似然函数logp(v):

其中,D代表了新闻文本的长度,p(v

Step2.8、利用梯度下降算法训练参数以最大化对数似然函数,由此构建涉案新闻的主题模型。

本发明还提供一种基于神经自回归分布估计的涉案新闻主题模型构建装置,该装置包括用于执行第一方面的所述方法的模块。

具体的,例如所述方法的模块可以包括如下:

涉案数据自动获取和存储模块,根据设置的案件关键词和新闻来源,自动爬取 新闻,其中新闻来源包括微博、新闻网站和论坛,其中微博来源主要包括了各类法 院账号、经常问询法院的蓝V账号以及各类新闻、报刊的微博账号,其中论坛来源 主要来自对涉案信息关注度高的论坛。爬虫程序则会自动根据设置的来源配置爬取 格式和X-path。若爬取到的新闻未在训练模型的语料中出现,则调用人民法院涉法 涉诉舆情监测系统接口对新闻进行涉案相关性分析,然后通过构建的案件要素库自 动抽取新闻中包含的案件要素,最后存储方式为数据库存储和文本存储。其中,数 据库存储是结构化的,将涉案新闻的ID、标题、正文、发布时间、新闻来源和案件 要素存入Oracle数据库;在文本存储中根据案件要素构建倒排索引;

涉案新闻主题抽取模块,从数据库中读取新闻并进行预处理:去停用词、分词 以及抽取案件要素。将新闻及其中的案件要素以序列的方式分别作为输入,自动调 用训练好的基于神经自回归分布估计的涉案新闻主题模型,计算每条涉案新闻由案 件要素加权的主题信息,计算步骤如下:

1、根据Step2.1计算词序列的前后向隐状态:

2、根据Step2.2计算案件要素序列的前后向隐状态:

3、根据Step2.3计算案件要素平均向量:

4、根据Step2.4计算案件要素与新闻文本的双向相关度:

5、根据Step2.5计算案件要素加权的前后向隐状态:

6、根据案件要素加权的前后向隐状态相加计算得到融合案件特征的主题信息:

其中,

基于主题的涉案新闻检索模块,实验结果证明基于主题检索效果较好,因此利 用新闻的主题信息进行相似度计算从而进行检索。更具体地,每输入一条涉案新闻, 检索模块将利用该新闻的主题信息与数据库中其它新闻的主题信息两两计算余弦相 似度:

其中,A,B代表了两条涉案新闻的主题信息,n代表得到的主题信息的维度。得 到主题信息的余弦相似度后,并根据该相似度从大到小对检索集中的涉案新闻进行 排序并返回新闻的ID。得到返回的新闻ID之后,模块将在数据库中查询相似度最高 的N条新闻的ID,并将这些新闻的标题、正文、发布时间以及来源反馈给用户,其 中N由用户设置。

实施例2:如图1-5所示,基于神经自回归分布估计的涉案新闻主题模型构建方法,所述方法首先构建涉案新闻数据并预处理,得到案件要素库和涉案词向量;然 后由iDocNADEe模型计算新闻和案件要素的双向隐状态;再用案件要素和新闻的双 向隐状态构建注意力机制,对新闻隐状态加权;接下来利用神经自回归算法和案件 要素加权的新闻隐状态计算案件要素指导的自回归条件概率;依据涉案新闻的自回 归条件概率构建涉案主题模型,并利用涉案新闻主题模型进行涉案新闻检索。

具体步骤为:

涉案新闻数据爬取并根据涉案特性进行数据预处理;

根据热点案件关键词从互联网爬取新闻数据,并通过人民法院涉法涉诉舆情监测系统(http://116.55.241.12:8080/zhfyfull)判断该新闻是否属于涉案新闻,最终得到涉 及65个案件的40000余条新闻;

对涉案新闻和案件进行分析,根据其涉案人名、地名、事件描述以及案件触发 词等构建案件要素库;

从中国裁判文书网爬取裁判文书数据(约9G),并利用裁判文书数据和涉案新 闻数据以及word2vec算法预训练涉案领域的词向量;

由iDocNADEe模型计算新闻和案件要素的双向隐状态具体包括:

将每一篇文档表示为一个序列v=[v

其中,g(·)代表任意非线性激活函数,

案件要素是指案件的内在组成部分及各部分之间的相互关系和排列状况,如, 刑事案件由何事、何时、何地、何物、何情、何故、何人等7要素构成,对案件构 成要素进行分析能够从根本上把握案件发生、发展的趋势和规律。对于涉案新闻主 题抽取任务,分析涉案文本与案件要素之间的关联关系有助于提高涉案主题分布的 准确性。为此,根据刑事案件构成要素的特点,从互联网中收集了有关某地公交坠 江案,等刑事案件的相关新闻文档,通过人工方式构建了案件要素库,为涉案新闻 主题建模提供了外部知识。

虽然案件要素包含了丰富的案件信息,但不同的案件要素所包含的信息重要程度并不相同。以上述涉案新闻的案件要素为例,“殴打”、“坠江”的重要程度应大于 “某地”,因此要计算出每个案件要素与主题的相关度,从而计算出各个不同案件要 素的权重。此外,本发明还考虑了案件要素的上下文顺序,将上文包含的案件要素 融入到前向隐状态,将下文包含的案件要素融入到后向隐状态。

针对文本序列v,通过构建的案件要素库,可以提取出案件要素序列 k=[k

其中,k

其中,

其中,

利用神经自回归算法和利用注意力机制得到的融合案件要素信息的文本隐状态,可以计算每个词最终的前后向自回归条件(如图1上方的

其中,w∈{1,...,K}。

考虑到直接计算公式(11-12)的计算成本过高,本发明使用二叉树对其进行简化。在在二叉树中,从根到叶子的每个路径都对应一个词汇。树中每个节点向左(或右) 的概率由一组二进制逻辑回归模型建模,然后通过这些概率来计算给定词的概率。 利用二叉树,则概率p(v

其中:

其中,l(v

在得到每个词的自回归条件概率之后,通过将文本中所有词的联合分布p(v)分解为每个词的条件分布的乘积对文本进行建模,即

其中,p(v

根据训练好的的涉案新闻主题模型抽取涉案新闻的主题信息。对于一篇涉案新闻v

经过对新闻的分析,发现与案件相关的新闻正文的长度不均衡,而且文本中包含了大量的噪声,但新闻标题基本上都包含了跟案件相关的一些信息,如案件名称、 涉案人员等重要信息。因此本发明仅选择了涉案新闻的标题文本来构建实验数据集, 具体数据集信息如表1。具体实验参数如表2所示。

表1数据集具体信息

表2实验参数设置

在评价指标方面,本发明选取了困惑度、主题连贯性以及文档检索精确率作为评价指标。具体介绍如下:

困惑度(PPL)是为了检验主题模型的泛化能力,困惑度越低,则代表模型具有更好的泛化能力。通过计算测试集中涉案新闻的困惑度来评估主题模型作为生成模型 的文档生成性能。困惑度的计算公式如下:

主题连贯性是为了对主题词的语义进行评价。该指标使用参考语料库上的滑动窗口来确定每个主题词的上下文特征。该指标分数越高,主题词的语义越一致,即代 表主题模型效果越好。本发明使用了

表3新闻检索系统中的混淆矩阵

为了对本发明提出的模型所抽取的主题信息进行评估,还设置了一个涉案新闻检索的实验,并使用精确率作为评价指标。新闻检索系统的精确率表示在检索到的文 档中,相关文档所占比例。已知混淆矩阵(表3),则精确率计算公式如下:

本发明所采用的对比模型如下:

(1)DocNADE:一种NADE和RSM的扩展模型,使用神经自回归估计对文本 进行主题建模;

(2)TDLM:一种基于卷积神经网络、注意力机制以及LSTM网络的双神经网络 模型,是一种多任务学习模型,由两个子任务主题学习与文本推断组成;

(3)ctx-DocNADEe:在DocNADE的基础上引入了LSTM语言模型和Glove词 向量,其文本的隐藏状态由三者共同计算得到;

(4)iDocNADEe:同样在DocNADE的基础上进行了改进,引入了Glove词向量 和双向语言模型的计算方式。

表4主题数H=50各模型的PPL分数

表4展示了本发明提出的模型与其它对比实验在主题数H=50时的困惑度分数。由于TDLM模型主要针对语言模型,因此其在主题模型的效果并不明显。在相同主 题数时,本发明提出的模型有着更低的困惑度分数,这充分证明了以案件要素作为 指导确实能使模型具有更好的泛化能力。

表5主题数H=50各模型的主题连贯性C

表5展示了本发明提出的模型与其它对比模型分别在不同主题数下,每个主题取前10个(T10)以及前20个(T20)主题词的平均主题连贯性分数。结果表明,TDLM模 型所得到的主题词的语义连贯性较差,因为其主要目的通过主题模型来优化语言模 型,而DocNADE只考虑了文本的前向序列并没有考虑反向序列,因此其效果较拓 展类模型较差。而其它三种方法都考虑到了文章的上下文信息,所以效果较好。其 中,本文方法由于加入了案件要素作为指导,故而产生的主题词更加连贯,且更加 具有相关性。

表6模型所得5个最相邻词的相似度(%)

为了进行词汇向量表示的测试,本发明使用构建的涉案新闻数据集对所提出的模型进行了训练,并使用作为每个词汇的向量表示(200维)。表6显示了在某些选定 词汇的五个近邻词汇及其对应的余弦相似度得分。s

主题模型的一个重要用途就是得到文档的主题信息。通过执行一个涉案新闻检索任务以评估本发明所提出方法以及对比方法所得到的新闻主题信息的质量。使用公 式(18)来抽取每篇新闻的主题信息,并将训练集中的新闻用作检索,而测试集中的新 闻用作查询。检索实验设置了多组不同的检索分数(fraction of retrieved documents)以 进行对比。将用作查询的新闻的主题信息与所有检索集中的新闻的主题信息做相似 度计算,返回相似度最高的前N

N

其中N

根据本发明的构思,本发明还提供了一种基于神经自回归分布估计的涉案新闻主题模型构建装置,如图4所示,该装置包括:

涉案数据自动获取和存储模块,根据设置的案件关键词和新闻来源,自动爬取 新闻,其中新闻来源包括微博、新闻网站和论坛,其中微博来源主要包括了各类法 院账号、经常问询法院的蓝V账号以及各类新闻、报刊的微博账号,其中论坛来源 主要来自对涉案信息关注度高的论坛。爬虫程序则会自动根据设置的来源配置爬取 格式和X-path。若爬取到的新闻未在训练模型的语料中出现,则调用人民法院涉法 涉诉舆情监测系统接口对新闻进行涉案相关性分析,然后通过构建的案件要素库自 动抽取新闻中包含的案件要素,最后存储方式为数据库存储和文本存储。其中,数 据库存储是结构化的,将涉案新闻的ID、标题、正文、发布时间、新闻来源和案件 要素存入Oracle数据库;在文本存储中根据案件要素构建倒排索引;

涉案新闻主题抽取模块,从数据库中读取新闻并进行预处理:去停用词、分词 以及抽取案件要素。将新闻及其中的案件要素以序列的方式分别作为输入,自动调 用训练好的基于神经自回归分布估计的涉案新闻主题模型,根据公式(18)计算每 条涉案新闻由案件要素加权的主题信息。

基于主题的涉案新闻检索模块,实验结果证明基于主题检索效果较好,因此利 用新闻的主题信息进行相似度计算从而进行检索。更具体地,每输入一条涉案新闻, 检索模块将利用该新闻的主题信息与数据库中其它新闻的主题信息两两计算余弦相 似度:

其中,A,B分别代表了两条新闻的主题信息。得到主题信息的余弦相似度后,并 根据该相似度从大到小对检索集中的涉案新闻进行排序并返回新闻的ID。得到返回 的新闻ID之后,模块将在数据库中查询相似度最高的N条新闻的ID,并将这些新 闻的标题、正文、发布时间以及来源反馈给用户,其中N由用户设置。

上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明 宗旨的前提下作出各种变化。

技术分类

06120112409946