掌桥专利:专业的专利平台
掌桥专利
首页

新闻情感预测方法、装置、电子设备及存储介质

文献发布时间:2024-04-18 19:59:31


新闻情感预测方法、装置、电子设备及存储介质

技术领域

本申请属于人工智能领域,尤其涉及一种新闻情感预测方法、装置、电子设备及存储介质。

背景技术

随着互联网和社交媒体的兴起,人们可以轻松地获取大量新闻信息。然而,由于新闻信息的数量庞大,如何快速、准确地分析和过滤这些信息变得尤为重要。总的来说,新闻情感分析可以帮助改善新闻服务质量,提高信息组织和检索效率,辅助决策和投资,反映公众意见和态度,具有广泛的应用价值。

目前,对新闻情感的预测都是通过技术逻辑构造权重特征实现的,预测结果并不精准。

发明内容

本申请旨在至少解决现有技术中存在的技术问题之一。为此,本申请提出一种新闻情感预测方法、装置、电子设备及存储介质,通过新闻文本自身的结构因素作为变量构建词结构权重,能够更加贴合和突出新闻文本特有的结构特征,有效地提高了新闻情感的预测精度。

第一方面,本申请提供了一种新闻情感预测方法,该方法包括:

获取待处理的新闻文本;

基于所述新闻文本,确定所述新闻文本中特征词的词结构权重和词频次特征;

基于所述特征词的所述词结构权重和所述词频次特征,生成所述新闻文本的文本向量;

基于所述文本向量,确定所述新闻文本的情感类型。

根据本申请的新闻情感预测方法,通过新闻本身的结构特征,计算新闻文本中每个特征词的词结构权重和词频次特征,并构建文本向量,实现基于文本向量的新闻的情感预测,通过新闻文本自身的结构因素作为变量构建词结构权重,能够更加贴合和突出新闻文本特有的结构特征,不需要进行截取而损失部分内容特征,也不需要依赖外部词典的质量,能够支撑长篇幅的新闻的情感预测,有效地提高了新闻情感的预测精度。

根据本申请的一个实施例,所述词结构权重通过如下步骤确定:

基于所述新闻文本,确定所述特征词对应的段落位置系数、段落长度系数、句子位置系数和句子类型系数中的至少一个;

基于所述特征词对应的所述段落位置系数、所述段落长度系数、所述句子位置系数和所述句子类型系数中的至少一个,确定所述特征词的所述词结构权重。

根据本申请的一个实施例,所述基于所述特征词对应的所述段落位置系数、所述段落长度系数、所述句子位置系数和所述句子类型系数中的至少一个,确定所述特征词的所述词结构权重,包括:

基于所述特征词的所述段落位置系数、所述段落长度系数、所述句子位置系数和所述句子类型系数中的至少一个,确定所述特征词在所述新闻文本的每个段落对应的段落权重;

基于所述特征词的数量以及所述特征词的所有的所述段落权重之和,生成所述特征词的所述词结构权重。

根据本申请的一个实施例,在所述获取待处理的新闻文本之后,在所述基于所述新闻文本,确定所述新闻文本中特征词的词结构权重和词频次特征之前,所述方法还包括:

对所述新闻文本进行分词处理;

对分词后的所述新闻文本进行停用词过滤,确定停用词过滤后的所述新闻文本中的特征词,所述停用词过滤后的所述新闻文本与所述待处理的新闻文本的段落结构相同。

根据本申请的一个实施例,所述基于所述文本向量,确定所述新闻文本的情感类型,包括:

将所述文本向量输入至新闻情感预测模型的向量机;

基于所述向量机,对所述文本向量进行情感倾向分类,确定所述新闻文本的所述情感类型,所述新闻情感预测模型是基于新闻样本集和情感类型标签训练的。

根据本申请的一个实施例,所述新闻情感预测模型还包括第一层和第二层,所述基于所述新闻文本,确定所述新闻文本中特征词的词结构权重和词频次特征,包括:

将所述新闻文本输入至新闻情感预测模型;

基于所述第一层,对所述新闻文本进行特征词的特征提取和权重计算,确定所述新闻文本中所述特征词的所述词结构权重和所述词频次特征;

基于所述特征词的所述词结构权重和所述词频次特征,生成所述新闻文本的文本向量,包括:

基于所述第二层,对每个所述特征词的所述词结构权重和所述词频次特征之积进行求和,得到所述文本向量。

第二方面,本申请提供了一种新闻情感预测装置,该装置包括:

获取模块,用于获取待处理的新闻文本;

第一处理模块,用于基于所述新闻文本,确定所述新闻文本中特征词的词结构权重和词频次特征;

第二处理模块,用于基于所述特征词的所述词结构权重和所述词频次特征,生成所述新闻文本的文本向量;

第三处理模块,用于基于所述文本向量,确定所述新闻文本的情感类型。

根据本申请的新闻情感预测装置,通过新闻本身的结构特征,计算新闻文本中每个特征词的词结构权重和词频次特征,并构建文本向量,实现基于文本向量的新闻的情感预测,通过新闻文本自身的结构因素作为变量构建词结构权重,能够更加贴合和突出新闻文本特有的结构特征,不需要进行截取而损失部分内容特征,也不需要依赖外部词典的质量,能够支撑长篇幅的新闻的情感预测,有效地提高了新闻情感的预测精度。

第三方面,本申请提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的新闻情感预测方法。

第四方面,本申请提供了一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述第一方面所述的新闻情感预测方法。

第五方面,本申请提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现如第一方面所述的新闻情感预测方法。

第六方面,本申请提供了一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述第一方面所述的新闻情感预测方法。

本申请的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。

附图说明

本申请的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:

图1是本申请实施例提供的新闻情感预测方法的流程示意图之一;

图2是本申请实施例提供的新闻情感预测方法的流程示意图之二;

图3是本申请实施例提供的新闻情感预测装置的结构示意图;

图4是本申请实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员获得的所有其他实施例,都属于本申请保护的范围。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。

相关技术的新闻情感预测主要分为两类,一类利用情感词典和支持向量机进行文本情感分析,但是这种技术是需要人工提前收集情感词语去构造支持向量机的权重,这种预测方法比较严重依赖词典的质量;另一类利用预训练的语言表征模型(BidirectionalEncoder Representation from Transformers,BERT)来实现情感分析,但是BERT训练文本的长度有限制,太长的文本需要太多的机器资源训练和推理,所以一般只是截取内容头尾固定长度,一般是512个token,由于内容丢失导致特征不准。这两类方法均是通过技术逻辑构造权重特征,忽略了新闻本身的特性,导致新闻的情感分类并不准确。

针对相关技术中存在的问题,本申请提供的新闻情感预测方法,能够根据新闻本身的结构特征,计算新闻文本中每个特征词的词结构权重和词频次特征,并构建文本向量,实现基于文本向量的新闻的情感预测。

本申请提供的新闻情感预测方法,通过新闻文本自身的结构因素作为变量构建词结构权重,能够更加贴合和突出新闻文本特有的结构特征,不需要进行截取而损失部分内容特征,也不需要依赖外部词典的质量,能够支撑长篇幅的新闻的情感预测,有效地提高了新闻情感的预测精度。

下面结合附图,通过具体的实施例及其应用场景对本申请实施例提供的新闻情感预测方法、新闻情感预测装置、电子设备和可读存储介质进行详细地说明。

其中,新闻情感预测方法可应用于终端,具体可由,终端中的硬件或软件执行。

该终端包括但不限于具有触摸敏感表面(例如,触摸屏显示器和/或触摸板)的移动电话或平板电脑等便携式通信设备。还应当理解的是,在某些实施例中,该终端可以不是便携式通信设备,而是具有触摸敏感表面(例如,触摸屏显示器和/或触摸板)的台式计算机。

以下各个实施例中,描述了包括显示器和触摸敏感表面的终端。然而,应当理解的是,终端可以包括诸如物理键盘、鼠标和控制杆的一个或多个其它物理用户接口设备。

本申请实施例提供的新闻情感预测方法,该新闻情感预测方法的执行主体可以为电子设备或者电子设备中能够实现该新闻情感预测方法的功能模块或功能实体,本申请实施例提及的电子设备包括但不限于手机、平板电脑、电脑、相机和可穿戴设备等,下面以电子设备作为执行主体为例对本申请实施例提供的新闻情感预测方法进行说明。

如图1所示,该新闻情感预测方法包括:步骤110至步骤140。

步骤110、获取待处理的新闻文本。

可以理解的是,待处理的新闻文本可以包括标题和正文,正文可以有一个或多个段落,每个段落中有一个或多个句子,每个句子结尾的标点符号可以是句号、问号、省略号或者感叹号。

步骤120、基于新闻文本,确定新闻文本中特征词的词结构权重和词频次特征。

其中,特征词可以包括:有效词、专业词汇、命名实体、数字和时间词、形容词和副词、动词和动词短语以及感叹词和情绪词等。

其中,有效词在文本处理过程中具有实际含义和信息量,能够更好地表达文本的主题和内容,对于文本分类、情感分析、信息检索等任务具有重要作用。

需要说明的是,词结构权重可以是基于特征词所在新闻文本中的结构和位置确定的,词频次特征可以使用特征词的逆文档频率(Inverse Document Frequency,IDF)进行表征。

在实际执行的过程中,在新闻文本中确定多个特征词,根据每个特征词在新闻文本的结构中出现的位置,得到每个特征词的词结构权重,并根据每个特征词出现的频率,得到每个特征词的词频次特征。

步骤130、基于特征词的词结构权重和词频次特征,生成新闻文本的文本向量。

在实际的执行中,对于新闻文本,统计其中各个特征词在该新闻文本中出现的位置和次数,并根据每个特征词的词结构权重和词频次特征进行相应的加权处理,得到每个特征词的特征表示。

这些特征表示可以表示为一个向量,向量的长度即为词汇表的长度。

将每个特征词的特征表示整合成一个向量,这个向量即为整个新闻文本的文本向量。

步骤140、基于文本向量,确定新闻文本的情感类型。

其中,情感类型可以包括:正面、负面和中性的情感倾向,也可以包括正面和负面,情感类型的分类可以根据实际需求灵活划分。

在实际的执行中,在得到文本向量后,可以使用基于朴素贝叶斯、支持向量机、随机森林等机器算法得到的预测模型,对新闻文本的情感类型进行预测。这个过程可以使用sklearn机器学习工具包等工具库实现。

根据本申请实施例提供的新闻情感预测方法,通过新闻本身的结构特征,计算新闻文本中每个特征词的词结构权重和词频次特征,并构建文本向量,实现基于文本向量的新闻的情感预测,通过新闻文本自身的结构因素作为变量构建词结构权重,能够更加贴合和突出新闻文本特有的结构特征,不需要进行截取而损失部分内容特征,也不需要依赖外部词典的质量,能够支撑长篇幅的新闻的情感预测,有效地提高了新闻情感的预测精度。

在一些实施例中,在获取待处理的新闻文本之后,在基于新闻文本,确定新闻文本中特征词的词结构权重和词频次特征之前,方法还包括:

对新闻文本进行分词处理;

对分词后的新闻文本进行停用词过滤,确定停用词过滤后的新闻文本中的特征词,停用词过滤后的新闻文本与待处理的新闻文本的段落结构相同。

在实际的执行中,使用结巴分词工具或自然语言处理工具包(Natural LanguageToolkit,NLTK)等分词工具库对待处理的新闻文本进行分词,并过滤掉新闻文本中的停用词(Stop Words),保留新闻文本原有段落和标点符号的排列结构,方便计算出每个特征词的词结构权重。

停用词通常是一些功能词或连接词,在新闻文本中频繁出现,但对于新闻文本的主题和内容没有太大贡献,通常被用来提升文本特征的质量,或者降低文本特征的维度。

新闻文本过滤掉停用词之后,剩下的词为特征词。

在该实施例中,过滤掉新闻文本中的停用词,可以减少新闻文本的噪音和冗余信息,提高后续处理的效果和效率。

在一些实施例中,新闻情感预测模型还包括第一层和第二层,基于新闻文本,确定新闻文本中特征词的词结构权重和词频次特征,包括:

将新闻文本输入至新闻情感预测模型;

基于第一层,对新闻文本进行特征词的特征提取和权重计算,确定新闻文本中特征词的词结构权重和词频次特征;

基于特征词的词结构权重和词频次特征,生成新闻文本的文本向量,包括:

基于第二层,对每个特征词的词结构权重和词频次特征之积进行求和,得到文本向量。

在实际的执行中,将新闻文本输入至新闻情感预测模型后,新闻情感预测模型的第一层对新闻文本进行分词、停用词过滤,并提取特征词,一方面,在词典对象数组结构中确定新闻文本中每个特征词的词频次特征,另一方面,对每个特征词计算段落位置系数、段落长度系数、句子位置系数和句子类型系数中的至少一个,得到新闻文本中每个特征词的词结构权重。

新闻情感预测模型的第二层在接收到第一层输出的词结构权重后和词频次特征之后,计算每个特征词在新闻文本的每个段落中的段落权重并求和,得到新闻文本的文本向量。

在该实施例中,通过使用基于人工智能的新闻情感预测模型,实现对新闻文本的快速处理,进而得到便于分类的文本向量,为新闻文本的情感类型的预测提供基础。

在一些实施例中,词结构权重通过如下步骤确定:

基于新闻文本,确定特征词对应的段落位置系数、段落长度系数、句子位置系数和句子类型系数中的至少一个;

基于特征词对应的段落位置系数、段落长度系数、句子位置系数和句子类型系数中的至少一个,确定特征词的词结构权重。

在实际的执行中,第一层计算新闻文本中每个特征词的段落位置系数Wpp、段落长度系数Wpl、句子位置系数Wsp和句子类型系数Wst。

(1)统计新闻文本中每个特征词的段落位置系数Wpp,将首段和尾段的段落位置系数Wpp设置为1,标题在新闻比较重要,段落位置系数Wpp为1.5,然后到中间段落的段落位置系数Wpp按照距离首段或尾段由近到远的百分比递减,主要是为了将段落位置进行差异化更好分散。

每个特征词的段落位置系数Wpp,计算公式如下:

Wpp=1.5*isTitle+1*(1-abs(paragraphPosition))*(1-distancePercentage)

其中,若特征词在新闻文本的标题,则Title取值为1,若特征词不在新闻文本的标题,则Title取值为0;paragraphPosition表示特征词所在段落的段落位置,若特征词所在段落的段落位置为首段,则paragraphPosition取值为1,若特征词所在段落的段落位置为中间段,则paragraphPosition取值为0,若特征词所在段落的段落位置为尾段,则paragraphPosition取值为-1;distancePercentage表示特征词所在的段落距离首段或尾段百的分比,取值范围为0到1,距离百分比越小表示越靠近中间段。

(2)对于段落长度,设定平均长度为1,该段长度的权重按照平均长度百分比计算。

每个特征词的段落长度系数为Wpl,计算公式如下:

Wpl=paragraphLength/averageLength

其中,paragraphLength表示特征词所在的段落长度,averageLength表示新闻文本的平均段落长度,Lj代表的是序号j(j=1,2,3,…,n)的段落的长度,整个新闻文本中共有n个段落。

(3)根据特征词所在句子的位置,赋予特征词的句子位置系数Wsp,特征词所在的句子属于开头和结尾,则Wsp为1.5,其余则Wsp为1。

每个特征词的句子位置系数为Wsp,计算公式如下:

Wsp=1.5*isStart+1.5*isEnd+1*(1-isStart)*(1-isEnd)

其中,isStart表示特征词所在的句子是否处于开头,若处于开头,则isStart取值为1,若不处于开头,则isStart取值为0;isEnd表示特征词所在的句子是否处于结尾,若处于结尾,则isEnd取值为1,若不处于结尾,则isEnd取值为0。

(4)根据特征词所在句子的句子类型,赋予特征词的句子类型系数为Wst,若句子类型为疑问句和感叹句,则Wst为1.5,若句子类型为其他,则Wst为1。

每个特征词的句子类型系数为Wst,计算公式如下:

Wst=1.5*sentenceType+1*(1-sentenceType)

其中,sentenceType表示特征词所在句子的句子类型,若特征词所在句子的句子类型为疑问句或感叹句,则sentenceType取值为1,若特征词所在句子的句子类型为其他类型,则sentenceType取值为0。

在该实施例中,根据新闻文本的多个层次的结构特征,给处于不同位置的特征词赋予相应的段落位置系数、段落长度系数、句子位置系数和句子类型系数,进而为得到更符合新闻文本的词结构权重提供基础。

在一些实施例中,基于特征词对应的段落位置系数、段落长度系数、句子位置系数和句子类型系数中的至少一个,确定特征词的词结构权重,包括:

基于特征词的段落位置系数、段落长度系数、句子位置系数和句子类型系数中的至少一个,确定特征词在新闻文本的每个段落对应的段落权重;

基于特征词的数量以及特征词的所有的段落权重之和,生成特征词的词结构权重。

在实际的执行中,段落j中有m个特征词i(i=1,2,3,…,m),则特征词i在段落j中的表现为可以表示为段落权重TPF(i,j)。

若特征词i的词结构权重是基于段落位置系数、段落长度系数、句子位置系数和句子类型系数得到的,则特征词i在段落j中的段落权重TPF(i,j)的计算公式如下:

特征词i在整个新闻文本中的数量为Nd,j(j=1,2,3,…,n)代表段落,特征词i在整篇新闻文本的词结构权重表示为TDFi,计算公式如下:

至此,第一层计算结束,并将每个特征词i的词结构权重TDFi发送至第二层。

第二层的计算公式如下:

整个新闻文本中有k个特征词,则这篇新闻文本的文本向量D可以由所有的特征词i(i=1,2,3,…,k)表达出来,文本向量D的计算公式如下:

其中,IDFi是特征词i的逆文档频率。

至此,第二层计算结束。

在该实施例中,通过求取每个特征词在新闻文本的每个段落中的段落权重并求和,进而求得整个新闻文本的文本向量,能够提高文本向量的质量和准确性。

在一些实施例中,基于文本向量,确定新闻文本的情感类型,包括:

将文本向量输入至新闻情感预测模型的向量机;

基于向量机,对文本向量进行情感倾向分类,确定新闻文本的情感类型,新闻情感预测模型是基于新闻样本集和情感类型标签训练的。

新闻情感预测模型中还包括:向量机。

在情感类型包括积极和消极两类时,新闻情感预测模型使用支持向量机(SupportVector Machines,SVM)这种二分类器,将输入的文本向量D映射到高维空间中,并在高维空间中寻找一个超平面,使得该超平面能够将输入的文本向量分为积极和消极两个不同的类别,实现对新闻文本的情感类型的预测,向量机分类结束后,将分类结果作为新闻文本的情感类型输出。

新闻样本集中包括多个文本样本,每个文本样本对应有情感类型标签,将这些携带有情感类型标签的文本样本依次输入至新闻情感预测模型,可以实现对新闻情感预测模型的训练。

在该实施例中,通过使用向量机对情感类型进行预测,具有较高的分类准确率和较好的泛化能力。

下面介绍一个具体的实施例。

如图2所示,通过爬虫爬取多个公开的新闻文本作为文本样本,构建新闻样本集。

对每个文本样本打情感类型标签,将文本样本平均分成数量一致的两类情感类型,分别为积极和消极。

使用结巴分词工具将每个文本样本进行分词,同时过滤掉停用词,保留原有段落和标点符号的排列结构,方便计算出每个特征词的词结构权重。

对新闻样本集中所有的文本样本中所有的特征词构造词典对象数组结构,这个词典对象数组的长度等于所有文本样本中不同特征词的总数,其中,每个索引值代表一个不同的特征词,用于表达整个文本样本的文本向量,即词典中包含了出现在所有文本样本中的所有单词,构建的过程可以通过one-hot编码或者独热编码实现。

例如,如果新闻样本集中包含3个文本样本,例如:

文本样本1:今天天气真好。

文本样本2:明天会有雨吗?

文本样本3:天气预报说明天下雨。

将这三个文本样本中包含的所有单词取出并去重,得到一个词汇表,例如:今天、天气、真好、明天、会、有、雨、天气预报、说。

接着,按照词汇表中的单词顺序,对每个文本样本构建一个向量表示。例如,对于文本样本1,可以得到如下的向量:[1,1,1,0,0,0,0,0,0];

其中,向量的第一个元素表示词汇表中的第一个单词,即“今天”,如果这个单词出现在该文本样本中,则对应位置的值为1,否则为0。同理,向量的第二个元素表示词汇表中的第二个单词,即“天气”,以此类推。

通过这种方式,可以将每个文本样本表示为一个稀疏向量,其中每个位置上的值代表了对应特征词在文本样本中出现的次数,便于进行文本分类、聚类、检索等任务。

其中,特征词的词典对象数组结构是指将词典中的每个特征词封装成一个对象,并以数组的形式进行存储。每个特征词的对象通常包含以下信息:词本身(例如:word)、词的词性(例如:noun、verb等)、词的释义或定义(例如:a word or group of wordsexpressing a meaningful concept),以及其他相关的属性,如同义词、反义词、例句等。

通过使用词典对象数组结构,可以方便地对词典中的特征词进行遍历、查找和操作。

在词典对象数组结构中,数组的索引代表一个特征词,用于表达整个文本样本的文本向量。

对于一个包含多个文本样本的新闻样本集,可以使用词袋模型(Bag-of-WordsModel),将每个文本样本表示为一个由词汇组成的向量,以便于进行后续的文本分析和处理。

逆文档频率IDF用来衡量一个特征词对于一个新闻样本集的重要性或区分度的指标,通过计算包含该特征词的文本样本在整个新闻样本集中的频率倒数来得到,用于区分常见词和关键词,对于信息检索和文本分析任务具有重要意义。

例如,如果一个特征词在大部分文本样本中都出现,则这个特征词的逆文档频率较低;反之,如果一个特征词在少数文本样本中才出现,则这个特征词的逆文档频率较高。

特征词i的逆文档频率IDFi的计算公式如下:

IDFi=log(Ntdi/Ncd)

其中,Ntd是新闻样本集中文本样本的个数,Ncdi是包含特征词i的文本样本的个数。

Ntd是一个正整数,用来描述新闻样本集的规模,Ncdi是一个非负整数,用来衡量特征词i在新闻样本集中的出现频率。

每个特征词的逆文档频率IDFi存储在词典对象数组结构中。

当特征词在更多的文本样本中出现时,Ntd增加,那么IDF值就会减小,表示该特征词对于新闻样本集的重要性较低,而当特征词在较少的文本样本中出现时,Ncdi减小,IDF值就会增大,表示该特征词对于新闻样本集的重要性较高。

此外,还可以对IDF值进行平滑处理,避免出现除以0的情况,以及对于DF值较小的情况下,IDF值过大的问题。例如可以使用平滑方法,如加1或者取对数等来进行调整。

在统计出所有特征词的逆文档频率IDF之后,将统计的逆文档频率IDF存储在内存词典对象数中。

接下来,构建新闻情感预测模型的第一层和第二层,获取每个文本样本的文本向量。

特征词在文本样本中每一段的位置系数是Wpp,统计记录每一个文本样本中的特征词i出现在段落的位置和次数。将首段和尾段的段落位置系数Wpp设置为1,标题在新闻比较重要,段落位置系数Wpp为1.5,然后到中间段落的段落位置系数Wpp按照距离首段或尾段由近到远的百分比递减,主要是为了将段落位置进行差异化更好分散。

每个特征词的段落位置系数Wpp,计算公式如下:

Wpp=1.5*isTitle+1*(1-abs(paragraphPosition))*(1-distancePercentage)

其中,若特征词在文本样本的标题,则Title取值为1,若特征词不在文本样本的标题,则Title取值为0;paragraphPosition表示特征词所在段落的段落位置,若特征词所在段落的段落位置为首段,则paragraphPosition取值为1,若特征词所在段落的段落位置为中间段,则paragraphPosition取值为0,若特征词所在段落的段落位置为尾段,则paragraphPosition取值为-1;distancePercentage表示特征词所在的段落距离首段或尾段百的分比,取值范围为0到1,距离百分比越小表示越靠近中间段。

对于段落长度,设定平均长度为1,该段长度的权重按照平均长度百分比计算。

每个特征词的段落长度系数为Wpl,计算公式如下:

Wpl=paragraphLength/averageLength

其中,paragraphLength表示特征词所在的段落长度,averageLength表示文本样本的平均段落长度,Lj代表的是序号j(j=1,2,3,…,n)的段落的长度,整个文本样本中共有n个段落。

根据特征词所在句子的位置,赋予特征词的句子位置系数Wsp,特征词所在的句子属于开头和结尾,则Wsp为1.5,其余则Wsp为1。

每个特征词的句子位置系数为Wsp,计算公式如下:

Wsp=1.5*isStart+1.5*isEnd+1*(1-isStart)*(1-isEnd)

其中,isStart表示特征词所在的句子是否处于开头,若处于开头,则isStart取值为1,若不处于开头,则isStart取值为0;isEnd表示特征词所在的句子是否处于结尾,若处于结尾,则isEnd取值为1,若不处于结尾,则isEnd取值为0。

根据特征词所在句子的句子类型,赋予特征词的句子类型系数为Wst,若句子类型为疑问句和感叹句,则Wst为1.5,若句子类型为其他,则Wst为1。

每个特征词的句子类型系数为Wst,计算公式如下:

Wst=1.5*sentenceType+1*(1-sentenceType)

其中,sentenceType表示特征词所在句子的句子类型,若特征词所在句子的句子类型为疑问句或感叹句,则sentenceType取值为1,若特征词所在句子的句子类型为其他类型,则sentenceType取值为0。

段落j中有m个特征词i(i=1,2,3,…,m),则特征词i在段落j中的表现为可以表示为段落权重TPF(i,j)。

若特征词i的词结构权重是基于段落位置系数、段落长度系数、句子位置系数和句子类型系数得到的,则特征词i在段落j中的段落权重TPF(i,j)的计算公式如下:

特征词i在整个文本样本中的数量为Nd,j(j=1,2,3,…,n)代表段落,特征词i在整篇文本样本的词结构权重表示为TDFi,计算公式如下:

整个文本样本中有k个特征词,则这篇文本样本的文本向量D可以由所有的特征词i(i=1,2,3,…,k)表达出来,文本向量D的计算公式如下:

其中,IDFi是特征词i的逆文档频率。

在得到每个文本样本的文本向量之后,将携带有情感类型标签的文本向量划分为训练集和验证集。

利用开源的大规模线性分类和回归问题(LIBLINEAR)的SVM类库,将训练集合和验证集合输入类库中,选择使用L1正则化和L2损失函数的线性SVM模型,最后构造SVM问题,求解出新闻情感预测模型的向量机。

使用交叉验证等方法,对得到的新闻情感预测模型的第一层、第二层和向量机进行评估和优化,以提高新闻情感预测模型的性能和泛化能力。

在该实施例中,通过构建新闻情感预测模型,为新闻文本的情感类型的精准预测提供基础。

本申请实施例提供的新闻情感预测方法,执行主体可以为新闻情感预测装置。本申请实施例中以新闻情感预测装置执行新闻情感预测方法为例,说明本申请实施例提供的新闻情感预测装置。

本申请实施例还提供一种新闻情感预测装置。

如图3所示,该新闻情感预测装置包括:获取模块310、第一处理模块320、第二处理模块330和第三处理模块340。

获取模块310,用于获取待处理的新闻文本;

第一处理模块320,用于基于新闻文本,确定新闻文本中特征词的词结构权重和词频次特征;

第二处理模块330,用于基于特征词的词结构权重和词频次特征,生成新闻文本的文本向量;

第三处理模块340,用于基于文本向量,确定新闻文本的情感类型。

根据本申请实施例提供的新闻情感预测装置,通过新闻本身的结构特征,计算新闻文本中每个特征词的词结构权重和词频次特征,并构建文本向量,实现基于文本向量的新闻的情感预测,通过新闻文本自身的结构因素作为变量构建词结构权重,能够更加贴合和突出新闻文本特有的结构特征,不需要进行截取而损失部分内容特征,也不需要依赖外部词典的质量,能够支撑长篇幅的新闻的情感预测,有效地提高了新闻情感的预测精度。

在一些实施例中,词结构权重通过如下步骤确定:

基于新闻文本,确定特征词对应的段落位置系数、段落长度系数、句子位置系数和句子类型系数中的至少一个;

基于特征词对应的段落位置系数、段落长度系数、句子位置系数和句子类型系数中的至少一个,确定特征词的词结构权重。

在一些实施例中,基于特征词对应的段落位置系数、段落长度系数、句子位置系数和句子类型系数中的至少一个,确定特征词的词结构权重,包括:

对新闻文本的每个段落中每个特征词的段落位置系数、段落长度系数、句子位置系数和句子类型系数中的至少一个进行求和,生成每个特征词与每个段落对应的段落权重;

基于每个特征词在新闻文本中的数量,对每个特征词的所有的段落权重进行求和,生成特征词的词结构权重。

在一些实施例中,在获取待处理的新闻文本之后,基于新闻文本,确定新闻文本中特征词的词结构权重和词频次特征之前,方法还包括:

将新闻文本进行分词;

对分词后的新闻文本进行停用词过滤,确定停用词过滤后的新闻文本中的特征词,停用词过滤后的新闻文本与待处理的新闻文本的段落结构相同。

在一些实施例中,基于新闻文本,确定新闻文本中特征词的词结构权重和词频次特征,包括:

将新闻文本输入至新闻情感预测模型,新闻情感预测模型包括第一层和第二层;

基于第一层,对新闻文本进行特征词的特征提取和权重计算,确定新闻文本中特征词的词结构权重和词频次特征;

基于特征词的词结构权重和词频次特征,生成新闻文本的文本向量,包括:

基于第二层,对每个特征词的词结构权重和词频次特征之积进行求和,得到文本向量词结构权重。

在一些实施例中,新闻情感预测模型还包括向量机,基于文本向量,确定新闻文本的情感类型,包括:

基于向量机,对文本向量进行情感倾向分类,确定新闻文本的情感类型,新闻情感预测模型是基于新闻样本集和情感类型标签训练的。

本申请实施例中的新闻情感预测装置可以是电子设备,也可以是电子设备中的部件,例如集成电路或芯片。该电子设备可以是终端,也可以为除终端之外的其他设备。示例性的,电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、移动上网装置(Mobile Internet Device,MID)、增强现实(augmented reality,AR)/虚拟现实(virtual reality,VR)设备、机器人、可穿戴设备、超级移动个人计算机(ultra-mobilepersonal computer,UMPC)、上网本或者个人数字助理(personal digital assistant,PDA)等,还可以为服务器、网络附属存储器(Network Attached Storage,NAS)、个人计算机(personal computer,PC)、电视机(television,TV)、柜员机或者自助机等,本申请实施例不作具体限定。

本申请实施例中的新闻情感预测装置可以为具有操作系统的装置。该操作系统可以为安卓(Android)操作系统,可以为IOS操作系统,还可以为其他可能的操作系统,本申请实施例不作具体限定。

本申请实施例提供的新闻情感预测装置能够实现图1和图2的新闻情感预测方法实施例实现的各个过程,为避免重复,这里不再赘述。

在一些实施例中,如图4所示,本申请实施例还提供一种电子设备400,包括处理器401、存储器402及存储在存储器402上并可在处理器401上运行的计算机程序,该程序被处理器401执行时实现上述新闻情感预测方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。

需要说明的是,本申请实施例中的电子设备包括上述的移动电子设备和非移动电子设备。

本申请实施例还提供一种非暂态计算机可读存储介质,该非暂态计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述新闻情感预测方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。

其中,处理器为上述实施例中的电子设备中的处理器。可读存储介质,包括计算机可读存储介质,如计算机只读存储器ROM、随机存取存储器RAM、磁碟或者光盘等。

本申请实施例还提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述新闻情感预测方法。

其中,处理器为上述实施例中的电子设备中的处理器。可读存储介质,包括计算机可读存储介质,如计算机只读存储器ROM、随机存取存储器RAM、磁碟或者光盘等。

本申请实施例另提供了一种芯片,芯片包括处理器和通信接口,通信接口和处理器耦合,处理器用于运行程序或指令,实现上述新闻情感预测方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。

应理解,本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。

需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外,需要指出的是,本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能,还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能,例如,可以按不同于所描述的次序来执行所描述的方法,并且还可以添加、省去、或组合各种步骤。另外,参照某些示例所描述的特征可在其他示例中被组合。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例的方法。

上面结合附图对本申请的实施例进行了描述,但是本申请并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本申请的启示下,在不脱离本申请宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本申请的保护之内。

在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本申请的实施例,本领域的普通技术人员可以理解:在不脱离本申请的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本申请的范围由权利要求及其等同物限定。

相关技术
  • 一种校园宿舍管理系统及方法
  • 一种基于物联网的宿舍智能管理系统
  • 一种基于LoraWAN网络的校园宿舍能源管理系统
  • 一种基于NB-IOT的智慧校园宿舍智能门锁管理系统
技术分类

06120116517737