一种基于社交媒体的立场分析与引导方法、装置

文献发布时间：2023-06-19 19:00:17

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种基于社交媒体的立场分析与引导方法、装置。

背景技术

近年来，社交媒体如微博、推特、脸书和领英等发展迅猛，导致互联网使用方式发生重大改变，即从简单的信息检索和网页浏览到社交关系的构建和维护及在此基础上的信息交流和共享。目前互联网中主要的文本立场分析技术常用方法是基于情感词典或者基于机器学习。使用基于情感词典的方法进行分析的前提是人工构建出情感词典，并与人类交流的语言经验和语言学方面的知识中所获取到的语法规则相结合，以此作为文本情感极性分类的依据。情感词典的构建需要耗费大量人力且系统迁移性差，并且针对句中无感情词时该法将失效，难以适应当今的海量文本数据。

本申请发明人在实施本发明的过程中，发现现有技术的方法，至少存在如下技术问题：

基于机器学习的方法往往需要设计大量的词法，句法和语义的特征，然后利用模型对无标注的文本进行情感分类。主要的模型工具有朴素贝叶斯(NB)、支持向量机(SVM)和最大熵等。虽然基于机器学习的方法摆脱了依靠有限词典的局限性，且该方法的分类效果优于基于情感词典的方法，但是机器学习方法成功的关键在于选择出大量高质量的标注样本，最佳的特征组合和分类器。这样的前提需要耗费大量精力，且文本适用领域受限，也就是在某一领域的特征集不一定适应另一个领域，模型的可移植性较差。

发明内容

本发明提供了一种基于社交媒体的立场分析与引导方法、装置，用以解决或者至少部分解决现有技术中存在的立场检测效果不佳的技术问题。

为了解决上述技术问题，本发明第一方面提供了一种基于社交媒体的立场分析与引导方法，包括：

S1：构建具体主题词的训练语料库，利用构建的训练语料库对BERT模型进行训练，得到训练好的BERT模型；

S2：利用训练好的BERT模型对目标文本进行立场分析，得到立场分析结果，其中，立场分析结果包括正向立场、中性立场和负向立场；

S3：利用训练好的BERT模型分别对立场分析结果为负向立场的目标文本和构建的引导素材语料库进行语义分析，并基于文本匹配方法对立场分析结果为负向立场的目标文本匹配出引导素材文本。

在一种实施方式中，步骤S2包括：

S2.1：给定对应主题的目标文本C＝{c

S2.2：通过训练好的BERT模型得到含有文本上下文语意的表示h

在一种实施方式中，步骤S3包括：

S3.1：构建对应主题词的引导素材语料库，引导素材语料库包括引导素材文本；

S3.2：利用训练好的BERT模型分别对立场分析结果为负向立场的目标文本和构建的引导素材语料库进行语义分析，得到与负向立场目标文本对应的含有句子语义的第一特征向量表示和引导素材语料库对应的含有句子语义的第二特征向量表示；

S3.3：对第一特征向量表示与第二特征向量表示进行余弦相似度计算，根据余弦相似度计算结果得到与负向立场的目标文本语义最接近的引导素材文本。

在一种实施方式中，所述方法还包括：基于训练好的BERT模型，计算不同客体的立场态势得分，并进行可视化展示。

在一种实施方式中，基于训练好的BERT模型，计算不同客体的立场态势得分，并进行可视化展示，包括：

构建对应主题词的立场态势语料库；

将立场态势语料库中的所有文本按照客体进行分类，利用训练好的BERT模型对所有文本进行立场分析，得到立场分析结果；

将立场分析结果中正向立场的得分设为1分，中性立场设为0分，负向立场为-1分，根据设置的得分按照客体类别进行立场态势得分的计算，得到对应客体的立场态势得分，并进行可视化展示。

基于同样的发明构思，本发明第二方面提供了一种基于社交媒体的立场分析与引导装置，包括：

模型构建与训练模块，用于构建具体主题词的训练语料库，利用构建的训练语料库对BERT模型进行训练，得到训练好的BERT模型；

立场分析模块，用于利用训练好的BERT模型对目标文本进行立场分析，得到立场分析结果，其中，立场分析结果包括正向立场、中性立场和负向立场；

智能引导模块，用于利用训练好的BERT模型分别对立场分析结果为负向立场的目标文本和构建的引导素材语料库进行语义分析，并基于文本匹配方法对立场分析结果为负向立场的目标文本匹配出引导素材文本。

在一种实施方式中，所述装置还包括态势感知模块，用于基于训练好的BERT模型，计算不同客体的立场态势得分，并进行可视化展示。

基于同样的发明构思，本发明第三方面提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被执行时实现第一方面所述的方法。

基于同样的发明构思，本发明第四方面提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现第一方面所述的方法。

相对于现有技术，本发明的优点和有益的技术效果如下：

本发明提供了一种基于社交媒体的立场分析与引导方法，首先利用构建的训练语料库对BERT模型进行训练，得到训练好的BERT模型；然后利用训练好的BERT模型对目标文本进行立场分析，并进一步利用训练好的BERT模型分别对立场分析结果为负向立场的目标文本和构建的引导素材语料库进行语义分析，并基于文本匹配方法对立场分析结果为负向立场的目标文本匹配出引导素材文本。通过训练好的BERT模型进行立场分析后，进一步通过训练好的BERT模型在引导素材库中进行深度检索，匹配出语义最接近的引导素材，从而可以负面信息引导，在改善立场分析检测效果的同时，还可以通过文本语义匹配方法进行负面信息引导。

进一步地，本申请还基于训练好的BERT模型，计算不同客体的立场态势得分，并进行可视化展示，可以实现态势感知。

基于同样的发明构思，本申请还提供了基于社交媒体的立场分析与引导装置，将立场分析、信息引导和态势感知三部分内容整合在一起，形成了一套完整的网络信息感知和导控系统。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中基于社交媒体的立场分析和引导方法的流程示意图；

图2为本发明实施例中基于深度学习的立场分析模型示意图；

图3为本发明实施例中基于深度学习的引导检索模型示意图。

图4为本发明实施例中不同客体对某对象产生的信息的可视化示例。

具体实施方式

本发明涉及一种基于社交媒体的立场分析和引导方法、装置，立场分析和引导包括三个模块：立场分析模块、智能引导模块和立场态势感知模块。对于立场分析模块，针对具体主题词，给定相应主题词的目标文本，使用训练好的BERT模型进行立场分类；对于智能引导模块，通过文本匹配的方法实现对负面情感引导，即计算目标文本与素材文本之间的余弦相似度，将得分较高的几个素材文本作为备选引导素材；对于立场态势感知模块，基于立场分析模块，可视化展示不同客体的立场态势分布。本发明将深度学习技术应用到立场分析和引导中，采用BERT立场分析模型对目标文本语句进行立场分类，并通过文本匹配的方法对负面立场的目标文本进行正向引导，减少立场分析和引导中的特征工程，减轻人工设计和调节特征带来的负担和麻烦，精准挖掘文本中的知识。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

本发明实施例提供了一种基于社交媒体的立场分析与引导方法，包括：

S1：构建具体主题词的训练语料库，利用构建的训练语料库对BERT模型进行训练，得到训练好的BERT模型；

S2：利用训练好的BERT模型对目标文本进行立场分析，得到立场分析结果，其中，立场分析结果包括正向立场、中性立场和负向立场；

具体来说，具体主题词可以通过分析大量的社交媒体数据后获得。基于文本匹配方法对立场分析结果为负向立场的目标文本匹配出引导素材文本，从而可以实现正向信息引导。

在一种实施方式中，步骤S2包括：

S2.1：给定对应主题的目标文本C＝{c

S2.2：通过训练好的BERT模型得到含有文本上下文语意的表示h

利用训练好的BERT模型对目标文本进行立场分析的有益效果是：BERT模型不需要设计大量的词法，句法和语义的特征，自身可以在多个不同层次提取词与词的关系特征，从而避免歧义出现，进而更全面反映目标文本语句的语义，这样具有句子语义的特征向量表示有利于进行有效准确的立场识别。

在一种实施方式中，步骤S3包括：

S3.1：构建对应主题词的引导素材语料库，引导素材语料库包括引导素材文本；

S3.3：对第一特征向量表示与第二特征向量表示进行余弦相似度计算，根据余弦相似度计算结果得到与负向立场的目标文本语义最接近的引导素材文本。

具体实施过程中，通过余弦相似度计算，将相似度得分较高的几个素材文本作为目标语句的备选引导素材。

采用训练好的BERT模型对负向立场目标文本和引导素材语句进行语义分析，分别得到两个含有句子语义的特征向量表示(第一特征向量表示与第二特征向量表示)，通过余弦相似度计算两个语句的相似度得分，这样可以基于目标文本语句和引导素材语句的语义进行匹配，从而得到最接近目标文本语义的引导语句。

在一种实施方式中，所述方法还包括：基于训练好的BERT模型，计算不同客体的立场态势得分，并进行可视化展示。

在一种实施方式中，基于训练好的BERT模型，计算不同客体的立场态势得分，并进行可视化展示，包括：

构建对应主题词的立场态势语料库；

将立场态势语料库中的所有文本按照客体进行分类，利用训练好的BERT模型对所有文本进行立场分析，得到立场分析结果；

具体来说，通过上述步骤可以清晰准确地分析出不同客体针对某一个特定事件的立场态势。

如图1所示，为具体实施例中提供的一种基于社交媒体的立场分析和引导方法，包括如下步骤：

步骤1：针对具体主题词，给定相应主题词的目标文本，使用训练好的BERT模型进行立场分类；

步骤2：基于步骤1的训练好的BERT模型，分析出目标文本的立场，针对负向立场的目标文本通过基于文本匹配的方法进行正向引导；

步骤3：基于步骤1的训练好的BERT模型，计算不同客体的立场态势得分，并进行可视化展示；

本发明通过将深度学习技术应用到立场分析和引导中，采用BERT分类模型进行立场分析，并通过文本匹配的方法对负向立场进行引导。减少立场分析和引导中的特征工程，减轻人工设计和调节特征带来的负担和麻烦，精准挖掘文本中的知识。

在上述实施例的基础上，所述步骤1具体包括：

步骤11：构建具体主题词的训练评估语料库。

步骤12：给定对应主题的目标文本C＝{c

步骤13：经过BERT模型得到含有文本上下文语意的表示h

BERT模型不需要设计大量的词法，句法和语义的特征，自身可以在多个不同层次提取词与词的关系特征，从而避免歧义出现，进而更全面反映目标文本语句的语义，这样具有句子语义的特征向量表示有利于进行有效准确的立场识别。

具体实施过程中，将目标文本语句C与特殊字符CLS拼接后作为所述BERT模型输入，该模型输出含有语义的特征向量表示为h

如图2所示，目标文本语句“对事件A表示支持！”，其中第i个字符表示为c

作为本发明的一个实施例，该实施例中，所述2具体包括：

步骤21：构建对应主题词的引导素材语料库；

步骤22：将负向立场的目标语句C′＝{c′

步骤23：将相似度得分较高的几个素材文本作为目标语句的备选引导素材。采用步骤1中训练好的BERT模型对目标文本语句和引导素材语句进行语义分析，得到两个含有句子语义的特征向量表示，通过余弦相似度计算两个语句的相似度得分，这样可以基于目标文本语句和引导素材语句的语义进行匹配，从而得到最接近目标文本语义的引导语句。

具体实施过程中，将负向立场的目标文本语句C′与特殊字符CLS拼接后作为训练好的BERT模型的输入，输出含有语义的特征向量表示为h

如图3所示，负向立场的目标文本语句“对A事件持反对意见。”，经过训练好的BERT模型后得到含有语义信息的负向立场的目标文本向量表示h

优选地，作为本发明的一个实施例，该实施例中，所述步骤3具体包括：

步骤31：构建对应主题词的立场态势语料库；

步骤32：将立场态势语料库中的所有文本按照客体进行分类，通过权利要求1中已经训练好的BERT模型对目标文本进行立场分析；

步骤33：正向立场为1分，中性立场为0分，负向立场为-1分，最终求和得到每一个客体的立场态势得分，并进行可视化展示。

通过上述步骤可以清晰的准确的分析出不同客体针对某一个主题的所产生的信息。

请参见图4，为本发明实施例中不同客体对某对象产生的信息的可视化示例。该图中，有四个客体，分为四个小方框，客体对某对象产生的信息用不同的形状表示。

实施例二

基于同样的发明构思，本实施例提供了一种基于社交媒体的立场分析与引导装置，包括：

模型构建与训练模块，用于构建具体主题词的训练语料库，利用构建的训练语料库对BERT模型进行训练，得到训练好的BERT模型；

立场分析模块，用于利用训练好的BERT模型对目标文本进行立场分析，得到立场分析结果，其中，立场分析结果包括正向立场、中性立场和负向立场；

在一种实施方式中，所述装置还包括态势感知模块，用于基于训练好的BERT模型，计算不同客体的立场态势得分，并进行可视化展示。

由于本发明实施例二所介绍的装置为实施本发明实施例一中基于社交媒体的立场分析与引导方法所采用的装置，故而基于本发明实施例一所介绍的方法，本领域所属人员能够了解该装置的具体结构及变形，故而在此不再赘述。凡是本发明实施例一中方法所采用的装置都属于本发明所欲保护的范围。

实施例三

基于同一发明构思，本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被执行时实现如实施例一中所述的方法。

由于本发明实施例三所介绍的计算机可读存储介质为实施本发明实施例一中基于社交媒体的立场分析与引导方法所采用的计算机可读存储介质，故而基于本发明实施例一所介绍的方法，本领域所属人员能够了解该计算机可读存储介质的具体结构及变形，故而在此不再赘述。凡是本发明实施例一的方法所采用的计算机可读存储介质都属于本发明所欲保护的范围。

实施例四

基于同一发明构思，本申请还提供了一种计算机设备，包括存储、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行上述程序时实现实施例一中的方法。

由于本发明实施例四所介绍的计算机设备为实施本发明实施例一中基于社交媒体的立场分析与引导方法所采用的计算机设备，故而基于本发明实施例一所介绍的方法，本领域所属人员能够了解该计算机设备的具体结构及变形，故而在此不再赘述。凡是本发明实施例一中方法所采用的计算机设备都属于本发明所欲保护的范围。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样，倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：李霏;姬东鸿;刘江;黄钰杰;代梦薇;
专利申请人：武汉大学;

上一篇：数据传输方法、节点、终端及网络侧设备
下一篇：一种治疗鼻炎用药膏及其制备方法