导航：首页> 机床；其他类目中不包括的金属加工>一种基于预训练的长文本新闻自动标注方法

一种基于预训练的长文本新闻自动标注方法

文献发布时间：2023-06-19 12:07:15

技术领域

本发明是属于自然语言处理领域，是基于预训练对长文本新闻进行自动标注的方法。

背景技术

随着互联网、机器学习、大数据等技术的飞速发展，各种信息数据以指数级的速度在持续增长，目前人工智能所依托的机器学习和深度学习算法多数是数据依赖的，需要大量的数据采用监督或半监督的方式训练算法，进行定制化部署。由于我国大数据体量庞大，尤其是新闻文本没有固定的格式，且种类多样，更新速度快，给数据标注任务提出了巨大的挑战。

最常见的新闻类别标注是通过人工方式对全量数据进行标注，该方式的人工成本很高，数据质量难以保证，不可避免地存在标注人员主观疲劳，数据审核环节质量难以把控等问题。在机器学习方面，KNN算法，朴素贝叶斯算法，决策树算法等，这些算法在文本分类上取得了不错的分类效果，但面对长文本，还是有些力不从心，而基于长文本的经典算法有TextCNN、FastText、TextRNN等，这些算法针对文本分类的高维数据、文本语序和减少时间等方面进行优化，但因为中文语法和字的差异，相对于英文，中文的文本分类需要进行大量的处理和分析工作，在中文长文本标注的效果上，效果并不是特别理想。

发明内容

针对传统人工和传统算法在长文本数据标注中存在的不足，本发明的目的是提供一种更加快速准确的长文本新闻标注方法。

本发明提供一种基于迁移学习的长文本新闻标注方法，所述方法步骤如下：

步骤S1：数据预处理

将爬取的新闻进行数据清洗，去除特殊字符，并将短于200长度的新闻过滤掉；

步骤S2：数据集划分

将每类新闻数量保持稳定，按照训练集80%，验证集10%,测试集10%的比例来划分；

步骤S3:加载模型

将预训练模型加载，设置模型参数；

步骤S4：训练模型

将训练集和验证集进行训练，并在每100轮显示当前loss，accuracy等信息；

步骤S5: 文本标注

将待标注新闻输入模型进行标注。

附图说明

图1为本发明的流程图；

图2为本发明与其他算法的互信息（AMI），兰德指数(MI)，完整性的对比图。

具体实施方式

以下实施例用于说明本发明，但不用来限制本发明的范围。现通过附图和实施例对本发明作进一步的详细描述。

本发明实施例的前提是数据集是作者收集到的新闻长文本数据集。

图1为本发明实施例提供基于预训练的长文本分类模型流程示意图。如图1所示，本实施例主要包含以下步骤：

步骤S1：数据预处理

将爬取的新闻进行数据清洗，去除特殊字符，并将短于200长度的新闻过滤掉。最终将处理好的数据保存成类别+内容的格式；

步骤S2：数据集划分

将每类新闻处理成10000条的大小，按照训练集80%，验证集10%,测试集10%的比例来划分；

步骤S3:加载模型

将bert预训练模型加载，并设置参数，epoch为4，minipatch为32，学习率为0.0005，drropout为0.1；

步骤S4:训练模型

将训练集和测试集的数据构建词向量，并进行mask，将生成的词向量传入bert模型，将得到的向量增加维度，进行卷积和池化操作，在进行dropout随机掩盖，最后通过全连接层降维，得到最终的表示。在每100轮的时候。计算当前loss，acc等信息，进行反向传播；

步骤S5:文本标注

用无标签的长新闻文本，放进模型中，得到预测的类别，并进行文本类别标注。然后用kmeans聚类，将聚类标签与预测标签进行对比，得到MI,AMI,完整性等指标，判断标注效果。

例1 本发明通过自己收集的长文本新闻进行测试

该数据集是由来自90000条新闻长文本所构成的一个数据集，是用于中文新闻分类的数据集，包括财经、房产、教育、科技、军事、汽车、体育、游戏、娱乐9类数据。

本发明选取Bert_CNN模型作为文本表示模型的基本模型，使用3个指标来评价其性能，分别是完整性（completeness）兰德指数MI（MRand index）,互信息AMI（MutualInformation based scores），同时与3个现有的方式进行了对比，分别是bertRCNN,bertRNN,bert.现有的3个方法都运行在各自最优的参数下。本发明方法的相关参数设置如下：epoch数为5，mini-batch大小为128，学习率为0.00005，dropout为0.1，我们分别选用测试集和验证集为10%和10%。

表1实验对比：

表1和图2为本发明在数据集上与其他三个算法的比较的各项指数，完整性，MI,AMI为无监督学习在算法是否精确的一个指标，取值区间为[-1,1],数值越接近1，表明聚类效果与本发明的标注效果越接近，在这三项指标下，本发明方法在长文本新闻类别标注上，相比于其他算法是最好的。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：王红梅;郭放;张丽杰;党源源;
专利申请人：长春工业大学;

上一篇：全金属耐高温摆线式井下马达
下一篇：一种铝合金中厚板筒段长直纵缝无弱结合搅拌摩擦焊方法