掌桥专利:专业的专利平台
掌桥专利
首页

一种基于预训练的长文本新闻自动标注方法

文献发布时间:2023-06-19 12:07:15



技术领域

本发明是属于自然语言处理领域,是基于预训练对长文本新闻进行自动标注的方法。

背景技术

随着互联网、机器学习、大数据等技术的飞速发展,各种信息数据以指数级的速度在持续增长,目前人工智能所依托的机器学习和深度学习算法多数是数据依赖的,需要大量的数据采用监督或半监督的方式训练算法,进行定制化部署。由于我国大数据体量庞大,尤其是新闻文本没有固定的格式,且种类多样,更新速度快,给数据标注任务提出了巨大的挑战。

最常见的新闻类别标注是通过人工方式对全量数据进行标注,该方式的人工成本很高,数据质量难以保证,不可避免地存在标注人员主观疲劳,数据审核环节质量难以把控等问题。在机器学习方面,KNN算法,朴素贝叶斯算法,决策树算法等,这些算法在文本分类上取得了不错的分类效果,但面对长文本,还是有些力不从心,而基于长文本的经典算法有TextCNN、FastText、TextRNN等,这些算法针对文本分类的高维数据、文本语序和减少时间等方面进行优化,但因为中文语法和字的差异,相对于英文,中文的文本分类需要进行大量的处理和分析工作,在中文长文本标注的效果上,效果并不是特别理想。

发明内容

针对传统人工和传统算法在长文本数据标注中存在的不足,本发明的目的是提供一种更加快速准确的长文本新闻标注方法。

本发明提供一种基于迁移学习的长文本新闻标注方法,所述方法步骤如下:

步骤S1:数据预处理

将爬取的新闻进行数据清洗,去除特殊字符,并将短于200长度的新闻过滤掉;

步骤S2:数据集划分

将每类新闻数量保持稳定,按照训练集80%,验证集10%,测试集10%的比例来划分;

步骤S3:加载模型

将预训练模型加载,设置模型参数;

步骤S4:训练模型

将训练集和验证集进行训练,并在每100轮显示当前loss,accuracy等信息;

步骤S5: 文本标注

将待标注新闻输入模型进行标注。

附图说明

图1为本发明的流程图;

图2为本发明与其他算法的互信息(AMI),兰德指数(MI),完整性的对比图。

具体实施方式

以下实施例用于说明本发明,但不用来限制本发明的范围。现通过附图和实施例对本发明作进一步的详细描述。

本发明实施例的前提是数据集是作者收集到的新闻长文本数据集。

图1为本发明实施例提供基于预训练的长文本分类模型流程示意图。如图1所示,本实施例主要包含以下步骤:

步骤S1:数据预处理

将爬取的新闻进行数据清洗,去除特殊字符,并将短于200长度的新闻过滤掉。最终将处理好的数据保存成类别+内容的格式;

步骤S2:数据集划分

将每类新闻处理成10000条的大小,按照训练集80%,验证集10%,测试集10%的比例来划分;

步骤S3:加载模型

将bert预训练模型加载,并设置参数,epoch为4,minipatch为32,学习率为0.0005,drropout为0.1;

步骤S4:训练模型

将训练集和测试集的数据构建词向量,并进行mask,将生成的词向量传入bert模型,将得到的向量增加维度,进行卷积和池化操作,在进行dropout随机掩盖,最后通过全连接层降维,得到最终的表示。在每100轮的时候。计算当前loss,acc等信息,进行反向传播;

步骤S5:文本标注

用无标签的长新闻文本,放进模型中,得到预测的类别,并进行文本类别标注。然后用kmeans聚类,将聚类标签与预测标签进行对比,得到MI,AMI,完整性等指标,判断标注效果。

例1 本发明通过自己收集的长文本新闻进行测试

该数据集是由来自90000条新闻长文本所构成的一个数据集,是用于中文新闻分类的数据集,包括财经、房产、教育、科技、军事、汽车、体育、游戏、娱乐9类数据。

本发明选取Bert_CNN模型作为文本表示模型的基本模型,使用3个指标来评价其性能,分别是完整性(completeness) 兰德指数MI(MRand index),互信息AMI(MutualInformation based scores),同时与3个现有的方式进行了对比,分别是bertRCNN,bertRNN,bert.现有的3个方法都运行在各自最优的参数下。本发明方法的相关参数设置如下:epoch数为5,mini-batch大小为128,学习率为0.00005,dropout为0.1,我们分别选用测试集和验证集为10%和10%。

表1实验对比:

表1和图2为本发明在数据集上与其他三个算法的比较的各项指数,完整性,MI,AMI为无监督学习在算法是否精确的一个指标,取值区间为[-1,1],数值越接近1,表明聚类效果与本发明的标注效果越接近,在这三项指标下,本发明方法在长文本新闻类别标注上,相比于其他算法是最好的。

相关技术
  • 一种基于预训练的长文本新闻自动标注方法
  • 一种基于预训练语言模型的长文本聚类方法及装置
技术分类

06120113177237