掌桥专利:专业的专利平台
掌桥专利
首页

一种目标导向的短文本分类方法

文献发布时间:2023-06-19 11:35:49


一种目标导向的短文本分类方法

技术领域

本发明涉及短文本分类技术领域,具体为一种目标导向的短文本分类方法。

背景技术

文本分类是NLP领域中的一项技术,其目标是将文本划分到预先定义的类别中,在很多方面都有应用,目前效果好的主要是基于深度学习的文本分类。

名实体识别技术也是NLP领域中的一项技术,目标是从文本中识别特定类别的名称,例如识别出文章中的人名。目前一般用LSTM+CRF做名实体识别。

Copynet是一个文本生成模型,也有一个自动的目标引导机制。

用户画像是现在互联网营销的基础,在对用户画像时,有很多信息是非结构化的文本信息,例如论坛、评价,这类信息常常比较短小,单条所含信息量较少,但是由于整体数据量大,有较大挖掘价值。

由于文本短,而且由于信息的来源问题,很多信息没用,所以真正有价值的信息少,而且有些关键的信息主要是数字表示的,这就导致普通的TextCNN等文本分类效果不好。

例如想判断发言人是否富有:

“今年他的年收入达到了3万”

“今年他的年收入达到了30万”

如果用名实体识别技术,可以把数字抽出来,但是表示人富有的内容太多了,例如:

“又要保养了,奔驰4s太贵,哪做的好还便宜?”

这句没有具体金额可抽取,但是看的人都会知道作者可能比较富有,这就需要一个知识库来支撑名实体识别的后续工作。

发明内容

一种目标导向的短文本分类方法,包括如下步骤:

1、根据需要,对文本标注分类;

2、根据需要,对文本分类标注名实体的位置和属性;

3、搭建深度学习模型网络,其中,文本对应着数据输入,分类结果对应着步骤1中的分类结果,名实体识别对应着步骤2中的属性;

4、设置训练时用的损失函数,这个损失函数是CRF损失函数和文本分类损失函数的加权和,通过试验调整这两个损失函数的权重,以使文本分类效果最优。

本专利所述的一种目标导向的短文本分类方法,普通的文本分类通过TextCNN就直接输出结果了,本专利在训练时除了要准备文本分类的数据集,还需要对这个数据集标注名实体识别的结果。在训练时,TextCNN的中间结果会传给一个CRF层,CRF层会学习名实体识别的标注数据,CRF的中间结果会同TextCNN的中间结果一起传输到Merge层,Merge会将前面两个结果合并,并通过2层全连接层做参数学习,然后输出分类结果。在训练过程中会设置网络的损失函数,这个函数是CRF损失函数和文本分类损失函数的加权和,权重根据试验结果调整。

本专利的优点在于,可在文本短并且有效样本少的情况下,实现一种可以比较精确的提取到有用信息的文本分类方法。

附图说明

图1为本专利的工作流程示意图

图2为本专利的将文本标注分为两类的示意图

图3为本专利的对文本分类标注名实体的位置和属性的示意图

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

如图1所示,一种目标导向的短文本分类方法,包括如下步骤:

1、根据需要,对文本标注分类;例如想判断用户是否富有,就可以分为两类(见图2);

2、根据需要,对文本分类标注名实体的位置和属性;例如:I(无效)、 N(数字)、K(关键词)(见图3);

3、搭建深度学习模型网络,其中,文本对应着数据输入,分类结果对应着步骤1中的分类结果,名实体识别对应着步骤2中的属性;

4、设置训练时用的损失函数,这个损失函数是CRF损失函数和文本分类损失函数的加权和,通过试验调整这两个损失函数的权重,以使文本分类效果最优。

本专利所述的一种目标导向的短文本分类方法,普通的文本分类通过TextCNN就直接输出结果了,本专利在训练时除了要准备文本分类的数据集,还需要对这个数据集标注名实体识别的结果。在训练时,TextCNN的中间结果会传给一个CRF层,CRF层会学习名实体识别的标注数据,CRF的中间结果会同TextCNN的中间结果一起传输到Merge层,Merge会将前面两个结果合并,并通过2层全连接层做参数学习,然后输出分类结果。在训练过程中会设置网络的损失函数,这个函数是CRF损失函数和文本分类损失函数的加权和,权重根据试验结果调整。

对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上;术语“上”、“下”、“左”、“右”、“内”、“外”、“前端”、“后端”、“头部”、“尾部”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”等仅用于描述目的,而不能理解为指示或暗示相对重要性。

在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。

相关技术
  • 一种目标导向的短文本分类方法
  • 一种基于短文本扩展和概念漂移检测的短文本数据流分类方法
技术分类

06120112985527