导航：首页> 电通信技术>标签词库构建方法、装置和文本分类方法、装置，以及电子设备和存储介质

标签词库构建方法、装置和文本分类方法、装置，以及电子设备和存储介质

文献发布时间：2023-06-19 19:30:30

技术领域

本申请涉及计算机技术领域，具体而言，涉及一种标签词库构建方法、装置和文本分类方法、装置，以及电子设备和存储介质。

背景技术

随着NLP(自然语言处理)技术的发展，文本分类任务经历了基于规则进行划分、基于机器学习模型进行分类和基于深度学习模型进行分类的阶段。基于规则进行划分，分类方法的适用性十分有限，泛化能力堪忧；基于机器学习模型进行分类，模型的准确率很难达到当今工业需求的水平；由于硬件水平和业务需求的提高，目前工业界主要采用深度学习模型进行文本分类，主流的文本分类思路均为FastText、Bert、LSTM等及其各种变种一步完成，模型的数据获取、标注和训练的成本都较高，模型可解释性差。

发明内容

本申请实施例的目的在于提供一种标签词库构建方法、装置和文本分类方法、装置，以及电子设备和存储介质，用于解决词库创建成本高、难度高、质量难保障这一技术问题，以及，用于对文本进行分类。

第一方面，本发明提供一种标签词库构建方法，所述方法包括：

基于标注数据和mT5模型生成标签提取模型，其中，所述标注数据包括第一正类文本的标签和负类文本的标签；

基于所述标签提取模型，提取第二正类文本的标签，得到第一标签和第一标签的词向量；

统计所述第一标签的词频，并基于所述第一标签的词向量和所述第一标签的词频，构建标签词库。

在本申请实施例中，标签提取模型基于标注数据和mT5模型生成，其中，mT5模型只需要采用几千条数据进行微调，就能够达到工业应用水平进而降低了数据标注成本。另一方面，mT5模型，相较于其它大规模模型数周的训练时间，mT5训练半周即可落地，因此具有模型训练成本低的优点。再一方面，基于mT5模型能够得到标签提取模型，从而能够利用标签提取模型构成词库，这与人工标注相比，模型拥有更稳定的判断能力和更强的概括能力，且能够节约人工标注和维护的成本。

第二方面，本发明提供一种文本分类方法，所述方法包括：

基于本申请第一方面中的标签提取模型提取待分类文本的标签并得到第二标签和所述第二标签的词向量；

计算所述第二标签的词向量与标签词库中的每个词向量的匹配相似度，其中，所述标签词库基于前述实施方式所述的方法构建；

基于所述第二标签的词向量与所述标签词库中的每个词向量的匹配相似度和所有匹配标签的词频，计算加权决策分数；

基于所述加权决策分数和预设决策阈值，确定所述待分类文本的文本类别。

在本申请第二方面中，由于标签提取模型基于mT5模型得到，而mT5模型在预训练阶段使用了多语言文本，因此相比现有技术，本申请能够对101种语言的待分类文本进行分类，其中，由于本申请的决策主要依据标签提取结果，而非待分类文本本身，因此对不同长度的文本都能有很好的分类效果。

在可选的实施方式中，所述计算所述第二标签的词向量与标签词库中的每个词向量的匹配相似度，包括：

基于余弦相似度的计算式，计算所述第二标签的词向量与所述标签词库中的每个词向量的匹配相似度。

上述可选的实施方式能够基于余弦相似度的计算式，计算所述第二标签的词向量与所述标签词库中的每个词向量的匹配相似度。

在可选的实施方式中，所述余弦相似度的计算式为：

其中，Sim(X，Y)表示所述第二标签的词向量与所述标签词库中的词向量的匹配相似度，

上述可选的实施方式能够通过余弦相似度的计算式精确计算第二标签的词向量与所述标签词库中的词向量的匹配相似度。

在可选的实施方式中，所述基于所述第二标签的词向量与所述标签词库中的每个词向量的匹配相似度和所有匹配标签的词频，计算加权决策分数对应的计算式为：

其中，C表示所述加权决策分数，S

上述可选的实施方式通过基于所述第二标签的词向量与所述标签词库中的每个词向量的匹配相似度和所有匹配标签的词频，计算加权决策分数对应的计算式，能够计算加权决策分数。

在可选的实施方式中，所述基于所述加权决策分数和预设决策阈值，确定所述待分类文本的文本类别，包括：

当所述加权决策分数大于等于所述预设决策阈值时，则确定所述待分类文本的文本类别为正类；

当所述加权决策分数小于所述预设决策阈值时，则确定所述待分类文本的文本类别为负类。

上述可选的实施方式通过将加权决策分数与预设决策阈值进行比较，进而能够在加权决策分数大于等于所述预设决策阈值时，则确定所述待分类文本的文本类别为正类，而在加权决策分数小于所述预设决策阈值时，确定所述待分类文本的文本类别为负类。

第三方面，本发明提供一种标签词库构建装置，所述装置包括：

生成模块，用于基于标注数据和mT5模型生成标签提取模型，其中，所述标注数据包括第一正类文本的标签和负类文本的标签；

第一提取模块，用于基于所述标签提取模型，提取第二正类文本的标签，得到第一标签和第一标签的词向量；

构建模块，用于统计所述第一标签的词频，并基于所述第一标签的词向量和所述第一标签的词频，构建标签词库。

在本申请实施例中，由于标签提取模型基于标注数据和mT5模型生成，其中，mT5模型只需要采用几千条数据进行微调，就能够达到工业应用水平进而降低了数据标注成本。另一方面，mT5模型，相较于其它大规模模型数周的训练时间，mT5训练半周即可落地，因此具有模型训练成本低的优点。再一方面，基于mT5模型能够得到标签提取模型，从而能够利用标签提取模型构成词库，这与人工标注相比，模型拥有更稳定的判断能力和更强的概括能力，且能够节约人工标注和维护的成本。

第四方面，本发明提供一种文本分类装置，所述装置包括：

第二提取模块，用于基于如前述实施方式所述方法中的标签提取模型提取待分类文本的标签并得到第二标签和所述第二标签的词向量；

计算模块，用于计算所述第二标签的词向量与标签词库中的每个词向量的匹配相似度，其中，所述标签词库基于前述实施方式所述的方法构建；

匹配模块，用于基于所述第二标签的词向量与所述标签词库中的每个词向量的匹配相似度和所有匹配标签的词频，计算加权决策分数；

确定模块，用于基于所述加权决策分数和预设决策阈值，确定所述待分类文本的文本类别。

在本申请中，由于标签提取模型基于mT5模型得到，而mT5模型在预训练阶段使用了多语言文本，因此相比现有技术，本申请能够对101种语言的待分类文本进行分类，其中，由于本申请的决策主要依据标签提取结果，而非待分类文本本身，因此对不同长度的文本都能有很好的分类效果。

第五方面，本发明提供一种电子设备，包括：

处理器；以及

存储器，配置用于存储机器可读指令，所述指令在由所述处理器执行时，执行如前述实施方式所述的标签词库构建方法和如前述实施方式任一项所述的文本分类方法。

本申请的电子设备通过执行标签词库构建方法和文本分类方法能够对文本进行分类，并且能够解决词库创建成本高、难度高、质量难保障这一技术问题。

第六方面，本发明提供一种存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行如前述实施方式所述的标签词库构建方法和如前述实施方式任一项所述的文本分类方法。

本申请的存储介质通过执行标签词库构建方法和文本分类方法能够对文本进行分类，并且能够解决词库创建成本高、难度高、质量难保障这一技术问题。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1是本申请实施例公开的一种标签词库构建方法的流程示意图；

图2是本申请实施例公开的一种文本分类方法的流程示意图；

图3是本申请实施例公开的一种标签词库构建装置的结构示意图；

图4是本申请实施例公开的一种文本分类装置的结构示意图；

图5是本申请实施例公开的一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

实施例一

请参阅图1，图1是本申请实施例公开的一种标签词库构建方法的流程示意图，如图1所示，本申请实施例的方法包括以下步骤：

101、基于标注数据和mT5模型生成标签提取模型，其中，标注数据包括第一正类文本的标签和负类文本的标签；

102、基于标签提取模型，提取第二正类文本的标签，得到第一标签和第一标签的词向量；

103、统计第一标签的词频，并基于第一标签的词向量和第一标签的词频，构建标签词库。

在本申请实施例中，针对步骤101，第一正类文本为目标领域的文本，例如，第一正类文本可以是时讯新闻领域的文本。需要说明的是，目标领域还可以是体育新闻等其他领域。

在本申请实施例中，当调整第一正类文本的领域时，只需适量补充对应领域的正类文本内容，余下内容可以直接用来作为负类文本。

在本申请实施例中，针对步骤101，负类文本是指与非目标领域的文本，例如，当目标领域为时讯新闻领域，则负类文本为体育新闻等其他领域的文本。

在本申请实施例中，针对步骤101，标注数据包括了基于多个第一正类文本生成的标签，和基于多个负类文本生成的标签，例如，基于20个第一正类文本生成60个标签、基于30个负类文本生成的90个标签。

在本申请实施例中，针对步骤101，多个第一正类文本的长度也可相同，多个负类文本的长度也可不相同。

在本申请实施例中，针对步骤101，第一正类文本的标签和负类文本的标签均可以有人工标注，其中，每篇文本的标签个数为3-5个。

在本申请实施例中，mT5模型是Transformers提供的预训练模型，其中，Transformers是一个开源的自然语言处理库。需要说明的是，关于Transformers请参阅现有技术，本申请实施例对此不作赘述。

在本申请实施例中，针对步骤101，基于标注数据和mT5模型生成标签提取模型的一种具体方式为：

使用标注数据对mT5模型进行微调，以得到标签提取模型。

在本申请实施例中，使用标注数据对mT5模型进行微调是指调整mT5模型中的少量参数。

在本申请实施例中，基于第一标签的词向量和第一标签的词频，构建标签词库的一种具体方式为：

将第一标签、第一标签的词向量和第一标签的词频作为库数据，构建标签词库，其中，第一标签可具有唯一标识，而第一标签的词向量和第一标签的词频与唯一标识绑定。

在本申请实施例中，本申请实施例的方法还可以包括以下步骤；

筛除标签词库中的提取效果不佳、与目标领域关联不大的标签，进而提高标签词库的质量。

实施例二

请参阅图2，图2是本申请实施例公开的一种文本分类方法的流程示意图，如图2所示，本申请实施例的方法包括以下步骤：

201、基于标签提取模型提取待分类文本的标签并得到第二标签和第二标签的词向量，其中，标签提取模型为标签词库构建方法中的标签提取模型；

202、计算第二标签的词向量与标签词库中的每个词向量的匹配相似度，其中，标签词库基于前述实施方式的标签词库构成方法构建；

203、基于第二标签的词向量与标签词库中的每个词向量的匹配相似度和所有匹配标签的词频，计算加权决策分数；

204、基于加权决策分数和预设决策阈值，确定待分类文本的文本类别。

在本申请实施例中，由于标签提取模型基于mT5模型得到，而mT5模型在预训练阶段使用了多语言文本，因此相比现有技术，本申请能够对101种语言的待分类文本进行分类，其中，由于本申请的决策主要依据标签提取结果，而非待分类文本本身，因此对不同长度的文本都能有很好的分类效果。

在本申请实施例中，作为一种示例，本申请实施例的文本分类方法能够应用在爬取安全事件文章这一场景中，具体为：确定一系列可能存在安全事件文章内容的源站点列表，接着访问列表中的源站点，爬取对应源站点下的少部分子网页内容，并使用本申请实施例的文本分类方法对少部分子网页内容的类别进行判断，其中，若分类结果大多数为正类，表明当前源站点中存在大量有用信息，则保留当前源站点；若分类结果中几乎没有正类，表明当前源站点并非目标源站点，剔除该源站点。

在可选的实施方式中，步骤202：计算第二标签的词向量与标签词库中的每个词向量的匹配相似度，包括以下子步骤：

基于余弦相似度的计算式，计算第二标签的词向量与标签词库中的每个词向量的匹配相似度。

上述可选的实施方式能够基于余弦相似度的计算式，计算第二标签的词向量与标签词库中的每个词向量的匹配相似度。

在可选的实施方式中，余弦相似度的计算式为：

其中，Sim(X，Y)表示第二标签的词向量与标签词库中的词向量的匹配相似度，

上述可选的实施方式能够通过余弦相似度的计算式精确计算第二标签的词向量与标签词库中的词向量的匹配相似度。

在上述可选的实施方式中，第二标签的词向量与标签词库中的词向量的余弦值大小反应两个向量的相似程度，取值范围为[-1,1]，值越大，向量的夹角越小，相似度越高。

在可选的实施方式中，基于第二标签的词向量与标签词库中的每个词向量的匹配相似度和所有匹配标签的词频，计算加权决策分数对应的计算式为：

其中，C表示加权决策分数，S

上述可选的实施方式通过基于第二标签的词向量与标签词库中的每个词向量的匹配相似度和所有匹配标签的词频，计算加权决策分数对应的计算式，能够计算加权决策分数。

在可选的实施方式中，基于加权决策分数和预设决策阈值，确定待分类文本的文本类别，包括：

当加权决策分数大于等于预设决策阈值时，则确定待分类文本的文本类别为正类；

当加权决策分数小于预设决策阈值时，则确定待分类文本的文本类别为负类。

上述可选的实施方式通过将加权决策分数与预设决策阈值进行比较，进而能够在加权决策分数大于等于预设决策阈值时，则确定待分类文本的文本类别为正类，而在加权决策分数小于预设决策阈值时，确定待分类文本的文本类别为负类。

在本申请实施例中，预设决策阈值可调整，进而能够更好地适应实际业务。

实施例三

请参阅图3，图3是本申请实施例公开的一种标签词库构建装置的结构示意图，如图2所示，本申请实施例的装置包括以下功能模块：

生成模块301，用于基于标注数据和mT5模型生成标签提取模型，其中，标注数据包括第一正类文本的标签和负类文本的标签；

第一提取模块302，用于基于标签提取模型，提取第二正类文本的标签，得到第一标签和第一标签的词向量；

构建模块303，用于统计第一标签的词频，并基于第一标签的词向量和第一标签的词频，构建标签词库。

实施例四

请参阅图4，图4是本申请实施例公开的一种文本分类装置的结构示意图，如图4示，本申请实施例的装置包括以下功能模块：

第二提取模块401，用于基于如前述实施方式方法中的标签提取模型提取待分类文本的标签并得到第二标签和第二标签的词向量；

计算模块402，用于计算第二标签的词向量与标签词库中的每个词向量的匹配相似度，其中，标签词库基于前述实施方式的标签词库构成方法构建；

匹配模块403，用于基于第二标签的词向量与标签词库中的每个词向量的匹配相似度和所有匹配标签的词频，计算加权决策分数；

确定模块404，用于基于加权决策分数和预设决策阈值，确定待分类文本的文本类别。

实施例五

请参阅图5，图5是本申请实施例公开的一种电子设备的结构示意图，如图5所示，本申请实施例的电子设备包括：

处理器501；以及，

存储器502，配置用于存储机器可读指令，指令在由处理器501执行时，执行如前述实施方式的标签词库构建方法和如前述实施方式任一项的文本分类方法。

本申请实施例的电子设备通过执行标签词库构建方法和文本分类方法能够对文本进行分类，并且能够解决词库创建成本高、难度高、质量难保障这一技术问题。

实施例六

本申请实施例提供一种存储介质，存储介质存储有计算机程序，计算机程序被处理器执行如前述实施方式的标签词库构建方法和如前述实施方式任一项的文本分类方法。

本申请实施例的存储介质通过执行标签词库构建方法和文本分类方法能够对文本进行分类，并且能够解决词库创建成本高、难度高、质量难保障这一技术问题。

在本申请所提供的实施例中，应该理解到，所揭露装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

再者，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

需要说明的是，功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用于使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

以上仅为本申请的实施例而已，并不用于限制本申请的保护范围，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：王蕴韬;张新;潘季明;
专利申请人：北京天融信网络安全技术有限公司;北京天融信科技有限公司;北京天融信软件有限公司;

上一篇：一种基于索引调制的GFDM系统干扰消除方法
下一篇：一种图像处理方法、装置及电子设备