掌桥专利:专业的专利平台
掌桥专利
首页

基于语义的文本分类方法、装置、计算机设备及存储介质

文献发布时间:2024-04-18 20:02:40


基于语义的文本分类方法、装置、计算机设备及存储介质

技术领域

本申请涉及人工智能及金融科技技术领域,尤其涉及一种基于语义的文本分类方法、装置、计算机设备及存储介质。

背景技术

伴随着大数据时代的发展,产生积累了海量的文本数据,文本数据涉及到的类别各式各样,如何从海量的、非结构化的海量文本数据中提取出有用的信息已经成为一种越来越迫切的需求。通用领域当中,通过对这些文本数据进行文本分类,对大数据处理工作有很大的正向作用。

文本分类属于文本挖掘应用中的一个重要组成部分,包括问题分类、情感分析和主题分类等。目前的文本分类方法中,使用通用领域BERT、RoBERTa进行文本表示,忽略了外部知识对文本语义的影响。同时,在文本特征提取阶段,通常仅连接一个全连接层或者使用CNN(卷积神经网络)、RNN(循环神经网络)等进行文本分类,但这些方法不能精准识别出高度重合对象的特征,降低了特征理解能力,对多标签文本不友好,难以获得较高的文本分类准确率。

发明内容

本申请实施例的目的在于提出一种基于语义的文本分类方法、装置、计算机设备及存储介质,以解决现有技术中文本分类方法不能精准识别出高度重合对象的特征,不利于多标签文本分类,难以获得较高的文本分类准确率的技术问题。

为了解决上述技术问题,本申请实施例提供一种基于语义的文本分类方法,采用了如下所述的技术方案:

获取分类文本数据集和对应的知识图谱,将所述分类文本数据集分为训练样本集和测试样本集,所述分类文本数据集包括多条分类文本和每条所述分类文本对应的分类标签;

将所述训练样本集和所述知识图谱输入预构建的知识增强语言模型中,得到知识增强的文本语义特征向量;

将所述文本语义特征向量输入预构建的胶囊网络模型中进行分类计算,输出分类预测结果;

按照预设损失函数计算所述预测分类结果和所述分类标签之间的损失值;

基于所述损失值调整所述知识增强语言模型和所述胶囊网络模型的模型参数,继续迭代训练,直至收敛,得到最终的目标模型参数,根据所述目标模型参数输出待验证模型;

将所述测试样本集输入所述待验证模型,得到验证结果,在所述验证结果符合预设条件时,确定所述待验证模型为文本语义分类模型;

获取待分类文本,将所述待分类文本输入所述文本语义分类模型中,得到文本分类结果。

进一步的,所述知识增强语言模型包括知识层、嵌入层、可见层和编码层;所述将所述训练样本集和所述知识图谱输入预构建的知识增强语言模型中,得到知识增强的文本语义特征向量的步骤包括:

通过所述知识层将所述知识图谱中的知识注入到所述训练样本集的文本句子中,形成句子树,并将所述句子树分别输入所述嵌入层和所述可见层;

通过所述嵌入层对所述句子树进行位置嵌入,得到文本位置编码向量;

通过所述可见层构建所述句子树的文本可见矩阵;

将所述文本位置编码向量和所述文本可见矩阵输入所述编码层进行注意力计算,输出文本语义特征向量。

进一步的,所述通过所述知识层将所述知识图谱中的知识注入到所述训练样本集的文本句子中,形成句子树的步骤包括:

调用所述知识层的知识查询函数,识别所述训练样本集中每个文本句子对应的所有实体,并在知识图谱中查询每个所述实体对应的三元组;

调用所述知识层的知识注入函数,将所述三元组嵌入至所述文本句子中对应的位置,得到句子树。

进一步的,所述通过所述嵌入层对所述句子树进行位置嵌入,得到文本位置编码向量的步骤包括:

将所述句子树输入所述嵌入层分别进行段嵌入操作、软位置嵌入操作和词嵌入操作,得到对应的句子编码向量、位置编码向量和词编码向量;

将所述句子编码向量、所述位置编码向量和所述词编码向量进行求和,得到文本位置编码向量。

进一步的,所述将所述文本位置编码向量和所述文本可见矩阵输入所述编码层进行注意力计算,输出文本语义特征向量的步骤包括:

确定所述编码层的查询向量参数矩阵、键向量参数矩阵和值向量参数矩阵;

根据所述查询向量参数矩阵、所述键向量参数矩阵和所述值向量参数矩阵、所述文本位置编码向量和所述文本可见矩阵,计算自注意力;

基于所述自注意力进行多头注意力计算,得到文本语义特征向量。

进一步的,所述胶囊网络模型包括卷积层、胶囊层和分类层;所述将所述文本语义特征向量输入预构建的胶囊网络模型中进行分类计算,输出分类预测结果的步骤包括:

将所述文本语义特征向量输入所述卷积层进行卷积特征提取,得到卷积特征向量;

通过所述胶囊层对卷积特征向量进行文本聚合,获得包含上下文语义的全局语义向量;

将所述全局语义向量输入所述分类层进行分类预测,输出分类预测结果。

进一步的,所述胶囊层包括主胶囊层和数字胶囊层;所述通过所述胶囊层对卷积特征向量进行文本聚合,获得包含上下文语义的全局语义向量的步骤包括:

将所述卷积特征向量输入所述主胶囊层进行一维卷积操作,得到向量胶囊;

将所述向量胶囊输入所述数字胶囊层,通过动态路由算法对所述向量胶囊进行映射操作,得到全局语义向量。

为了解决上述技术问题,本申请实施例还提供一种基于语义的文本分类装置,采用了如下所述的技术方案:

获取模块,用于获取分类文本数据集和对应的知识图谱,将所述分类文本数据集分为训练样本集和测试样本集,所述分类文本数据集包括多条分类文本和每条所述分类文本对应的分类标签;

文本增强模块,用于将所述训练样本集和所述知识图谱输入预构建的知识增强语言模型中,得到知识增强的文本语义特征向量;

分类预测模块,用于将所述文本语义特征向量输入预构建的胶囊网络模型中进行分类计算,输出分类预测结果;

损失计算模块,用于按照预设损失函数计算所述预测分类结果和所述分类标签之间的损失值;

调整模块,用于基于所述损失值调整所述知识增强语言模型和所述胶囊网络模型的模型参数,继续迭代训练,直至收敛,得到最终的目标模型参数,根据所述目标模型参数输出待验证模型;

验证模块,用于将所述测试样本集输入所述待验证模型,得到验证结果,在所述验证结果符合预设条件时,确定所述待验证模型为文本语义分类模型;

分类模块,用于获取待分类文本,将所述待分类文本输入所述文本语义分类模型中,得到文本分类结果。

为了解决上述技术问题,本申请实施例还提供一种计算机设备,采用了如下所述的技术方案:

该计算机设备包括存储器和处理器,所述存储器中存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现如上所述的基于语义的文本分类方法的步骤。

为了解决上述技术问题,本申请实施例还提供一种计算机可读存储介质,采用了如下所述的技术方案:

所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如上所述的基于语义的文本分类方法的步骤。

与现有技术相比,本申请实施例主要有以下有益效果:

本申请通过将知识图谱引入知识增强语言模型,通过知识图谱结合训练样本集对知识增强语言模型进行特征提取,能够获得包含丰富知识信息的文本语义特征向量,强化了文本的特征表达;将知识增强的文本语义特征向量输入胶囊网络模型中进行分类计算,能够进一步获取词与词之间的语义信息关系,提升了文本重要特征提取能力,能够有效识别多标签文本,进而提高文本分类的效率和准确率。

附图说明

为了更清楚地说明本申请中的方案,下面将对本申请实施例描述中所需要使用的附图作一个简单介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本申请可以应用于其中的示例性系统架构图;

图2是根据本申请的基于语义的文本分类方法的一个实施例的流程图;

图3是图2中步骤S202的一种具体实施方式的流程图;

图4是根据本申请的基于语义的文本分类装置的一个实施例的结构示意图;

图5是根据本申请的计算机设备的一个实施例的结构示意图。

具体实施方式

除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。

在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。

为了使本技术领域的人员更好地理解本申请方案,下面将结合附图,对本申请实施例中的技术方案进行清楚、完整地描述。

本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

本申请提供了一种基于语义的文本分类方法,可以应用于如图1所示的系统架构100中,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture ExpertsGroup Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving PictureExperts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上显示的页面提供支持的后台服务器。

需要说明的是,本申请实施例所提供的基于语义的文本分类方法一般由服务器/终端设备执行,相应地,基于语义的文本分类装置一般设置于服务器/终端设备中。

应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。

继续参考图2,示出了根据本申请的基于语义的文本分类方法的一个实施例的流程图,包括以下步骤:

步骤S201,获取分类文本数据集和对应的知识图谱,将分类文本数据集分为训练样本集和测试样本集,分类文本数据集包括多条分类文本和每条所述分类文本对应的分类标签。

分类文本数据集可以根据业务场景进行获取,业务场景可以包括保险主题分类、客户诉求分类、保险场景分类等保险业务场景,也可以包括电商平台、社交平台等评论文本的情感分析等。示例的,若是保险主题分类,则获取保险主题文本数据集;若是客户诉求分类,则获取客户诉求文本数据集;若是保险场景分类,则获取保险场景文本数据集;若是情感分析,则从相关电商平台或社交平台获取相应的包含正负面情绪的评论文本数据。

知识图谱(Knowledge Graph)是一种知识库,其中的数据通过图结构的数据模型或拓扑整合而成。通常是表示实体和关系的语义关系图,存储形式为<头实体,关系,尾实体>三元组,头尾实体表示一个在真实世界存在的具体事物,关系表达实体之间的某种语义关联,例如,三元组<中国,首都,北京>中,中国为头实体,首都为关系词,北京为尾实体。

不同业务场景对应有不同的知识图谱,在本实施例中,可以根据分类文本数据集所在的业务场景选择对应的知识图谱。

在一些实施例中,获取到分类文本数据集后,对分类文本数据集进行预处理,预处理包括去重、处理缺失值、处理异常值以及纠正错误值等。将预处理后的分类文本数据集按照预设比例随机划分为训练样本集和测试样本集,例如,训练样本集:测试样本集=8:2。

应当理解,分类文本数据集中包括多条分类文本和对应的分类标签,分类标签为分类文本的真实类别。

需要强调的是,为进一步保证分类文本数据集的私密和安全性,上述分类文本数据集还可以存储于一区块链的节点中。

本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

步骤S202,将训练样本集和知识图谱输入预构建的知识增强语言模型中,得到知识增强的文本语义特征向量。

其中,知识增强语言模型为K-BERT模型,K-BERT模型是在原有BERT模型的基础上引入了知识图谱的表示方式,输入的文本经过K-BERT后包含了原来文本没有的领域知识,输出包含丰富领域知识的特征向量。

在本实施例中,预构建的知识增强语言模型包括知识层、嵌入层、可见层和编码层。

在本实施例的一些可选的实现方式中,上述将训练样本集和知识图谱输入预构建的知识增强语言模型中,得到知识增强的文本语义特征向量的步骤包括:

步骤S301,通过知识层将知识图谱中的知识注入到训练样本集的文本句子中,形成句子树,并将句子树分别输入嵌入层和可见层。

知识层负责将知识图谱中的知识注入到文本句子中,形成句子树。示例的,对于每一个输入的句子s={w

在本实施例中,形成句子树分为两个步骤:知识查询(K-Query)和知识注入(K-Inject)。

进一步的,调用知识层的知识查询函数,识别训练样本集中每个文本句子对应的所有实体,并在知识图谱中查询每个实体对应的三元组;调用知识层的知识注入函数,将三元组嵌入至文本句子中对应的位置,得到句子树。

K-Query负责从知识图谱中查询每个文本句子中每个实体对应的关系和值,即三元组,具体查询过程如下:

E=K_Query(s,K);

其中,函数K_Query表示文本句子s对知识图谱K进行查询,获得三元组集合E={(w

K-Inject负责将三元组集合E嵌入至文本句子s中对应的位置,形成句子树,每个三元组都构成一个分支,则知识层输出的矩阵句子树为:t={w

步骤S302,通过嵌入层对句子树进行位置嵌入,得到文本位置编码向量。

句子树不能直接作为序列输入,通过嵌入层将句子树转换为文本序列。

嵌入层包括token embedding(词嵌入)层、soft-position embedding(软位置嵌入)层和segment embedding(段嵌入)层。其中,token embedding层是将句子中的每个token映射成为一个维度为H的向量表示,每个句子的开头有一个[CLS]这个特殊token,主要是为了句子分类的作用;soft-position embedding层使用软位置将嵌入的值和关系进行编码,与实体的位置编码区分开来;segment embedding层用于区分两个句子片段。

具体的,将句子树输入嵌入层分别进行段嵌入操作、软位置嵌入操作和词嵌入操作,得到对应的句子编码向量、位置编码向量和词编码向量;将句子编码向量、位置编码向量和词编码向量进行求和,得到文本位置编码向量。

通过token embedding层对句子树中每个词进行词嵌入操作,得到句子编码向量;通过soft-position embedding层对句子树中的每个词进行软位置嵌入操作,得到位置编码向量,位置编码向量保留了句子的主干位置信息;通过segment embedding层对对句子树中的每个词进行词嵌入操作,得到词编码向量,将句子编码向量、位置编码向量和词编码向量进行求和,得到文本位置编码向量,其中,文本位置编码向量中保留树结构的结构信息,能够强化特征表示,从而更好地获取到文本的语义特征。

步骤S303,通过可见层构建句子树的文本可见矩阵。

由于句子树中的三元组可能影响原始文本句子的含义,因此,为了防止知识噪音对句子的影响,构建了文本可见矩阵(visible matrix)M用以限定每个字只能看到与自己相关的上下文以及知识。

假设两个token为w

步骤S304,将文本位置编码向量和文本可见矩阵输入编码层进行注意力计算,输出文本语义特征向量。

在本实施例中,使用编码层能够限制自注意机制的可见区域,进而捕获文本句子中深层次的双向结构。编码层是多个mask-self-attention(掩码自注意力)层堆叠而成,并在mask-self-attention的基础上增加文本可见矩阵M,对文本位置编码向量进行注意力计算。

进一步的,上述将文本位置编码向量和文本可见矩阵输入编码层进行注意力计算,输出文本语义特征向量的步骤包括:

确定编码层的查询向量参数矩阵、键向量参数矩阵和值向量参数矩阵;

根据查询向量参数矩阵、键向量参数矩阵和值向量参数矩阵、文本位置编码向量和文本可见矩阵,计算自注意力;

基于自注意力进行多头注意力计算,得到文本语义特征向量。

假设mask-self-attention的层数为L,头数量为A,确定每层mask-self-attention的查询向量参数矩阵W

其中,Q

多头注意力计算公式如下:

MultiHead=Concat(head

其中,Concat表示矩阵拼接函数;W

通过文本可见矩阵获得了句子树的结果信息,并根据文本可见矩阵进行注意力计算,实现了在嵌入知识的情况下,不增加噪音的目的,保证输出文本语义特征向量的准确性。

在本实施例中,使用知识增强语言模型增加分类文本的领域知识,丰富了文本语义,避免了多样化词向量编码空间不一致和语句偏离核心语义的问题;同时,由于融合了知识图谱,可用于专业领域的文本分类。

步骤S203,将文本语义特征向量输入预构建的胶囊网络模型中进行分类计算,输出分类预测结果。

预构建的胶囊网络模型包括卷积层、胶囊层和分类层,卷积层采用N-gram卷积层,用于对文本语义特征向量进行特征提取,并把提取到特征封装为空间信息的向量;胶囊层用于提取和编码句子中高级别抽象的语义特征;分类层用于将胶囊层提取的语义特征进行分类。

在本实施例的一些可选的实现方式中,上述将文本语义特征向量输入预构建的胶囊网络模型中进行分类计算,输出分类预测结果的步骤包括:

将文本语义特征向量输入卷积层进行卷积特征提取,得到卷积特征向量;

通过胶囊层对卷积特征向量进行文本聚合,获得包含上下文语义的全局语义向量;

将全局语义向量输入分类层进行分类预测,输出分类预测结果。

N-gram的基本思想是将文本内容滑动到N个字节大小的滑动窗口中,形成N个字节长度的片段序列,每个字节片称为一个gram,对所有gram片段执行词频统计,并根据设置的阈值将词频较低的特征进行过滤操作,最后形成关键字gram列表,即文本的特征向量空间。在本实施例中,通过N-gram提取文本语义特征向量中的特征,得到包含空间信息的卷积特征向量。

胶囊层包括主胶囊层和数字胶囊层,主胶囊层实现标量神经元到向量神经元(胶囊)的转换,并且采用动态路由算法对卷积特征向量进一步编码,实现主胶囊层和数字胶囊层之间的向量传递,从而提高模型识别效率,使模型能够快速平稳的收敛;数字胶囊层中含有多个胶囊,通过每个胶囊活动向量的长度预测其属于某个类别的概率。

在一些可选的实现方式中,上述通过胶囊层对卷积特征向量进行文本聚合,获得包含上下文语义的全局语义向量的步骤包括:

将卷积特征向量输入主胶囊层进行一维卷积操作,得到胶囊向量;

将胶囊向量输入数字胶囊层,通过动态路由算法对向量胶囊进行映射操作,得到全局语义向量。

在胶囊网络模型训练过程中,主胶囊层各向量和数字胶囊层各向量之间是全连接模式。在主胶囊的第i个胶囊向量u

对主胶囊层进行路由迭代,计算动态路由算法的耦合系数:

其中,b

根据耦合系数c

其中,s

采用压缩函数Squash函数保证最终输出向量v

利用预测向量为

根据更新的耦合系数c

胶囊网络模型的损失函数公式如下:

L

其中,k是分类类别数量;T

本实施例通过使用动态路由算法在主胶囊层和数字胶囊层之间进行信息传递时有效减少冗余信息,提升模型的训练效率。

将全局语义向量输入分类层计算出分类文本在各种类别上的概率,得到分类预测结果。

本申请通过采用多层胶囊与动态路由机制结合,可以捕捉句子中各个方面的高级特征并进行有效编码,提高分类的准确性。

步骤S204,按照预设损失函数计算预测分类结果和分类标签之间的损失值。

预设损失函数计算公式如下:

Loss=-[ylogy′+(1-y)log(1-y′)];

其中,y表示真实的分类标签;y’表示预测分类结果。

步骤S205,基于损失值调整知识增强语言模型和胶囊网络模型的模型参数,继续迭代训练,直至收敛,得到最终的目标模型参数,根据目标模型参数输出待验证模型。

根据损失值分别调整知识增强语言模型和胶囊网络模型的模型参数,其中,满足收敛条件可以是损失值没有显著变化,也可以是迭代次数达到预设次数。

收敛时,知识增强语言模型的模型参数和胶囊网络模型的模型参数为目标模型参数,基于目标模型参数得到待验证模型,即待验证模型由知识增强语言模型和胶囊网络模型组成。

由于在胶囊网络模型训练过程中,已经根据胶囊网络模型的损失函数L

步骤S206,将测试样本集输入待验证模型,得到验证结果,在验证结果符合预设条件时,确定待验证模型为文本语义分类模型。

将测试样本集输入待验证模型,得到分类验证结果,根据分类验证结果计算模型的预测精度,将预测精度作为验证结果。

其中,预测精度的计算公式如下:

其中,N是测试样本集样本数量,y

在预测精度大于等于预设阈值时,输出待验证模型模型作为最终的文本语义分类模型;如果预测精度小于预设阈值,则说明模型的预测准确度不高,需要增加样本数量,或者修改模型参数,重新训练,以提高预测精度。

步骤S207,获取待分类文本,将待分类文本输入文本语义分类模型中,得到文本分类结果。

训练完成的文本语义分类模型可以应用于相应的业务场景进行文本分类。获取待分类文本,使用文本语义分类模型进行分类,提高分类效率和准确率,为业务带来新的技术提升。

本申请通过将知识图谱引入知识增强语言模型,通过知识图谱结合训练样本集对知识增强语言模型进行特征提取,能够获得包含丰富知识信息的文本语义特征向量,强化了文本的特征表达;将知识增强的文本语义特征向量输入胶囊网络模型中进行分类计算,能够进一步获取词与词之间的语义信息关系,提升了文本重要特征提取能力,能够有效识别多标签文本,进而提高文本分类的效率和准确率。

本申请可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机可读指令来指令相关的硬件来完成,该计算机可读指令可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。

应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

进一步参考图4,作为对上述图2所示方法的实现,本申请提供了一种基于语义的文本分类装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。

如图4所示,本实施例所述的基于语义的文本分类装置400包括:获取模块401、文本增强模块402、分类预测模块403、损失计算模块404、调整模块405、验证模块406以及分类模块407。其中:

获取模块401用于获取分类文本数据集和对应的知识图谱,将所述分类文本数据集分为训练样本集和测试样本集,所述分类文本数据集包括多条分类文本和每条所述分类文本对应的分类标签;

文本增强模块402用于将所述训练样本集和所述知识图谱输入预构建的知识增强语言模型中,得到知识增强的文本语义特征向量;

分类预测模块403用于将所述文本语义特征向量输入预构建的胶囊网络模型中进行分类计算,输出分类预测结果;

损失计算模块404用于按照预设损失函数计算所述预测分类结果和所述分类标签之间的损失值;

调整模块405用于基于所述损失值调整所述知识增强语言模型和所述胶囊网络模型的模型参数,继续迭代训练,直至收敛,得到最终的目标模型参数,根据所述目标模型参数输出待验证模型;

验证模块406用于将所述测试样本集输入所述待验证模型,得到验证结果,在所述验证结果符合预设条件时,确定所述待验证模型为文本语义分类模型;

分类模块407用于获取待分类文本,将所述待分类文本输入所述文本语义分类模型中,得到文本分类结果。

需要强调的是,为进一步保证分类文本数据集的私密和安全性,上述分类文本数据集还可以存储于一区块链的节点中。

基于上述基于语义的文本分类装置400,通过将知识图谱引入知识增强语言模型,通过知识图谱结合训练样本集对知识增强语言模型进行特征提取,能够获得包含丰富知识信息的文本语义特征向量,强化了文本的特征表达;将知识增强的文本语义特征向量输入胶囊网络模型中进行分类计算,能够进一步获取词与词之间的语义信息关系,提升了文本重要特征提取能力,能够有效识别多标签文本,进而提高文本分类的效率和准确率。

在一些可选的实现方式中,所述知识增强语言模型包括知识层、嵌入层、可见层和编码层,文本增强模块402包括:

知识注入子模块,用于通过所述知识层将所述知识图谱中的知识注入到所述训练样本集的文本句子中,形成句子树,并将所述句子树分别输入所述嵌入层和所述可见层;

嵌入子模块,用于通过所述嵌入层对所述句子树进行位置嵌入,得到文本位置编码向量;

矩阵构建子模块,用于通过所述可见层构建所述句子树的文本可见矩阵;

编码子模块,用于将所述文本位置编码向量和所述文本可见矩阵输入所述编码层进行注意力计算,输出文本语义特征向量。

通过使用知识增强语言模型增加分类文本的领域知识,丰富了文本语义,避免了多样化词向量编码空间不一致和语句偏离核心语义的问题;同时,由于融合了知识图谱,可用于专业领域的文本分类。

在本实施例中,知识注入子模块包括:

知识查询单元,用于调用所述知识层的知识查询函数,识别所述训练样本集中每个文本句子对应的所有实体,并在知识图谱中查询每个所述实体对应的三元组;

知识注入单元,用于调用所述知识层的知识注入函数,将所述三元组嵌入至所述文本句子中对应的位置,得到句子树。

通过句子树实现了对句子背景信息的补全,解决了单一句子不具备知识背景导致的词向量偏离核心语义。

在本实施例的一些可选的实现方式中,嵌入子模块包括:

嵌入单元,用于将所述句子树输入所述嵌入层分别进行段嵌入操作、软位置嵌入操作和词嵌入操作,得到对应的句子编码向量、位置编码向量和词编码向量;

求和单元,用于将所述句子编码向量、所述位置编码向量和所述词编码向量进行求和,得到文本位置编码向量。

通过嵌入操作得到的文本位置编码向量中保留树结构的结构信息,能够强化特征表示,从而更好地获取到文本的语义特征。

在本实施例中,编码子模块包括:

确定单元,用于确定所述编码层的查询向量参数矩阵、键向量参数矩阵和值向量参数矩阵;

自注意力计算单元,用于根据所述查询向量参数矩阵、所述键向量参数矩阵和所述值向量参数矩阵、所述文本位置编码向量和所述文本可见矩阵,计算自注意力;

多头注意力计算单元,用于基于所述自注意力进行多头注意力计算,得到文本语义特征向量。

通过文本可见矩阵获得了句子树的结果信息,并根据文本可见矩阵进行注意力计算,实现了在嵌入知识的情况下,不增加噪音的目的,保证输出文本语义特征向量的准确性。

在一些可选的实现方式中,所述胶囊网络模型包括卷积层、胶囊层和分类层,分类预测模块403包括:

卷积子模块,用于将所述文本语义特征向量输入所述卷积层进行卷积特征提取,得到卷积特征向量;

胶囊子模块,用于通过所述胶囊层对卷积特征向量进行文本聚合,获得包含上下文语义的全局语义向量;

预测子模块,用于将所述全局语义向量输入所述分类层进行分类预测,输出分类预测结果。

通过采用多层胶囊与动态路由机制结合,可以捕捉句子中各个方面的高级特征并进行有效编码,提高分类的准确性。

在本实施例中,所述胶囊层包括主胶囊层和数字胶囊层,胶囊子模块包括:

一维卷积单元,用于将所述卷积特征向量输入所述主胶囊层进行一维卷积操作,得到向量胶囊;

动态理由单元,用于将所述向量胶囊输入所述数字胶囊层,通过动态路由算法对所述向量胶囊进行映射操作,得到全局语义向量。

通过使用动态路由算法在主胶囊层和数字胶囊层之间进行信息传递时有效减少冗余信息,提升模型的训练效率。

为解决上述技术问题,本申请实施例还提供计算机设备。具体请参阅图5,图5为本实施例计算机设备基本结构框图。

所述计算机设备5包括通过系统总线相互通信连接存储器51、处理器52、网络接口53。需要指出的是,图中仅示出了具有组件51-53的计算机设备5,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable GateArray,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。

所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

所述存储器51至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器51可以是所述计算机设备5的内部存储单元,例如该计算机设备5的硬盘或内存。在另一些实施例中,所述存储器51也可以是所述计算机设备5的外部存储设备,例如该计算机设备5上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(FlashCard)等。当然,所述存储器51还可以既包括所述计算机设备5的内部存储单元也包括其外部存储设备。本实施例中,所述存储器51通常用于存储安装于所述计算机设备5的操作系统和各类应用软件,例如基于语义的文本分类方法的计算机可读指令等。此外,所述存储器51还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器52在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器52通常用于控制所述计算机设备5的总体操作。本实施例中,所述处理器52用于运行所述存储器51中存储的计算机可读指令或者处理数据,例如运行所述基于语义的文本分类方法的计算机可读指令。

所述网络接口53可包括无线网络接口或有线网络接口,该网络接口53通常用于在所述计算机设备5与其他电子设备之间建立通信连接。

本实施例通过处理器执行存储在存储器的计算机可读指令时实现如上述实施例基于语义的文本分类方法的步骤,通过知识图谱结合训练样本集对知识增强语言模型进行特征提取,能够获得包含丰富知识信息的文本语义特征向量,强化了文本的特征表达;将知识增强的文本语义特征向量输入胶囊网络模型中进行分类计算,能够进一步获取词与词之间的语义信息关系,提升了文本重要特征提取能力,能够有效识别多标签文本,进而提高文本分类的效率和准确率。

本申请还提供了另一种实施方式,即提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令可被至少一个处理器执行,以使所述至少一个处理器执行如上述的基于语义的文本分类方法的步骤,通过知识图谱结合训练样本集对知识增强语言模型进行特征提取,能够获得包含丰富知识信息的文本语义特征向量,强化了文本的特征表达;将知识增强的文本语义特征向量输入胶囊网络模型中进行分类计算,能够进一步获取词与词之间的语义信息关系,提升了文本重要特征提取能力,能够有效识别多标签文本,进而提高文本分类的效率和准确率。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。

显然,以上所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例,附图中给出了本申请的较佳实施例,但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本申请专利保护范围之内。

相关技术
  • 文本分类方法、装置、计算机设备及存储介质
  • 全局语义理解方法、装置、计算机设备及存储介质
  • 基于语义的文档指纹构建方法、存储介质和计算机设备
  • 基于微波的行人检测方法、装置、计算机设备及存储介质
  • 一种基于Slam定位方法、装置、电子设备及计算机存储介质
  • 基于目标语义的文本分类方法、装置、设备及存储介质
  • 文本分类方法、文本分类装置、计算机设备及存储介质
技术分类

06120116587372