掌桥专利:专业的专利平台
掌桥专利
首页

一种文本分类方法、装置、存储介质及电子设备

文献发布时间:2023-06-19 19:30:30


一种文本分类方法、装置、存储介质及电子设备

技术领域

本申请涉及自然语音处理领域,具体而言,涉及一种文本分类方法、装置、存储介质及电子设备。

背景技术

随着网络的发展,网络中的数据文本的数量越大。在大数据快速发展的今天,对于网络中的数据文本进行处理的自然语言处理(NLP,Natural Language Processing)被人们所关注。而在自然语言处理中一个很重的分支是文本分类。

量子网络作为当下的前沿技术,在各个领域都在崭露头角。如何将文本分类与量子网络进行结合,成为了当下亟待解决的问题。

发明内容

本申请的目的在于提供一种文本分类方法、装置、存储介质及电子设备,以至少部分改善上述问题。

为了实现上述目的,本申请实施例采用的技术方案如下:

第一方面,本申请实施例提供一种文本分类方法,所述方法包括:

依据文本语料中各个词汇的词性、含义以及关联性,将所述文本语料转换为目标量子线路;

其中,所述关联性包括每一个词汇与所述文本语料中的其他词汇之间的关系;

获取所述目标量子线路的运行结果,其中,所述运行结果包括每一次运行所述目标量子线路时量子位的输出结果;

依据所述运行结果获取所述文本语料的预测分类结果。

第二方面,本申请实施例提供一种文本分类装置,所述装置包括:

处理单元,用于依据文本语料中各个词汇的词性、含义以及关联性,将所述文本语料转换为目标量子线路;

其中,所述关联性包括每一个词汇与所述文本语料中的其他词汇之间的关系;

所述处理单元还用于获取所述目标量子线路的运行结果,其中,所述运行结果包括每一次运行所述目标量子线路时量子位的输出结果;

预测单元,用于依据所述运行结果获取所述文本语料的预测分类结果。

第三方面,本申请实施例提供一种存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述的方法。

第四方面,本申请实施例提供一种电子设备,所述电子设备包括:处理器和存储器,所述存储器用于存储一个或多个程序;当所述一个或多个程序被所述处理器执行时,实现上述的方法。

相对于现有技术,本申请实施例所提供的一种文本分类方法、装置、存储介质及电子设备,依据文本语料中各个词汇的词性、含义以及关联性,将文本语料转换为目标量子线路;其中,关联性包括每一个词汇与文本语料中的其他词汇之间的关系;获取目标量子线路的运行结果,其中,运行结果包括每一次运行目标量子线路时量子位的输出结果;依据运行结果获取文本语料的预测分类结果。从而量子网络技术与文本分类紧密的结合在一起,利用目标量子线路准确快速地对文本进行分类。

为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它相关的附图。

图1为本申请实施例提供的一种文本分类方法的流程示意图;

图2为本申请实施例提供的电子设备的结构示意图;

图3为本申请实施例提供的另一种文本分类方法的流程示意图;

图4为本申请实施例提供的S107的子步骤示意图;

图5a为本申请实施例提供的n+tv+n语法类型示意图;

图5b为本申请实施例提供的adj+n+tv+n语法类型示意图;

图5c为本申请实施例提供的n+tv+adj+n语法类型示意图;

图6a为本申请实施例提供的n+tv+n精简后的语法类型示意图;

图6b为本申请实施例提供的adj+n+tv+n精简后的语法类型示意图;

图6c为本申请实施例提供的n+tv+adj+n精简后的语法类型示意图;

图7a为本申请实施例提供的n+tv+n语法类型对应的量子框架示意图;

图7b为本申请实施例提供的adj+n+tv+n语法类型对应的量子框架示意图;

图7c为本申请实施例提供的n+tv+adj+n语法类型对应的量子框架示意图;

图8为本申请实施例提供的文本分类方法的流程示意图之一;

图9为本申请实施例提供的一种文本分类装置的单元示意图。

图中:10-处理器;11-存储器;12-总线;13-通信接口;201-处理单元;202-预测单元。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。

需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

在本申请的描述中,需要说明的是,术语“上”、“下”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该申请产品使用时惯常摆放的方位或位置关系,仅是为了便于描述本申请和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本申请的限制。

在本申请的描述中,还需要说明的是,除非另有明确的规定和限定,术语“设置”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本申请中的具体含义。

下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。

现有技术如图1所示,将原始文本序列信息通过词嵌入(Word Embedding)方式转化为矩阵,将转换获得的矩阵作为下一步神经网络的输入。其中,词嵌入通常采用静态词向量Word2Vec方法完成。或者,将词嵌入得到的矩阵输入到长短时记忆网络(Long ShortTerm Memory,LSTM),进行句子语义特征的学习,通过遗忘、记忆等策略提取句子的深度语义特征,最后通过一层全连接进行情感标签(积极,中立,消极)的输出。

经发明人大量实践和总结发现:当前自然语言处理(nature languageprocessing,NLP)中文分类任务重对于语义构建重算力;当前NLP中文分类任务利用非结构化文本存在的语义信息并不充分,比如文本中词的句法成分等;当前NLP中文文本分类依赖于所有词的语义向量。

为了克服以上问题,本申请实施例提供了一种文本分类方法,可以探索量子计算在语言学中的应用,利于深究语言深度的含义,对于含噪声的中型量子(NoisyIntermediate-Scale Quantum,NISQ)时代,不同于当前的深度学习等AI技术对于语法结构和含义是进行大量的学习习得的。本申请实施例提供的文本分类方法完全是对于文字语言进行直接的编码,从而利用词之间的相互作用进行纠缠得到更加深度和广度的语义和语法的编码。

具体地,本申请实施例提供了一种电子设备,可以是计算机设备或服务器设备。请参照图2,电子设备的结构示意图。电子设备包括处理器10、存储器11、总线12。处理器10、存储器11通过总线12连接,处理器10用于执行存储器11中存储的可执行模块,例如计算机程序。

处理器10可以是一种集成电路芯片,具有信号的处理能力。在实现过程中,文本分类方法的各步骤可以通过处理器10中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器10可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital SignalProcessor,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

存储器11可能包含高速随机存取存储器(RAM:Random Access Memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。

总线12可以是ISA(Industry Standard Architecture)总线、PCI(PeripheralComponent Interconnect)总线或EISA(Extended Industry Standard Architecture)总线等。图2中仅用一个双向箭头表示,但并不表示仅有一根总线12或一种类型的总线12。

存储器11用于存储程序,例如文本分类装置对应的程序。文本分类装置包括至少一个可以软件或固件(firmware)的形式存储于存储器11中或固化在电子设备的操作系统(operating system,OS)中的软件功能模块。处理器10在接收到执行指令后,执行所述程序以实现文本分类方法。

可能地,本申请实施例提供的电子设备还包括通信接口13。通信接口13通过总线与处理器10连接。电子设备可以通过通信接口13接收其他终端传输的文本信息。

应当理解的是,图2所示的结构仅为电子设备的部分的结构示意图,电子设备还可包括比图2中所示更多或者更少的组件,或者具有与图2所示不同的配置。图2中所示的各组件可以采用硬件、软件或其组合实现。

本申请实施例提供的一种文本分类方法,可以但不限于应用于图2所示的电子设备,具体的流程,请参考图3,文本分类方法包括:S107、S108以及S109。

S107,依据文本语料中各个词汇的词性、含义以及关联性,将文本语料转换为目标量子线路。

其中,关联性包括每一个词汇与文本语料中的其他词汇之间的关系。

目标量子线路不仅仅与词汇的词性、含义相关,还与关联性的关系密切。通过对文字语言进行直接的编码,利用词之间的相互作用进行纠缠得到更具有深度和广度的语义和语法的编码,将更具有深度和广度的语义和语法的编码转换为目标量子线路。

可以理解地,目标量子线路包括多个量子位、每一个量子位上设置的逻辑门以及量子位之间设置的逻辑门。

S108,获取目标量子线路的运行结果。

其中,运行结果包括每一次运行目标量子线路时量子位的输出结果。

可以理解地,在量子计算机上设置运行目标量子线路次数,每一次运行目标量子线路开始时,都将目标量子线路的输入设置为预先规定的初始状态。在运行结束时,测量目标量子线路的所有量子位,从而获得运行结果。

S109,依据运行结果获取文本语料的预测分类结果。

综上所述,本申请实施例提供了一种文本分类方法,依据文本语料中各个词汇的词性、含义以及关联性,将文本语料转换为目标量子线路;其中,关联性包括每一个词汇与文本语料中的其他词汇之间的关系;获取目标量子线路的运行结果,其中,运行结果包括每一次运行目标量子线路时量子位的输出结果;依据运行结果获取文本语料的预测分类结果。从而量子网络技术与文本分类紧密的结合在一起,利用目标量子线路准确快速地对文本进行分类。

在一种可能的实现方式中,为了将原始的文本语料编码为量子线路,需要用到DisCoPy(Distributional Compositional Categorical Python)工具。DisCoPy可以从文本句子的词义生成句子语法类型,计算出一个状态向量,然后将状态向量转化为二进制分类标签,不同的标签对应不同的句子语法类型。DisCoPy的优势在于可以生成张量网络。

在图3的基础上,对于S107中的内容,本申请实施例还提供了一种可能的实现方式,请参考图4,S107包括S107-1、S107-2、S107-3以及S107-4。

S107-1,依据文本语料中各个词汇的词性和关联性确定文本语料对应的句子语法类型。

请参考图5a、图5b以及图5c,图5a、图5b以及图5c分别表示不同的句子语法类型。其中,图5a表示n+tv+n语法类型,图5b表示adj+n+tv+n语法类型,图5c表示n+tv+adj+n语法类型。其中,n为名字,tv为及物动词,adj为形容词。

S107-2,依据句子语法类型确定目标量子框架。

其中,目标量子框架为与句子语法类型对应的量子框架。

需要说明的是,不同的句子语法类型对应不同的量子框架。请参考图7a、图7b以及图7c,图7a、图7b以及图7c分别表示不同的量子框架。图7a表示n+tv+n语法类型对应的量子框架,图7b表示adj+n+tv+n语法类型对应的量子框架,图7c表示n+tv+adj+n语法类型对应的量子框架。本申请实施例中的量子框架也可以理解为带参量子线路。

可以理解地,不同的量子框架中量子线路数量和逻辑门排布不同。

S107-3,依据文本语料中各个词汇的含义,确定对目标量子框架中的逻辑门的初始参数。

可以理解的,相同词性的词汇含义可以不同。例如都是名词的学校和家含义不同,都是动词的吃和摔含义不同。以两个句子进行示例说明,小明吃西瓜和小明摔西瓜,两个句子的句子语法类型相同,对应的相同的量子框架。但是吃和摔的含义不同,目标量子框架中的逻辑门的初始参数不相同。

S107-4,依据初始参数对目标量子框架中的逻辑门的参数进行设定,完成目标量子线路的转换。

在一种可能的实现方式中,受限于当前量子计算机的计算能力,需要对句子类型进行精简。请参考图6a、图6b以及图6c,图6a、图6b以及图6c分别表示精简后不同的句子语法类型。其中,图6a表示n+tv+n精简后的语法类型,图6b表示adj+n+tv+n精简后的语法类型,图6c表示n+tv+adj+n精简后的语法类型。量子框架分别与精简后的语法类型对应,避免超出了量子计算机的能力范围外。

请继续参考图7a、图7b以及图7c,量子框架包括位于两个量子比特之间的IQP层,IQP层包括分别作用在两个量子比特上的Hadamard门、以及同时作用在两个量子比特上的CRz门。

需要说明的是,Hadamard门的数量与词汇数量相同,CRz门的数量与句子中形容词和动词的数量相关。

可以预先设定,名词n=Word('女人',n),使用一个量子比特代表;形容词adj=Word('高兴',n@n.l),使用两个量子比特代表;及物动词tv=Word(款待,n.r@s@n.l),使用三个量子比特代表。请继续参考图7a、图7b以及图7c,及物动词对应的三个量子位通过两个IPQ层作用,形容词对应的量子位通过一个IPQ层作用。

关于量子框架中的逻辑门的初始化参数,一种实施方式中,可以为adj示例初始化参数[[0.1133103]],n示例初始化参数[0.26733895、0.6874017、0.93166275],tv示例初始化参数[[0.07656308、0.6977936]]。

需要说明的是,图7a、图7b以及图7c中线路深度为depth=1,即IQP层数为1,在一种可能的实现方式中线路深度可以更改,在此不做赘述。

在图3的基础上,关于如何对量子线路进行训练,本申请实施例还提供了一种可能的实现方式,请参考图8,在依据文本语料中各个词汇的词性、含义以及关联性,将文本语料转换为目标量子线路之前,文本分类方法还包括:S101、S102、S103、S104、S105以及S106。

S101,依据训练文本中各个词汇的词性和关联性,获取训练文本对应的待训练的量子框架。

S102,依据训练文本中各个词汇的含义,确定对待训练的量子框架中的逻辑门的训练参数。

S103,依据训练参数对待训练的量子框架中的逻辑门的参数进行设定,完成待训练的量子线路的转换。

S104,获取待训练的量子线路的训练结果。

S105,依据训练结果获取训练文本的训练分类结果。

S106,依据训练文本的真实标签和训练分类结果对训练参数进行优化,其中,优化后的训练参数用于作为文本分类时目标量子框架中的逻辑门的初始参数。

可选地,对训练参数进行优化的代价函数表达式为:

C(Θ):=∑L(P)

其中,LΘ(P)表征预测分类结果,L(P)表征真实标签,C(Θ)表征代价函数。

可选地,使用同步扰动随机近似(Simultaneous Perturbation StochasticApproximation)的方法优化量子线路。

在图3的基础上,关于依据运行结果获取文本语料的预测分类结果的表达式,本申请实施例还提供了一种可能的实现方式,请参考下文:

其中,LΘ(P)表征所述预测分类结果,

需要说明的是,在量子计算中,|0>,|1>表示正交基向量,与测量的运行结果中0和1相关,量子位的一般状态是叠加的线性组合:

概率是由伯恩法则给出,

经过上述步骤每个中文文本的句子已经编码为量子线路,相应输出的量子态用|P(Θ)>|表示,定义运行结果

本申请实施例提供的文本分类方法采用量子编码语法-关注词之间的相互作用的语义信息,从而相对于传统的语义编码信息得到更深维度更多元的语义信息。通过少量的量子比特即可实现在经典比特中数以十亿计才能表示的语义向量,从而显现量子优势。

请参阅图9,图9为本申请实施例提供的一种文本分类装置,可选的,该文本分类装置被应用于上文所述的电子设备。

文本分类装置包括:处理单元201和预测单元202。

处理单元201,用于依据文本语料中各个词汇的词性、含义以及关联性,将文本语料转换为目标量子线路。

其中,关联性包括每一个词汇与文本语料中的其他词汇之间的关系。可选地,处理单元201可以执行上述的S107。

处理单元201还用于获取目标量子线路的运行结果,其中,运行结果包括每一次运行目标量子线路时量子位的输出结果。可选地,处理单元201可以执行上述的S108。

预测单元202,用于依据运行结果获取文本语料的预测分类结果。可选地,预测单元202可以执行上述的S109。

在一种可能的实现方式中,处理单元201还用于依据文本语料中各个词汇的词性和关联性确定文本语料对应的句子语法类型;依据句子语法类型确定目标量子框架;其中,目标量子框架为与句子语法类型对应的量子框架;依据文本语料中各个词汇的含义,确定对目标量子框架中的逻辑门的初始参数;依据初始参数对目标量子框架中的逻辑门的参数进行设定,完成目标量子线路的转换。可选地,处理单元201可以执行上述的S107-1至S107-4。

需要说明的是,本实施例所提供的文本分类装置,其可以执行上述方法流程实施例所示的方法流程,以实现对应的技术效果。为简要描述,本实施例部分未提及之处,可参考上述的实施例中相应内容。

本申请实施例还提供了一种存储介质,该存储介质存储有计算机指令、程序,该计算机指令、程序在被读取并运行时执行上述实施例的文本分类方法。该存储介质可以包括内存、闪存、寄存器或者其结合等。

下面提供一种电子设备,可以是计算机或服务器设备,该电子设备如图2所示,可以实现上述的文本分类方法;具体的,该电子设备包括:处理器10,存储器11、总线12。处理器10可以是CPU。存储器11用于存储一个或多个程序,当一个或多个程序被处理器10执行时,执行上述实施例的文本分类方法。

在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其它的具体形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

相关技术
  • 一种浴室加热装置和用于控制浴室加热装置的方法、设备、电子设备及计算机可读存储介质
  • 一种文本分类方法、装置、终端及计算机可读存储介质
  • 一种文本分类方法、装置、终端及存储介质
  • 一种漆面识别方法、装置、存储介质及电子设备
  • 一种植物观赏方法、装置、电子设备和存储介质
  • 文本分类方法、文本分类装置、电子设备及存储介质
  • 标签词库构建方法、装置和文本分类方法、装置,以及电子设备和存储介质
技术分类

06120115929208