掌桥专利:专业的专利平台
掌桥专利
首页

一种基于图嵌入的新词发现方法、系统、设备及介质

文献发布时间:2023-06-19 09:33:52


一种基于图嵌入的新词发现方法、系统、设备及介质

技术领域

本发明涉及自然语言处理领域,尤其涉及一种基于图嵌入的新词发现方法、系统、设备及介质。

背景技术

图嵌入(Graph Embedding,也叫Network Embedding)是一种将图数据(通常为高维稠密的矩阵)映射为低微稠密向量的过程。Graph广泛存在于真实世界的多种场景中,即节点和边的集合。比如社交网络中人与人之间的联系,生物中蛋白质相互作用以及通信网络中的IP地址之间的通信等等。除此之外,我们最常见的一张图片、一个句子也可以抽象地看做是一个图模型的结构,图结构可以说是无处不在。通过对它们的分析,我们可以深入了解社会结构、语言和不同的交流模式,因此图一直是学界研究的热点。

自然语言处理领域,在新词发现任务中,现有方法通常是利用统计学习方法构建新词,其基本思路是信息熵的方法,但是这种简单的方法仅仅使用了语料中的浅层次语义信息,往往会引入很多低质量的新词。因此,若能引入图嵌入等更深层次的embedding信息,则可以提取出更高质量的新词。

发明内容

有鉴于此,本发明提供一种基于图嵌入的新词发现方法、系统、设备及介质,至少部分解决现有技术中存在的问题。本发明首先根据待计算语料得到新词候选集,再基于待计算语料构建图网络,利用注意力网络对图网络进行计算,得到图嵌入,最后基于原通用词典中包含词语的图嵌入对所述新词候选集中包含词语的图嵌入进行筛选,以得到更高质量、更可靠的通用新词或领域新词。

本发明具体为:

一种基于图嵌入的新词发现方法,包括:

使用滑动窗口切取待计算语料的N-GRAM字符串,计算各字符串的统计量,根据所述统计量为各字符串打分,选取得分满足要求的字符串写入新词候选集;所述滑动窗口的窗口大小一般设置为2-7,即每滑动一次切取包含2-7个字符的字符串;所述待计算语料包括论坛文章、网络爬取内容、个人编辑的文档等;

对所述待计算语料进行切词,基于切词结果构建图网络;该过程为构建三元组的过程,所述三元组包含实体、关系、实体,实体为词语,关系为词语间的连线,即根据词语关系对词语进行连接,形成图网络;

基于图注意力网络对所述图网络进行计算,得到所述待计算语料的词语的图嵌入;该过程为训练图嵌入的过程,图注意力网络对图网络进行计算后,会将图网络中包含的每个词语转换为矩阵表示,各矩阵即为各词语的图嵌入;

在所述待计算语料的词语的图嵌入中找到新词候选集中包含词语的图嵌入,并基于通用词典中包含词语的图嵌入对所述新词候选集中包含词语的图嵌入进行筛选,将筛选得到的图嵌入对应的词语作为候选新词;该过程得到的候选新词,即为得到的更高质量、更可靠的通用新词或领域新词;所述通用词典不同于普通汉语词典,为Jieba、HanLP、Jiagu、Ansi等工具中包含的通用新词和领域新词等构成的词典;基于前沿工具中包含的通用新词和领域新词对新词进行发现,能够有效确保发现新词的精确性。

进一步地,所述计算各字符串的统计量,根据所述统计量为各字符串打分,选取得分满足要求的字符串写入新词候选集,具体为:

计算各字符串的统计量,所述统计量包括:词频、平均互信息、左熵、右熵;

基于得分公式对各字符串进行打分,所述得分公式为:

TF*AMI*(2*(EI+Er)/(El*Er));

其中,TF为所述词频、AMI为所述平均互信息、El为所述左熵、Er为所述右熵;

根据各字符串的得分,选取得分大于规定阈值的字符串写入新词候选集;

其中AMI不同于通常做法使用的互信息(MI),是互信息(MI)值除以字符串长度的均值,即AMI=MI/length,可以得到更稳定的值;2*(EI+Er)/(El*Er)是左右熵的加权平均,不同于通常做法的取左右熵最小值,不仅可以使结果更加客观稳定,还能适合小语料集。

进一步地,选取得分满足要求的字符串写入新词候选集后,所述方法还包括:将所述新词候选集加入所述通用词典;

所述对所述待计算语料进行切词,基于切词结果构建图网络,具体为:

基于将所述新词候选集加入所述通用词典后的词典,对所述待计算语料采用词典最大概率切词,以切词后相邻的词语为节点构建图网络。

进一步地,所述基于通用词典中包含词语的图嵌入对所述新词候选集中包含词语的图嵌入进行筛选,具体为:

遍历所述新词候选集中包含词语的图嵌入,根据与所述通用词典中包含词语的图嵌入的相似度对所述新词候选集中包含词语的图嵌入进行排序,根据排序选取规定数量的所述新词候选集中包含词语的图嵌入,在选取出的规定数量的图嵌入中筛选出与所述通用词典中包含词语的图嵌入的相似度满足规定阈值的图嵌入;一般情况下,根据所述排序选择相似度靠前的图嵌入,所述规定数量为3-6个,并筛选相似度大于规定阈值的图嵌入,阈值取值越高,筛选结果越好,例如取值0.9。

一种基于图嵌入的新词发现系统,包括:

新词候选集构建模块,使用滑动窗口切取待计算语料的N-GRAM字符串,计算各字符串的统计量,根据所述统计量为各字符串打分,选取得分满足要求的字符串写入新词候选集;所述滑动窗口的窗口大小一般设置为2-7,即每滑动一次切取包含2-7个字符的字符串;所述待计算语料包括论坛文章、网络爬取内容、个人编辑的文档等;

图嵌入训练模块,用于对所述待计算语料进行切词,基于切词结果构建图网络,并基于图注意力网络对所述图网络进行计算,得到所述待计算语料的词语的图嵌入;图注意力网络对图网络进行计算后,会将图网络中包含的每个词语转换为矩阵表示,各矩阵即为各词语的图嵌入;

新词筛选模块,用于在所述待计算语料的词语的图嵌入中找到新词候选集中包含词语的图嵌入,并基于通用词典中包含词语的图嵌入对所述新词候选集中包含词语的图嵌入进行筛选,将筛选得到的图嵌入对应的词语作为候选新词;该过程得到的候选新词,即为得到的更高质量、更可靠的通用新词或领域新词;所述通用词典不同于普通汉语词典,为Jieba、HanLP、Jiagu、Ansi等工具中包含的通用新词和领域新词等构成的词典;基于前沿工具中包含的通用新词和领域新词对新词进行发现,能够有效确保发现新词的精确性。

进一步地,所述计算各字符串的统计量,根据所述统计量为各字符串打分,选取得分满足要求的字符串写入新词候选集,具体为:

计算各字符串的统计量,所述统计量包括:词频、平均互信息、左熵、右熵;

基于得分公式对各字符串进行打分,所述得分公式为:

TF*AMI*(2*(EI+Er)/(El*Er));

其中,TF为所述词频、AMI为所述平均互信息、El为所述左熵、Er为所述右熵;

根据各字符串的得分,选取得分大于规定阈值的字符串写入新词候选集;

其中AMI不同于通常做法使用的互信息(MI),是互信息(MI)值除以字符串长度的均值,即AMI=MI/length,可以得到更稳定的值;2*(EI+Er)/(El*Er)是左右熵的加权平均,不同于通常做法的取左右熵最小值,不仅可以使结果更加客观稳定,还能适合小语料集。

进一步地,选取得分满足要求的字符串写入新词候选集后,所述新词候选集构建模块还用于:将所述新词候选集加入所述通用词典;

所述对所述待计算语料进行切词,基于切词结果构建图网络,具体为:

基于将所述新词候选集加入所述通用词典后的词典,对所述待计算语料采用词典最大概率切词,以切词后相邻的词语为节点构建图网络。

进一步地,所述基于通用词典中包含词语的图嵌入对所述新词候选集中包含词语的图嵌入进行筛选,具体为:

遍历所述新词候选集中包含词语的图嵌入,根据与所述通用词典中包含词语的图嵌入的相似度对所述新词候选集中包含词语的图嵌入进行排序,根据排序选取规定数量的所述新词候选集中包含词语的图嵌入,在选取出的规定数量的图嵌入中筛选出与所述通用词典中包含词语的图嵌入的相似度满足规定阈值的图嵌入;一般情况下,根据所述排序选择相似度靠前的图嵌入,所述规定数量为3-6个,并筛选相似度大于规定阈值的图嵌入,阈值取值越高,筛选结果越好,例如取值0.9。

一种电子设备,包括:壳体、处理器、存储器、电路板和电源电路,其中,电路板安置在壳体围成的空间内部,处理器和存储器设置在电路板上;电源电路,用于为上述电子设备的各个电路或器件供电;存储器用于存储可执行程序代码;处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序,用于执行上述基于图嵌入的新词发现方法。

一种计算机可读存储介质,有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现上述基于图嵌入的新词发现方法。

本发明的有益效果体现在:

本发明基于图嵌入技术,与现有技术利用统计学习方法基于信息熵构建新词相比,在新词发现过程中能够有效过滤低质量的候选新词,从而获取更高质量、更可靠的通用新词或领域新词。本发明基于前沿工具中包含的通用新词和领域新词对新词进行发现,能够有效确保发现新词的精确性。本发明在计算语料字符串的统计量及打分时,使用平均互信息(AMI),与传统方法中使用互信息(MI)相比,可以得到更稳定的计算结果,同时利用左右熵的加权平均,不同于通常做法的取左右熵最小值,不仅可以使计算结果更加客观稳定,还能适合小语料集,确保了所述新词候选集的精准度,进一步保证了新词发现结果的准确性。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。

图1为本发明实施例一种基于图嵌入的新词发现方法流程图;

图2为本发明实施例一种基于图嵌入的新词发现系统结构图;

图3为本发明实施例一种电子设备结构示意图。

具体实施方式

下面结合附图对本发明实施例进行详细描述。

需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合;并且,基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。

需要说明的是,下文描述在所附权利要求书的范围内的实施例的各种方面。应显而易见,本文中所描述的方面可体现于广泛多种形式中,且本文中所描述的任何特定结构及/或功能仅为说明性的。基于本公开,所属领域的技术人员应了解,本文中所描述的一个方面可与任何其它方面独立地实施,且可以各种方式组合这些方面中的两者或两者以上。举例来说,可使用本文中所阐述的任何数目个方面来实施设备及/或实践方法。另外,可使用除了本文中所阐述的方面中的一或多者之外的其它结构及/或功能性实施此设备及/或实践此方法。

如图1所示,为本发明一种基于图嵌入的新词发现方法实施例,包括:

S11:使用滑动窗口切取待计算语料的N-GRAM字符串,计算各字符串的统计量,根据所述统计量为各字符串打分;

S12:选取得分满足要求的字符串写入新词候选集;

所述滑动窗口的窗口大小一般设置为2-7,即每滑动一次切取包含2-7个字符的字符串;所述待计算语料包括论坛文章、网络爬取内容、个人编辑的文档等;

S13:对所述待计算语料进行切词,基于切词结果构建图网络;

该过程为构建三元组的过程,所述三元组包含实体、关系、实体,实体为词语,关系为词语间的连线,即根据词语关系对词语进行连接,形成图网络;

S14:基于图注意力网络对所述图网络进行计算,得到所述待计算语料的词语的图嵌入;

该过程为训练图嵌入的过程,图注意力网络对图网络进行计算后,会将图网络中包含的每个词语转换为矩阵表示,各矩阵即为各词语的图嵌入;

S15:在所述待计算语料的词语的图嵌入中找到新词候选集中包含词语的图嵌入,并基于通用词典中包含词语的图嵌入对所述新词候选集中包含词语的图嵌入进行筛选,将筛选得到的图嵌入对应的词语作为候选新词。

该过程得到的候选新词,即为得到的更高质量、更可靠的通用新词或领域新词;所述通用词典不同于普通汉语词典,为Jieba、HanLP、Jiagu、Ansi等工具中包含的通用新词和领域新词等构成的词典;基于前沿工具中包含的通用新词和领域新词对新词进行发现,能够有效确保发现新词的精确性。

优选地,所述计算各字符串的统计量,根据所述统计量为各字符串打分,并选取得分满足要求的字符串写入新词候选集,具体为:

计算各字符串的统计量,所述统计量包括:词频、平均互信息、左熵、右熵;

基于得分公式对各字符串进行打分,所述得分公式为:

TF*AMI*(2*(EI+Er)/(El*Er));

其中,TF为所述词频、AMI为所述平均互信息、El为所述左熵、Er为所述右熵;

根据各字符串的得分,选取得分大于规定阈值的字符串写入新词候选集;

其中AMI不同于通常做法使用的互信息(MI),是互信息(MI)值除以字符串长度的均值,即AMI=MI/length,可以得到更稳定的值;2*(EI+Er)/(El*Er)是左右熵的加权平均,不同于通常做法的取左右熵最小值,不仅可以使结果更加客观稳定,还能适合小语料集。

优选地,选取得分满足要求的字符串写入新词候选集后,所述方法还包括:将所述新词候选集加入所述通用词典;

所述对所述待计算语料进行切词,基于切词结果构建图网络,具体为:

基于将所述新词候选集加入所述通用词典后的词典,对所述待计算语料采用词典最大概率切词,以切词后相邻的词语为节点构建图网络;

词典最大概率切词,即以语料中包含的词语在词典中的概率对所述语料进行切词,例如:

语料为:教师节学生给教师献花

其中,“教师节”可分为“教师”和“节”两个词,则计算对比“教师”和“教师节”分别在词典中的概率,若“教师”的概率大于“教师节”,则切词结果为:

教师节学生给教师献花

若“教师”的概率小于“教师节”,则切词结果为:

教师节学生给教师献花

优选地,所述基于通用词典中包含词语的图嵌入对所述新词候选集中包含词语的图嵌入进行筛选,具体为:

遍历所述新词候选集中包含词语的图嵌入,根据与所述通用词典中包含词语的图嵌入的相似度对所述新词候选集中包含词语的图嵌入进行排序,根据排序选取规定数量的所述新词候选集中包含词语的图嵌入,在选取出的规定数量的图嵌入中筛选出与所述通用词典中包含词语的图嵌入的相似度满足规定阈值的图嵌入;一般情况下,根据所述排序选择相似度靠前的图嵌入,所述规定数量为3-6个,并筛选相似度大于规定阈值的图嵌入,阈值取值越高,筛选结果越好,例如取值0.9;

所述相似度可基于以下算法进行计算:MS1、余弦相似度、WMD等。

一种基于图嵌入的新词发现系统,包括:

新词候选集构建模块21,使用滑动窗口切取待计算语料的N-GRAM字符串,计算各字符串的统计量,根据所述统计量为各字符串打分,选取得分满足要求的字符串写入新词候选集;所述滑动窗口的窗口大小一般设置为2-7,即每滑动一次切取包含2-7个字符的字符串;所述待计算语料包括论坛文章、网络爬取内容、个人编辑的文档等;

图嵌入训练模块22,用于对所述待计算语料进行切词,基于切词结果构建图网络,并基于图注意力网络对所述图网络进行计算,得到所述待计算语料的词语的图嵌入;图注意力网络对图网络进行计算后,会将图网络中包含的每个词语转换为矩阵表示,各矩阵即为各词语的图嵌入;

新词筛选模块23,用于在所述待计算语料的词语的图嵌入中找到新词候选集中包含词语的图嵌入,并基于通用词典中包含词语的图嵌入对所述新词候选集中包含词语的图嵌入进行筛选,将筛选得到的图嵌入对应的词语作为候选新词。

优选地,所述计算各字符串的统计量,根据所述统计量为各字符串打分,选取得分满足要求的字符串写入新词候选集,具体为:

计算各字符串的统计量,所述统计量包括:词频、平均互信息、左熵、右熵;

基于得分公式对各字符串进行打分,所述得分公式为:

TF*AMI*(2*(EI+Er)/(El*Er));

其中,TF为所述词频、AMI为所述平均互信息、El为所述左熵、Er为所述右熵;

根据各字符串的得分,选取得分大于规定阈值的字符串写入新词候选集;

其中AMI不同于通常做法使用的互信息(MI),是互信息(MI)值除以字符串长度的均值,即AMI=MI/length,可以得到更稳定的值;2*(EI+Er)/(El*Er)是左右熵的加权平均,不同于通常做法的取左右熵最小值,不仅可以使结果更加客观稳定,还能适合小语料集。

优选地,选取得分满足要求的字符串写入新词候选集后,所述新词候选集构建模块21还用于:将所述新词候选集加入所述通用词典;

所述对所述待计算语料进行切词,基于切词结果构建图网络,具体为:

基于将所述新词候选集加入所述通用词典后的词典,对所述待计算语料采用词典最大概率切词,以切词后相邻的词语为节点构建图网络。

优选地,所述基于通用词典中包含词语的图嵌入对所述新词候选集中包含词语的图嵌入进行筛选,具体为:

遍历所述新词候选集中包含词语的图嵌入,根据与所述通用词典中包含词语的图嵌入的相似度对所述新词候选集中包含词语的图嵌入进行排序,根据排序选取规定数量的所述新词候选集中包含词语的图嵌入,在选取出的规定数量的图嵌入中筛选出与所述通用词典中包含词语的图嵌入的相似度满足规定阈值的图嵌入;一般情况下,根据所述排序选择相似度靠前的图嵌入,所述规定数量为3-6个,并筛选相似度大于规定阈值的图嵌入,阈值取值越高,筛选结果越好,例如取值0.9。

本发明系统实施例部分过程与方法实施例相近,对于系统实施例的描述较为简单,相应部分请参照方法实施例。

本发明实施例还提供一种电子设备,如图3所示,可以实现本发明图1所示实施例的流程,如图3所示,上述电子设备可以包括:壳体31、处理器32、存储器33、电路板34和电源电路35,其中,电路板34安置在壳体31围成的空间内部,处理器32和存储器33设置在电路板34上;电源电路35,用于为上述电子设备的各个电路或器件供电;存储器33用于存储可执行程序代码;处理器32通过读取存储器33中存储的可执行程序代码来运行与可执行程序代码对应的程序,用于执行前述任一实施例所述的方法。

处理器32对上述步骤的具体执行过程以及处理器32通过运行可执行程序代码来进一步执行的步骤,可以参见本发明图1所示实施例的描述,在此不再赘述。

该电子设备以多种形式存在,包括但不限于:

(1)服务器:提供计算服务的设备,服务器的构成包括处理器、硬盘、内存、系统总线等,服务器和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高;

(2)其他具有数据交互功能的电子设备。

本发明的实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现前述防止网站数据被恶意遍历的方法。

本发明基于图嵌入技术,与现有技术利用统计学习方法基于信息熵构建新词相比,在新词发现过程中能够有效过滤低质量的候选新词,从而获取更高质量、更可靠的通用新词或领域新词。本发明基于前沿工具中包含的通用新词和领域新词对新词进行发现,能够有效确保发现新词的精确性。本发明在计算语料字符串的统计量及打分时,使用平均互信息(AMI),与传统方法中使用互信息(MI)相比,可以得到更稳定的计算结果,同时利用左右熵的加权平均,不同于通常做法的取左右熵最小值,不仅可以使计算结果更加客观稳定,还能适合小语料集,确保了所述新词候选集的精准度,进一步保证了新词发现结果的准确性。

以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

相关技术
  • 一种基于图嵌入的新词发现方法、系统、设备及介质
  • 一种新词发现方法、系统、电子设备及介质
技术分类

06120112217617