掌桥专利:专业的专利平台
掌桥专利
首页

标准医学同义词的生成方法、系统、设备、及介质

文献发布时间:2023-06-19 13:26:15


标准医学同义词的生成方法、系统、设备、及介质

技术领域

本发明涉及自然语言处理技术领域,尤其涉及一种标准医学同义词的生成方法、系统、设备、非暂态计算机可读存储介质、及计算机程序产品。

背景技术

随着互联网医学的纵深发展,医学数据的应用变得越来越广泛且质量要求越来越高,在现实生产环境中,针对高质量数据的需求量呈现爆发式增长的趋势,在应用环境下通过运用AI生成算法扩充数据成为了一个方向。

自然语言处理(NLP)技术分为自然语言理解(NLU)技术和自然语言生成(NLG)技术,NLU技术负责理解文本内容,而NLG技术负责根据信息生成文本内容,NLG技术生成文本的方式可以大致分为两种:1、文本到语言的生成;2、数据到语言的生成。

NLG技术可分为三个等级,首先是类似于数据填空的简单数据合并,将数据转换为文本;其次是模板化的NLG技术,以模板驱动模式来显示输出,根据某种模板来模板化地生成文本;最后是构建NLG模型,其可以理解意图,更加智能地结合上下文的信息,并将结果呈现出一种可以被理解的语言。

针对文本的生成,目前常用的NLG模型是Seq2Seq文本生成模型,Seq2Seq文本生成模型中的编码器会将输入文本的内容统一映射成固定的中间序列信息,再利用解码器对其进行解码,从而生成输出文本。虽然这在一定程度上能够保证输入文本与输出文本的对应性,但是这让文本中每一个词汇在文本中的贡献量是相同的,但是显然地,一句话的中心思想往往是由文本中的某几个主要词汇来表征的,如果将文本中的所有词汇的贡献量看作一致,将会对Seq2Seq文本生成模型后续的解码产生一定的影响,有可能生成不标准的词汇,导致生成文本所表达的中心思想不准确。

发明内容

本发明提供一种标准医学同义词的生成方法,能够对所生成的医学同义词进行标准性判别,继而根据标准性判别结果调整所生成的医学同义词,得到标准医学同义词,有效提高生成的标准医学同义词的准确性,以保证生成文本所表达中心思想的精准度,本发明能够被广泛应用于医学数据扩充和医学数据支持等医学生产环节。

本发明提供一种标准医学同义词的生成方法,包括:

利用医学同义词生成模型根据医学文本的语义生成医学同义词;

利用医学同义词标准判别模型对所述医学同义词生成模型生成的医学同义词进行标准性判别,得到医学同义词的标准性判别结果;

通过所述医学同义词生成模型根据所述标准性判别结果来调整生成的医学同义词,得到最终生成的标准医学同义词;

其中,所述医学同义词生成模型基于医学同义词样本数据、以及医学同义词生成标签训练得到;

所述医学同义词标准判别模型基于医学同义词生成模型生成的医学同义词数据、标准医学同义词样本数据、非标准医学同义词样本数据、以及医学同义词标准判别标签训练得到。

根据本发明提供的一种标准医学同义词的生成方法,所述医学同义词生成模型基于医学同义词样本数据、以及医学同义词生成标签训练得到,包括:

将医学同义词样本数据以及医学同义词生成标签输入至UniLM模型的嵌入层,得到处理后的医学同义词样本数据以及医学同义词生成标签;

将处理后的医学同义词样本数据和医学同义词生成标签输入至UniLM模型的编码器层进行训练,得到医学同义词生成模型。

根据本发明提供的一种标准医学同义词的生成方法,所述将医学同义词样本数据以及医学同义词生成标签输入至UniLM模型的嵌入层,得到处理后的医学同义词样本数据以及医学同义词生成标签,包括:

对所述医学同义词样本数据以及医学同义词生成标签进行线性变换,使医学同义词样本数据以及医学同义词生成标签的特征向量集合的均值为零;

基于医学同义词样本数据以及医学同义词生成标签的特征向量集合的均值为零,将医学同义词样本数据以及医学同义词生成标签的特征向量的协方差矩阵变换为单位矩阵,得到处理后的医学同义词样本数据以及医学同义词生成标签。

根据本发明提供的一种标准医学同义词的生成方法,还包括:

基于所述医学同义词生成模型,结合所述医学同义词标准判别标签、医学同义词生成模型的损失、以及医学同义词标准判别模型的损失进行二次训练,基于所述医学同义词标准判别模型,结合所述医学同义词生成标签、医学同义词生成模型的损失、以及医学同义词标准判别模型的损失进行二次训练,得到标准医学同义词标生成及判别模型。

本发明还提供一种标准医学同义词的生成系统,包括:

医学同义词获得模块,用于利用医学同义词生成模型根据医学文本的语义生成医学同义词;

医学同义词标准性判别模块,用于利用医学同义词标准判别模型对所述医学同义词生成模型生成的医学同义词进行标准性判别,得到医学同义词的标准性判别结果;

标准医学同义词获得模块,用于通过所述医学同义词生成模型根据所述标准性判别结果来调整生成的医学同义词,得到最终生成的标准医学同义词;

其中,所述医学同义词生成模型基于医学同义词样本数据、以及医学同义词生成标签训练得到;

所述医学同义词标准判别模型基于医学同义词生成模型生成的医学同义词数据、标准医学同义词样本数据、非标准医学同义词样本数据、以及医学同义词标准判别标签训练得到。

根据本发明提供的一种标准医学同义词的生成系统,所述医学同义词获得模块包括:

数据处理模块,用于将医学同义词样本数据以及医学同义词生成标签输入至UniLM模型的嵌入层,得到处理后的医学同义词样本数据以及医学同义词生成标签;

模型训练模块,用于将处理后的医学同义词样本数据和医学同义词生成标签输入至UniLM模型的编码器层进行训练,得到医学同义词生成模型。

根据本发明提供的一种标准医学同义词的生成系统,所述数据处理模块包括:

线性变换模块,用于对所述医学同义词样本数据以及医学同义词生成标签进行线性变换,使医学同义词样本数据以及医学同义词生成标签的特征向量集合的均值为零;

矩阵变换模块,用于基于医学同义词样本数据以及医学同义词生成标签的特征向量集合的均值为零,将医学同义词样本数据以及医学同义词生成标签的特征向量的协方差矩阵变换为单位矩阵,得到处理后的医学同义词样本数据以及医学同义词生成标签。

本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述基于动态知识图谱的托攻击检测方法的步骤。

本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述标准医学同义词的生成方法的步骤。

本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述标准医学同义词的生成方法的步骤。

本发明提供的标准医学同义词的生成方法,通过医学同义词生成模型根据医学文本的语义生成医学同义词,再利用医学同义词标准判别模型对医学同义词生成模型所生成的医学同义词进行标准性判别,再通过医学同义词生成模型根据标准性判别结果来调整生成的医学同义词,得到最终生成的标准医学同义词。本发明提供的标准医学同义词的生成方法,能够对所生成的医学同义词进行标准性判别,继而根据标准性判别结果调整所生成的医学同义词,得到标准医学同义词,有效提高生成的标准医学同义词的准确性,以保证生成文本所表达中心思想的精准度,,本发明能够被广泛应用于医学数据扩充和医学数据支持等医学生产环节。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明提供的标准医学同义词的生成方法的流程示意图;

图2是本发明提供的标准医学同义词的生成系统的模块示意图;

图3是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

下面结合图1-图3描述本发明的标准医学同义词的生成方法。

一种标准医学同义词的生成方法,如图1所示,包括:

S1:利用医学同义词生成模型根据医学文本的语义生成医学同义词。

S2:利用医学同义词标准判别模型对所述医学同义词生成模型生成的医学同义词进行标准性判别,得到医学同义词的标准性判别结果;

S3:通过所述医学同义词生成模型根据所述标准性判别结果来调整生成的医学同义词,得到最终生成的标准医学同义词

其中,所述医学同义词生成模型基于医学同义词样本数据、以及医学同义词生成标签训练得到;所述医学同义词标准判别模型基于医学同义词生成模型生成的医学同义词数据、标准医学同义词样本数据、非标准医学同义词样本数据、以及医学同义词标准判别标签训练得到。

本发明提供的标准医学同义词的生成方法,通过医学同义词生成模型根据医学文本的语义生成医学同义词,再利用医学同义词标准判别模型对医学同义词生成模型所生成的医学同义词进行标准性判别,再通过医学同义词生成模型根据标准性判别结果来调整生成的医学同义词,得到最终生成的标准医学同义词。本发明提供的标准医学同义词的生成方法,能够对生成的医学同义词进行标准性判别,继而根据标准性判别结果调整生成的医学同义词,得到标准医学同义词,有效提高生成的标准医学同义词的准确性,以保证生成文本所表达中心思想的精准度,,本发明能够被广泛应用于医学数据扩充和医学数据支持等医学生产环节。

在执行S1、S2、和S3之前可以预先训练得到医学同义词生成模型和医学同义词标准判别模型,还可以联合训练医学同义词生成模型和医学同义词标准判别模型,得到最终的标准医学同义词标生成及判别模型。

一方面,可通过以下方式先训练得到医学同义词生成模型:

首先,获得医学同义词样本数据、以及医学同义词生成标签。

具体地,可以从ICD10、Mesh词库、WHO不良反应集以及医学同义词典等医学术语库筛选出符合医学标准的医学同义词关系对,例如,一型糖尿病又称胰岛素依赖型糖尿病,即一型糖尿病的医学同义词为胰岛素依赖型糖尿病,二型糖尿病又称非胰岛素依赖型糖尿病,即二型糖尿病的医学同义词为非胰岛素依赖型糖尿病,然后将医学同义词关系对以键值对的形式体现,构成符合医学标准的医学同义词样本数据以及医学同义词生成标签,医学同义词样本数据中每个样本的医学同义词生成标签就是它的医学同义词。

然后,将医学同义词样本数据以及医学同义词生成标签输入至UniLM模型的嵌入层,得到处理后的医学同义词样本数据以及医学同义词生成标签。

在本实施例中,对医学同义词样本数据以及医学同义词生成标签的具体处理为去相关性处理,即ZCA白化(即whitening)降维处理,具体方式为:

对所述医学同义词样本数据以及医学同义词生成标签进行线性变换,使医学同义词样本数据以及医学同义词生成标签的特征向量集合的均值为零。

基于医学同义词样本数据以及医学同义词生成标签的特征向量集合的均值为零,将医学同义词样本数据以及医学同义词生成标签的特征向量的协方差矩阵变换为单位矩阵,得到处理后的医学同义词样本数据以及医学同义词生成标签。

具体地,为了便于描述,将医学同义词样本数据以及医学同义词生成标签概括为医学同义词数据集,将医学同义词数据集的特征向量集合记为

将医学同义词数据集的特征向量的协方差矩阵记为:

对协方差矩阵变形可得到

再将处理后的医学同义词样本数据和医学同义词生成标签输入至UniLM模型的编码器层进行训练,得到医学同义词生成模型。

白化降维处理可以有效降低医学同义词生成模型在训练过程中语义向量的维度,同时提高医学同义词生成模型在语义向量相似度计算方面的效果。

更具体地,UniLM模型的编码器层所采用的激活函数是softmax函数,具体公式为:

利用softmax函数使得医学同义词生成模型具有一定的模仿真实数据分布的能力,从而预测生成医学同义词。

在训练模型过程中,计算模型执行力,以得到最优的医学同义词生成模型。

UniLM模型是一个具有NLG能力的Transformer模型,它的核心是通过特殊的Attention Mask使模型具有seq2seq能力,例如当输入“阿司匹林又名”时,其目标结果为“乙酰水杨酸”,UniLM模型就会将两个句子拼成:“[CLS]阿司匹林又名[SEP]乙酰水杨酸[SEP]”,即“[CLS]阿司匹林又名[SEP]”这几个token是双向的attention,而“乙酰水杨酸[SEP]”是单向的,从而允许UniLM模型预测出“乙酰水杨酸[SEP]”,进而使基于UniLM模型框架而训练所得的医学同义词生成模型具备文本生成的能力。

然后,可以通过以下方式训练得到医学同义词标准判别模型:

获得医学同义词生成模型生成的医学同义词数据、标准医学同义词样本数据、非标准医学同义词样本数据、以及医学同义词标准判别标签。

具体地,医学同义词生成模型生成的医学同义词数据可以从医学同义词生成模型生成的医学同义词中获得,再者,从ICD10、Mesh词库、WHO不良反应集以及医学同义词典等医学术语库筛选出标准医学同义词,从而获得标准医学同义词样本数据,可以获取其它类似模型的训练过程中预测失误的词汇,或者获取在实际生活中人们误以为是医学同义词的词汇,作为非标准医学同义词,以获得非标准医学同义词样本数据。

结合医学同义词生成模型生成的医学同义词数据、标准医学同义词样本数据、非标准医学同义词样本数据、以及医学同义词标准判别标签进行模型训练,得到类似分类模型的医学同义词标准判别模型。

具体地,医学同义词标准判别模型采用的激活函数为:D(χ,t)=sigmoid(W

优选地,在训练得到医学同义词生成模型和医学同义词标准判别模型后,可以交换两个模型的标签,结合两个模型的损失,进行联合训练,最终得到标准医学同义词标生成及判别模型,具体方式为:

基于所述医学同义词生成模型,结合所述医学同义词标准判别标签、所述医学同义词生成模型的损失、以及所述医学同义词标准判别模型的损失进行二次训练,基于所述医学同义词标准判别模型,结合所述医学同义词生成标签、所述医学同义词生成模型的损失、以及所述医学同义词标准判别模型的损失进行二次训练,得到标准医学同义词标生成及判别模型。

联合训练后的医学同义词生成模型和医学同义词标准判别模型在整体上可以看作是模型的融合,最终得到的标准医学同义词标生成及判别模型,使用标准医学同义词对数据结合UniLM模型框架进行训练,通过白化处理降低语义向量的维度同时提高语义向量在相似度方面计算的效果,然后将医学同义词生成模型和医学同义词标准判别模型做联合损失(loss)训练得到。

如今,Bert及其各种变体模型成为了主流预训练模型,本发明应用了Bert的变体PubMedBERT(生物医学领域的预训练模型),借鉴UniLM模型和seq2seq模型二者的思想,通过UniLM模型的架构结合seq2seq模型的思想调整PubMedBERT的网络结构,从而训练微调出了针对生成标准医学同义词的标准医学同义词标生成及判别模型(SynonBert)。

最终得到的标准医学同义词标生成及判别模型,其具备标准医学同义词的生成和判别能力,可以精确地控制生成标准医学同义词,提高生成标准医学同义词的精度。

下面对本发明提供的标准医学同义词的生成系统、设备、非暂态计算机可读存储介质、及计算机程序产品进行描述,下文描述的标准医学同义词的生成系统、设备、非暂态计算机可读存储介质、及计算机程序产品与上文描述的标准医学同义词的生成方法可相互对应参照。

一种标准医学同义词的生成系统,如图2所示,包括:

医学同义词获得模块210,用于利用医学同义词生成模型根据医学文本的语义生成医学同义词;

医学同义词标准性判别模块220,用于利用医学同义词标准判别模型对所述医学同义词生成模型生成的医学同义词进行标准性判别,得到医学同义词的标准性判别结果;

标准医学同义词获得模块230,用于通过所述医学同义词生成模型根据所述标准性判别结果来调整生成的医学同义词,得到最终生成的标准医学同义词;

其中,所述医学同义词生成模型基于医学同义词样本数据、以及医学同义词生成标签训练得到;

所述医学同义词标准判别模型基于医学同义词生成模型生成的医学同义词数据、标准医学同义词样本数据、非标准医学同义词样本数据、以及医学同义词标准判别标签训练得到。

进一步地,所述医学同义词获得模块210包括:

数据处理模块,用于将医学同义词样本数据以及医学同义词生成标签输入至UniLM模型的嵌入层,得到处理后的医学同义词样本数据以及医学同义词生成标签;

模型训练模块,用于将处理后的医学同义词样本数据和医学同义词生成标签输入至UniLM模型的编码器层进行训练,得到医学同义词生成模型。

进一步地,所述数据处理模块包括:

线性变换模块,用于对所述医学同义词样本数据以及医学同义词生成标签进行线性变换,使医学同义词样本数据以及医学同义词生成标签的特征向量集合的均值为零;

矩阵变换模块,用于基于医学同义词样本数据以及医学同义词生成标签的特征向量集合的均值为零,将医学同义词样本数据以及医学同义词生成标签的特征向量的协方差矩阵变换为单位矩阵,得到处理后的医学同义词样本数据以及医学同义词生成标签。

进一步地,标准医学同义词的生成系统还包括:

标准医学同义词标生成及判别模型获得模块,用于基于所述医学同义词生成模型,结合所述医学同义词标准判别标签、医学同义词生成模型的损失、以及医学同义词标准判别模型的损失进行二次训练,基于所述医学同义词标准判别模型,结合所述医学同义词生成标签、医学同义词生成模型的损失、以及医学同义词标准判别模型的损失进行二次训练,得到标准医学同义词标生成及判别模型。

图3示例了一种电子设备的实体结构示意图,如图3所示,该电子设备可以包括:处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840,其中,处理器810,通信接口820,存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令,以执行标准医学同义词的生成方法,该方法包括:

利用医学同义词生成模型根据医学文本的语义生成医学同义词;

利用医学同义词标准判别模型对所述医学同义词生成模型生成的医学同义词进行标准性判别,得到医学同义词的标准性判别结果;

通过所述医学同义词生成模型根据所述标准性判别结果来调整生成的医学同义词,得到最终生成的标准医学同义词;

其中,所述医学同义词生成模型基于医学同义词样本数据、以及医学同义词生成标签训练得到;

所述医学同义词标准判别模型基于医学同义词生成模型生成的医学同义词数据、标准医学同义词样本数据、非标准医学同义词样本数据、以及医学同义词标准判别标签训练得到。

此外,上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的标准医学同义词的生成方法,该方法包括:

利用医学同义词生成模型根据医学文本的语义生成医学同义词;

利用医学同义词标准判别模型对所述医学同义词生成模型生成的医学同义词进行标准性判别,得到医学同义词的标准性判别结果;

通过所述医学同义词生成模型根据所述标准性判别结果来调整生成的医学同义词,得到最终生成的标准医学同义词;

其中,所述医学同义词生成模型基于医学同义词样本数据、以及医学同义词生成标签训练得到;

所述医学同义词标准判别模型基于医学同义词生成模型生成的医学同义词数据、标准医学同义词样本数据、非标准医学同义词样本数据、以及医学同义词标准判别标签训练得到。

又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的标准医学同义词的生成方法,该方法包括:

利用医学同义词生成模型根据医学文本的语义生成医学同义词;

利用医学同义词标准判别模型对所述医学同义词生成模型生成的医学同义词进行标准性判别,得到医学同义词的标准性判别结果;

通过所述医学同义词生成模型根据所述标准性判别结果来调整生成的医学同义词,得到最终生成的标准医学同义词;

其中,所述医学同义词生成模型基于医学同义词样本数据、以及医学同义词生成标签训练得到;

所述医学同义词标准判别模型基于医学同义词生成模型生成的医学同义词数据、标准医学同义词样本数据、非标准医学同义词样本数据、以及医学同义词标准判别标签训练得到。

以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

相关技术
  • 标准医学同义词的生成方法、系统、设备、及介质
  • 生成运动补偿图像的医学成像设备,系统和方法和介质
技术分类

06120113677900