掌桥专利:专业的专利平台
掌桥专利
首页

一种临床术语标准化的数量预测方法及装置

文献发布时间:2023-06-19 11:05:16


一种临床术语标准化的数量预测方法及装置

技术领域

本发明涉及数据处理技术领域,尤其涉及一种临床术语标准化的数量预测方法及装置。

背景技术

描述诊断、手术、药品、检查、化验、症状的临床术语,表达方式灵活多变,为方便对病历进行分析和归档,需将临床术语标准化为对应的标准术语,现有技术通过分隔符,利用规则切分。术语标准化时,确定标准化后对应的标准术语的数量十分重要,以表1为例,表1为手术名称标准化示例:

表1

从表1中可以看出,在手术名称标准化示例中,没有分隔符的临床术语,不一定只对应一个标准术语;临床术语分隔符多样,且分隔符划分的数量与实际标准术语的数量有差异。

现有技术存在问题为:规则切分无法处理无分隔符,但对应多个标准术语的情况。规则切分对多种分隔符的临床术语兼容性差,且很难解决标准术语数量与分隔符数量不一致的情况。

发明内容

本发明的目的是针对现有技术的缺陷,提供一种临床术语标准化的数量预测方法及装置,以解决现有技术中所存在的问题。

为解决上述问题,第一方面,本发明提供了一种临床术语标准化的数量预测方法,所述方法包括:

获取基本数据集;所述基本数据集包括多个临床术语和每个临床术语对应的标准术语集合;

确定每个临床术语对应的标准术语集合的分类标签;

对每个标准术语集合进行增强,确定增强数据集;

根据所述分类标签和所述增强数据集,通过预训练语言模型BERT进行微调,确定临床术语标准化的数量。

在一种可能的实现方式中,所述获取基本数据集具体包括:

通过开源术语标准化竞赛或者网络爬取获取基本数据集。

在一种可能的实现方式中,所述确定每个临床术语对应的标准术语集合的分类标签具体包括:

利用公式K=max

在一种可能的实现方式中,所述对每个标准术语集合进行增强,确定增强数据集具体包括:

对所述标准术语集合进行挖掘,确定所述标准术语集合中可合并的标准术语;对所述可合并的标准术语进行合并,确定合并后的标准术语为标准术语增强集;并且,

当临床术语中存在分隔符时,将存在分隔符的所述临床术语对应的标准术语集合进行扩充,将扩充后的标准术语集合确定为基本数据增强集;并且,

根据所述基本数据集、所述标准术语增强集和所述基本数据增强集,统计每个临床术语中的分隔符,并确定存在分隔符的临床术语的概率,根据确定的存在分隔符的临床术语的概率,确定分隔符增强数据集。

在一种可能的实现方式中,所述根据所述分类标签和所述增强数据集,通过预训练语言模型BERT进行微调,确定临床术语标准化的数量具体包括:

根据所述基本数据集、所述标准术语增强集、所述基本数据增强集、和所述分隔符数据增强集和所述分类标签,通过预训练语言模型BERT进行预测,得到临床术语标准化的数量。

第二方面,本发明提供了一种临床术语标准化的数量预测装置,所述装置包括:

获取单元,所述获取单元用于获取基本数据集;所述基本数据集包括多个临床术语和每个临床术语对应的标准术语集合;

确定单元,所述确定单元用于确定每个临床术语对应的标准术语集合的分类标签;

所述确定单元还用于对每个标准术语集合进行增强,确定增强数据集;

所述确定单元还用于根据所述分类标签和所述增强数据集,通过预训练语言模型BERT进行微调,确定临床术语标准化的数量。

在一种可能的实现方式中,所述获取单元具体用于:

通过开源术语标准化竞赛或者网络爬取获取基本数据集。

在一种可能的实现方式中,所述确定单元具体用于:

利用公式K=max

在一种可能的实现方式中,所述确定单元具体用于:

对所述标准术语集合进行挖掘,确定所述标准术语集合中可合并的标准术语;对所述可合并的标准术语进行合并,确定合并后的标准术语为标准术语增强集;并且,

当临床术语中存在分隔符时,将存在分隔符的所述临床术语对应的标准术语集合进行扩充,将扩充后的标准术语集合确定为基本数据增强集;并且,

根据所述基本数据集、所述标准术语增强集和所述基本数据增强集,统计每个临床术语中的分隔符,并确定存在分隔符的临床术语的概率,根据确定的存在分隔符的临床术语的概率,确定分隔符增强数据集。

在一种可能的实现方式中,所述确定单元具体用于:

根据所述基本数据集、所述标准术语增强集、所述基本数据增强集、和所述分隔符数据增强集和所述分类标签,通过预训练语言模型BFRT进行预测,得到临床术语标准化的数量。

第三方面,本发明提供了一种设备,包括存储器和处理器,存储器用于存储程序,处理器用于执行第一方面任一所述的方法。

第四方面,本发明提供了一种包含指令的计算机程序产品,当计算机程序产品在计算机上运行时,使得计算机执行如第一方面任一所述的方法。

第五方面,本发明提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如第一方面任一所述的方法。

通过应用本发明提供的临床术语标准化的数量预测方法及装置,通过数据增强,尤其是分隔符增强,可以提升模型对不同分隔符的兼容能力;也可以提高分隔符切分数量与标准术语数量不同的准确率,通过将数量预测定义为多分类问题,即使临床术语没有分隔符,也可以正确预测标准术语的数量。

附图说明

图1为本发明实施例一提供的术语标准化数量预测框图;

图2为本发明实施例一提供的临床术语标准化的数量预测方法流程示意图;

图3为本发明实施例二提供的临床术语标准化的数量预测装置结构示意图。

具体实施方式

下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。

为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包括。例如包括了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

图1为本发明实施例一提供的术语标准化数量预测框图。图2为本发明实施例一提供的临床术语标准化的数量预测方法流程示意图,该方法的执行主体为终端、服务器等具有计算功能的设备。结合图1和图2,对本发明技术方案进行详述。

步骤210,获取基本数据集;基本数据集包括多个临床术语和每个临床术语对应的标准术语集合;

其中,可以通过开源术语标准化竞赛或者网络爬取获取基本数据集D{X

步骤220,确定每个临床术语对应的标准术语集合的分类标签;

其中,对

步骤230,对每个标准术语集合进行增强,确定增强数据集;

具体的,可以通过三种方式同时来确定增强数据集,具体如下:

第一、对标准术语集合进行挖掘,确定标准术语集合中可合并的标准术语;对可合并的标准术语进行合并,确定合并后的标准术语为标准术语增强集;

举例为,从标准术语集合中挖掘可能的合并编码数据,如手术与操作分类填写标准ICD-9-CM-3中“胃部分切除术伴胃十二指肠吻合术”,扩展为“胃部分切除术+胃十二指肠吻合术;胃部分切除术伴胃十二指肠吻合术”。标准术语增强集可以记为D

第二、当临床术语中存在分隔符时,将存在分隔符的临床术语对应的标准术语集合进行扩充,将扩充后的标准术语集合确定为基本数据增强集;

举例为,如果X

第三、根据基本数据集、标准术语增强集和基本数据增强集,统计每个临床术语中的分隔符,并确定存在分隔符的临床术语的概率,根据确定的存在分隔符的临床术语的概率,确定分隔符增强数据集。

具体的,统计临床术语中的分隔符的数量及各个分隔符的概率p,分隔符可以参考附表1,如“+”,“,”,“1.”,“2.”等,具体要根据实际的数据集来看,可以人工确定可能的分隔符,并统计分隔符出现去统计数量;概率的计算方式就是某分隔符的数量除以所有分隔符的数量。

举例为,随机从集合D∪D

步骤240,根据分类标签和增强数据集,通过预训练语言模型BERT进行微调,确定临床术语标准化的数量。

具体的,根据基本数据集、标准术语增强集、基本数据增强集、和分隔符数据增强集和分类标签,通过预训练语言模型BERT进行预测,得到临床术语标准化的数量,即根据D∪D

本发明实施例提供的临床术语标准化的数量预测方法,通过数据增强,尤其是分隔符增强,可以提升模型对不同分隔符的兼容能力;也可以提高分隔符切分数量与标准术语数量不同的准确率,通过将数量预测定义为多分类问题,即使临床术语没有分隔符,也可以正确预测标准术语的数量。

图3为本发明实施例二提供的临床术语标准化的数量预测装置结构示意图,该临床术语标准化的数量预测装置应用在临床术语标准化的数量预测上,如图3所示,该装置包括获取单元310和确定单元320。

获取单元310用于获取基本数据集;基本数据集包括多个临床术语和每个临床术语对应的标准术语集合;

述确定单元320用于确定每个临床术语对应的标准术语集合的分类标签;

确定单元320还用于对每个标准术语集合进行增强,确定增强数据集;

确定单元320还用于根据分类标签和增强数据集,通过预训练语言模型BERT进行微调,确定临床术语标准化的数量。

进一步的,获取单元310具体用于:

通过开源术语标准化竞赛或者网络爬取获取基本数据集。

进一步的,确定单元320具体用于:

利用公式K=max

进一步的,确定单元320具体用于:

对标准术语集合进行挖掘,确定标准术语集合中可合并的标准术语;对可合并的标准术语进行合并,确定合并后的标准术语为标准术语增强集;并且,

当临床术语中存在分隔符时,将存在分隔符的临床术语对应的标准术语集合进行扩充,将扩充后的标准术语集合确定为基本数据增强集;并且,

根据基本数据集、标准术语增强集和基本数据增强集,统计每个临床术语中的分隔符,并确定存在分隔符的临床术语的概率,根据确定的存在分隔符的临床术语的概率,确定分隔符增强数据集。

进一步的,确定单元320具体用于:

根据基本数据集、标准术语增强集、基本数据增强集、和分隔符数据增强集和分类标签,通过预训练语言模型BERT进行预测,得到临床术语标准化的数量。

通过应用本发明实施例提供的临床术语标准化的数量预测装置,通过数据增强,尤其是分隔符增强,可以提升模型对不同分隔符的兼容能力;也可以提高分隔符切分数量与标准术语数量不同的准确率,通过将数量预测定义为多分类问题,即使临床术语没有分隔符,也可以正确预测标准术语的数量。

发明实施例三提供了一种设备,包括存储器和处理器,存储器用于存储程序,存储器可通过总线与处理器连接。存储器可以是非易失存储器,例如硬盘驱动器和闪存,存储器中存储有软件程序和设备驱动程序。软件程序能够执行本发明实施例提供的上述方法的各种功能;设备驱动程序可以是网络和接口驱动程序。处理器用于执行软件程序,该软件程序被执行时,能够实现本发明实施例一提供的方法。

本发明实施例四提供了一种包含指令的计算机程序产品,当计算机程序产品在计算机上运行时,使得计算机执行本发明实施例一提供的方法。

本发明实施例五提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现本发明实施例一提供的方法。

专业人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

相关技术
  • 一种临床术语标准化的数量预测方法及装置
  • 基于模型的临床术语的标准化方法、装置和计算机设备
技术分类

06120112792928