掌桥专利:专业的专利平台
掌桥专利
首页

文本处理方法、设备、介质和程序产品

文献发布时间:2023-06-19 18:32:25


文本处理方法、设备、介质和程序产品

技术领域

本公开的实施例总体上涉及计算机领域,并且更具体地,涉及文本处理方法、电子设备、计算机可读存储介质和程序产品。

背景技术

临床医学术语是医疗数据的重要组成部分,术语标准化技术对于临床研究和临床信息管理系统而言非常重要。然而,不同的医务人员或同一医务人员在不同的场合、时间对同一医学术语的表述可能不同,因此,需要将从电子病历(例如诊断报告)中提取的文本转换为标准术语库(例如,国际疾病分类编码ICD-10)中的标准文本。然而,人工标注的方式通常需要耗费大量人力成本和时间成本,同时,还可能存在医学专业人员的专业知识不足或误操作导致的医学术语标准化错误的情况。

已有的术语标准化技术通常通过测量基于字符串的距离或基于向量的距离来评估文本的相似性。然而,这种技术的准确度较低。因此,期望提供一种能够使文本的标准化处理更准确的方法。

发明内容

根据本公开的实施例,提供一种用于文本处理的方案,以用于通过使用混合训练方法,来提高文本的标准化处理的准确度。

在本公开的第一方面,提供了一种文本处理方法。该方法包括:获得第一训练文本以及在标准文本库中被标记为与第一训练文本匹配的第一标准文本,标准文本库包括知识领域中使用的多个标准文本;通过修改标准文本库中的第二标准文本来生成第二训练文本,第二训练文本被标记为与第二标准文本匹配;以及利用第一训练文本、第二训练文本、第一标准文本和第二标准文本,并且根据训练目标来训练被配置为生成文本的特征表示的模型,训练目标至少被确定为使模型针对第一训练文本生成的第一特征表示能够被重构为第一标准文本,并且使模型针对第二训练文本生成的第二特征表示能够被重构为第二标准文本。

根据一些可选实施例,修改标准文本库中的第二标准文本来生成第二训练文本包括通过按以下至少一项来修改第二标准文本:删除第二标准文本中的至少一个字符、词或词组;使用具有相同或相似发音的字符来替换第二标准文本中的至少一个字符;使用具有相同词根的词来替换第二标准文本中的词;以及改变第二标准文本中的字符、词或词组的顺序。

根据一些可选实施例,该方法还包括:通过修改第一训练文本来生成第三训练文本,第三训练文本被标记为与第一标准文本匹配;以及还利用第三训练文本和第一标准文本,并且根据训练目标来训练模型,训练目标还被确定为使模型针对第三训练文本生成的第三特征表示能够被重构为第一标准文本。

根据一些可选实施例,该方法还包括:对第一训练文本、第一标准文本和第二标准文本执行预处理,以格式化第一训练文本、第一标准文本和第二标准文本,其中第二训练文本基于经预处理的第二标准文本来生成。

根据一些可选实施例,训练模型包括:针对第一训练文本和第二训练文本中的每个训练文本,确定训练文本对应的向量化表示;通过将向量化表示应用到模型,来生成训练文本对应的训练特征表示;从训练特征表示生成训练文本对应的重构文本;以及通过使重构文本与训练文本匹配的标准文本之间的差异降低来更新模型的参数集,以满足训练目标。

根据一些可选实施例,确定训练文本对应的向量化表示包括:提取训练文本在多个维度上的多个单维度向量化表示;以及通过合并多个单维度向量化表示来确定向量化表示。

根据一些可选实施例,提取多个单维度向量化表示包括提取以下多个单维度向量化表示中的至少一项:在语义维度上提取训练文本对应的语义向量化表示;在文本维度上提取训练文本包括的多个文本单元对应的多个单元向量化表示,多个文本单元包括字符、词和词组中的至少一项;以及在发音维度上提取训练文本的全部或部分发音对应的发音向量化表示。

在本公开的第二方面,提供了一种文本处理方法。该方法包括:利用根据第一方面的方法训练的模型,确定目标文本对应的目标特征表示;获得标准文本库中的多个标准文本对应的多个标准特征表示;确定目标特征表示与多个标准特征表示之间的多个表示相似度得分;以及至少基于多个表示相似度得分,确定多个标准文本中与目标文本匹配的标准文本。

根据一些可选实施例,至少基于多个表示相似度得分确定与目标文本匹配的标准文本包括:基于多个表示相似度得分,从多个标准文本选择针对目标文本的多个候选标准文本;确定目标文本与多个候选标准文本之间的多个文本相似度得分;基于多个表示相似度得分和多个文本相似度得分,确定目标文本与多个候选标准文本之间的多个置信度得分;以及基于多个置信度得分,从多个候选标准文本中选择与目标文本匹配的标准文本。

根据一些可选实施例,多个标准特征表示由模型确定。

在本公开的第三方面,提供了一种电子设备。该设备包括:处理单元;以及存储器,耦合至处理单元并且包含存储于其上的指令,指令在由处理单元执行时使设备执行以下动作:获得第一训练文本以及在标准文本库中被标记为与第一训练文本匹配的第一标准文本,标准文本库包括知识领域中使用的多个标准文本;通过修改标准文本库中的第二标准文本来生成第二训练文本,第二训练文本被标记为与第二标准文本匹配;以及利用第一训练文本、第二训练文本、第一标准文本和第二标准文本,并且根据训练目标来训练被配置为生成文本的特征表示的模型,训练目标至少被确定为使模型针对第一训练文本生成的第一特征表示能够被重构为第一标准文本,并且使模型针对第二训练文本生成的第二特征表示能够被重构为第二标准文本。

根据一些可选实施例,该设备可以实现第一方面的方法的各种实施例。

在本公开的第四方面,提供了一种电子设备。该设备包括:处理单元;以及存储器,耦合至处理单元并且包含存储于其上的指令,指令在由处理单元执行时使设备执行以下动作:利用根据第一方面的方法训练的模型,确定目标文本对应的目标特征表示;获得标准文本库中的多个标准文本对应的多个标准特征表示;确定目标特征表示与多个标准特征表示之间的多个表示相似度得分;以及至少基于多个表示相似度得分,确定多个标准文本中与目标文本匹配的标准文本。

根据一些可选实施例,该设备可以实现第二方面的方法的各种实施例。

在本公开的第五方面,提供了一种计算机可读存储介质,其上存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现根据第一方面的方法或者根据第二方面的方法的各种实施例。

在本公开的第六方面,提供了一种计算机程序产品,包括计算机程序,计算机程序被处理器执行时实现根据第一方面的方法或者根据第二方面的方法的各种实施例。

根据本公开的各种实施例,通过使用混合训练方法,使得模型能够更好地学习文本的特征表示,由此提高文本标准化处理的准确度。

附图说明

通过参考附图阅读下文的详细描述,本公开的上述以及其他目的、结构和特征将更加清楚。在附图中,以示例性而非限制性的方式示出了本公开的若干实施例,其中:

图1示出了能够在其中实施本公开的多个实现的环境的框图;

图2示出了根据本公开的一些实施例的用于特征表示生成模型的模型训练系统的示意图;

图3示出了根据本公开的一些实施例的特征表示生成模型示例结构的框图;

图4示出了根据本公开的一些实施例的用于训练特征表示生成模型的文本处理过程的流程图;

图5示出了根据本公开的一些实施例的特征表示生成模型的训练的框图;

图6示出了根据本公开的一些实施例的训练特征表示生成模型的过程的流程图;

图7示出了根据本公开的一些实施例的确定重构文本的过程的示意图;

图8示出了根据本公开的一些实施例的标准文本的确定的框图;

图9示出了根据本公开的一些实施例的确定标准文本的过程的流程图;以及

图10示出了其中可以实施本公开的一个或多个实施例的计算设备的框图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。

在本公开的实施例的描述中,表述“包括”及其类似用语应当理解为开放性包含,即“包括但不限于”。表述“基于”应当理解为“至少部分地基于”。表述“一个实施例”或“该实施例”应当理解为“至少一个实施例”。表述“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。

如本文中所使用的,表述“模型”可以从训练数据中学习到相应的输入与输出之间的关联,从而在训练完成后可以针对给定的输入,生成对应的输出。模型的生成可以基于机器学习技术。深度学习是一种机器学习算法,通过使用多层处理单元来处理输入和提供相应输出。神经网络模型是基于深度学习的模型的一个示例。在本文中,“模型”也可以被称为“机器学习模型”、“学习模型”、“机器学习网络”或“学习网络”,这些表述在本文中可互换地使用。

“神经网络”是一种基于深度学习的机器学习网络。神经网络能够处理输入并且提供相应输出,其通常包括输入层和输出层以及在输入层与输出层之间的一个或多个隐藏层。在深度学习应用中使用的神经网络通常包括许多隐藏层,从而增加网络的深度。神经网络的各个层按顺序相连,从而前一层的输出被提供作为后一层的输入,其中输入层接收神经网络的输入,而输出层的输出作为神经网络的最终输出。神经网络的每个层包括一个或多个节点(也称为处理节点或神经元),每个节点处理来自上一层的输入。

通常,机器学习大致可以包括三个阶段,即训练阶段、测试阶段和使用阶段(也称为推理阶段)。在训练阶段,给定的模型可以使用大量的训练数据进行训练,不断迭代更新参数值,直到模型能够从训练数据中获取一致的满足预期目标的推理。通过训练,模型可以被认为能够从训练数据中学习从输入到输出之间的关联(也称为输入到输出的映射)。经训练的模型的参数值被确定。在测试阶段,将测试输入应用到训练后的模型,测试模型是否能够提供正确的输出,从而确定模型的性能。在使用阶段,模型可以被用于基于训练得到的参数值,对实际的输入进行处理,确定对应的输出。

如上文简述的,期望提高文本的标准化处理的准确度,特别是在对文本的标准化和规范化要求较高的领域中。例如,在临床研究和临床信息管理领域,医生撰写的诊断报告中的文本可能与标准术语库中的标准文本有一定差异。这样的差异可能由于打字错误、简写、缩写或者顺序颠倒等原因造成。期望建立输入文本和相应标准文本之间的映射系统。

一些研究方向致力于通过测量基于文本串的距离或基于向量的距离来评估文本的相似性。根据最小编辑距离(MED)方法,通过计算将一个文本转换为另一文本所需的步骤来衡量两个文本之间的相似性。这种基于文本串的方法对于文本之间的字符相似性的要求严格,但是对于简写和顺序颠倒等问题(例如,输入文本“肺癌”和对应的标准文本“肺恶性肿瘤”)不能获得令人满意的准确度。对于基于向量的方法,尽管可以通过庞大复杂的计算来捕获文本的语义和语义信息,但是由于该方法依赖于训练阶段使用的语料库,因此仅使用该方法并不能获得令人满意的准确度。此外,在医学术语标准化方面,已有的基于注意的自动编码方法的深度学习模型虽然可以解决打字错误的问题,但是针对医生撰写的大量非标准化数据,不能获得令人满意的准确度。因此,需要一个更为高效的方式来提高准确度。

图1示出了能够在其中实施本公开的多个实现的环境100的框图。在图1的环境100中,期望训练出这样的机器学习模型,使该模型能够生成输入的文本的特征表示。该特征表示能够更好地表征文本的语义,从而有助于在文本标准化任务中衡量文本之间的相似度,进而实现目标文本到标准文本的映射。

如图1所示,环境100包括模型训练系统106和模型应用系统112。模型训练系统106可以被配置为训练特征表示生成模型108。特征表示生成模型108的训练数据可以包括标准文本库102和文档104。标准文本库102可以包括知识领域中使用的多个标准文本。文档104可以包括一个或多个未被标准化的文本。经过训练过程,特征表示生成模型108可以具有经训练的参数集。经训练的特征表示生成模型108所生成的特征表示可以通用于各种目标文本的标准化处理。

在图1中,模型应用系统112可以被配置为利用特征表示生成模型108和文本相似度确定模型116确定目标文本110对应的标准文本118。具体而言,模型应用系统112可以被配置为利用特征表示生成模型108来确定目标文本110对应的目标特征表示以及标准文本库114中的多个标准文本对应的多个标准特征表示。模型应用系统112可以进一步被配置为基于多个标准特征表示以及目标文本110对应的目标特征表示,利用文本相似度确定模型116确定目标文本110对应的标准文本118。多个标准特征表示可以被存储在模型应用系统112或其他计算设备的存储器中,并且被模型应用系统112反复利用。

模型训练系统106和模型应用系统112可以在单个计算设备或者多个计算设备来实现。模型训练系统106可以被实现为在与实现模型应用系统112的设备不同的设备上。当然,在一些情况下,模型训练和模型使用也可以被实现在同一个设备或同一组设备上。这取决于实际的计算资源部署的需要。

目标文本110对应的标准文本118可以被包括在标准文本库114中。标准文本库114可以包括特定知识领域中使用的多个标准文本。标准文本库114中包括的标准文本可以与标准文本库102中的标准文本完全相同、部分相同或者完全不同。作为示例,在医学领域,标准文本库102和标准文本库114可以是国际疾病分类编码ICD-10,并且文档104和目标文本110可以来源于由医生撰写的电子病历,和/或可以包括诸如各种医学诊断和治疗方法的文本描述等。

在本文中,“文档”指的是部分或全部呈现自然语言形式的文本的对象。一些文档可以包括图像,其中可以识别出文本。图像格式的文档例如可以是手写、打印或扫描版本的文档,或者是数字捕获的图像。文档的其他示例可以包括数字生成的文档,诸如文本文件、PDF文件、扩展标记语言(XML)文件、或者其他结构化或半结构化文档,以及能够从中提取文本串的其他文档。

文档104和目标文本110的处理可以基于文本单元来实现。在本文中,“文本单元”指的是在自然语言处理中所使用的文本单位。文本单元的粒度可以根据具体应用和/或文本所采用的语言而改变和设置。例如,文本单元可以包括字符、词、短语、符号、前述的组合,或者任何其他在自然语言表达中会出现的单元。例如,对于中文,文本单元可以是单个词、词语或者词组等。对于英文,文本单元可以包括字符、单词、由多个单词组成的词组等。文本单元的划分可以通过各种分词技术来实现。每个文本单元中的字符和/或单词的数目可能取决于分词的粒度。

文本标准化可以被应用在各种领域中,用于实现自动化的术语标准化、数据管理和数据分析等。作为示例,在医学领域,期望通过文本标准化技术,将医生撰写的电子病历中的文本自动转换为标准术语库(例如,ICD-10)中的标准文本,以便归档到医院信息系统(HIS),并用于临床数据研究。文本标准化还可以应用于各种其他领域中。在下文中,可能参考医学领域来描述本公开的一些实施例。然而,应当理解,本公开提出的文本标准化方法还可以被应用到其他知识领域,诸如教育领域、财务领域、工业制造领域等等。这里的“知识领域”的划分可以是各种粒度的。

特征表示生成模型108可以被配置为支持各种长度的文本的输入。由特征表示生成模型108所生成的文本的特征表示通常可以由一定维度的数值组成。不同文本的特征表示的维度可以相同,但其中包含的数值不同。

文本的特征表示期望能够尽可能区分不同文本的不同语义。特征表示的准确性主要取决于对模型的训练。当前提出了很多训练方法来训练模型以用于生成特征表示。然而,当前很多模型在准确性上仍有不足,对于一些相似成分较多但语义不同的文本,或者对于相似成分较少但语义相同的文本,所确定的特征表示并不能准确体现语义差异。作为示例,标准文本“多发性穿刺伤”和“多发性切割伤”看起来非常相似但是语义不同;文本“肺癌”和标准文本“肺恶性肿瘤”的相似成分较少但是语义相同。已有模型可能会将“多发性穿刺伤”和“多发性切割伤”的特征表示生成为非常相似,因为这两个文本的公共成分(包括“多发性”和“伤”)较多,并且文本结构相近;但是可能会将“肺癌”和“肺恶性肿瘤”的特征表示生成为非常不同,因为这两个文本的公共成分(包括“肺”)很少,并且文本结构非常不同。

本公开的实施例提出了一种用于训练特征表示生成模型的方案。根据该方案,利用来自文档的文本作为第一训练文本,并且在标准文本库中与第一训练文本匹配的标准文本被标记,并且被用作第一标准文本。来自标准文本库的标准文本被修改以用作第二训练文本,并且来自标准文本库的该对应标准文本被标记为与第二训练文本匹配,并且被用作第二标准文本。利用第一训练文本和第一标准文本对特征表示生成模型进行有监督的训练,并且利用第二训练文本和第二标准文本对特征表示生成模型进行无监督或自监督的训练。特征表示生成模型的训练目标至少可以被确定为使模型针对第一训练文本生成的第一特征表示能够被重构为第一标准文本,并且使模型针对第二训练文本生成的第二特征表示能够被重构为第二标准文本。

在根据本公开的实施例的模型训练过程中,第一训练文本具有预先标注的第一标准文本,构成有监督的训练样本对。通过自动修改第二标准文本来生成第二训练文本,从而形成另外的训练样本对。这样构造的训练样本对称为“无监督”的训练样本对,因为第二训练样本并非预先标注为与第二标准文本匹配的。通过这种混合训练方案得到的模型能够更好地将输入文本的特征表示确定为与相同语义的文本的特征表示更接近,而与不同语义的文本的特征表示差别更大,使得文本的特征表示在语义区分上更准确。由于在语义区分方面的优势,所生成的特征表示可以有助于后续文本处理任务更好地执行。

以下将继续参考附图描述本公开的一些示例实施例。

图2示出了根据本公开的一些实施例的用于特征表示生成模型108的模型训练系统106的示意图。为便于讨论,参考图1来讨论模型的训练,因此在图2中示出了模型训练系统106被配置为训练特征表示生成模型108。模型训练系统106可以包括预处理模块202、文本修改模块204、特征表示生成模型108和参数更新模块206。

预处理模块202可以被配置为对输入到模型训练系统106的文本执行一个或多个预处理操作,以使经预处理的文本被格式化为符合相同的书写规范。预处理操作可以包括但不限于:去除标点符号、大小写转换、全角半角转换、数字标准化(例如,将数字“5”统一替换为“五”)、简写替换、去除重复的相同文本等。输入到模型训练系统106的文本可以包括来自标准文本库102的标准文本和来自文档104的未被标准化的文本。对标准文本和未被标准化的文本的预处理操作可以一起执行,也可以分开执行。

经过预处理操作后,来自文档104的未被标准化的文本可以被用作特征表示生成模型108的第一训练文本。在标准文本库102中包括的与第一训练文本匹配的标准文本被标记,并且经过预处理操作后被用作特征表示生成模型108的第一标准文本。例如,第一训练文本可以是“胆结石”,而在标准文本库102中所附上的第一标准文本可以是“胆石症”。在一些实施例中,可以由用户手动标注识别出与第一训练文本匹配的标准文本。除此之外或者作为备选,还可以借助其他工具来标注与第一训练文本匹配的标准文本。类似地,标准文本库102中的其他标准文本可以被预处理。

文本修改模块204可以被配置为修改来自标准文本库102的标准文本以用作特征表示生成模型108的第二训练文本。来自标准文本库102的该对应标准文本被标记为与第二训练文本匹配,并且被用作特征表示生成模型108的第二标准文本。

在一个实施例中,文本修改模块204可以通过以一定的概率按以下至少一种修改方式来修改第二标准文本来生成第二训练文本:删除第二标准文本中的至少一个字符、词或词组;使用具有相同或相似发音的字符来替换第二标准文本中的至少一个字符;使用具有相同词根的词来替换第二标准文本中的词;以及改变第二标准文本中的字符、词或词组的顺序。作为示例,文本修改模块204可以将“急性出血性坏死性肠炎”修改为“急性出血坏死性肠炎”,或者将“溃疡性小肠结肠炎”修改为“溃疡性结肠炎”,以模拟医生漏打字、少打字或者采用简写或缩写的情形;可以将“流行性感冒性咽炎”修改为“流行性感冒型咽炎”,以模拟医生在采用拼音输入法时产生同音词的错误输入的情形;或者可以将“早期胃癌”修改为“胃癌早期”,以模拟不同医生的撰写习惯。

文本修改模块204可以对文本应用不同的文本修改规则。应当理解,除中文中可能出现的同音词替换之外,还可以根据不同语言的特点,对文本进行修改,以模拟不同的人由于不同的语言特点、用语习惯或者输入法等而对同一文本产生的各种可能的变型。作为示例,对于英文而言,还可以将英文单词修改为对应的同根词,例如,将“shortness ofbreath”修改为“short of breath”或者“shortness of breathing”。

在一个实施例中,第二标准文本可以不被修改,而是直接用作特征表示生成模型108的第二训练文本。换句话说,标准文本库中的标准文本可以通过随机地(例如,以一定概率)进行修改或者不被修改而被用作特征表示生成模型108的第二训练文本。经修改以用作训练文本的标准文本与直接用作训练文本的标准文本的数目和比例可以是预先设置的,并且可以被改变。

特征表示生成模型108可以被配置为至少利用第一训练文本、第二训练文本、第一标准文本和第二标准文本,并且根据训练目标进行训练。训练目标可以至少被确定为使特征表示生成模型108针对第一训练文本生成的第一特征表示能够被重构为第一标准文本,并且使特征表示生成模型108针对第二训练文本生成的第二特征表示能够被重构为第二标准文本。

在一些实施例中,文本修改模块204可以被配置为修改第一训练文本以用作特征表示生成模型108的第三训练文本。第一标准文本被标记为与第三训练文本匹配。特征表示生成模型108还可以被配置为利用第三训练文本和第一标准文本,并且根据训练目标进行训练。训练目标还可以被确定为使特征表示生成模型108针对第三训练文本生成的第三特征表示能够被重构为第一标准文本。

以上描述了(第一训练文本、第一标准文本),(第二训练文本、第二标准文本)以及(第三训练文本、第三标准文本)这些不同的训练样本对,其中的标准文本被认为是标准文本库中与训练文本匹配的文本。应当理解,为了达到训练目标,可以生成更多数目的类似训练样本对来训练特征表示生成模型108。

下面将结合图3详细描述特征表示生成模型108。

图3示出了根据本公开的一些实施例的特征表示生成模型108的示例结构的框图。特征表示生成模型108可以包括向量化表示提取模块304、特征表示生成模块312和重构模块316。

向量化表示提取模块304可以被配置为接收输入文本302,并且确定输入文本302对应的向量化表示310。输入文本302可以是在模型训练阶段期间向特征表示生成模型108提供的训练文本,例如关于图2所描述的第一训练文本、第二训练文本或者第三训练文本。输入文本302还可以是来自标准文本库114的标准文本或者在模型应用阶段期间向特征表示生成模型108提供的待标准化的文本(或称为“目标文本”)。向量化表示提取模块304可以包括单维度向量化表示提取模块306和向量化表示合并模块308。

单维度向量化表示提取模块306可以被配置为接收输入文本302,并且提取输入文本302在多个维度上的多个单维度向量化表示q

在一个实施例中,多个维度可以包括语义维度、文本维度、发音维度中的一个或多个维度。在一个实施例中,单维度向量化表示提取模块306可以在语义维度上提取输入文本302对应的语义向量化表示。例如,单维度向量化表示提取模块306可以使用预训练的语言模型(诸如,来自基于转换器的双向编码器预训练语言模型(BERT))来提取输入文本302对应的语义向量化表示。预训练的语言模型可以通过大量的全长文本(例如,维基百科等)进行预训练,从而获得文本对应的语义信息。在一个实施例中,单维度向量化表示提取模块306可以直接采用预训练的语言模型经预训练而获得的参数。在另一实施例中,预训练的语言模型的参数还可以通过利用知识领域的数据库进行微调。例如,在医学领域,可以利用医学领域的数据库(例如,用于各种疾病诊断和治疗的标准、专业词典、教科书等)来微调预训练的语言模型的参数。

备选地或附加地,单维度向量化表示提取模块306可以在文本维度上提取输入文本302包括的多个文本单元对应的多个单元向量化表示,该多个文本单元包括字符、词和词组中的至少一项。文本单元的划分可以通过各种分词技术来实现。备选地或附加地,单维度向量化表示提取模块306可以在发音维度上提取输入文本302的全部或部分发音对应的发音向量化表示。

向量化表示合并模块308可以通过合并输入文本302在多个维度上的多个单维度向量化表示q

特征表示生成模块312可以被配置为生成向量化表示310对应的特征表示314。重构模块316可以被配置为从特征表示314生成输入文本302对应的重构文本318。在一些实现中,特征表示生成模块312和重构模块316可以由AutoEncoder模型来实现,其中AutoEncoder模型包括编码器和解码器。特征表示生成模块312可以被实现为AutoEncoder模型中的编码器,用于将输入文本编码为特征表示,重构模块316可以被实现为AutoEncoder模型中的解码器,用于从编码器输出的特征表示中解码出对应的文本。

返回到图2,特征表示生成模型108可以被配置为生成训练文本(例如,第一训练文本、第二训练文本或者第三训练文本)对应的训练特征表示,并且从训练特征表示生成训练文本对应的重构文本。参数更新模块206可以被配置为通过使由特征表示生成模型108生成的重构文本与训练文本匹配的标准文本(即,第一训练文本、第二训练文本或者第三训练文本分别匹配的第一标准文本、第二标准文本或者第一标准文本)之间的差异降低,来生成特征表示生成模型108的更新的参数集208。经过训练过程,特征表示生成模型108的参数集被进一步更新和精细调整。这样的参数集更新可以不断迭代执行,直到满足训练目标。在训练完成后,特征表示生成模型108具有已训练的参数值。基于这样的参数值,特征表示生成模型108能够被用于实现目标文本的标准化处理。

以下将结合图4-图7详细描述训练特征表示生成模型的过程。

图4示出了根据本公开的一些实施例的用于训练特征表示生成模型108的文本处理过程400的流程图。文本处理过程400可以由模型训练系统106来实现。

在框410,模型训练系统106从文档104获得第一训练文本,并且从标准文本库102获得被标记为与第一训练文本匹配的第一标准文本。

在框420,模型训练系统106通过修改标准文本库102中的第二标准文本来生成第二训练文本,第二训练文本被标记为与第二标准文本匹配。备选地或附加地,模型训练系统106还可以通过修改第一训练文本来生成第三训练文本,第三训练文本被标记为与第一标准文本匹配。

在框430,模型训练系统106至少利用第一训练文本、第二训练文本、第一标准文本和第二标准文本,并且根据训练目标来训练特征表示生成模型108,训练目标至少被确定为使特征表示生成模型108针对第一训练文本生成的第一特征表示能够被重构为第一标准文本,并且使特征表示生成模型108针对第二训练文本生成的第二特征表示能够被重构为第二标准文本。备选地或附加地,训练目标还可以被确定为使特征表示生成模型108针对第三训练文本生成的第三特征表示能够被重构为第一标准文本。

图5示出了根据本公开的一些实施例的特征表示生成模型108的训练的框图。图6示出了根据本公开的一些实施例的训练特征表示生成模型108的过程600的流程图。下文将结合图5来描述过程600。

在框610,向量化表示提取模块304接收训练文本502,并且确定训练文本502对应的向量化表示504。训练文本502可以包括第一训练文本、第二训练文本或可选的第三训练文本。

在框620,特征表示生成模块312将向量化表示504作为输入来生成向量化表示504对应的训练特征表示506。

在框630,重构模块316从训练特征表示506生成训练文本502对应的重构文本508。

在框640,参数更新模块206通过使重构文本508与训练文本502匹配的标准文本510之间的差异降低,来生成特征表示生成模型108的更新的参数集208。标准文本510可以包括第一训练文本和可选的第三训练文本匹配的第一标准文本以及第二训练文本匹配的第二标准文本。

在一个实施例中,训练文本502中所包括的第一训练文本、第二训练文本和可选的第三训练文本的数目和比例可以是预先设置的,并且可以被改变。

图7示出了根据本公开的一些实施例的确定重构文本的过程700的示意图。图7示出了三个示例性的文本处理过程702、704和706。

在文本处理过程702中,来自标准文本库102中的文本“急性坏死性胰腺炎、重症”可以首先经过预处理阶段710而被预处理为“急性坏死性胰腺炎重症”以用作标准文本;然后经过文本修改阶段720而被修改为“急性坏死型胰腺炎重”以用作训练文本;再经过特征表示生成阶段730生成训练文本“急性坏死型胰腺炎重”对应的训练特征表示;最后,经过重构阶段740生成训练文本“急性坏死型胰腺炎重”对应的重构文本。特征表示生成模型108的训练目标是使得文本处理过程702最终获得的重构文本为标准文本“急性坏死性胰腺炎重症”。

备选地或附加地,在文本处理过程702中,经预处理的文本“急性坏死性胰腺炎重症”可以在文本修改阶段720中不被修改,从而使得文本“急性坏死性胰腺炎重症”作为特征表示生成模型108的训练文本。特征表示生成模型108的训练目标是使得特征表示生成模型108针对训练文本“急性坏死性胰腺炎重症”生成的特征表示能够被重构为标准文本“急性坏死性胰腺炎重症”。在文本处理过程702中,标准文本可以随机地(例如,以一定概率)进行修改或者不被修改而生成训练文本。经修改以用作训练文本的标准文本的数目和比例与直接用作训练文本的标准文本的数目和比例可以是预先设置的,并且可以被改变。

在文本处理过程704中,来自文档104中的文本“肺癌(恶性)”可以首先经过预处理阶段710而被预处理为“肺癌恶性”;然后经过文本修改阶段720而被修改为“肺癌恶”以用作训练文本;再经过特征表示生成阶段730生成训练文本“肺癌恶性”对应的训练特征表示;最后,经过重构阶段740生成训练文本“肺癌恶”对应的重构文本。特征表示生成模型108的训练目标是使得文本处理过程702最终获得的重构文本为标准文本库102中的被标记为与训练文本“肺癌恶”匹配的标准文本“肺恶性肿瘤”。

在文本处理过程704中,来自文档104中的文本“肺癌(恶性)”可以首先经过预处理阶段710而被预处理为“肺癌恶性”以用作训练文本;并且在文本修改阶段720不被修改;然后经过特征表示生成阶段730生成训练文本“肺癌恶性”对应的训练特征表示;最后,经过重构阶段740生成训练文本“肺癌恶性”对应的重构文本。特征表示生成模型108的训练目标是使得文本处理过程702最终获得的重构文本为标准文本库102中的被标记为与训练文本“肺癌恶性”匹配的标准文本“肺恶性肿瘤”。

在一个实施例中,在文本修改阶段720期间进行文本修改处理的文本的数目和比例可以是预先设置的,并且可以被改变。通过文本修改处理,可以增加用于训练特征表示生成模型108的训练样本的数目,并且提高获取训练样本的效率,同时可以丰富训练样本的多样性,从而提高特征表示生成模型108对于不同的输入文本进行重构的能力。

可以理解,在文本处理过程702中,对特征表示生成模型108进行无监督或自监督的训练;并且在文本处理过程704和706中,对特征表示生成模型108进行有监督的训练。在一个实施例中,文本处理过程702、704和706的数目和比例可以是预先设置的,并且可以被改变。通过这种混合训练方案得到的模型能够更好地将输入文本的特征表示确定为与相同语义的文本的特征表示更接近,而与不同语义的文本的特征表示差别更大,使得文本的特征表示在语义区分上更准确。

经过参考图2-图7所讨论的训练过程,经训练的特征表示生成模型108可以被用于实现目标文本的标准化处理等。由于特征表示生成模型108在训练阶段已经学习到如何更好地提取特征表示,因此在针对特定目标文本的标准化处理中能够展示非常好的性能。

图8示出了根据本公开的一些实施例的标准文本的确定的框图。图9示出了根据本公开的一些实施例的确定标准文本的过程900的流程图。过程900可以由模型应用系统112来实现。模型应用系统112可以包括经训练的特征表示生成模型108和文本相似度确定模型116。在模型应用系统112中使用的特征表示生成模型108可以被实现为参照图3描述的特征表示生成模型108。应当理解,在模型应用系统112中使用的特征表示生成模型108中,重构模块316可以被省略,并且特征表示生成模型108可以被用于生成输入文本(例如,目标文本110或者来自标准文本库114的标准文本)对应的特征表示。文本相似度确定模型116可以包括表示相似度得分计算模块804和文本相似度得分计算模块812。在一个实施例中,文本相似度确定模型116还可以包括置信度模型816。

在框910,模型应用系统112利用经训练的特征表示生成模型108,确定目标文本110对应的目标特征表示802。

在框920,模型应用系统112获得标准文本库114中的多个标准文本对应的多个标准特征表示806。多个标准特征表示806可以被配置为由经训练的特征表示生成模型108确定。在一个实施例中,在特征表示生成模型108被训练完成后,标准文本库114中的多个标准文本可以作为输入文本被输入到特征表示生成模型108中,以获得多个标准文本对应的多个标准特征表示806。多个标准特征表示806可以被存储在模型应用系统112或其他计算设备的存储器中,并且在过程900期间被反复利用,从而提高模型应用过程的计算效率。

在框930,模型应用系统112利用表示相似度得分计算模块804确定目标特征表示802与多个标准特征表示806之间的多个表示相似度得分808。表示相似度得分可以用于衡量目标特征表示802与一个标准特征表示806之间的相似度或相关性。例如,表示相似度得分越高,意味着目标特征表示802与标准特征表示806之间的相似度或相关性越高。

在一个实施例中,由于特征表示可以被认为是多维度的向量,可以通过计算目标特征表示802与多个标准特征表示806之间的余弦相似度来来确定这些特征表示之间的表示相似度得分。当然,还可以利用其它能够表征向量之间的距离或差异的指标来计算特征表示之间的表示相似度得分。由于特征表示生成模型108被训练为生成的特征表示能够更好地表征输入文本的语义,因此表示相似度得分808可以更准确地衡量目标特征表示与相应的标准特征表示之间的相似度。

在框940,模型应用系统112至少基于多个表示相似度得分808,确定多个标准文本中与目标文本匹配的标准文本118。

在一个实施例中,模型应用系统112可以基于多个表示相似度得分808,从多个标准文本选择针对目标文本110的候选标准文本列表810。候选标准文本列表810可以包括多个候选标准文本。例如,对于目标文本“坏死性小肠结肠炎”,模型应用系统112可以基于目标文本“坏死性小肠结肠炎”的特征表示与多个标准特征表示之间的多个表示相似度得分,确定具有较高的表示相似度得分的候选标准文本列表,例如:“急性坏死性肠炎”、“新生儿坏死性小肠结肠炎”、“急性出血性坏死性肠炎”、“急性小肠炎”和“溃疡性小肠结肠炎”。可以理解,候选标准文本列表中的候选标准文本的数目可以被预先设置或者根据具体应用的需求进行调整,并且还可以根据表示相似度得分是否达到阈值来筛选。

文本相似度得分计算模块812可以确定目标文本110与多个候选标准文本之间的多个文本相似度得分814。模型应用系统112可以基于多个文本相似度得分814,从多个候选标准文本中选择与目标文本110匹配的标准文本118。标准文本118可以包括一个或多个标准文本。标准文本118包括的标准文本的数目可以被预先设置或者根据具体应用的需求进行调整,并且还可以根据文本相似度得分是否达到阈值来筛选。

在一个实施例中,文本相似度确定模型116还可以包括置信度模型816。置信度模型816可以基于多个表示相似度得分808和多个文本相似度得分814,确定目标文本110与多个候选标准文本之间的多个置信度得分818。在一个实施例中,置信度模型816可以根据预先训练的参数,对多个表示相似度得分808和多个文本相似度得分814进行加权求和,以确定多个置信度得分818。模型应用系统112可以基于多个置信度得分818,从多个候选标准文本中选择与目标文本110匹配的标准文本118。

模型应用系统112可以采用前结构化方式或者后结构化方式进行文本的标准化。例如,在医疗领域,当采用前结构化方式时,医生在做出诊断后向模型应用系统112输入目标文本时,模型应用系统112可以根据置信度得分向医生实时提供最佳匹配的标准文本列表,以供医生选择。标准文本列表中的标准文本可以根据置信度得分进行排序。备选地或附加地,模型应用系统112还可以将标准文本列表以及与标准文本列表对应的置信度得分一起呈现给医生。当标准文本列表中不包括正确的标准文本时,医生可以向模型应用系统112提供反馈,以指示特征表示生成模型108学习目标文本与正确的标准文本之间的映射。当采用后结构化方式时,模型应用系统112可以根据置信度得分自动地将电子病历(例如诊断报告)中的医学文本转换为标准术语库(例如,国际疾病分类编码ICD-10)中的标准文本。

图10示出了其中可以实施本公开的一个或多个实施例的计算设备1000的框图。图1的模型训练系统106和模型应用系统112的全部或部分组件可以在设备1000中被实现。

如图所示,设备1000包括处理单元1002,其可以根据存储在只读存储器(ROM)1004中的计算机程序指令或者从存储单元1016加载到随机访问存储器(RAM)1006中的计算机程序指令,来执行各种适当的动作和处理。在RAM 1006中,还可存储设备1000操作所需的各种程序和数据。处理单元1002、ROM 1004以及RAM 1006通过总线1008彼此相连。输入/输出(I/O)接口1010也连接至总线1008。

设备1000中的多个部件连接至I/O接口1010,包括:输入单元1012,例如键盘、鼠标等;输出单元1014,例如各种类型的显示器、扬声器等;存储单元1016,例如磁盘、光盘等;以及通信单元1018,例如网卡、调制解调器、无线通信收发机等。通信单元1018允许设备1000通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

处理单元1002可以是各种具有处理和计算能力的通用和/或专用处理组件。处理单元1002的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理单元1002可以执行上文所描述的各个方法和处理,例如过程400、过程600和/或过程900。例如,在一些实施例中,过程400、过程600和/或过程900可被实现为计算机软件程序,其被有形地包含于计算机可读介质,例如存储单元1016。在一些实施例中,计算机程序的部分或者全部可以经由ROM 1004和/或通信单元1018而被载入和/或安装到设备1000上。当计算机程序加载到RAM 1006并由处理单元1002执行时,可以执行上文描述的过程400、过程600和/或过程900的一个或多个步骤。备选地,在其他实施例中,处理单元1002可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行过程400、过程600和/或过程900。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)等等。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

根据本公开的示例性实现方式,提供了一种计算机可读存储介质,其上存储有计算机可执行指令或程序,其中计算机可执行指令或程序被处理器执行以实现上文描述的方法或功能。计算机可读存储介质可以包括非瞬态计算机可读介质。根据本公开的示例性实现方式,还提供了一种计算机程序产品,包括计算机可执行指令或程序,而计算机可执行指令或程序被处理器执行以实现上文描述的方法或功能。该计算机程序产品可以被有形地体现在非瞬态计算机可读介质上。

这里参照根据本公开实现的方法、装置、设备和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可执行指令或程序实现。

在本公开的上下文中,计算机可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。计算机可读介质可以是机器可读信号介质或机器可读储存介质。计算机可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

此外,虽然采用特定次序描绘了各操作,但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行,或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地,在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

相关技术
  • 图像处理方法和装置、电子设备、存储介质、程序产品
  • 图像处理方法和装置、电子设备、存储介质、程序产品
  • 图像处理方法和装置、电子设备、存储介质、程序产品
  • 文本处理方法、装置、设备、计算机设备和存储介质
  • 文本处理方法、装置、存储介质及电子设备
  • 短文本聚类处理方法、装置、设备、介质和程序产品
  • 文本处理方法、电子设备、计算机存储介质及程序产品
技术分类

06120115602756