掌桥专利:专业的专利平台
掌桥专利
首页

命名实体归一化处理方法、装置、电子设备及存储介质

文献发布时间:2023-06-19 09:38:30


命名实体归一化处理方法、装置、电子设备及存储介质

技术领域

本申请涉及数据处理技术领域,尤其涉及一种命名实体归一化处理方法、装置、电子设备及存储介质。

背景技术

命名实体(named entity)是指以人名、机构名、地名以及其他名称为标识的实体。在医学领域,医学命名实体是指称医学领域里的各种事物、现象、特性、关系和过程等,例如疾病、疾病诊断、临床症状、检查和治疗等。

医学命名实体归一化是信息提取的基本任务之一,旨在将文本中的自然语言描述实体映射到给定医学标准库中的标准实体名称,是医疗知识挖掘、医疗智能机器人、医疗临床决策支持系统等应用领域的重要基础工作。准确的医学命名实体归一化方法,便于挖掘非结构化的医学文本的价值,并为接下来医学命名实体的实际应用打好基础工作。

现有技术中,医学命名实体的归一化方法可大致分为两类,一类是利用规则模式实现,以模式和字符串相匹配为主要手段,将电子病历中的文本匹配至标准命名实体,该方法依赖于知识库和词典的建立;另一类是利用聚类和深度神经网络模型实现,该方法依赖于大量的训练数据来训练神经网络模型。上述两种方法,若要达到较高的精准度,都需要人工做大量的数据准备工作,从而导致实施效率的降低和成本的升高,而若提高实施效率和降低成本,则会带来精准度的损失。

因此,需要提供一种既能够确保检测精准度、又具有较高的实施效率和较低的实施成本的命名实体归一化方案。

发明内容

本申请实施例的目的是提供一种命名实体归一化处理方法、装置、电子设备及存储介质,以解决当前命名实体归一化处理方式精准度、效率和成本三者不能兼顾的问题。

为解决上述技术问题,本申请实施例提供如下技术方案:

本申请第一方面提供一种命名实体归一化处理方法,包括:

从文本数据中识别得到命名实体;

按照预设的文本匹配规则,从标准命名实体数据库中查找与所述命名实体或扩展命名实体匹配的第一标准命名实体,其中,所述扩展命名实体是对所述命名实体的至少一部分用词进行同义词替换得到的;

若查找到所述第一标准命名实体,则将所述第一标准命名实体确定为所述命名实体的归一化表示;

若未查找到所述第一标准命名实体,则基于词向量相似度匹配算法,从所述预设的标准命名实体数据库中确定与所述命名实体匹配的第二标准命名实体,并将所述第二标准命名实体确定为所述命名实体的归一化表示。

本申请第二方面提供一种命名实体归一化处理装置,包括:

命名实体识别模块,用于从文本数据中识别得到命名实体;

文本匹配模块,用于按照预设的文本匹配规则,从标准命名实体数据库中查找与所述命名实体或扩展命名实体匹配的第一标准命名实体,其中,所述扩展命名实体是对所述命名实体的至少一部分用词进行同义词替换得到的;

第一标准命名模块,用于若查找到所述第一标准命名实体,则将所述第一标准命名实体确定为所述命名实体的归一化表示;

相似度匹配模块,用于若未查找到所述第一标准命名实体,则基于词向量相似度匹配算法,从所述预设的标准命名实体数据库中确定与所述命名实体匹配的第二标准命名实体,并将所述第二标准命名实体确定为所述命名实体的归一化表示。

本申请第三方面提供一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器运行所述计算机程序时执行以实现本申请第一方面所述的方法

本申请第四方面提供一种计算机可读存储介质,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行以实现本申请第一方面所述的方法。

本申请第一方面提供的一种命名实体归一化处理方法,首先从文本数据中识别得到命名实体;然后按照预设的文本匹配规则,从标准命名实体数据库中查找与所述命名实体或扩展命名实体匹配的第一标准命名实体,其中,所述扩展命名实体是对所述命名实体的至少一部分用词进行同义词替换得到的;若查找到所述第一标准命名实体,则将所述第一标准命名实体确定为所述命名实体的归一化表示;若未查找到所述第一标准命名实体,则基于词向量相似度匹配算法,从所述预设的标准命名实体数据库中确定与所述命名实体匹配的第二标准命名实体,并将所述第二标准命名实体确定为所述命名实体的归一化表示。本申请上述方法,并不拘泥于规则模式或者神经网络的单一的实施方式,而是将二者有机地进行了结合,首先利用相对简单的文本匹配规则进行初步匹配,文本匹配失败后再利用词向量相似度匹配算法进行匹配,这样可以有效降低文本匹配规则的数据准备量,降低实施成本,由于通过文本匹配能够快速地对部分命名实体进行归一化表示,因此还可以提高整体的实施效率,对于文本匹配失败的命名实体再利用词向量相似度匹配算法进行匹配以确保精准度,从而能够兼顾精准度、效率和成本三者之间的平衡,既能够确保检测精准度、又具有较高的实施效率和较低的实施成本。

本申请第二方面提供的一种命名实体归一化处理装置、第三方面提供的一种电子设备以及第四方面提供的一种计算机可读存储介质,与本申请第一方面提供的命名实体归一化处理方法出于相同的发明构思,与其具有相同的有益效果。

附图说明

通过参考附图阅读下文的详细描述,本申请示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本申请的若干实施方式,相同或对应的标号表示相同或对应的部分,其中:

图1示意性地示出了本申请的一些实施方式所提供的一种命名实体归一化处理方法的流程图;

图2示意性地示出了本申请的一些实施方式所提供的一种命名实体归一化处理装置的示意图;

图3示意性地示出了本申请的一些实施方式所提供的一种电子设备的示意图;

图4示意性地示出了本申请的一些实施方式所提供的一种计算机可读存储介质的示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。

需要注意的是,除非另有说明,本申请使用的技术术语或者科学术语应当为本申请所属领域技术人员所理解的通常意义。

在本申请实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义,“多种”一般包含至少两种,但是不排除包含至少一种的情况。

应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。

还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的商品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种商品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的商品或者系统中还存在另外的相同要素。

另外,术语“第一”和“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

本申请实施例提供一种命名实体归一化处理方法、装置、电子设备及存储介质,下面结合附图进行示例性说明。

请参考图1,其示意性地示出了本申请的一些实施方式所提供的命名实体归一化处理方法的流程图,如图1所示,一种命名实体归一化处理方法,可以包括以下步骤:

步骤S101:从文本数据中识别得到命名实体。

需要说明的是,本申请实施例的下述部分描述中,主要以医学命名实体为例进行说明,但本申请并不限于用于医学命名实体的归一化处理,其也可以用于其他任意领域或行业命名实体的归一化处理,相应的,上述文本数据可以是指医学文本数据,也可以是其他领域或行业的文本数据,例如,智能客服、电子商务等领域的文本数据。

其中,考虑到文本数据中含有部分对命名实体识别无意义的用词或符号,或者影响命名实体识别的用词和符号,因此,在一些实施方式中,本步骤S101可以包括:

对文本数据进行数据清洗,得到清洗后的文本数据,其中,所述数据清洗包括删除停用词和/或指定符号;

基于所述清洗后的文本数据进行命名实体识别,得到命名实体。

例如,对于医学文本数据,可以通过观察发现标准命名实体和常见描述的差别,从而确定停用词,可以进一步积累形成停用词表如下表1所示:

表1

参考上述停用词表,即可对文本数据进行数据清洗,以删除文本数据中的停用词,避免停用词的存在而影响命名实体识别以及后续归一化处理的准确度。

此外,对于部分无意义的指定符号,也可以一并进行删除,其中,上述指定符号可以根据实际应用灵活设置,本申请实施例不做限定。通过删除指定符号,也可以从一定程度上提高命名实体识别和后续归一化处理的准确度。

对于清洗后的文本数据,其中可能包含长文本和短文本,上述长文本和短文本可以根据预设的文本长度阈值进行判断,例如,大于预设的文本长度阈值则判断为长文本,小于该文本长度阈值则判断为短文本,对于长文本和短文本,可以采用不同的方法进行命名实体识别,以提高识别效率,例如,在一些实施方式中,所述基于所述清洗后的文本数据进行命名实体识别,得到命名实体,包括:

针对所述清洗后的文本数据中的长文本和/或短文本,采用针对长文本的第一命名实体识别算法和/或针对短文本的第二命名实体识别算法,识别得到命名实体。

其中,上述第一命名实体识别算法可以采用现有技术提供的任意针对长文本的命名实体识别算法实现,例如,基于条件随机场(Conditional Random Field,CRF)的命名实体识别算法,基于双向长短期记忆网络BiLSTM和条件随机场CRF(即BiLSTM+CRF)的命名实体识别算法等。其中,CRF是一种常用的序列标注算法,可用于词性标注、分词、命名实体识别等任务。BiLSTM+CRF是目前比较流行的序列标注算法,其将BiLSTM和CRF结合在一起,使模型既可以像CRF一样考虑序列前后之间的关联性,又可以拥有LSTM的特征抽取及拟合能力。本申请实施例,可以参考现有技术提供的任意CRF算法或者BiLSTM+CRF算法实现。

例如,对于医学文本数据“(1牙结石Ⅰ°。是由唾液中的矿物盐沉积在牙面上的菌斑及牙垢而形成。牙结石一般不易除去”经过第一命名实体识别算法识别,可识别得到医学命名实体“牙结石”。

又如,对于医学文本数据“双眼屈光不正(右眼矫正视力低于正常标准5.0/1.0)。请注意用眼卫生,经常做眼保健操,必要时重”经过第一命名实体识别算法识别,可识别得到医学命名实体“屈光不正”。

另外,上述第二命名实体识别算法也可以采用现有技术提供的任意针对短文本的命名实体识别算法实现,例如,在实际应用中,短文本往往具有一些特征字符,例如“【4】双侧乳腺增生:”、“【12】屈光不正:”、“1、[舒张压低]”、“1、[肥胖]”等短文本中,含有特征字符“【”、“】”、“:”、“[”、“]”等,针对此种情况,上述第二命名实体识别算法可以包括基于正则表达式的命名实体识别算法,从而针对不同的文本特征,采用对应的正则表达式识别出其中包含的命名实体。

其中,上述基于正则表达式的命名实体识别算法是指利用正则表达式识别命名实体的算法,例如,对于上述文本数据“【4】双侧乳腺增生:”、“【12】屈光不正:”,可通过正则表达式r'【\d{1,2}】(.*):'处理得到命名实体“双侧乳腺增生”、“屈光不正”。对于上述文本数据“1、[舒张压低]”、“1、[肥胖]”,可通过正则表达式r'^\d{1,2}、\[(.*)\]'处理得到命名实体“双侧乳腺增生”、“屈光不正”。

以上均为示例性说明,在具体应用中,本领域技术人员可以针对短文本的具体文本特征,设置或选择合适的正则表达式来识别得到命名实体。

基于上述说明,在一些实施方式中,所述第一命名实体识别算法包括基于双向长短期记忆网络BiLSTM和条件随机场CRF的命名实体识别算法,和/或,所述第二命名实体识别算法包括基于正则表达式的命名实体识别算法。

通过上述实施方式,可以针对长文本和短文本,有区别地、针对性地进行命名实体识别,以提高命名实体识别的准确性和效率。

步骤S102:按照预设的文本匹配规则,从标准命名实体数据库中查找与所述命名实体或扩展命名实体匹配的第一标准命名实体,其中,所述扩展命名实体是对所述命名实体的至少一部分用词进行同义词替换得到的。

由于文本匹配具有简单、高效的特点,因此,本申请实施例首先对命名实体进行文本匹配,具体的,在一些实施方式中,上述按照预设的文本匹配规则,从标准命名实体数据库中查找与所述命名实体或扩展命名实体匹配的第一标准命名实体,包括:

从标准命名实体数据库中查找与所述命名实体字符串完全匹配的第一标准命名实体;

若未查找到与所述命名实体字符串完全匹配的第一标准命名实体,则从所述标准命名实体数据库中查找与扩展命名实体字符串完全匹配的第一标准命名实体。

其中,字符串完全匹配,是指命名实体与标准命名实体是一致的。容易理解的是,在实际的自然语言表述中,命名实体并不是严格统一的,其存在较多的同义表述,因此,字符串完全匹配并不足以匹配得到标准命名实体,在此基础上,可以进一步对命名实体进行扩展,得到扩展命名实体后再与标准命名实体数据库中的标准命名实体进行匹配,以得到第一标准命名实体。

具体的,本申请实施例提供了两种命名实体的扩展方式,一种是完全同义词替换,即采用命名实体的整体的同义词进行替换,另一种是部分同义词替换,即替换命名实体中的部分用词。相应的,在一些实施方式中,上述从所述标准命名实体数据库中查找与扩展命名实体字符串完全匹配的第一标准命名实体,可以包括:

对所述命名实体进行完全同义词替换,得到完全替换的扩展命名实体,并从所述标准命名实体数据库中查找与所述完全替换的扩展命名实体字符串完全匹配的第一标准命名实体;

若未查询到与所述完全替换的扩展命名实体字符串完全匹配的第一标准命名实体,则对所述命名实体进行部分同义词替换,得到部分替换的扩展命名实体,并从所述标准命名实体数据库中查找与所述部分替换的扩展命名实体字符串完全匹配的第一标准命名实体。

其中,通过完全同义词替换,得到的扩展命名实体与前述命名实体本义更为相近,基于该扩展命名实体匹配得到的第一标准命名实体具有较高的精准度。在基于完全同义词替换匹配不到第一标准命名实体的情况下,可以采用部分同义词替换的方式确定扩展命名实体,基于该扩展命名实体,虽然相较于完全同义词替换的情形,匹配得到第一标准命名实体的精准度稍差,但可以有更高的概率匹配得到第一标准命名实体,提高匹配成功率。

容易理解的是,如果完全替代的扩展命名实体能够匹配成功,目的已达成,就不再需要对部分替换的扩展命名实体进行匹配,因此,上述实施方式,可以采用较高的效率实现扩展命名实体的匹配。

其中,对于完全同义词替换的实施方式,本领域技术人员可以根据实际需求预先构建同义词映射表如下表2所示:

表2

如表2所示,当命名实体为BMI≥24、体重指数增高等都向超重对齐。词的语义、句子的语义本身就是在文字之上的抽象,计算机能够从少量文字中推理出同义词的信息,需要有不断获取的知识做支撑。因此,同义词表需要业务人员手工收集,这种方式准确率高,但是因为自然语言的灵活性,对一些长尾数据(例如,数据集中某几个类别占据了大部分的数据,而剩余的类别各自的数据很少,则数据很少的类别的数据称为长尾数据),由于其出现概率较低,难以保障召回率(召回率是指正确预测为真占全部正样本的比例),对此,可以采用人工补充的方式,每遇到一个具体的案例,向同义词映射表里补一个词的情况。

对于部分同义词替换的实施方式,在一些实施方式中,所述对所述命名实体进行部分同义词替换,得到部分替换的扩展命名实体,并从所述标准命名实体数据库中查找与所述部分替换的扩展命名实体字符串完全匹配的第一标准命名实体,包括:

对所述命名实体进行分词处理,得到多个命名实体分词;

遍历所述多个命名实体分词,将遍历到的命名实体分词替换为同义词得到部分替换的扩展命名实体,并从所述标准命名实体数据库中查找与所述部分替换的扩展命名实体字符串完全匹配的第一标准命名实体,直至查找到所述第一标准命名实体或者遍历完成。

例如,本领域技术人员可以根据实际需求预先构建部分同义词映射表,如下表3所示:

表3

基于表3,在一些具体示例中,对于命名实体,首先对其进行分词处理,若分词列表中的词语含有部分同义词映射表中的分词相等,进行替换,并进行组合与标准命名实体数据库中的标准命名实体匹配,步骤如下:

假设医学标准命名实体数据库的标准命名实体为:“高密度脂蛋白胆固醇增高”,前述步骤输出的命名实体为:“高密度脂蛋白胆固醇升高”,则:

1)对“高密度脂蛋白胆固醇升高”进行分词,得到[高密度,脂蛋白,胆固醇,升高]

2)依次对1)中的分词结果进行遍历,查找部分同义词映射表中是否存在,发现“升高”在同义词映射表中,对1)中的分词结果进行替换[高密度,脂蛋白,胆固醇,增高]

3)对更新后的分词列表组合得到新的医学命名实体,与医学标准命名实体数据库的标准命名实体进行匹配,若匹配上,则结束;否则,进入第2)步重复执行,直至查找到所述第一标准命名实体或者遍历完成。

通过上述实施方式,可以通过部分同义词替换的方式匹配出第一标准命名实体,提高文本匹配的成功率,若文本匹配成功就不必再执行后续步骤,从而可以提高命名实体归一化的成功率和效率。

步骤S103:若查找到所述第一标准命名实体,则将所述第一标准命名实体确定为所述命名实体的归一化表示。

步骤S104:若未查找到所述第一标准命名实体,则基于词向量相似度匹配算法,从所述预设的标准命名实体数据库中确定与所述命名实体匹配的第二标准命名实体,并将所述第二标准命名实体确定为所述命名实体的归一化表示。

具体的,在一些实施方式中,上述基于词向量相似度匹配算法,从所述标准命名实体数据库中确定与所述命名实体匹配的第二标准命名实体,可以包括:

计算所述命名实体与标准命名实体数据库中每个标准命名实体的最长公共子序列(Longest Common Sequence,LCS)的长度;

按照所述长度由大至小的顺序,将所述标准命名实体与所述命名实体成对依次输入预先训练的基于词向量的语义模型,通过所述语义模型将每对所述标准命名实体与所述命名实体转换为词向量并计算相似度,以及选取相似度符合预设条件的标准命名实体确定为与所述命名实体匹配的第二标准命名实体。

其中,上述预设条件可以是大于预设相似度阈值,也可以是指相似度最高,其均可以实现本申请实施例的目的,本领域技术人员可以根据实际需求灵活设置。

上述实施方式可以概括为粗筛+精排的技术构思,例如,在一些具体示例中,上述实施方式可具体实现为:

1)粗筛:采用LCS求出命名实体和标准命名实体数据库的标准命名实体的最长公共子序列,根据最长公共子序列的长度进行排序,得到候选列表,该候选列表记载成对的标准命名实体与所述命名实体及其最长公共子序列的长度。

例如,“囊性纤维病”和“囊性纤维病,伴有肺表现”的最长公共子序列是“囊性纤维病”,其长度为5。

2)精排:预先训练好基于词向量的语义模型,依次将1)中候选列表中的命名实体与标准命名实体数据库的标准命名实体作为输入,预测相似度,若相似度>预设相似度阈值,则匹配。

容易理解的是,最长公共子序列的长度较长,其相似度并不一定较高,只是相似度较高的概率较高,基于此,最长公共子序列的长度越长,命名实体与标准命名实体匹配成功的概率越高,因此,通过上述实施方式,可以更快地匹配得到第二标准命名实体,提高命名实体归一化的成功率和效率。

上述基于词向量的语义模型可以采用现有技术提供的任意基于词向量技术的语义模型实现,词向量技术是将自然语言中的词转化为稠密的向量,语义相似的词会有相似的向量表示。生成词向量的方法从一开始基于统计学(共现矩阵、SVD分解)到基于神经网络的语言模型,包括:word2vec、glove、ELMo、BERT(Bi-directional EncoderRepresentation from Transformers,以Transformers为主要框架的双向编码表征模型)。

其中,BERT具有较好的实施效果,并且为下游任务设计了简单至极的接口,解决了传统的词向量技术获取成本高,且难以学到复杂的上下文表示的问题。因此,在一些具体的实施方式中,上述基于词向量的语义模型包括BERT模型。

具体的,可以获取预先训练好的BERT模型,在此基础上对该BERT模型进行微调(Fine-Tuning)后进行应用。其中,微调是指替换掉网络的输入层(数据),使用新的数据继续训练。微调时可以选择微调全部层或部分层。通常,前面的层提取的是文本的通用特征,这些特征对许多任务都有用。后面的层提取的是与特定类别有关的特征,因此微调时常常只需要微调后面的层,其好处在于能够快速训练好一个模型,用相对较小的数据量,还能达到较好的结果。

在上述实施方式的基础上,在一些变更实施方式中,上述BERT模型的全连接层采用softmax分类器或者sigmoid分类器实现。

其中,sigmoid可以将一个真值(real value)映射到(0,1)的区间(当然也可以是(-1,1)),这样可以用来做二分类。而softmax把一个k维的real value向量(a1,a2,a3,a4…)映射成一个常数集合(b1,b2,b3,b4…)其中bi是一个0-1的常数,然后可以根据bi的大小来进行多分类的任务,如取权重最大的一维。

通过上述实施方式,可以基于更高的准确度匹配得到第二标准命名实体,从而提高命名实体归一化的准确度。

本申请实施例提供的上述至少一种命名实体归一化处理方法,首先从文本数据中识别得到命名实体;然后按照预设的文本匹配规则,从标准命名实体数据库中查找与所述命名实体或扩展命名实体匹配的第一标准命名实体,其中,所述扩展命名实体是对所述命名实体的至少一部分用词进行同义词替换得到的;若查找到所述第一标准命名实体,则将所述第一标准命名实体确定为所述命名实体的归一化表示;若未查找到所述第一标准命名实体,则基于词向量相似度匹配算法,从所述预设的标准命名实体数据库中确定与所述命名实体匹配的第二标准命名实体,并将所述第二标准命名实体确定为所述命名实体的归一化表示。本申请上述方法,并不拘泥于规则模式或者神经网络的单一的实施方式,而是将二者有机地进行了结合,首先利用相对简单的文本匹配规则进行初步匹配,文本匹配失败后再利用词向量相似度匹配算法进行匹配,这样可以有效降低文本匹配规则的数据准备量,降低实施成本,由于通过文本匹配能够快速地对部分命名实体进行归一化表示,因此还可以提高整体的实施效率,对于文本匹配失败的命名实体再利用词向量相似度匹配算法进行匹配以确保精准度,从而能够兼顾精准度、效率和成本三者之间的平衡,既能够确保检测精准度、又具有较高的实施效率和较低的实施成本。

将上述方法应用于医学命名实体的归一化,通过将规则匹配和模型匹配(即语义模型匹配)结合,实现了给定一个医学命名实体,即可获取其对应的标准医学库的标准命名实体。规则匹配块和模型匹配结合,可精准的将文本中的自然语言描述实体映射到给定医学标准库中的标准命名实体,为医学知识挖掘,医疗智能机器人,医疗临床决策支持系统等应用领域的打好基础工作。

在上述的实施例中,提供了一种命名实体归一化处理方法,与之相对应的,本申请还提供一种命名实体归一化处理装置。本申请实施例提供的命名实体归一化处理装置可以实施上述信息处理方法,该信息处理装置可以通过软件、硬件或软硬结合的方式来实现。例如,该信息处理装置可以包括集成的或分开的功能模块或单元来执行上述各方法中的对应步骤。请参考图4,其示意性地示出了本申请的一些实施方式所提供的一种命名实体归一化处理装置的示意图。由于装置实施例基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。

如图2所示,所述命名实体归一化处理装置10,用于服务端,可以包括:

命名实体识别模块101,用于从文本数据中识别得到命名实体;

文本匹配模块102,用于按照预设的文本匹配规则,从标准命名实体数据库中查找与所述命名实体或扩展命名实体匹配的第一标准命名实体,其中,所述扩展命名实体是对所述命名实体的至少一部分用词进行同义词替换得到的;

第一标准命名模块103,用于若查找到所述第一标准命名实体,则将所述第一标准命名实体确定为所述命名实体的归一化表示;

相似度匹配模块104,用于若未查找到所述第一标准命名实体,则基于词向量相似度匹配算法,从所述预设的标准命名实体数据库中确定与所述命名实体匹配的第二标准命名实体,并将所述第二标准命名实体确定为所述命名实体的归一化表示。

在本申请实施例的一些变更实施方式中,所述命名实体识别模块101,包括:

文本数据清洗单元,用于对文本数据进行数据清洗,得到清洗后的文本数据,其中,所述数据清洗包括删除停用词和/或指定符号;

命名实体识别单元,用于基于所述清洗后的文本数据进行命名实体识别,得到命名实体。

在本申请实施例的一些变更实施方式中,所述命名实体识别单元,包括:

分类识别子单元,用于针对所述清洗后的文本数据中的长文本和/或短文本,采用针对长文本的第一命名实体识别算法和/或针对短文本的第二命名实体识别算法,识别得到命名实体。

在本申请实施例的一些变更实施方式中,所述第一命名实体识别算法包括基于双向长短期记忆网络BiLSTM和条件随机场CRF的命名实体识别算法,和/或,所述第二命名实体识别算法包括基于正则表达式的命名实体识别算法。

在本申请实施例的一些变更实施方式中,所述文本匹配模块102,包括:

字符串匹配单元,用于从标准命名实体数据库中查找与所述命名实体字符串完全匹配的第一标准命名实体;

扩展匹配单元,用于若未查找到与所述命名实体字符串完全匹配的第一标准命名实体,则从所述标准命名实体数据库中查找与扩展命名实体字符串完全匹配的第一标准命名实体。

在本申请实施例的一些变更实施方式中,所述扩展匹配单元,包括:

完全替换子单元,用于对所述命名实体进行完全同义词替换,得到完全替换的扩展命名实体,并从所述标准命名实体数据库中查找与所述完全替换的扩展命名实体字符串完全匹配的第一标准命名实体;

部分替换子单元,用于若未查询到与所述完全替换的扩展命名实体字符串完全匹配的第一标准命名实体,则对所述命名实体进行部分同义词替换,得到部分替换的扩展命名实体,并从所述标准命名实体数据库中查找与所述部分替换的扩展命名实体字符串完全匹配的第一标准命名实体。

在本申请实施例的一些变更实施方式中,所述部分替换子单元,包括:

分词处理子单元,用于对所述命名实体进行分词处理,得到多个命名实体分词;

分词替换子单元,用于遍历所述多个命名实体分词,将遍历到的命名实体分词替换为同义词得到部分替换的扩展命名实体,并从所述标准命名实体数据库中查找与所述部分替换的扩展命名实体字符串完全匹配的第一标准命名实体,直至查找到所述第一标准命名实体或者遍历完成。

在本申请实施例的一些变更实施方式中,所述相似度匹配模块104,包括:

公共子序列长度计算单元,用于计算所述命名实体与标准命名实体数据库中每个标准命名实体的最长公共子序列的长度;

相似度匹配单元,用于按照所述长度由大至小的顺序,将所述标准命名实体与所述命名实体成对依次输入预先训练的基于词向量的语义模型,通过所述语义模型将每对所述标准命名实体与所述命名实体转换为词向量并计算相似度,以及选取相似度符合预设条件的标准命名实体确定为与所述命名实体匹配的第二标准命名实体。

在本申请实施例的一些变更实施方式中,所述基于词向量的语义模型包括BERT模型。

在本申请实施例的一些变更实施方式中,所述BERT模型的全连接层采用softmax分类器或者sigmoid分类器实现。

本申请实施例提供的命名实体归一化处理装置10,与本申请前述实施例提供的命名实体归一化处理方法出于相同的发明构思,具有相同的有益效果,此处不再赘述。

本申请实施方式还提供一种与前述实施方式所提供的命名实体归一化处理方法对应的电子设备,所述电子设备可以是任意具备数据处理能力的设备,以执行上述命名实体归一化处理方法。

请参考图3,其示意性地示出了本申请的一些实施方式所提供的一种电子设备的示意图。如图3所示,所述电子设备20包括:处理器200,存储器201,总线202和通信接口203,所述处理器200、通信接口203和存储器201通过总线202连接;所述存储器201中存储有可在所述处理器200上运行的计算机程序,所述处理器200运行所述计算机程序时执行本申请前述任一实施方式所提供的命名实体归一化处理方法。

其中,存储器201可能包含高速随机存取存储器(Random Access Memory,RAM),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口203(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网、广域网、本地网、城域网等。

总线202可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。其中,存储器201用于存储程序,所述处理器200在接收到执行指令后,执行所述程序,前述本申请实施例任一实施方式揭示的所述命名实体归一化处理方法可以应用于处理器200中,或者由处理器200实现。

处理器200可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器200中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器200可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器201,处理器200读取存储器201中的信息,结合其硬件完成上述方法的步骤。

本申请实施例提供的电子设备与本申请前述实施例提供的命名实体归一化处理方法出于相同的发明构思,具有与其采用、运行或实现的方法相同的有益效果。

本申请实施方式还提供一种与前述实施方式所提供的命名实体归一化处理方法对应的计算机可读介质,请参考图4,其示出的计算机可读存储介质为光盘30,其上存储有计算机程序(即程序产品),所述计算机程序在被处理器运行时,会执行前述任意实施方式所提供的命名实体归一化处理方法。

需要说明的是,所述计算机可读存储介质的例子还可以包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他光学、磁性存储介质,在此不再一一赘述。

本申请的上述实施例提供的计算机可读存储介质与本申请前述实施例提供的命名实体归一化处理方法出于相同的发明构思,具有与其存储的应用程序所采用、运行或实现的方法相同的有益效果。

需要说明的是,附图中的流程图和框图显示了根据本申请的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM,)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围,其均应涵盖在本申请的权利要求和说明书的范围当中。

相关技术
  • 命名实体归一化处理方法、装置、电子设备及存储介质
  • 实体归一化处理方法、装置、设备及存储介质
技术分类

06120112245316