掌桥专利:专业的专利平台
掌桥专利
首页

实体链接方法及设备

文献发布时间:2023-06-19 19:33:46


实体链接方法及设备

技术领域

本公开实施例涉及计算机技术领域,尤其涉及一种实体链接方法及设备。

背景技术

实体链接(Entity Linking)是自然语言与知识图谱领域的基础。在知识问答,信息流推荐,文本语义理解、网页推荐及语义搜索等应用场景中,都需要进行实体链接。

目前实体链接的主要任务是判定文本中的实体提及词与预先建立的实体库的实体词条之间的链指关系。

在实际应用场景中,需要做实体链接的文本中的短文本、口语化文本较多。发明人发现,由于短文本的上下文语境不丰富,口语化文本存在较大的噪声,现有的实体链接方法对于上述文本所确定的链接实体的准确度较低。

发明内容

本公开实施例提供一种实体链接方法及设备。

第一方面,本公开实施例提供一种实体链接方法,该方法包括:确定待处理文本和候选实体的实体义项文本中至少一者的关键信息,所述待处理文本和所述实体义项文本构成句子对;确定所述关键信息对应的标签;根据所述标签生成句子对关键信息标签表示;将所述句子对关键信息标签表示输入到实体链接模型,由所述实体链接模型根据所述句子对关键信息标签表示预测所述候选实体与所述待处理文本之间的链指关系。

第二方面,本公开实施例提供一种实体链接设备,该设备包括:第一确定单元,用于确定待处理文本和候选实体的实体义项文本中至少一者的关键信息,所述待处理文本和所述实体义项文本构成句子对;第二确定单元,用于确定所述关键信息对应的标签;表示单元,用于根据所述标签生成句子对关键信息标签表示;预测单元,用于将所述句子对关键信息标签表示输入到实体链接模型,由所述实体链接模型根据所述句子对关键信息标签表示预测所述候选实体与所述待处理文本之间的链指关系。

第三方面,本公开实施例提供一种电子设备,包括:处理器和存储器;所述存储器存储计算机执行指令;所述处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如上第一方面以及第一方面各种可能的实体链接方法。

第四方面,本公开实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如上第一方面以及第一方面各种可能的实体链接方法。

第五方面,本公开实施例提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上第一方面以及第一方面各种可能的实体链接方法。

本实施例提供的实体链接方法及设备,通过确定待处理文本和候选实体的实体义项文本中至少一者的关键信息,所述待处理文本和所述实体义项文本构成句子对;确定所述关键信息对应的标签;根据所述标签生成句子对关键信息标签表示;将所述句子对关键信息标签表示输入到实体链接模型,由所述实体链接模型根据所述句子对关键信息标签表示预测所述候选实体与所述待处理文本之间的链指关系,实现了由关键信息标签表示作为实体链接模型预测候选实体与待处理文本之间的链指关系的辅助信息,便于实体链接模型确定不同关键信息之间的交互信息。提高了实体链接模型对上述链指关系进行预测的效率和准确度。

附图说明

为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为相关技术中实体链接方法一个应用场景示意图;

图2为本公开实施例提供的实体链接方法的流程示意图一;

图3为本公开实施例提供的实体链接方法的流程示意图二;

图4为本公开提供的实体链接方法的一个原理性流程图;

图5为本公开实施例提供的实体链接设备的结构框图;

图6为本公开实施例提供的电子设备的硬件结构示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。

为了实现待处理文本与预先建立的实体库中的词条(实体)建立链指关系,相关技术中,是从实体库中依次提取多个实体作为候选实体,将每一个候选实体的实体义项文本分别与待处理文本组成文本对。对于每一个文本对,将该文本对中的两个文本按照预设顺序进行拼接。将句子对关键信息标签表示输入到机器学习模型,由机器学习模型对该文本对中的待处理文本与候选实体的链指关系进行预测。

此外,为了解决短文本的语境不丰富,口语文本噪声较大导致的链指关系预测不准确的问题,可以将这些文本的上下文文本添加到上述文本中作为补充信息,以图丰富语境,消除噪声。

图1示出了一种实体链接方法的应用场景示意图。

待处理文本为:“我们联系一下VC的同学”从上下文语境中确定的补充信息包括“股票”。其中,上述待处理文本中的“VC”为实体词。示意性地,从实体库中确定候选实体“VCVenture Capital风险投资。指向初创企业提供资金支持并取得该公司股份的一种融资方”。根据上述待处理文本、补充信息和候选实体的实体义项文本生成句子对,将上述句子对输入到机器学习模型,来预测候选实体与待处理文本之间的链指关系。如图中,将上述待处理文本、补充信息和实体义项文本生成句子对的拼接结果:[CLS]我们联系一下VC的同学[SEP]股票[SEP]VC Venture Capital风险投资。指向初创企业提供资金支持并取得该公司股份的一种融资方[SEP]。其中[CLS]为用于提示分类任务的标志符,通常放在一个第一个句子的首位。[SEP]为分隔符。

在这些应用场景中,由于并未对上述补充信息与待处理文本进行一步进行处理,机器学习模型会对输入到其中的拼接文本做无差别处理,导致机器学习模型对文本和补充信息无法进行精准处理。从而导致的机器学习模型在确定文本与候选实体之间的链指关系时,效率和准确度较差。

为了改善上述问题,本公开提供了实体链接方法及设备,通过确定待处理文本以及候选实体的实体义项文本对应关键信息,进行关键信息标签化表示,将关键信息标签化表示与待处理文本以及候选实体的实体义项文本进行拼接,由机器学习模型对句子对关键信息标签表示进行链指关系预测,从而可以使得机器学习模型根据上述关键信息标签对关键信息进行精准处理,以提高机器学习模型进行链指关系预测的效率和准确度。

请参考图2,图2是本公开实施例提供的实体链接方法的流程示意图一。该方法应用于终端设备或者服务端。

S201:确定待处理文本和候选实体的实体义项文本中至少一者的关键信息。

这里文本关键信息包括但不限于关键词信息、文本类别信息、待处理文本中的实体词(又称实体提及)类别信息中的一种或多种。

可以通过各种方式来确定待处理文本对应的文本关键信息。

可以从待处理文本进行关键词提取,得到该待处理文本的关键词。具体地,可以使用基于统计特征的关键词提取方法、基于词图模型的关键词提取方法或者基于主题模型的关键词提取方法等来提取待处理文本的关键词。

可以根据各种对文本进行分类的方法对待处理文本进行分类。具体地,可以预先设置多个类别,然后识别待处理文本属于上述多个类别中的哪个类别。例如,上述类别可以包括根据情感设置的多个类别:正面、中立、负面。又例如,上述类别可以包括根据领域进行设置的多个类别:新闻类、财经类、体育类、娱乐类和企业事件类等。

实体词的类别可以包括预先定义的多个类别。实体词的类别包括但不限于:人物、事件、组织、硬件、软件、地点和设施等。

可以对待处理文本进行实体词识别,然后再确定各实体词的类别。例如“某公司宣布将在5月25日线上举办“2022春季B产品未来无限大会”,发布会以“XXXX”为主题。“2022春季B产品未来无限大会”被识别为一个实体词,该实体词的类别为“事件”。

候选实体的类别可以包括但不限于:人物、组织、硬件、软件、电子游戏、艺术作品、药品、奖项、疾病、动物、植物、地理、政治实体、地点和设施等。可以根据实体义项文本的语义来确定候选实体的类别。

在一些可选的实现方式中,可以将待处理文本输入到预先训练的文本分类模型,由上述文本分类模型确定待处理文本的类别。上述文本分类模型可以是经过有监督训练或无监督训练的、用于预测文本的类别的各种机器学习模型。上述文本分类模型可以为深度学习模型,上述深度学习模型可以包括卷积神经网络、使用注意力机制的循环神经网络等。

同样地可以将上述候选实体的实体义项文本输入到预先训练的上述文本分类模型中,由上述文本分类模型预测候选实体的类别。

在一些可选的实现方式中,可以将上述待处理文本输入到预先训练的命名实体识别模型(Named Entity Recognition,NER),由命名实体识别模型输出待处理文本中的实体词,以及各实体词的类别。这里的命名实体识别模型,可以是相关技术中包括卷积神经网络(CNN)与条件随机场网络(CRF)的命名实体模型,还可以是包括长短期记忆网络LSTM(longshort-termmemory)和条件随机网络的命名实体模型。

S202:确定关键信息对应的标签。

可以预先设置多个文本标签,多个实体标签。这里的文本标签可以包括字母、符号和/或数字。实体标签可以包括字母、符号和/或数字。在一些应用场景中,可以为各标签设置对应的含义。

在确定了文本关键信息和/或实体关键信息之后,可以为文本关键信息从上述多个文本标签中确定与文本关键信息对应的文本标签,为实体关键信息确定与实体关键信息对应的实体标签。

示意性地,文本标签例如可以包括[CKW],对文本关键信息A确定的文本标签可以为[CKW]。

实体标签例如可以包括[EKW]。对实体关键信息B确定的实体标签可以为[EKW]。

在根据标签生成关键信息标签表示时,可以从文本关键信息和实体关键信息中选取用作生成关键信息标签表示的信息。

S203:根据标签生成句子对关键信息标签表示。

作为一种实现方式,可以选取文本关键信息来生成关键信息标签表示。

示意性,上述文本关键信息标签表示可以表示如下:[CKW]文本关键信息。这里的“[CKW]”可以为文本标签。

句子对关键信息标签标识如下:[CLS]待处理文本[CKW]文本关键信息[SEP]实体义项文本[SEP]。

其中,[CLS]为用于提示分类任务的标志符,通常放在一个第一个句子的首位。

作为另外一种实现方式,可以选取实体关键信息来生成关键信息标签表示。

示意性,上述实体关键信息标签表示可以表示如下:[EKW]实体关键信息。这里的“[EKW]”可以为实体标签。

在一些应用场景中,上述句子对关键信息标签表示是由实体关键信息生成的,这里的句子对关键信息标签表示如下:[CLS]待处理文本[SEP]实体义项文本[EKW]实体关键信息[SEP]。

作为另外一种实现方式,可以选取文本关键信息和实体关键信息来生成句子对关键信息标签表示。

上述关键信息标签表示可以为[CKW]文本关键信息[SEP][EKW]实体关键信息。这里的“[SEP]”为句子间的隔离符。

上述句子对关键信息标签表示如下:[CLS]待处理文本[CKW]文本关键信息[SEP]实体义项文本[EKW]实体关键信息[SEP]。

S204:将句子对关键信息标签表示输入到实体链接模型,由实体链接模型根据句子对关键信息标签表示预测候选实体与待处理文本之间的链指关系。

上述实体链接模型可以是预先经过训练的实体链接模型。在训练时,可以使用有监督方式对实体链接模型进行训练。训练样本可以包括正样本对和负样本对。正样本对包括训练文本与训练文本关联的实体的实体义项文本。负样本对包括训练样本与训练样本不关联的实体的实体义项文本。

对于每一个训练样本对,可以事先确定该训练样本中训练文本的文本关键信息以及训练样本对中的实体的实体关键信息。然后生成该训练样本对的关键信息标签表示。将训练样本对的关键信息标签表示、训练样本对中的训练样本、实体义项文本进行拼接,得到训练样本的句子对关键信息标签表示。将训练样本的句子对关键信息标签表示输入到上述实体链接模型进行训练,从而得到训练后的实体链接模型。

经过上述训练的实体链接模型,可以根据上述关键信息标签对不同关键信息分别进行拟合,从而可以实现实体链接模型根据关键信息标签对关键信息进行精准处理,以提高机器学习模型进行链指关系预测的效率和准确度。

在模型进行链指关系预测时,可以将上述待处理文本以及候选实体的实体义项文本对应的句子对关键信息标签表示输入到上述实体链接模型,由上述实体链接模型根据上述待处理文本、关键信息标签表示以及候选实体文本预测候选实体与待处理文本之间的链指关系,例如输出候选实体为待处理文本的链接实体的置信度等。

本实施例中,确定待处理文本和候选实体的实体义项文本中至少一者的关键信息,待处理文本和实体义项文本构成句子对;确定关键信息对应的标签;根据标签生成句子对关键信息标签表示;将句子对关键信息标签表示输入到实体链接模型,由实体链接模型根据句子对关键信息标签表示预测候选实体与待处理文本之间的链指关系。实现了由关键信息标签表示作为实体链接模型预测候选实体与待处理文本之间的链指关系的辅助信息,便于实体链接模型确定不同关键信息之间的交互信息。提高了实体链接模型对上述链指关系进行预测的效率和准确度。

图3是本公开实施例提供的实体链接方法的流程示意图二。该方法应用于终端设备或者服务端。如图3所示,实体链接方法包括如下步骤:

S301:确定待处理文本和候选实体的实体义项文本中至少一者的关键信息,待处理文本和实体义项文本构成句子对。

在一些实施例中,上述步骤S301包括确定待处理文本对应的关键信息。

在这些实施例中,上述步骤S301包括如下步骤:

首先,基于预设句子文本关联规则,确定待处理文本的第一关联文本。

其次,从待处理文本与第一关联文本中,确定出多个文本关键词。

对于文章中的文本,这里的预设句子文本关联规则包括但不限于:位于同一文章中、属于同一作者、同一主题。

对于即时通信类文本,上述句子文本关联规则包括但不限于:在同一文章中查找关联文本,在同一信息发送者的多条即时通信信息中查找关联文本。在会话中查找最新的文本、上述会话的全部文本。

可以从第一关联文本和待处理文本中提取多个文本关键词,例如按照统计方法等确定上述第一关联文本和待处理文本对应的多个关键词。

上述第一关联文本是对待处理文本通过上述文本关联规则确定出的待处理文本之外的、与待处理文本相关的文本。上述第一关联文本可以作为待处理文本的补充文本。对于较短的待处理文本,有助于对较短的待处理文本补充信息,此外,对于歧义较大的口语待处理文本,由于添加了补充信息,有助于对口语待处理文本进行消歧。

另外,从待处理文本和第一关联文本中提取关键词,作为文本关键信息,为待处理文本提供了去除了冗余信息的扩展信息,有利于提高实体链接模型处理上述扩展信息的速度。

S302:确定关键信息对应的标签。

上述步骤S302包括,根据关键信息的类别确定关键信息对应的标签。

在一些应用场景中,这里的关键信息的类别可以包括文本关键信息和实体关键信息。可以为文本关键信息和实体关键信息设置不同的标签。

在另外一些应用场景中,关键信息的类别包括:关键词,文本类别(实体类别),和文本中实体词类别。可以设置关键词标签,文本类别(候选实体类别)标签和文本中实体词类别标签。

示意性地,对于一关键词,为该关键词所确定的关键词标签例如可以为。对于待处理文本的文本类别,为该文本类别设置的文本类别标签例如可以为;文本实体词了本标签例如可以为等。

这里为不同类的关键信息分别设置不同的标签,便于后续实体链接模型基于上述标签识别不同的关键信息,有助于实体链接模型快速构建不同关键信息之间的交互信息,进一步细化实体链接模型对各类关键信息的拟合。

在确定出待处理文本和候选实体的实体义项文本中的文本关键信息和/或实体信息之后,可以为待处理文本对应的关键词确定关键词标签,为待处理文本对应的文本类别确定文本类别标签,为文本中实体词类别设置实体词类别标签。可以为实体义项文本对应的关键词确定关键词标签,为候选实体类别设置实体类别标签。

在一些应用场景中,上述从待处理文本与第一关联文本中,确定出多个文本关键词包括:

首先,从上述待处理文本中提取多个第一文本关键词。

其次,从第一关联文本中提取多个第二文本关键词,

在这些应用场景中,可以分别对待处理文本和第一关联文本进行关键词提取。从待处理文本中提取多个第一文本关键词,从第一关联文本中提取多个第二文本关键词。

进一步地,可以为第一文本关键词确定第一关键词标签,为第二文本关键词确定第二关键词标签。

示意性地,第一关键词标签可以表示为。第二关键词标签可以表示为

在这些应用场景中,通过对待处理文本提取多个第一文本关键词,为第一文本关键词确定第一关键词标签。对第二文本关键词确定第二关键词标签,从而可以从标签中区分出哪些关键词是待处理文本的关键词,哪些关键词是第一关联文本的关键词。从而为实体链接模型进一步对上述关键信息进行精细化拟合处理提供帮助。

在一些实施例中,上述步骤S301包括如下步骤:

首先,基于预设实体关联规则,确定候选实体的第二关联文本;

其次,从实体义项文本和第二关联文本中,确定出多个实体关键词。

上述预设实体关联规则,例如可以为在实体库中的实体涉及的知识网络中选取与候选实体对应的关联实体。将关联实体对应的实体义项文本作为第二关联文本。

又例如,根据候选实体在多个文本中分别出现的频率,在上述多个文本中确定出与候选实体关联的第二关联文本。

为了确定待处理文本中的实体词的类别信息,可以将待处理文本输入到命名实体识别模型(Named Entity Recognition,NER),由NER模型输出待处理文本中实体词的类别信息。

NER模型可以自动扫描输入到其中的文本,提取文本中的实体词,并将这些实体词分别分类在的预定义的类别中。这里的预定义的类别可以包括:组织、数量、货币价值、百分比、人名、公司名称、地理位置、产品名称、日期和时间、金额、活动名称等。

为了确定待处理文本的类别和候选实体的类别,可以将待处理文本和候选实体的实体义项文本输入到文本分类模型,得到文本类别和候选实体类别。

将文本关键词、文本中实体词类别以及文本类别作为文本关键信息;将实体关键词和候选实体类别作为候选实体的实体关键信息。

示意性地,上述关键词标签例如可以为。其中,是关键词标签中的开始标签,是关键词标签中的结束标签。文本类别标签例如,其中,可以是文本类别标签中的开始标签,可以是文本类别标签中的结束标签。文本中实体词类别对应的标签例如可以为。其中,可以是实体词类别标签中的开始标签,可以是实体词类别标签中的结束标签。

可以理解的是,上述各关键信息对应的标签可以是各种预先设置的标签,此处不做限制。

S303:根据各关键信息分别对应的标签,生成关键信息标签表示。

S304:将句子对关键信息标签表示输入到实体链接模型,由实体链接模型根据句子对关键信息标签表示预测候选实体与待处理文本之间的链指关系。

在一些应用场景中,可以将每一个关键信息放置在该关键信息的开始标签和结束标签之间,作为该关键信息的标签表示。将各个关键信息的标签表示连接起来,得到句子对关键信息标签表示。

在一些实现方式中,上述步骤S301中可以分别确定待处理文本对应的文本关键信息和候选实体的实体义项对应的实体关键信息。

在这些实现方式中,上述文本关键信息可以包括:关键词、文本类别和文本中实体词类别。

上述实体关键信息可以包括:关键词和实体义项文本类别(也即候选实体类别)。

在这些可选的实现方式中,对于每一个文本关键信息,可以将该文本关键信息进行该文本关键信息的标签表示。将各文本关键信息的标签表示连接起来,得到待处理文本对应的文本关键信息标签表示。同样地,可以得到实体关键信息标签表示。

在上述步骤S303中,可以将文本关键信息标签表示设置在待处理文本的全文之后。将实体关键信息标签表示设置在实体义项文本的全文之后,得到句子对关键信息标签表示。

可选地,在将待处理文本与文本关键信息进行拼接时,可以在文本关键信息的首位设置文本关键信息标签,以提示后面为文本关键信息。上述文本关键信息标签可以为各种预先设置的文本关键信息标签。示意性地,上述文本关键信息标签例如可以是“[CKW]”。

同样地,在将实体义项文本与实体关键信息进行拼接时,可以在实体关键信息的首位设置实体关键信息标签,以提示后面为实体关键信息。上述实体关键信息标签可以为各种预先设置的标签。示意性地,上述实体关键信息标签例如可以是“[EKW]”。

示意性地,上述句子对关键信息标签表示可以如下所示:[CLS]待处理文本[CKW]待处理文本中实体词及实体词类别待处理文本中关键词[SEP]实体义项文本[EKW]实体义项文本中的关键词[SEP]。

在一些可选的实现方式中,对于待处理文本中的实体词,可以在待处理文本中进行该实体词的关键信息标签表示;将实体词对应的类别的关键信息标签表示放置在待处理文本之后,生成句子对关键信息标签表示。

示意性地,在这些可选的实现方式中,上述句子对关键信息标签表示如下所示:

[CLS]我们联系一下VC的同学[CKW]PE二级市场股票纳斯达克天使轮[SEP]VC Venture Capital风险投资。指向初创企业提供资金支持并取得该公司股份的一种融资方式。[EKW]投资金融[SEP]。

这里的待处理文本为“我们联系一下VC的同学”。“VC”为待处理文本中的实体词。“PE”、“二级市场”、“纳斯达克”和天使轮是从第二关联文本中提取的关键词。“股票”为待处理文本中的实体词“VC”的类别。“VC Venture Capital风险投资。指向初创企业提供资金支持并取得该公司股份的一种融资方式”是实体“VC Venture Capital风险投资”的实体义项文本。

通过对待处理文本中的实体词类别进行关键信息标签表示,从而使得实体链接模型可以快速在待处理文本中识别实体词,另外在待处理文本之后识别实体词对应的类别。从而可以提高实体链接模型确定上述待处理文本与候选实体之间的链指关系的速度。

本实施例中,确定待处理文本和候选实体的实体义项文本中至少一者的关键信息,这里的关键信息包括以下至少一者:关键词、文本类别和文本中实体词类别;根据关键信息的类别确定对应的标签;根据各关键信息分别对应的标签,生成关键信息标签表示;将句子对关键信息标签表示输入到实体链接模型,由实体链接模型根据句子对关键信息标签表示预测候选实体与待处理文本之间的链指关系,从而使得实体链接模型可以快速识别各关键信息,对个关键信息进行更加细粒度的拟合处理。一方面可以提高实体链接模型确定上述待处理文本与候选实体之间的链指关系的速度,另外一方面可以提高实体链接模型得到的链指关系的准确度。

在一些应用场景中,本公开提供的实体链接方法可以应用于从百科词条中同一实体的多个义项中确定出与待处理文本对应的目标义项。

同一实体的每一个义项可以对应一个实体义项文本。

对于每个实体义项文本,可以构成待处理文本与该实体义项文本的句子对。可以将待处理文本中的上下文、或者待处理文本的相同作者的其他文本中作为第一关联文本,从待处理文本和/或第一关联文本中确定出关键词,确定待处理文本的文本类别以及文本中的实体词的类别。从而得到文本关键信息。对于该实体义项文本,从预设知识网络中确定出与该实体义项文本关联的实体的实体义项文本,作为关联实体义项文本(第二关联文本)。从该实体义项文本与第二关联文本中确定出实体关键词。然后确定出实体义项文本对应的类别。根据实体关键词和该实体义项文本的类别确定实体关键信息。对文本关键信息和实体关键信息分别确定对应的标签。然后生成句子对的标签表示,将上述句子对的标签表示输入到实体链接模型,由实体链接模型预测待处理文本与该实体义项文本之间的链指关系。根据待处理文本与该实体的多个实体义项文本之间的分别对应的链指关系,确定出待处理文本对应的目标实体义项。在该应用场景中,在识别待处理文本对应的目标实体义项时,通过关键信息标签表示,为实体链接模型提供了确定目标实体义项的辅助信息,提高了实体链接模型从实体词对应的多个实体义项中确定出目标实体义项的效率和准确度。

请参考图4,其示出了本公开提供的实现实体链接方法的原理性示意图。如图4所示,该方法可以包括将待处理文本和候选实体的实体义项文本输入到关键信息挖掘模块41。关键信息挖掘模块可以包括命名实体识别模型(NER模型),关键词信息挖掘模型和文本/实体分类模型。由上述模型输出待处理文本中的NER信息、文本类别信息和关键词信息;以及侯璇实体对应的实体义项文本关键词和候选实体的实体类别信息(实体义项文本对应的文本类别)。这里NER信息包括待处理文本的实体词的类别信息。

然后,为上述各类关键信息赋予标签,并根据各关键信息对应的标签生成关键信息标签表示42。将上述关键信息标签表示输入到实体链接模型43中,由实体链接模型预测候选实体与待处理文本之间的链指关系。

对应于上文实施例的实体链接方法,图5为本公开实施例提供的实体链接设备的结构框图。为了便于说明,仅示出了与本公开实施例相关的部分。参照图5,设备50包括:第一确定单元501、第二确定单元502、表示单元503和预测504。其中,

第一确定单元501,用于确定待处理文本和候选实体的实体义项文本中至少一者的关键信息,待处理文本和实体义项文本构成句子对;

第二确定单元502,用于确定关键信息对应的标签;

表示单元503,用于根据标签生成句子对关键信息标签表示;

预测单元504,用于将句子对关键信息标签表示输入到实体链接模型,由实体链接模型根据句子对关键信息标签表示预测候选实体与待处理文本之间的链指关系。

在一些实施例中,关键信息包括以下至少一者:

关键词、文本类别、文本中实体词类别。

在一些实施例中,第一确定单元501进一步用于基于如下步骤确定待处理文本的关键词:

基于预设句子文本关联规则,确定待处理文本的第一关联文本;

从待处理文本与第一关联文本中,确定出多个文本关键词。

在一些实施例中,第一确定单元501进一步用于基于如下步骤确定候选实体的实体关键词:

基于预设实体关联规则,确定候选实体的第二关联文本;

从实体义项文本和第二关联文本中,确定出多个实体关键词。

在一些实施例中,第一确定单元501进一步用于基于如下步骤确定候选实体的实体关键词:

从待处理文本中提取多个关键词,作为第一文本关键词;

从第一关联文本中提取多个关键词,作为第二文本关键词。

在一些实施例中,第一确定单元501进一步用于基于如下步骤确定待处理文本中实体词的类别信息:

将待处理文本输入到命名实体识别模型,由命名实体识别模型输出待处理文本中实体词的类别信息。

在一些实施例中,第一确定单元501进一步用于基于如下步骤确定待处理文本和候选实体的类别信息:

将待处理文本和实体义项文本输入到文本分类模型,由文本分类模型输出待处理文本和候选实体各自的类别信息。

在一些实施例中,第二确定单元502进一步用于:根据关键信息的类别确定关键信息对应的标签;以及表示单元503进一步用于:根据各关键信息分别对应的标签,生成关键信息标签表示。

在一些实施例中,第二确定单元502进一步用于对于关键词类的关键信息,为从文本中提取的关键词确定第一关键词标签,为从关联文本中提取的关键词确定第二关键词标签。

为了实现上述实施例,本公开实施例还提供了一种电子设备。

参考图6,其示出了适于用来实现本公开实施例的电子设备600的结构示意图,该电子设备600可以为终端设备或服务器。其中,终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、个人数字助理(Personal Digital Assistant,简称PDA)、平板电脑(Portable Android Device,简称PAD)、便携式多媒体播放器(Portable MediaPlayer,简称PMP)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图6示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。

如图6所示,电子设备600可以包括处理装置(例如中央处理器、图形处理器等)601,其可以根据存储在只读存储器(Read Only Memory,简称ROM)602中的程序或者从存储装置608加载到随机访问存储器(Random Access Memory,简称RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中,还存储有电子设备600操作所需的各种程序和数据。处理装置601、ROM602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

通常,以下装置可以连接至I/O接口605:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置606;包括例如液晶显示器(Liquid CrystalDisplay,简称LCD)、扬声器、振动器等的输出装置607;包括例如磁带、硬盘等的存储装置608;以及通信装置609。通信装置609可以允许电子设备600与其他设备进行无线或有线通信以交换数据。虽然图6示出了具有各种装置的电子设备600,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。

特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序(计算机执行指令)可以通过通信装置609从网络上被下载和安装,或者从存储装置608被安装,或者从ROM 602被安装。在该计算机程序被处理装置601执行时,执行本公开实施例的方法中限定的上述功能。

需要说明的是,本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。

上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。

上述计算机可读介质承载有一个或者多个程序(计算机执行指令),当上述一个或者多个程序被该电子设备执行时,使得该电子设备执行上述实施例所示的方法。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LocalArea Network,简称LAN)或广域网(Wide Area Network,简称WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,单元的名称在某种情况下并不构成对该单元本身的限定,例如,第一确定单元还可以被描述为“确定待处理文本和候选实体的实体义项文本中至少一者的关键信息的单元”。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。

在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

此外,虽然采用特定次序描绘了各操作,但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地,在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

技术分类

06120115952115