掌桥专利:专业的专利平台
掌桥专利
首页

推送信息的生成方法、装置

文献发布时间:2023-06-19 09:44:49


推送信息的生成方法、装置

技术领域

本申请涉及人工智能领域,具体涉及自然语言处理技术领域、知识图谱技术领域和大数据技术领域,尤其涉及推送信息的生成方法、装置、电子设备及计算机可读存储介质。

背景技术

随着社会的发展,为了更好的满足用户的检索需求,越来越多的使用基于互联网大数据、知识图谱实现对用户输入的查询信息进行匹配、生成对应的推送消息的方式,来为用户提供检索服务。

现有技术中在确定知识图谱时,通常基于领域专家知识进行构建。

发明内容

本申请提供了一种推送信息的生成方法、装置、电子设备以及存储介质。

第一方面,本申请的实施例提供了一种推送信息的生成方法,包括:获取与用户的输入信息中的表征信息相对应的标准表征信息;基于预先构造的医学知识图谱,确定该标准表征信息命中的至少一个医学状态实体;其中,该医学知识图谱记录有表征信息和医学状态实体之间的对应关系,该对应关系从医学文献的摘要信息中提取得到;基于该医学状态实体生成推送信息集合,发送该推送信息集合给该用户。

在一些实施例中,医学知识图谱基于以下步骤确定:获取多个医学文献的摘要文本信息,得到摘要文本信息集合;采用实体识别神经网络确定该摘要文本信息集合中命中的实体集合;其中,该实体集合包括该摘要文本信息集合中的以下信息:与表征信息和医学状态实体相关的信息;对该实体集合进行医学语言规范化匹配,得到规范化实体集合;对该规范化实体集合中的规范化实体进行分类标注,得到表征信息集合和医学状态实体集合;基于该表征信息集合中的表征信息与该医学状态实体集合中的医学状态实体的共现关系,得到该医学知识图谱。

在一些实施例中,实体识别神经网络包括:双向短期记忆网络和条件随机场。

在一些实施例中,基于该医学状态实体生成推送信息集合,发送该推送信息集合给该用户包括:采用概率图模型对该医学状态实体进行排序,根据排序结果选取预设数量的该医学状态实体生成推送信息集合;发送该推送集合给该用户。

在一些实施例中,标准表征信息的生成步骤包括:获取用户的输入信息;识别该输入信息中包含的表征信息,得到识别结果;基于该识别结果的归一化语义,确定该标准表征信息。

在一些实施例中,基于该识别结果的归一化语义,确定该标准表征信息,包括:基于该识别结果的归一化语义进行扩展,生成扩展表征信息集合;将该扩展表征信息集合中的扩展表征信息作为标准表征信息。

在一些实施例中,基于预先构造的医学知识图谱,确定该标准表征信息命中的至少一个医学状态实体包括:响应于确定接收到针对该标准表征信息的选择信息,采用预先构造的医学知识图谱,确定该标准表征信息命中的至少一个医学状态实体。

第二方面,本申请的实施例提供了一种推送信息的生成装置,包括:标准表征信息获取单元,被配置成获取与用户的输入信息中的表征信息相对应的标准表征信息;医学状态实体确定单元,被配置成基于预先构造的医学知识图谱,确定该标准表征信息命中的至少一个医学状态实体;其中,该医学知识图谱记录有表征信息和医学状态实体之间的对应关系,该对应关系从医学文献的摘要信息中提取得到;推送信息发送单元,被配置成基于该医学状态实体生成推送信息集合,发送该推送信息集合给该用户。

在一些实施例中,还包括医学知识图谱确定单元,其中具体包括:初始信息获取子单元,被配置成获取多个医学文献的摘要文本信息,得到摘要文本信息集合;实体识别子单元,被配置成采用实体识别神经网络确定该摘要文本信息集合中命中的实体集合;其中,该实体集合包括该摘要文本信息集合中的以下信息:与表征信息和医学状态实体相关的信息;规范匹配子单元,被配置成对该实体集合进行医学语言规范化匹配,得到规范化实体集合;分类标注子单元,被配置成对该规范化实体集合中的规范化实体进行分类标注,得到表征信息集合和医学状态实体集合;医学知识图谱生成子单元,被配置成基于该表征信息集合中的表征信息与该医学状态实体集合中的医学状态实体的共现关系,得到该医学知识图谱。

在一些实施例中,实体识别子单元中该实体识别神经网络包括:双向短期记忆网络和条件随机场。

在一些实施例中,推送信息发送单元进一步被配置成:采用概率图模型对该医学状态实体进行排序,根据排序结果选取预设数量的该医学状态实体生成推送信息集合;发送该推送集合给该用户。

在一些实施例中,还包括标准信息生成单元,包括:初始信息获取子单元,被配置成获取用户的输入信息;信息识别子单元,被配置成识别该输入信息中包含的表征信息,得到识别结果;标准表征信息确定子单元,被配置成基于该识别结果的归一化语义,确定该标准表征信息。

在一些实施例中,该标准表征信息确定子单元进一步被配置成:基于该识别结果的归一化语义进行扩展,生成扩展表征信息集合;将该扩展表征信息集合中的扩展表征信息作为标准表征信息。

在一些实施例中,医学状态实体确定单元进一步被配置成:响应于确定接收到针对该标准表征信息的选择信息,采用预先构造的医学知识图谱,确定该标准表征信息命中的至少一个医学状态实体。

第三方面,本申请的实施例提供了一种电子设备,包括:至少一个处理器;以及与上述至少一个处理器通信连接的存储器;其中,该存储器存储有可被上述至少一个处理器执行的指令,该指令被上述至少一个处理器执行,以使上述至少一个处理器能够执行任一实现方式描述的推送信息的生成方法。

第四方面,本申请的实施例提供了一种存储有计算机指令的非瞬时计算机可读存储介质,包括:该计算机指令用于使该计算机执行任一实现方式描述的推送信息的生成方法。

本申请在获取与用户的输入信息中的表征信息相对应的标准表征信息后,基于预先构造的医学知识图谱,确定该标准表征信息命中的至少一个医学状态实体,其中,该医学知识图谱记录有表征信息和医学状态实体之间的对应关系,该对应关系从医学文献的摘要信息中提取得到,基于该医学状态实体生成推送信息集合,发送该推送信息集合给该用户,使用基于医学文献的摘要信息构建的知识图谱确定推送给用户的推送消息,降低推送消息确定成本的同时提升推送消息的质量。

应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案,不构成对本申请的限定。其中:

图1是本申请的实施例可以应用于其中的示例性系统架构;

图2是根据本申请的推送信息的生成方法的一个实施例的流程图;

图3是根据本申请的推送信息的生成方法中确定医学知识图谱的一个实现方式的流程图;

图4是根据本申请的推送信息的生成方法的另一个实施例的流程图;

图5是根据本申请的推送信息的生成装置的一个实施例的结构示意图;

图6是适于用来实现本申请实施例的推送信息的生成方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。

需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1示出了可以应用本申请的推送信息的生成方法、装置、电子设备及计算机可读存储介质的实施例的示例性系统架构100。

如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互,以实现发送用户的输入信息等目的。终端设备101、102、103上可以安装有检索类应用,例如导航类应用、百科查询类应用、在线咨询类应用等。

终端设备101、102、103可以是硬件,也可以是软件。硬件时,可以是具有显示屏的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时,可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如发送用户的输入信息等),也可以实现成单个软件或软件模块。在此不做具体限定。

服务器105可以是提供各种服务的服务器,例如为终端设备101、102、103提供检索服务、生成推送信息的服务器。例如获取与用户的输入信息中的表征信息相对应的标准表征信息;基于预先构造的医学知识图谱,确定该标准表征信息命中的至少一个医学状态实体;其中,该医学知识图谱基于医学文献中的表征信息和医学状态实体之间的关系确定;基于该医学状态实体生成推送信息集合,发送该推送信息集合给该用户。

需要说明的是,本申请的实施例所提供的推送信息的生成方法一般由服务器105执行,相应地,推送信息的生成装置一般设置于服务器105中。

需要说明的是,服务器可以是硬件,也可以是软件。当服务器为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当服务器为软件时,可以实现成例如用来提供分布式服务的多个软件或软件模块,也可以实现成单个软件或软件模块。在此不做具体限定。

此外,推送信息的生成方法也可以由终端设备101、102、103执行,相应地,推送信息的生成装置也可以设置于终端设备101、102、103中。此时,示例性系统架构100也可以不包括服务器105和网络104。

应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。

继续参考图2,其示出了根据本申请的推送信息的生成方法的一个实施例流程200。该推送信息的生成方法,包括以下步骤:

步骤201,获取与用户的输入信息中的表征信息相对应的标准表征信息。

在本实施例中,推送信息的生成方法的执行主体(例如图1所示的服务器105)可以从本地或非本地人机交互设备(例如图1所示的终端设备101、102、103)获取用户的输入信息以及用户的输入信息中的表征信息对应的标准表征信息,本申请对此不做限定。

其中,表征信息,是信息在例如头脑、计算机系统等思维系统中的呈现方式,是信息记载或表达的方式,能把某些实体或某类信息表达清楚的形式化系统以及说明该系统如何行使其职能的若干规则。因此,我们可以这样理解,表征信息是指可以指代某种东西的符号或信号,即某一事物缺席时,它代表该事物的相关信息,实体一般指的是文本中具有特定意义或者指代性强的实体,通常包括人名、地名、组织机构名、日期时间、专有名词等,因此实体这个概念可以很广,只要是业务需要的特殊文本片段都可以称为实体。

应当理解的是,用户的输入信息通常为根据用户自身认知水平和文化差异得到的输入信息,其中包含有一个或者多个用户表示真实意思的表征信息,在获取到这些表征信息后需要将该这些信息转换为上述执行主体可以识别、理解的标准表征信息,因在对上述执行主体进行预先训练时,通常使用的训练模型为在对应领域由权威官方提供的、标准的表述形式,所以上述标准表征信息为针对各领域内由权威官方提供的、标准的表述形式,例如在医学领域中,用户的输入信息为肚子疼,该内容并非为医学领域内的标准表述,则对应的进行转化为腹痛、胃痛、胃绞痛、胃阵痛等在医学领域中的标准表述形式,以得到标准表征信息。

同样的,推送信息的生成方法的执行主体可以在获取到用户的输入信息后在本地进行处理,以得到该输入信息中的表征信息对应的标准表征信息,也可以直接获取由非本地的其他终端设备中基于用户的输入信息中的表征信息处理后得到的相对应的标准表征信息。

步骤202,基于预先构造的医学知识图谱,确定标准表征信息命中的至少一个医学状态实体;其中,该医学知识图谱记录有表征信息和医学状态实体之间的对应关系,该对应关系从医学文献的摘要信息中提取得到。

在本实施例中,根据预先构造的记录有表征信息和医学状态实体之间的对应关系的医学知识图谱来对上述步骤201中得到的标准表征信息进行匹配,确定标准表征信息命中的一个或者多个医学状态实体。

其中,该医学知识图谱中记录的表征信息和医学状态实体之间的对应关系,是基于多个医学文献中的摘要信息提取得到的,以一篇医学文献的摘要文献为例,若其中同时出现有第一表征信息和第一医学状态实体,则认为第一表征信息和第一医学状态实体之间存在有对应关系,基于多篇医学文献的摘要信息中存在的多个表针信息和医学状态实体之间的对应关系得到医学知识图谱。

应当理解的是,在一篇医学文献的摘要信息中可能同时存在多个表征信息和医学状态实体,则对应的存在有一个表征信息对应多个医学状态实体存在有多个对应关系和/或多个表征信息对应一个医学状态实体存在有多个对应关系的情况,在生成医学知识图谱的过程中同样记录有这些对应关系。

步骤203,基于该医学状态实体生成推送信息集合,发送该推送信息集合给该用户。

在本实施例中,基于上述步骤203后,可以根据预先构造的医学知识图谱得到一个或者多个标准表征信息命中的医学状态实体,在存在有多个命中的医学状态实体时,可以根据预先确定的筛选规则从命中的多个医学状态实体中选择满足要求的医学状态实体,以及对命中的多个医学状态实体进行排序,并根据得到的一个或者多个医学状态实体生成推送信息集合,即该推送信息集合中包含有一个或者多个医学状态实体,然后将该推送信息集合发送给步骤201中进行信息输入的用户,以确定最终的推送给用户的推送内容,使得该用户可以得到基于输入信息生成的推送信息。

本申请实施例提供的推送信息的生成方法,在获取与用户的输入信息中的表征信息相对应的标准表征信息后,基于预先构造的医学知识图谱,确定该标准表征信息命中的至少一个医学状态实体,其中,该医学知识图谱记录有表征信息和医学状态实体之间的对应关系,该对应关系从医学文献的摘要信息中提取得到,基于该医学状态实体生成推送信息集合,发送该推送信息集合给该用户,使用基于医学文献的摘要信息构建的知识图谱确定推送给用户的推送消息,降低推送消息确定成本的同时提升推送消息的质量。

在本实施例的一些可选实现方式中,参考图3,其中示出了一种医学知识图谱的确定步骤的流程300,具体包括:

步骤301,获取多个医学文献的摘要文本信息,得到摘要文本信息集合。

具体的,可以通过例如Pubmed、中国生物医学文献等医学文献检索库获取大量的医学文献,在获取医学文献后对其中的摘要文本信息进行提取,得到摘要文本信息集合。

其中,摘要文本信息可以为英文也可以为中文,优选地采用英文摘要信息进行提取,因使用英文摘要信息时可以避免使用中文摘要文本信息时需要对文本内容进行切词操作的问题,进一步提升摘要文本信息集合的生成效率。

应当理解的是,在对获取到的医学文献的摘要文本信息进行提取时,还可以一并提取医学文献的标题信息,以便于后续作为参考。

步骤302,采用实体识别神经网络确定该摘要文本信息集合中命中的实体集合;其中,该实体集合包括该摘要文本信息集合中的以下信息:与表征信息和医学状态实体相关的信息。

具体的,实体识别神经网络就是从非结构化的输入文本中抽取出实体,并且可以按照业务需求识别出更多类别的实体,比如产品名称、型号、价格等的神经网络,例如DeepWeb、NER等实体识别神经网络,对摘要文本信息集合中的内容进行实体识别,以确定摘要文本信息集合中命中的实体,其中该实体信息包括与表征信息和医学状态实体相关的信息,最后根据命中的实体得到实体集合。

应当理解的是,可以根据预先设置的规则从命中的实体中选取满足预先设置的规则的实体,然后基于满足预先设置的规则的实体来得到实体集合。

步骤303,对该实体集合进行医学语言规范化匹配,得到规范化实体集合。

具体的,虽然实体识别神经网络能够识别出医学实体,但是识别到的实体名称不一定规范(例如:“拉肚子”不规范,“腹泻”规范),类别不一定正确(例如:“阿莫西林”的类别识别成了“药物”)。语料经过实体识别神经网络之后,得到了实体候选集合,为了自动规范化实体,将实体名称在例如UMLS库等医学知识数据库中的实体名称及其同义词做近似搜索,匹配上的实体即是一个规范的实体,继而将匹配上的实体添加对应实体的编码,例如使用CUI编码唯一标识这个规范的候选实体,得到规范化实体集合,此外还可以使用键值对编码等现有的方式实现该目的。

步骤304,对该规范化实体集合中的规范化实体进行分类标注,得到表征信息集合和医学状态实体集合。

具体的,由于医学知识数据库中对于实体的类型(表征信息、医学状态实体)没有全面的定义,因此并不能区别得到的实体为表征信息还是医学状态实体,因此可以基于上述步骤中的编码信息进行匹配,通过现有的医学知识信息、医学知识图谱等对得到的规范化实体进行分类标注,判断该实体为表征信息、医学状态实体,或者两者都不是。

步骤305,基于该表征信息集合中的表征信息与该医学状态实体集合中的医学状态实体的共现关系,得到该医学知识图谱。

具体的,可以根据医学状态实体出现的次数以及医学状态实体与表征信息在同一医学文献摘要中出现的次数,来确定医学状态实体和表征信息在摘要文本信息集合中共同出现的次数确定表征信息与医学状态实体之间是否存在对应关系,例如根据医学状态实体A在摘要文本信息集合中出现的概率与该医学状态实体与表征信息B在摘要文本信息中的共现概率是否相近来确定该医学状态实体A和表征信息B之间是否存在对应关系,或者例如预先确定一个共现次数阈值条件,在表征信息D和医学状态实体之间C的共现次数满足该预先确定的阈值条件时则认为该表征信息D和该医学状态实体C之间存在对应关系,根据收集到的表征信息和医学状态实体之间存在的对应关系得到该医学知识图谱。

在本实现方式中,基于医学文献的摘要信息来生成医学知识图谱的方式,首先可以通过大量的医学文献实现广范围的表征信息和实体的信息覆盖,避免现有技术中依靠专家知识生成知识图谱方式中信息覆盖范围窄的问题,并且可以通过摘要信息实现对医学文献的简化,避免因医学文献中内容信息量过大导致的医学文献的识别效率较低的技术问题,提升生成知识图谱的效率。

在本实施例的一些可选实现方式中,实体识别神经网络包括:双向短期记忆网络和条件随机场。

具体的,双向短期记忆网络,即Bi-LSTM(Bi-directional Long Short-TermMemory,简称Bi-LSTM)记忆网络,与传统神经网络最大的不同在于隐藏层的输入不仅包含了输入层的输出,还包含了上一个时刻隐藏层的输出,其主要特点是可以存储之前时刻的信息。虽然RNN(Recurrent Neural Network,简称RNN)理论上可以保留上文的所有信息,但随着隐藏层层数的增加,存在着梯度消失或梯度爆炸的现象。LSTM(Long Short-TermMemory,简称LSTM)能有效解决长时依赖的问题,包括遗忘门、输入门和输出门。为了使网络表达的信息更丰富,推测更准确,研究采用了双向网络结构,即Bi-LSTM。Bi-LSTM由两个LSTM拼接而成包含一个正向输入序列和反向输入序列,同时考虑了过去的特征和未来的特征。

LSTM的优点是能够通过双向的设置学习到观测序列(输入的字)之间的依赖,在训练过程中,LSTM能够根据目标(比如识别实体)自动提取观测序列的特征,但是缺点是无法学习到状态序列(输出的标注)之间的关系,要知道,在命名实体识别任务中,标注之间是有一定的关系的,比如E类标注(表示某实体的开头)后面不会再接一个E类标注,所以LSTM在解决序列标注任务时,虽然可以省去很繁杂的特征工程,但是也存在无法学习到标注上下文的缺点。

当用Bi-LSTM来做命名实体识别时,Bi-LSTM的输出为实体标签的分数,且选择最高分数对应的标签。然而某些时候,Bi-LSTM却不能得到真正正确的实体标签,这时候就需要加入条件随机场,即CRF(Conditional Random Field,简称CRF),CRF结合了最大熵模型和隐马尔科夫模型的特点,能对隐含状态建模,学习状态序列的特点,但它的缺点是需要手动提取序列特征。

因此,联合使用双向短期记忆网络和条件随机场时,可以避免上述单独使用时存在的缺点,以同时获取两者的优点,实现质量较高的实体识别工作。

在本实施例的一些可选实现方式中,基于该医学状态实体生成推送信息集合,发送该推送信息集合给该用户包括:采用概率图模型对该医学状态实体进行排序,根据排序结果选取预设数量的该医学状态实体生成推送信息集合;发送该推送集合给该用户。

具体的,得到实体的类别之后,可以通过表征信息与医学状态实体间的共现次数来衡量实体间的相关性,例如使用公式:

其中,P(Dis

P(Dis

其中P(Dis)是医学状态实体的先验概率,为了避免连乘导致结果过小,可以对上式两边取对数,改为累加操作,利用上式可以计算出已知若干表征信息时,各个医学状态实体的后验概率。

在得到各个医学状态实体的后验概率后,可以根据概率的大小对各个医学状态实体进行排序并选取预设数量的医学状态实体生成推送信息集合,以便于用户获取到命中概率较大的医学状态实体,进一步提升推送信息的质量。

在本实施例的一些可选实现方式中,标准表征信息的生成步骤包括:

获取用户的输入信息;识别该输入信息中包含的表征信息,得到识别结果;基于该识别结果的归一化语义,确定标准表征信息。

具体的,归一词可以是用来表示一些相似描述的共同表现形式,归一化语义可以是将条目信息中的模板词使用归一词进行代替,以将不同语义相同的表述进行形式统一。因此,可以预先基于现有的信息构建标准表征信息数据库,后续在获取到用户输入信息的识别结果后,将识别结果进行归一化语音,以得到标准表征信息,以防止在用户无法使用较为规范、标准的描述语言准确的表述想法和需求时,上述执行主体无法对用户的想法和需求进行理解,以便于针对用户的想法和需求顺利的生成满足其需求的推送信息。

继续参考图4,其中示出了一种推送信息的生成方法的另一个实施例的流程400,具体包括以下步骤:

步骤401,获取用户的输入信息。

步骤402,识别该输入信息中包含的表征信息,得到识别结果。

具体的,可以采用上述图3对应实现方式中的实体识别神经网络对用户的输入信息进行识别,以确定其中存在的表征信息。

步骤403,基于该识别结果的归一化语义进行扩展,生成扩展表征信息集合。

具体的,因用户的输入信息中很难包括标准表征信息,因此基于上述图2所示实施例的一些实现方式中得到的归一化语义结果后,可以根据该语义结果进行相似扩展,例如得到的归一化语义结果为“胃绞痛”,则可以根据该内容近似的扩展为同类型的“胃阵痛”,以获取更多与用户的输入信息相关的参考信息,即扩展表征信息,便于后续根据这些表征信息得到的表征信息集合得到更多的医学状态实体,提高生成的推送信息集合的质量。

其中,在采用图2所示所示实施例的一些实现方式中基于概率图模型确定推送集合的技术方案时,还可以基于概率图模型:

P(Sym

来确定扩展表征信息,其中,P(Sym

步骤404,将该扩展表征信息集合中的扩展表征信息作为标准表征信息。

步骤405,响应于确定接收到针对该标准表征信息的选择信息,采用预先构造的医学知识图谱,确定该标准表征信息命中的至少一个医学状态实体。

应当理解的是,这里的标准表征信息中的数量可能是一条消息也可能是多条,在存在多条标准表征信息时,可以将这些标准表征信息呈现给输入信息的用户,得到用户发出的基于选择的标准表征信息生成的选择信息,确定该选择信息中包括的标准表征信息,即用户选择的标准表征信息,以人机交互的方式获取用户期望的标准表征信息,基于用户选择的标准表征信息更能满足用户的需求,以提升后续生成的推送信息的质量。

步骤406,基于该医学状态实体生成推送信息集合,发送该推送信息集合给该用户。

具体的,若步骤405中用户发出的选择信息中的标准表征信息命中有多个医学状态实体,则基于多个医学状态实体生成推送信息集合,发送给用户,其中,在基于多个医学状态实体生成推送信息集合时,可以根据预先确定的规则对医学状态实体进行排序、筛选,例如图2所示实施例的实现方式中根据表征信息命中医学状态实体的概率进行排序等。

在本实施例中,步骤404、405中部分内容与图2所示实施例中步骤202-203相似,重复内容不再赘述,本实施例中在获取用户的输入信息后,根据该输入信息中包括的表征信息的识别结果来确定扩展表征信息集合,扩展表征集合确定标准表征信息,然后基于与用户进行人机交互的结果来确定最终选用的标准表征信息,并对应确定医学状态实体,生成推送信息集合推送给用户,以便于根据用户的实际需求为用户提供质量更高、更贴近用户实际需求的推送信息。

为加深理解,本申请还结合一个具体应用场景,给出了一种具体的实现方案。在该具体应用场景下,用户的输入信息为“昨夜到今晨连续拉肚子”,预先确定的医学状态实体提取数量为三。

在获取到该用户输入的信息后,采用实体识别神经网络对用户的输入信息进行识别,确定其中存在的表征信息“拉肚子”,然后基于该识别结果进行归一化语义“腹泻”,进行扩展得到扩展表征信息“腹痛”、“腹胀”、“消化不良”和“胃绞痛”,呈现给该用户。

响应于用户针对“腹泻”这个标准表征信息的选择信息,其中包括有扩展表征信息“腹痛”和“消化不良”,然后采用基于预先构造的知识图谱,确定“腹泻”、“腹痛”和“消化不良”和命中的医学状态实体,医学知识图谱记录有表征信息和医学状态实体之间的对应关系,该对应关系从医学文献的摘要信息中提取得到。

得到命中的医学状态实体有“肠易激综合征”、“乳糖不耐受”、“胃轻瘫”、“乳糜泻”、“胃炎”和“消化性溃疡”,采用概率图模型对这些医学状态实体进行排序后,得到排序关系为:“胃炎”、“消化性溃疡”、“肠易激综合征”、“乳糖不耐受”、“乳糜泻”和“胃轻瘫”。

因此,提取三个医学状态实体,即“胃炎”、“消化性溃疡”和“乳糖不耐受”,生成推送信息集合,并推送给该用户。

通过本应用场景可以看出,本申请实施例提供的推送信息的生成方法,在获取与用户的输入信息中的表征信息相对应的标准表征信息后,基于预先构造的医学知识图谱,确定该标准表征信息命中的至少一个医学状态实体,其中,该医学知识图谱记录有表征信息和医学状态实体之间的对应关系,该对应关系从医学文献的摘要信息中提取得到,基于该医学状态实体生成推送信息集合,发送该推送信息集合给该用户,使用基于医学文献的摘要信息构建的知识图谱确定推送给用户的推送消息,降低推送消息确定成本的同时提升推送消息的质量。

如图5所示,本实施例的推送信息的生成装置500可以包括:标准表征信息获取单元501,被配置成获取与用户的输入信息中的表征信息相对应的标准表征信息;医学状态实体确定单元502,被配置成基于预先构造的医学知识图谱,确定该标准表征信息命中的至少一个医学状态实体;其中,该医学知识图谱记录有表征信息和医学状态实体之间的对应关系,该对应关系从医学文献的摘要信息中提取得到;推送信息发送单元503,被配置成基于该医学状态实体生成推送信息集合,发送该推送信息集合给该用户。

在本实施例的一些可选的实现方式中,上述推送信息的生成装置还包括:医学知识图谱确定单元,包括:初始信息获取子单元,被配置成获取多个医学文献的摘要文本信息,得到摘要文本信息集合;实体识别子单元,被配置成采用实体识别神经网络确定该摘要文本信息集合中命中的实体集合;其中,该实体集合包括该摘要文本信息集合中的以下信息:与表征信息和医学状态实体相关的信息;规范匹配子单元,被配置成对该实体集合进行医学语言规范化匹配,得到规范化实体集合;分类标注子单元,被配置成对该规范化实体集合中的规范化实体进行分类标注,得到表征信息集合和医学状态实体集合;医学知识图谱生成子单元,被配置成基于该表征信息集合中的表征信息与该医学状态实体集合中的医学状态实体的共现关系,得到该医学知识图谱。

在本实施例的一些可选的实现方式中,该实体识别子单元中实体识别神经网络包括:双向短期记忆网络和条件随机场。

在本实施例的一些可选的实现方式中,推送信息发送单元进一步被配置成:采用概率图模型对该医学状态实体进行排序,根据排序结果选取预设数量的该医学状态实体生成推送信息集合;发送该推送集合给该用户。

在本实施例的一些可选的实现方式中,上述推送信息的生成装置还包括:标准信息生成单元,包括:初始信息获取子单元,被配置成获取用户的输入信息;信息识别子单元,被配置成识别该输入信息中包含的表征信息,得到识别结果;标准表征信息确定子单元,被配置成基于该识别结果的归一化语义,确定该标准表征信息。

在本实施例的一些可选的实现方式中,标准表征信息确定子单元进一步被配置成:基于该识别结果的归一化语义进行扩展,生成扩展表征信息集合;将该扩展表征信息集合中的扩展表征信息作为标准表征信息。

在本实施例的一些可选的实现方式中,医学状态实体确定单元进一步被配置成:响应于确定接收到针对该标准表征信息的选择信息,采用预先构造的医学知识图谱,确定该标准表征信息命中的至少一个医学状态实体。

本实施例作为对应于上述方法实施例的装置实施例存在,相同内容参考对于上述方法实施例的说明,对此不再赘述。通过本申请实施例提供的推送信息的生成装置,使用基于医学文献的摘要信息构建的知识图谱确定推送给用户的推送消息,降低推送消息确定成本的同时提升推送消息的质量。

如图6所示,是根据本申请实施例的推送信息的生成方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图6所示,该电子设备包括:一个或多个处理器601、存储器602,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图6中以一个处理器601为例。

存储器602即为本申请所提供的非瞬时计算机可读存储介质。其中,该存储器存储有可由至少一个处理器执行的指令,以使上述至少一个处理器执行本申请所提供的推送信息的生成方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的推送信息的生成方法。

存储器602作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的推送信息的生成方法对应的程序指令/模块(例如,图5所示的标准表征信息获取单元501、医学状态实体确定单元502和推送信息发送单元503)。处理器601通过运行存储在存储器602中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的推送信息的生成方法。

存储器602可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据推送信息的生成电子设备的使用所创建的数据等。此外,存储器602可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器602可选包括相对于处理器601远程设置的存储器,这些远程存储器可以通过网络连接推送信息的生成电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

用于执行推送信息的生成方法的电子设备还可以包括:输入装置603和输出装置604。处理器601、存储器602、输入装置603和输出装置604可以通过总线或者其他方式连接,图6中以通过总线连接为例。

输入装置603可接收输入的数字或字符信息,以及产生与推送信息的生成电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置604可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至上述存储系统、上述至少一个输入装置、和上述至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

根据本申请实施例的技术方案,在获取与用户的输入信息中的表征信息相对应的标准表征信息后,基于预先构造的医学知识图谱,确定该标准表征信息命中的至少一个医学状态实体,其中,该医学知识图谱记录有表征信息和医学状态实体之间的对应关系,该对应关系从医学文献的摘要信息中提取得到,基于该医学状态实体生成推送信息集合,发送该推送信息集合给该用户,使用基于医学文献的摘要信息构建的知识图谱确定推送给用户的推送消息,降低推送消息确定成本的同时提升推送消息的质量。

应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。

上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。

相关技术
  • 信息信号处理装置、信息信号处理方法、图像信号处理装置及使用它的图像显示装置、其使用的系数种类数据生成装置及生成方法,系数数据生成装置及生成方法,以及信息提供媒体
  • 一种信息推送方法、信息推送装置、信息推送系统
技术分类

06120112279327