掌桥专利:专业的专利平台
掌桥专利
首页

文本段落召回方法、装置、设备和存储介质

文献发布时间:2024-04-18 19:58:26


文本段落召回方法、装置、设备和存储介质

技术领域

本发明涉及数字医疗及人工智能技术领域,尤其涉及文本段落召回方法、装置、设备和存储介质。

背景技术

文本召回是指从大规模的文本数据集中根据查询需求快速找到相关性较高的文本数据。文本召回在信息检索、搜索引擎、摘要生成和问答系统等领域得到了广泛的应用,尤其是数字医疗场景。例如,在数字医疗场景中,需要构建医学知识库来存储和管理各种医学相关数据信息,利用文本召回可以帮助构建医学知识库,将医学文本资料进行自然语言处理和分析,从而快速找到相关文本资料、提取出有用信息。

相关技术中常见的文本召回方法是基于问题计算每句文本或每段文本的语义相似度,然后保留语义相似度高的部分。但是这种方式容易丢掉一些关键段落的上下文信息,导致召回内容不完整或不连贯。尤其在医学知识库等场景中,召回内容不连贯会导致查找相关医学资料的检索效率低。因此需要提出一种能够提升召回内容完整性的文本召回方法。

发明内容

本申请实施例的主要目的在于提出文本段落召回方法、装置、设备和存储介质,能够提升召回内容完整性。

为实现上述目的,本申请实施例的第一方面提出了一种文本段落召回方法,包括:

获取待处理文本和召回提示信息,并将所述待处理文本划分成多个文本段落,所述召回提示信息表征所述待处理文本的召回需求;

计算所述文本段落和所述召回提示信息的相似度分值;

根据预设距离获取每个所述文本段落的文本影响段落;所述文本影响段落与所述文本段落的段落距离小于或等于所述预设距离;

获取每个所述文本影响段落与所述文本段落的影响系数,并根据所述影响系数和所述相似度分值计算得到所述文本段落的召回分值;

对所述召回分值进行排序,得到召回排序结果;

根据所述召回排序结果选取预设数量个所述文本段落作为所述待处理文本的召回内容。

在一些实施例,所述获取每个所述文本影响段落与所述文本段落的影响系数,并根据所述影响系数和所述相似度分值计算得到所述文本段落的召回分值,包括:

获取系数权重参数,并根据所述系数权重参数和所述段落距离计算得到所述文本影响段落的所述影响系数;

累加每个所述文本影响段落对应的所述影响系数得到综合影响值;

根据所述综合影响值和所述相似度分值计算得到所述召回分值。

在一些实施例,所述根据所述系数权重参数和所述段落距离计算得到所述文本影响段落的所述影响系数,包括:

根据所述系数权重参数和所述段落距离计算得到第一影响值;

累加每个所述文本影响段落所述第一影响值得到第二影响值;

根据所述第一影响值和所述第二影响值得到所述影响系数。

在一些实施例所述根据所述综合影响值和所述相似度分值计算得到所述文本段落的召回分值,包括:

获取所述文本段落的自影响值,并将所述自影响值和所述综合影响值相加得到相邻影响值;

将所述相邻影响值和所述相似度分值相乘,得到所述召回分值。

在一些实施例,所述根据所述召回排序结果选取预设数量个所述文本段落作为所述待处理文本的召回内容,包括:

获取预设数量,并从所述召回排序结果中选取所述预设数量个所述文本段落构成候选文本集合;

根据所述文本段落在所述待处理文本中的段落距离调整所述文本段落在所述候选文本集合中的候选次序;

根据所述候选次序拼接所述候选文本集合中所述文本段落得到所述待处理文本的所述召回内容。

在一些实施例,所述逐一计算所述文本段落和所述召回提示信息的相似度分值,包括:

计算所述召回提示信息的召回提示向量,以及计算每个所述文本段落的文本向量;

计算所述文本向量和所述召回提示向量的相似度值,将所述相似度值作为所述文本段落的所述相似度分值。

在一些实施例,所述待处理文本中包括第一数量个文本段落,所述根据预设距离获取每个所述文本段落的文本影响段落,包括:

获取所述文本段落在所述待处理文本中的段落距离,并生成所述待处理文本的段落区间,所述段落区间的范围包括:[1,第一数量];

以所述段落距离为中心构建文本位置区间;所述文本位置区间的范围包括:[第一区间值,第二区间值];所述第一区间值为:段落距离-预设距离,所述第二区间值为:段落距离+预设距离,若所述第一区间值不大于0,则所述第一区间值为1,若所述第二区间值大于所述第一数量,则所述第二区间值为所述第一数量;

获取所述文本位置区间和所述段落区间的交集区间;

将所述段落距离位于所述交集区间内的所述文本段落作为所述文本影响段落。

为实现上述目的,本申请实施例的第二方面提出了一种文本段落召回装置,包括:

获取模块:用于获取待处理文本和召回提示信息,并将所述待处理文本划分成多个文本段落,所述召回提示信息表征所述待处理文本的召回需求;

相似度计算模块:用于逐一计算所述文本段落和所述召回提示信息的相似度分值;

文本影响段落获取模块:用于根据预设距离获取每个所述文本段落的文本影响段落;所述文本影响段落与所述文本段落的段落距离小于或等于所述预设距离;

召回分值计算模块:用于获取每个所述文本影响段落与所述文本段落的影响系数,并根据所述影响系数和所述相似度分值计算得到所述文本段落的召回分值;

召回分值排序模块:用于对所述召回分值进行排序,得到召回排序结果;

召回内容生成模块:用于根据所述召回排序结果选取预设数量个所述文本段落作为所述待处理文本的召回内容。

为实现上述目的,本申请实施例的第三方面提出了一种电子设备,所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的方法。

为实现上述目的,本申请实施例的第四方面提出了一种存储介质,所述存储介质为计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面所述的方法。

本申请实施例提出的文本段落召回方法、装置、设备和存储介质,获取待处理文本和召回提示信息,并将待处理文本划分成多个文本段落,基于召回提示信息逐一计算文本段落的相似度分值,获取每个文本段落的至少一个文本影响段落,然后获取每个文本影响段落与文本段落的影响系数,并根据影响系数和相似度分值计算得到文本段落的召回分值,最后对每个文本段落的召回分值进行排序,根据排序结果选取预设数量个文本段落作为待处理文本的召回内容。本申请实施例不仅考虑召回内容与召回提示信息的匹配程度,还考虑文本段落之间的上下文关系,通过文本段落间的影响系数和文本段落本身的相似度分值共同计算召回分值,可以保证召回内容与召回提示信息相关性高的同时,尽可能保留文本段落的上下文信息,确保召回内容更加完整和连贯,从而提高召回内容的质量和可读性。

附图说明

图1是本发明实施例提供的文本段落召回方法的流程图。

图2是图1中的步骤S120的流程图。

图3是步骤S120的计算过程示意图。

图4是本发明又一实施例提供的文本段落召回方法的段落距离的示意图。

图5是图1中的步骤S130的流程图。

图6是本发明又一实施例提供的文本段落召回方法的文本位置区间的示意图。

图7是本发明又一实施例提供的文本段落召回方法的文本位置区间的示意图。

图8是本发明又一实施例提供的文本段落召回方法的交集区间的示意图。

图9是图1中的步骤S140的流程图。

图10是图9中的步骤S142的流程图。

图11是本发明又一实施例提供的文本段落召回方法的综合影响值的计算过程示意图。

图12是图9中的步骤S144的流程图。

图13是图1中的步骤S150的流程图。

图14是本发明又一实施例提供的文本段落召回方法的候选文本集合的示意图。

图15是本发明又一实施例提供的文本段落召回装置结构框图。

图16是本发明实施例提供的电子设备的硬件结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。

需要说明的是,虽然在装置示意图中进行了功能模块划分,在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于装置中的模块划分,或流程图中的顺序执行所示出或描述的步骤。

除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本发明实施例的目的,不是旨在限制本发明。

首先,对本发明中涉及的若干名词进行解析:

人工智能(artificial intelligence,AI):是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学;人工智能是计算机科学的一个分支,人工智能企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能可以对人的意识、思维的信息过程的模拟。人工智能还是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

自然语言处理(Natural Language Processing,NLP)是指计算机处理、分析、理解、生成人类自然语言的技术和方法。它不仅涵盖了语音识别、文本语义理解、句法分析、机器翻译等领域,还包括了对话系统、问答系统、情感分析等应用场景。

自然语言处理:使计算机理解自然语言,并从中获取语义信息,以便更好地与人类进行交互和沟通。自然语言处理技术主要包括以下几个方面:语言模型:利用统计学习方法建立语言模型,对自然语言进行建模和处理。语法分析:对自然语言的句子结构进行分析,包括句子成分、关键字等等。语义分析:通过挖掘文本中的实体、关系、事件等语义信息,进行文本的意思表达和理解。机器翻译:将一种自然语言转换为另一种自然语言,以达到沟通的目的。文本分类:将文本数据按照预定义的类别进行分类,如商业情报分析、垃圾邮件过滤、舆情监测等。信息抽取:从非结构化文本数据中挖掘出结构化的信息,如人名、地名、机构名、日期等。自然语言处理技术的广泛应用,使得这一技术成为人工智能领域的重要分支之一。

文本召回是指从大规模的文本数据集中根据查询需求快速找到相关性较高的文本数据。文本召回在信息检索、搜索引擎、摘要生成和问答系统等领域得到了广泛的应用,尤其是数字医疗场景。

相关技术中常见的文本召回方法是基于问题计算每句文本或每段文本的语义相似度,然后保留语义相似度高的部分。但是这种方式容易丢掉一些关键段落的上下文信息,导致召回内容不完整或不连贯。有时候语义相似度低的段落包含对其他语义相似度高的段落的补充信息,相关技术中忽略这种段落间的补充信息。尤其在医学知识库等场景中,召回内容不连贯会导致查找相关医学资料的检索效率低。因此需要提出一种能够提升召回内容完整性的文本召回方法。

基于此,本发明实施例提供一种文本段落召回方法、装置、设备和存储介质,不仅考虑召回内容与召回提示信息的匹配程度,还考虑文本段落之间的上下文关系,通过文本段落间的影响系数和文本段落本身的相似度分值共同计算召回分值,可以保证召回内容与召回提示信息相关性高的同时,尽可能保留文本段落的上下文信息,确保召回内容更加完整和连贯,从而提高召回内容的质量和可读性。

本发明实施例提供文本段落召回方法、装置、设备和存储介质,具体通过如下实施例进行说明,首先描述本发明实施例中的文本段落召回方法。

本发明实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(ArtificialIntelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

本发明实施例提供的文本段落召回方法,涉及人工智能技术领域,尤其涉及数据挖掘技术领域。下面描述本发明实施例中的文本段落召回方法的实施环境。本发明实施例提供的文本段落召回方法可应用于终端中,也可应用于服务器端中,还可以是运行于终端或服务器端中的计算机程序。举例来说,计算机程序可以是操作系统中的原生程序或软件模块;可以是本地(Native)应用程序(APP,Application),即需要在操作系统中安装才能运行的程序,如支持文本段落召回的客户端,也可以是小程序,即只需要下载到浏览器环境中就可以运行的程序;还可以是能够嵌入至任意APP中的小程序。总而言之,上述计算机程序可以是任意形式的应用程序、模块或插件。其中,终端通过网络与服务器进行通信。该文本段落召回方法可以由终端或服务器执行,或由终端和服务器协同执行。

在一些实施例中,终端可以是智能手机、平板电脑、笔记本电脑、台式计算机或者智能手表等。此外,终端还可以是智能车载设备。该智能车载设备应用本实施例的文本段落召回方法提供相关的服务,提升驾驶体验。服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器;也可以是区块链系统中的服务节点,该区块链系统中的各服务节点之间组成点对点(P2P,Peer To Peer)网络,P2P协议是一个运行在传输控制协议(TCP,Transmission Control Protocol)协议之上的应用层协议。服务器上可以安装文本段落召回系统的服务端,通过该服务端可以与终端进行交互,例如服务端上安装对应的软件,软件可以是实现文本段落召回方法的应用等,但并不局限于以上形式。终端与服务器之间可以通过蓝牙、USB(Universal Serial Bus,通用串行总线)或者网络等通讯连接方式进行连接,本实施例在此不做限制。

本发明可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本发明实施例中的文本段落召回方法可以应用在数字医疗场景中。例如,需要构建医学知识库来存储和管理各种医学相关数据信息,利用文本召回可以帮助构建医学知识库,将医学文本资料进行自然语言处理和分析,从而快速找到相关文本资料、提取出有用信息。文本召回也可以协助医生诊断疾病,帮助医生快速获取疾病的相关信息,例如通过对疾病相关的文本进行分析,将与该疾病相关的文本资料召回到医疗平台上,从而为医生提供关键信息和辅助诊断。文本召回也可以用于构建一些智能决策系统。通过对大量临床资料的分析和处理,系统可以采用机器学习等方法,预测病人的病情发展状况,并且根据病情提供相应的临床治疗建议。文本召回也可以被用作构建医疗知识问答系统。这些系统可以帮助患者快速获取医学知识和自我诊断,以及向医生提出相关问题并获得专业的解答。综上所述,文本召回技术在数字医疗场景中具有广泛的应用价值,可以提高医生的工作效率、促进临床决策、增强患者体验等。

下面描述本发明实施例中的文本段落召回方法。

图1是本发明实施例提供的文本段落召回方法的一个可选的流程图,图1中的方法可以包括但不限于包括步骤S110至步骤S160。同时可以理解的是,本实施例对图1中步骤S110至步骤S160的顺序不做具体限定,可以根据实际需求调整步骤顺序或者减少、增加某些步骤。

步骤S110:获取待处理文本和召回提示信息,并将待处理文本划分成多个文本段落。

在一实施例中,待处理文本是需要进行文本召回的源数据,即通过文本召回,获取待处理文本的部分内容作为召回结果。这里的待处理文本可以是网页、新闻文章、社交媒体帖子、科技论文、书籍等丰富多样的文本类型,本实施例对待处理文本的类型不做限定。例如在数字医疗场景中,各种医学相关数据信息,如医学文本资料就属于待处理文本,利用文本召回的方式可以根据待处理文本构建医学知识库,将医学文本资料进行自然语言处理和分析得到召回内容,从而根据召回内容快速找到相关文本资料、提取出有用信息。

其中,召回提示信息表征待处理文本的召回需求。例如在信息检索场景中,召回提示信息是指进行信息检索时所需要提供的查询词、短语、问题等,用于表示搜索目的和需求,在搜索引擎等信息检索系统中,召回提示信息被用来匹配文本库中的文本内容,并从中选取最相关的结果进行返回得到召回信息。该实施例中,召回提示信息包括:单个词汇、由多个词汇组成的短语、完整的问题句子或文章段落等。

在一实施例中,考虑到召回提示信息的长度和内容对召回内容的准确性和召回率有很重要的影响,因此结合系统的召回率设定召回提示信息的信息长度和内容范围。并且在接收召回提示信息时,通过在默认输入框显示信息长度和内容范围,或者通过弹窗显示的方式进行显示,从而提醒使用者按照要求输入召回提示信息。

在一实施例中,在进行下述步骤的文本召回之前,需要将待处理文本划分成多个文本段落。本实施例采用以下三种方式进行待处理文本的分段。

1)根据待处理文本中特殊标识进行划分。该实施例识别待处理文本中包含的换行符号、段落标记等特殊标识,根据这些特殊标识将文本划分成多个段落。比如,待处理文本为HTML文件,其中包含“

”或“
”这种标签可作为段落标记,则根据

标签或者
标签进行段落分割,得到多个文本段落。又比如,待处理文本为word格式文件,其中包含换行符号,则根据两个段落之前有无换行符号进行段落分割,得到多个文本段落。

2)根据待处理文本中各句子的句子结束符进行划分。该实施例获取每个句子末位的句子结束符,例如句号、问号、感叹号等,根据句子结束符将待处理文本划分成多个句子,再根据前后含义将相邻的若干句子组合成文本段落。

3)利用自然语言处理模型进行划分。该实施例中构建基于自然语言处理技术的分句和分段工具,例如NLTK、Stanford CoreNLP等模型结构,对待处理文本进行全自动或半自动地分句和分段,得到多个文本段落。这种方式能够更好保留待处理文本的上下文信息和语法结构,得到的分段文本在召回操作中表现更好。

可以理解的是,本申请实施例对将待处理文本划分成多个文本段落的方法不做限定。

步骤S120:计算文本段落和召回提示信息的相似度分值。

在一实施例中,利用相似度分值来表征每一个文本段落与召回提示信息之间的信息匹配程度,可以理解的是,相似度分值越高表示两者越匹配,该文本段落被选在召回内容中的概率越高。

在一实施例中,利用余弦相似度计算文本段落和召回提示信息之间的匹配程度。参照图2,步骤S120具体包括以下步骤:

步骤S121:计算召回提示信息的召回提示向量,以及计算每个文本段落的文本向量。

在一实施例中,参照图3,为步骤S120的计算过程示意图。首先对文本段落和召回提示信息进行预处理,将其分别转换成数值型的向量表示,例如得到召回提示信息的召回提示向量以及每个文本段落的文本向量。该步骤中向量表示的过程可以是通过词袋模型将文本信息转换成向量,或者使用预训练的词向量模型将文本信息转换成向量。本实施例对此不做限定。

在一实施例中,为了提升相似度分值的计算效率,对召回提示向量和每个文本向量进行归一化,将其的长度规范化到单位长度。这里归一化的操作是将每个向量除以其欧式长度即可得到。

步骤S122:计算文本向量和召回提示向量的相似度值,将相似度值作为文本段落的相似度分值。

在一实施例中,参照图3,逐一计算文本向量和召回提示向量的相似度值的过程是:首先计算文本向量和召回提示向量的点积,然后根据点积计算两个向量的余弦值,得到相似度值。其中点积的过程是将两个向量对应位置上的元素相乘并求和,点积结果越大,说明两个向量的方向更为接近,相关性也就越大。接着根据点积计算两个向量的余弦值的过程是将点积除以两者的长度乘积即可。其中,余弦值越大,说明两个向量越相似,该文本段落与召回提示向量的匹配程度越大,该文本段落的相似度分值越大。

上述步骤得到文本段落的相似度分值表征召回内容与召回提示信息的匹配程度,本申请实施例为了保证召回内容与召回提示信息相关性高的同时,尽可能保留文本段落的上下文信息,确保召回内容更加完整和连贯,还需要量化文本段落之间的上下文关系得到文本段落间的影响系数,从而可以通过文本段落间的影响系数和文本段落本身的相似度分值共同计算召回分值,提高召回内容的质量和可读性。

下面描述文本段落间的影响系数的计算过程。

步骤S130:根据预设距离获取每个所述文本段落的文本影响段落。

在一实施例中,每个文本段落均对应一个影响段落集合,影响段落集合中中包括至少一个文本影响段落,文本影响段落与文本段落的段落距离小于或等于预设距离。

由于每个文本段落在待处理文本中都有对应的段落距离,例如图4中,待处理文本包括10个文本段落,因此按照待处理文本的阅读顺序,依次将文本段落的段落距离命名为:1、2、3…、10,每个数字对应一个段落距离,数字之间的先后关系对应文本段落之间的先后关系。而本实施例中两个文本段落之间的段落距离为两个文本段落之间段落距离之差的绝对值。例如第三个文本段落的段落距离为3,第七个文本段落的段落距离为7,则第三个文本段落和第七个文本段落之间的段落距离为|3-7|=|7-3|=4。可以理解的是,段落距离的命名方式本实施例并不进行限定,上述仅为示意。

在一实施例中,文本影响段落与文本段落的段落距离小于或等于预设距离,假设待处理文本划分得到N个文本段落,N为大于等于1的整数。如果N等于1,则待处理文本对应一个文本段落,此时该文本段落不存在文本影响段落,则预设距离为0;如果N大于1,则预设距离的取值范围是:[1,N-1]。

在一实施例中,预设距离的取值可以根据经验值设定,也可以利用预设的分段模型进行预测。其中分段模型的输入信息为待处理文本和待处理文本中文本段落的数量,输出为预测的预设距离。本实施例对预设距离的获取方式不做限定。

在得到预设距离后,即可根据预设距离选取每个文本段落对应的文本影响段落,其中文本影响段落构成影响段落集合。在一实施例中,参照图5,本申请实施例获取每个文本段落的影响段落集合的步骤包括步骤S131至步骤S134:

步骤S131:获取文本段落在待处理文本中的段落距离,并生成待处理文本的段落区间。

在一实施例中,待处理文本划分得到第一数量个文本段落,则段落区间的范围包括:[1,第一数量]。

步骤S132:以段落距离为中心构建文本位置区间。

在一实施例中,参照图6,以段落距离为中心构建每个文本段落的文本位置区间,其中,文本位置区间的范围包括:[第一区间值,第二区间值]。第一区间值为:段落距离-预设距离,第二区间值为:段落距离+预设距离。例如图6中第三个文本段落的文本位置区间的范围为[第一区间值W1,第二区间值W1’],第五个文本段落的文本位置区间的范围为[第一区间值W2,第二区间值W2’],第10个文本段落的文本位置区间的范围为[第一区间值W3,第二区间值W3’]。可见每个文本位置区间以段落距离为中心。

参照图7,为文本位置区间的两个特殊情况,这两种情况可以概括为文本位置区间的第一区间值或者第二区间值超出了段落区间。假设段落距离为1和10,且第一数量为10,预设距离为2,则第一种情况下的第一区间值=段落距离1-预设距离2=-1,第一区间值的值不大于0;第二种情况下的第二区间值=段落距离10+预设距离2=12,第二区间值大于第一数量。此时需要对文本位置区间进行调整,若第一区间值不大于0,则第一区间值为1,若第二区间值大于第一数量,则第二区间值为第一数量10。

步骤S133:获取文本位置区间和段落区间的交集区间。

在一实施例中,将文本位置区间和段落区间进行取交集计算,得到交集区间。参照图8,假设段落区间为[1,10],文本段落的段落距离为3,段落距离为2,则文本位置区间为[1,5],此时取交集得到的交集区间为:[1,5]。

步骤S134:将段落距离位于交集区间内的文本段落作为文本影响段落。

在一实施例中,获取交集区间中所有的整数值,将每个整数值对应的文本段落作为文本影响段落,构成影响段落集合。图8中交集区间对应的影响段落集合包括:{段落距离等于1的文本段落,段落距离等于2的文本段落,段落距离等于3的文本段落,段落距离等于4的文本段落,段落距离等于5的文本段落}。

接着获取每个文本影响段落与文本段落的影响系数。

步骤S140:获取每个文本影响段落与文本段落的影响系数,并根据影响系数和相似度分值计算得到文本段落的召回分值。

在一实施例中,参照图9,步骤S140包括步骤S141至步骤S143

步骤S141:获取系数权重参数,并根据系数权重参数和段落距离计算得到文本影响段落的影响系数。

在一实施例中,假设当前的文本段落的段落距离为i,文本影响段落的段落距离为j,则文本影响段落与文本段落之间的段落距离为d(i,j)。系数权重参数表示为σ,系数权重参数σ是一个超参数,可以设置为[0-1]之间的小数,用来控制段落距离对影响系数的影响程度。可以理解的是,系数权重参数可以根据经验值设定,同时不同段落距离对应的系数权重参数可以不同,例如,段落距离小的两个文本段落之间相关性一般较强,因此系数权重参数可以设置稍大一些,段落距离大的两个文本段落之间相关性一般较弱,因此系数权重参数可以设置稍小一些。本实施例对系数权重参数的大小不做限定,但是每个文本段落对其所有文本影响段落的系数权重参数之和为1。

在一实施例中,参照图10,根据系数权重参数和段落距离计算得到文本影响段落与文本段落的影响系数的过程包括以下步骤S1411至步骤S1413:

步骤S1411:根据系数权重参数和段落距离计算得到第一影响值。

在一实施例中,根据系数权重参数和段落距离计算得到第一影响值表示为:

步骤S1412:累加每个文本影响段落的第一影响值得到第二影响值。

在一实施例中,累加每个文本影响段落第一影响值得到第二影响值表示为:

其中,N{i}表示文本段落i的影响段落集合。

步骤S1413:根据第一影响值和第二影响值得到文本影响段落的影响系数。

在一实施例中,文本段落i与文本影响段落j之间的影响系数w(i,j)表示为:

步骤S142:累加每个文本影响段落对应的影响系数得到综合影响值。

在一实施例中,对于每一个文本段落,将其对文本影响段落对应的影响系数相加即可得到其对文本影响段落的综合影响值。

参照图11,以文本段落i为例进行说明,文本段落i包括4个文本影响段落,分别是:文本段落i-2、文本段落i-1、文本段落i+1和文本段落i+2,则文本段落i-2对应的影响系数表示为:w(i,i-2);文本段落i-1对应的影响系数表示为:w(i,i-1);文本段落i+1对应的影响系数表示为:w(i,i+1);文本段落i+2对应的影响系数表示为:w(i,i+2),则文本段落i对文本影响段落的综合影响值为:w(i,i-2)+w(i,i-1)+w(i,i+1)+w(i,i+2)。

步骤S143:根据综合影响值和相似度分值计算得到文本段落的召回分值。

在一实施例中,参照图12,步骤S144包括以下步骤S1431至步骤S1432:

步骤S1431:获取文本段落的自影响值,并将自影响值和综合影响值相加得到相邻影响值。

在一实施例中,文本段落的自影响值即文本段落对自身的影响程度,本实施例中将自影响值设为1。参照图11,文本段落i的自影响值为1,则文本段落i的相邻影响值为:wi=w(i,i-2)+w(i,i-1)+1+w(i,i+1)+w(i,i+2)。

步骤S1432:将相邻影响值和相似度分值相乘,得到文本段落的召回分值。

在一实施例中,参照图11,假设文本段落i的相似度分值为si,则文本段落i的召回分值表示为:

wi*si=(w(i,i-2)+w(i,i-1)+1+w(i,i+1)+w(i,i+2))*si

=w(i,i-2)*si+w(i,i-1)*si+si+w(i,i+1)*si+w(i,i+2)*si

上述步骤不仅考虑召回内容与召回提示信息的匹配程度,还考虑文本段落之间的上下文关系,通过文本段落间的影响系数和文本段落本身的相似度分值共同计算召回分值,可以保证召回内容与召回提示信息相关性高的同时,尽可能保留文本段落的上下文信息,确保召回内容更加完整和连贯,从而提高召回内容的质量和可读性。

步骤S150:对召回分值进行排序,得到召回排序结果。

在一实施例中,排序方式可以是降序排序,也可以是升序排序,本实施例不限定排序方式。

步骤S160:根据排序结果选取预设数量个文本段落作为待处理文本的召回内容。

在一实施例中,参照图13,步骤S160包括以下步骤S161至步骤S163:

步骤S161:获取预设数量,并从召回排序结果中选取预设数量个文本段落构成候选文本集合。

在一实施例中,如果是降序排序,则根据召回排序结果利用从首位开始的预设数量的文本段落构成候选文本集合;如果是升序排序,则根据召回排序结果利用从末位开始的预设数量的文本段落构成候选文本集合。

在一实施例中,预设数量的取值可以根据经验值设定,也可以利用预设的分段模型进行预测。其中分段模型的输入信息为待处理文本和待处理文本中文本段落的数量,输出为预测的预设数量。本实施例对预设数量的获取方式不做限定。

步骤S162:根据文本段落在待处理文本中的段落距离调整文本段落在候选文本集合中的候选次序。

在一实施例中,召回分值的召回排序结果中文本段落的次序不一定和文本段落在待处理文本中的段落距离一致,而待处理文本中文本段落的段落次序能够在一定程度上反映行文逻辑、因果关系等信息,因此本实施例还需要根据文本段落在待处理文本中的段落距离调整文本段落在候选文本集合中的候选次序。

例如图14中,候选文本集合中包含5个文本段落作为候选段落,按照召回分值的排序结果,候选段落的候选次序为:候选段落H1->候选段落H2->候选段落H3->候选段落H4->候选段落H5,每个候选段落对应的在待处理文本中的段落距离次序分别是:候选段落H1是第1段,候选段落H2是第5段,候选段落H3是第3段,候选段落H4是第6段,候选段落H5是第7段,因此将候选段落H2和候选段落H3的候选次序进行对调即可。候选段落的候选次序调整为:候选段落H1->候选段落H3->候选段落H2->候选段落H4->候选段落H5。

步骤S163:根据候选次序拼接候选文本集合中文本段落得到待处理文本的召回内容。

在一实施例中,得到调整后的候选段落的候选次序,根据候选次序拼接候选文本集合中文本段落得到待处理文本的召回内容。参照图14,召回内容为:候选段落H1+候选段落H3+候选段落H2+候选段落H4+候选段落H5。

例如在数字医疗场景中,待处理文本为各种医学相关数据信息,如医学文本资料,需要根据待处理文本构建医学知识库,则本申请实施例的文本召回方法得到不同医学文本资料对应的摘要信息作为召回内容,将每个医学文本资料和摘要信息关联,并提取摘要作为检索提示,进而可以根据检索提示快速关联到召回内容,从而根据召回内容快速找到相关文本资料、提取出有用信息。

由上述过程,本申请实施例得到待处理文本的召回内容。在一实施例中,由于召回内容是拼接待处理文本中原文得到,因此为了进一步提升流畅度,采用下述方法对召回文本进行校正和优化。

在一实施例中,优化过程为逐句对召回内容进行拼写语法检查得到检查结果,并根据检查结果调整召回内容。例如通过借助自然语言处理模型对召回内容进行拼写纠错,得到关于拼写语法的检查结果,并根据检查结果对召回文本进行校正调整,从而提高召回文本的文本质量和流畅性。

在一实施例中,优化过程为:逐句对召回内容进行语句逻辑分析得到每个句子的逻辑分析结果,并根据逻辑分析结果在召回内容中增加连接词。例如借助自然语言处理模型对召回内容进行语法分析和句法结构分析,在不同句子之间增加并列连词、转折连词、因果连词或时间连词等连接词,其中,并列连词用于连接两个或多个相同等级的单词、短语或句子,包括:"而且"、"或者"、"还是"等;转折连词用于表示相反、不同或对比的关系,转折连词包括:"但是"、"然而"、"不过"等;因果连词用于表示原因和结果的关系,因果连词包括:"因为"、"所以"、"由于"等;时间连词用于表示先后顺序,时间连词包括:"之后"、"接着"、"最后"等。

可以理解的是,上述校正过程和优化过程可以择一选择,也可以都选择,本实施例对此不做限定。

本发明实施例提供的技术方案,通过获取待处理文本和召回提示信息,并将待处理文本划分成多个文本段落,基于召回提示信息逐一计算文本段落的相似度分值,获取每个文本段落的至少一个文本影响段落,然后获取每个文本影响段落与文本段落的影响系数,并根据影响系数和相似度分值计算得到文本段落的召回分值,最后对每个文本段落的召回分值进行排序,根据排序结果选取预设数量个文本段落作为待处理文本的召回内容。本申请实施例不仅考虑召回内容与召回提示信息的匹配程度,还考虑文本段落之间的上下文关系,通过文本段落间的影响系数和文本段落本身的相似度分值共同计算召回分值,可以保证召回内容与召回提示信息相关性高的同时,尽可能保留文本段落的上下文信息,确保召回内容更加完整和连贯,从而提高召回内容的质量和可读性。

本发明实施例还提供一种文本段落召回装置,可以实现上述文本段落召回方法,参照图15,该装置包括:

获取模块1510:用于获取待处理文本和召回提示信息,并将待处理文本划分成多个文本段落,召回提示信息表征待处理文本的召回需求。

相似度计算模块1520:用于逐一计算文本段落和召回提示信息的相似度分值。

文本影响段落获取模块1530:用于获取每个文本段落的影响段落集合,影响段落集合中包括至少一个文本影响段落,文本影响段落与文本段落的段落距离小于或等于预设距离。

召回分值计算模块1540:用于获取每个文本影响段落与文本段落的影响系数,并根据影响系数和相似度分值计算得到文本段落的召回分值。

召回分值排序模块1550:用于对召回分值进行排序,得到召回排序结果。

召回内容生成模块1560:用于根据召回排序结果选取预设数量个文本段落作为待处理文本的召回内容。

本实施例的文本段落召回装置的具体实施方式与上述文本段落召回方法的具体实施方式基本一致,在此不再赘述。

本发明实施例还提供了一种电子设备,包括:

至少一个存储器;

至少一个处理器;

至少一个程序;

所述程序被存储在存储器中,处理器执行所述至少一个程序以实现本发明实施上述的文本段落召回方法。该电子设备可以为包括手机、平板电脑、个人数字助理(PersonalDigital Assistant,简称PDA)、车载电脑等任意智能终端。

请参阅图16,图16示意了另一实施例的电子设备的硬件结构,电子设备包括:

处理器1601,可以采用通用的CPU(CentralProcessingUnit,中央处理器)、微处理器、应用专用集成电路(ApplicationSpecificIntegratedCircuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本发明实施例所提供的技术方案;

存储器1602,可以采用ROM(ReadOnlyMemory,只读存储器)、静态存储设备、动态存储设备或者RAM(RandomAccessMemory,随机存取存储器)等形式实现。存储器1602可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器1602中,并由处理器1601来调用执行本发明实施例的文本段落召回方法;

输入/输出接口1603,用于实现信息输入及输出;

通信接口1604,用于实现本设备与其他设备的通信交互,可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信;和

总线1605,在设备的各个组件(例如处理器1601、存储器1602、输入/输出接口1603和通信接口1604)之间传输信息;

其中处理器1601、存储器1602、输入/输出接口1603和通信接口1604通过总线1605实现彼此之间在设备内部的通信连接。

本申请实施例还提供了一种存储介质,存储介质为计算机可读存储介质,该存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述文本段落召回方法。

存储器作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中,存储器可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例提出的文本段落召回方法、文本段落召回装置、电子设备、存储介质,通过获取待处理文本和召回提示信息,并将待处理文本划分成多个文本段落,基于召回提示信息逐一计算文本段落的相似度分值,获取每个文本段落的至少一个文本影响段落,然后获取每个文本影响段落与文本段落的影响系数,并根据影响系数和相似度分值计算得到文本段落的召回分值,最后对每个文本段落的召回分值进行排序,根据排序结果选取预设数量个文本段落作为待处理文本的召回内容。本申请实施例不仅考虑召回内容与召回提示信息的匹配程度,还考虑文本段落之间的上下文关系,通过文本段落间的影响系数和文本段落本身的相似度分值共同计算召回分值,可以保证召回内容与召回提示信息相关性高的同时,尽可能保留文本段落的上下文信息,确保召回内容更加完整和连贯,从而提高召回内容的质量和可读性。

本申请实施例描述的实施例是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定,本领域技术人员可知,随着技术的演变和新应用场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。

本领域技术人员可以理解的是,图中示出的技术方案并不构成对本申请实施例的限定,可以包括比图示更多或更少的步骤,或者组合某些步骤,或者不同的步骤。

以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、设备中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。

本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。

在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,上述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括多指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例的方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等各种可以存储程序的介质。

以上参照附图说明了本申请实施例的优选实施例,并非因此局限本申请实施例的权利范围。本领域技术人员不脱离本申请实施例的范围和实质内所作的任何修改、等同替换和改进,均应在本申请实施例的权利范围之内。

相关技术
  • 信息召回方法及装置、计算机存储介质、电子设备
  • 文本处理方法、装置、设备、计算机设备和存储介质
  • 文本要点检测方法、装置、设备、存储介质及评估方法
  • 词表生成方法、文本分类方法、装置、设备及存储介质
  • 一种文本标识的方法、装置、电子设备及存储介质
  • 文本段落识别方法、装置、设备及存储介质
  • 文本段落结构还原方法、装置、设备及计算机存储介质
技术分类

06120116490897