掌桥专利:专业的专利平台
掌桥专利
首页

影像报告标签评估方法、装置、计算机设备和存储介质

文献发布时间:2023-06-19 12:19:35


影像报告标签评估方法、装置、计算机设备和存储介质

技术领域

本发明涉及数据分析技术领域,尤其是影像报告标签评估方法、装置、计算机设备和存储介质。

背景技术

高效利用大数据技术,充分挖掘医疗和健康大数据的价值,对于疾病诊疗、预后及基础科学等研究有着重要意义。但医疗文本大多采用PDF(Portable Document Format,可携带文档格式)存储,即其中的数据信息为非结构化的状态,提取困难,限制了对数据的分析和应用。而其中,医学影像报告数据量大,且呈相对规则的结构,有利于数据的结构化尝试。现有技术中,常通过规则提取、自然语言语义分析及文本标注等方法将影像报告中的信息提取并转化为结构化的可应用的标签。然而,现有技术中对提取到的标签的准确性的评估仍主要依赖人工审核,费时费力、且难以得到比较客观和统一的结果。而标签的准确率直接影响后续的数据应用,因此,亟需有一套标签准确率评估方法来帮助评估标签的准确率。

发明内容

针对现有技术的上述问题,本文的目的在于,提供一种影像报告标签评估方法、装置、计算机设备和存储介质,以解决现有技术中仍需要依赖人工来审核影像报告的标签带来的费时费力及不准确的问题。

为了解决上述技术问题,本文的具体技术方案如下:

一方面,本文提供一种影像报告标签评估方法,包括:

获取待评估的影像报告及其标签,所述标签预先从所述影像报告中提取得到;

解析所述影像报告,获得描述性文本和结论性文本;

解析所述标签,获得器官关键字和属性关键字;

根据所述器官关键字和所述属性关键字,从所述描述性文本中获取第一目标文本,和从所述结论性文本中获取第二目标文本;

根据所述第一目标文本和第二目标文本,判断所述标签是否与所述影像报告相匹配。

具体地,所述根据所述器官关键字和所述属性关键字,从所述描述性文本中获取第一目标文本和从所述结论性文本中获取第二目标文本,包括:

分别获取所述器官关键字和所述属性关键字在所述描述性文本中的第一位置坐标和第二位置坐标;

根据所述第一位置坐标和所述第二位置坐标获取所述第一目标文本;

分别获取所述器官关键字和所述属性关键字在所述结论性文本中的第三位置坐标和第四位置坐标;

根据所述第三位置坐标和所述第四位置坐标获取所述第二目标文本。

具体地,所述根据所述第一位置坐标和所述第二位置信息坐标获得所述第一目标文本,包括:

判断所述第一位置坐标及第二位置坐标是否唯一;

若所述第一位置坐标及第二位置坐标都唯一,则获取第一位置坐标、第二位置坐标以及两者之间的文本作为第一目标文本;

若所述第一位置坐标和/或第二位置坐标的数量大于等于两个,则获取各第一位置坐标与各所述第二位置坐标的正向距离,选择正向距离最小的一组第一位置坐标和第二位置坐标,以及两者之间的文本作为第一目标文本。

进一步地,所述判断所述第一位置坐标是否唯一之前,还包括:

判断所述第一位置坐标是否为空;

若所述第一位置坐标为空,则判断所述描述性文本中是否存在其他器官关键字;

若存在,则判定所述标签与所述影像报告不匹配;

若不存在,则在所述描述性文本的头部补入所述器官关键字。

进一步地,所述判断所述第一位置坐标是否为空之前,所述方法还包括:

判断所述第二位置坐标是否为空;

若所述第二位置坐标为空,则确定所述第一目标文本为空。

更进一步地,所述根据所述第一位置坐标和所述第二位置信息坐标获得所述第一目标文本为:

判断所述第一位置坐标和所述第二位置坐标之间是否存在标点符号;

若存在,则获取所述标点符号与所述第二位置坐标之间的文本作为所述第一目标文本。

具体地,所述根据所述第三位置坐标和所述第四位置坐标获取所述第二目标文本,包括:

判断所述第四位置坐标是否为空;

若所述第四位置坐标为空,则确定所述第二目标文本为空;

若所述第四位置坐标不为空,则判断所述第三位置坐标是否为空;

若所述第三位置坐标不为空,则获取第三位置坐标、第四位置坐标以及两者之间的文本作为第二目标文本;

若所述第三位置坐标为空,则在所述结论性文本的头部补入所述器官关键字。

具体地,所述根据所述第一目标文本和第二目标文本,判断所述标签是否与所述影像报告相匹配,包括:

若所述第二目标文本为空,则判断所述第一目标文本是否为空;

若所述第一目标文本为空,则判定所述标签与所述影像报告不匹配;

若所述第一目标文本不为空,则判断所述第一目标文本中是否存在其他器官关键字和否定词;

若不存在其他器官关键字且不存在否定词,则判定所述标签与所述影像报告相匹配;

若存在其他器官关键字和/或否定词,则判定所述标签与所述影像报告不匹配。

进一步地,所述方法还包括:

若所述第二目标文本不为空,则判断所述第二目标文本中是否存在其他器官关键字;

若所述第二目标文本中不存在其他器官关键字,则判断所述第二目标文本中是否存在否定词;

若所述第二目标文本中存在否定词,则判定所述标签与所述影像报告不匹配;

若所述第二目标文本中不存在否定词,则判定所述标签与所述影像报告相匹配。

进一步地,所述方法还包括:

若所述第二目标文本中存在其他器官关键字,则判断所述第一目标文本是否为空;

若所述第一目标文本为空,则判定所述标签与所述影像报告不匹配;

若所述第一目标文本不为空,则判断所述第一目标文本中是否存在其他器官关键字和否定词;

若所述第一目标文本中不存在其他器官关键字且不存在否定词,则判定所述标签与所述影像报告相匹配;

若存在其他器官关键字和/或否定词,则判定所述标签与所述影像报告不匹配。

另一方面,本文还提供一种影像报告标签评估装置,包括:

第一获取模块,用于获取待评估的影像报告及其标签,所述标签预先从所述影像报告中提取出得到;

第一解析模块,用于解析所述影像报告,获得描述性文本和结论性文本;

第二解析模块,用于解析所述标签,获得器官关键字和属性关键字;

第二获取模块,用于根据所述器官关键字和所述属性关键字,从所述描述性文本中获取第一目标文本和从所述结论性文本中获取第二目标文本;

判断模块,用于根据所述第一目标文本和第二目标文本,判断所述标签是否与所述影像报告相匹配。

另一方面,本文还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述技术方案提供的方法。

另一方面,本文还提供一种计算机存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上述技术方案提供的方法。

采用上述技术方案,本文提供的一种影像报告标签评估方法、装置、计算机设备和存储介质,将标签解析为器官关键字和属性关键字来分别获取匹配描述性文本和结论性文本,从而获取用于判断标签是否匹配的第一目标文本和第二目标文本;不仅能够克服影像报告的标签是否准确对人工审核的依赖问题,且能够提高对标签评估的准确性和效率。

为让本文的上述和其他目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附图式,作详细说明如下。

附图说明

为了更清楚地说明本文实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本文的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1示出了本文实施例提供的一种影像报告标签评估方法的流程示意图;

图2是根据第一位置坐标和第二位置坐标获取第一目标文本的第一示意图;

图3是根据第一位置坐标和第二位置坐标获取第一目标文本的第二示意图;

图4是判断标签与影像报告是否相匹配的第一流程示意图;

图5是判断标签与影像报告是否相匹配的第二流程示意图;

图6示出了本文实施例提供的一种影像报告标签评估装置的结构示意图;

图7示出了本文实施例提供的一种计算机设备的结构示意图。

附图符号说明:

10、第一获取模块;

20、第一解析模块;

30、第二解析模块;

40、第二获取模块;

50、判断模块;

702、计算机设备;

704、处理器;

706、存储器;

708、驱动机构;

710、输入/输出模块;

712、输入设备;

714、输出设备;

716、呈现设备;

718、图形用户接口;

720、网络接口;

722、通信链路;

724、通信总线。

具体实施方式

下面将结合本文实施例中的附图,对本文实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本文一部分实施例,而不是全部的实施例。基于本文中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本文保护的范围。

需要说明的是,本文的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本文的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、装置、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

现有技术中,常通过规则提取、自然语言语义分析、文本标注等方法将影像报告中的信息提取出来作为标签,以对影像报告进行分类和分析。然而,现有技术中对提取到的标签是否准确仍主要依赖人工审核,费时费力、且难以得到比较客观和统一的结果。而标签的准确率直接影响后续的数据应用,因此,为了解决上述问题,本文实施例提供了一种影像报告标签评估方法,能够自动对影像报告标签的准确性进行评估,极大地节约了人工审核所需的时间和成本。如图1是本文实施例提供的一种影像报告标签评估方法的步骤示意图,本说明书提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的系统或装置产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行。具体的如图1所示,所述方法可以包括:

S110:获取待评估的影像报告及其标签,所述标签预先从所述影像报告中提取得到;

本说明书实施例中,所述待评估的影像报告优选为医学影像报告,由于医学影像报告的结构和布局相对规则,有利于对标签准确性评估尝试。当然,也可以是其他领域的影像报告。所述影像报告可以从现有的医学影像包括库中直接调取,所述标签是预先通过规则提取、自然语言语义分析、文本标注等方式方法从影像报告中提取得到,本说明书实施例中对标签的提取方法、提取规则不做具体限定。

S120:解析所述影像报告,获得描述性文本和结论性文本;

需要说明的是,医学影像报告(文本部分)一般包括三个组成部分:第一部分是影像检查的详细信息,例如:检查部位(如胸部、肺部、肝部等)及检查方式(如超声、CT等)、患者信息(例如,患者的姓名、性别、年龄等)、检查时间、报告编号(每个影像报告的编号唯一)等等;第二部分是描述性文本,即影像所见信息,是影像师根据从影像图像中观察到的信息记录而成的详细的文字报告;第三部分是结论性文本,是主治医师根据描述性文本给予病人的诊断结果。医学影像报告除文本部分外,有时还可以包括图片部分,即超声、CT等影像图像。

S130:解析所述标签,获得器官关键字和属性关键字;

需要说明的是,本说明书实施例中所述器官关键字可以是甲状腺、肾、肝、肺等器官名称;所述属性关键字是带有诊断结论性的词汇,例如,结节,囊肿等;即所述标签可以为“甲状腺结节”、“肾囊肿”等,可认为是对涉及的器官症结的诊断结果。本领域技术人员可根据标签对影像报告进行分类,还可以利用分类后的影像报告进行机器学习等。且说明书实施例中,不同部位或不同器官可以有相同的属性关键字,例如有乳腺结节、肺结节、甲状腺结节等。从影像图像中提取标签时,可以采用统一的医学属性标签集进行标注。

S140:根据所述器官关键字和所述属性关键字,从所述描述性文本中获取第一目标文本,和从所述结论性文本中获取第二目标文本;

S150:根据所述第一目标文本和第二目标文本,判断所述标签是否与所述影像报告相匹配。即根据第一目标文本和第二目标文本来判断所述标签相对于所述影像报告不准确。

本说明书实施例提供的一种影像报告标签评估方法,开创性的提出了一种对提取出的标签准确与否进行判断评估的方法:将标签解析为器官关键字和属性关键字来分别获取第一目标文本和第二目标文本,进而根据第一目标文本和第二目标文本来判断标签的准确性;弥补了现有技术中对标签准确性判断评估的缺乏,以及克服了依赖人工审核标签是否准确带来的效率及可靠性低下的问题。

具体地,本说明书实施例中,步骤S140:根据所述器官关键字和所述属性关键字,从所述描述性文本中获取第一目标文本和从所述结论性文本中获取第二目标文本,进一步包括:

S210:分别获取所述器官关键字和所述属性关键字在所述描述性文本中的第一位置坐标和第二位置坐标;

本说明书实施例中,第一位置坐标是指在描述性文本的所有字符中,器官关键字的排列顺序(即根据阅读习惯,从上到下从左到右排列,器官关键字在整段描述性文本的所有字符中排第几个)。当然,第一位置坐标也可以是器官关键字在描述性文本中位于第几行第几列,即也可以通过横坐标和纵坐标的方式来表示。第二位置坐标的含义参见第一位置坐标即可。

S220:根据所述第一位置坐标和所述第二位置坐标获取所述第一目标文本;

S230:分别获取所述器官关键字和所述属性关键字在所述结论性文本中的第三位置坐标和第四位置坐标;第三位置坐标和第四位置坐标的含义参见第一位置坐标即可,此处不再赘述。

S240:根据所述第三位置坐标和所述第四位置坐标获取所述第二目标文本。

本说明书实施例中,步骤S220:根据所述第一位置坐标和所述第二位置信息坐标获得所述第一目标文本,具体包括:

S310:判断所述第一位置坐标及第二位置坐标是否唯一;

S320:若所述第一位置坐标及第二位置坐标都唯一,则获取第一位置坐标、第二位置坐标以及两者之间的文本作为第一目标文本。

示例性的,如图2所示,影像报告中的描述性文本为:甲状腺大小形态正常,表面光滑,包膜完整,内部呈中等回声,光点细弱密集,分布均匀,未见明显结节。

器官关键字为:甲状腺;属性关键字为:结节。

则第一位置坐标为[0](记描述性文本中第一个字符的位置为0),第二位置坐标为[44];且可判断得到第一位置坐标及第二位置坐标都唯一,则获取第一位置坐标、第二位置坐标以及两者之间的文本作为第一目标文本,即第一目标文本为:甲状腺大小形态正常,表面光滑,包膜完整,内部呈中等回声,光点细弱密集,分布均匀,未见明显结节。需要注意的是,第二位置坐标[44]实际上是属性关键字中“结”这个字的坐标,但在获取第一目标文本时会将整个属性关键字一同获取。

S330:若所述第一位置坐标和/或第二位置坐标的数量大于等于两个,则获取各第一位置坐标与各所述第二位置坐标间的正向距离,选择正向距离最小的一组第一位置坐标和第二位置坐标,以及两者之间的文本作为第一目标文本。所述正向距离是指对于一组器官关键字和属性关键字,相对位置关系为第一位置坐标(即器官关键字)在前,而第二位置坐标(属性关键字)在后。

如图3所示,示例性的,若影像报告中描述性文本为:甲状腺大小形态正常,表面光滑,包膜完整,内部呈中等回声,光点细弱密集,分布均匀,甲状腺未见明显结节。

则第二位置坐标为[47];第一位置坐标为[0,40],即第一位置坐标的数量不唯一,则获取各第一位置坐标与第二位置坐标之间的正向距离,可知第一位置坐标为[40]的器官关键字与属性关键字间的正向距离最小,因此选择位置坐标为[40]的器官关键字来获取第一目标文本,最终第一目标文本为:甲状腺未见明显结节。可以避免获得多个第一目标文本的情况。由于描述性文本是影像师对从影像图像观察到的全部信息进行的详细记录,因此,有时描述性文本内容会非常冗长。因此,本说明书实施例中根据第一位置坐标和第二位置坐标之间的相对位置关系来确定第一目标文本,可以使得第一目标文本可更为精简,便于后续对标签是否准确的判断。

本说明书实施例中,各第一位置坐标与第二位置坐标之间的相对位置关系还可用每个第一位置坐标与第二位置坐标作差来表示,则差值的绝对值可用来表示相对距离的大小。由于医学影像报告的描述性文本具有一定的语言表达规范,因此,在一些可行的实施例中,可以计算各器官关键字与数据关键字间的正向距离:如上述描述性文本所示,各器官关键字的第一位置坐标与属性关键词的第二位置坐标间的正向距离为[0-47=-47,41-47=-6],取正向距离最小,即最大的负数-6,得到第一目标文本。需要说明的是,所述属性关键字对应的第二位置坐标可能有不止一个,则获取各第一位置坐标和各第二位置坐标之间的相对距离,进而获得第一目标文本。

本说明书实施例提供的影像报告标签评估方法,可以满足多种情形下的对影像报告中第一目标文本的获取,不仅避免了有多个第一位置坐标时第一目标文本获取混乱,也能够精简第一目标文本,便于后续标签评估操作。

在一些优选的实施例中,在步骤S310:判断所述第一位置坐标是否唯一之前,所述方法还包括:

S410:判断所述第一位置坐标是否为空;即判断描述性文本中是否存在所述器官关键字。

S420:若所述第一位置坐标为空,则判断所述描述性文本中是否存在其他器官关键字;即当标签为“甲状腺结节”时,判断描述性文本中是否存在除“甲状腺”以外的其他器官关键字。

S430:若存在,则判定所述标签与所述影像报告不匹配;

示例性的,若胸部CT影像报告的描述性文本为:纵隔可见一个结节。标签为肺结节,即器官关键字为:肺;属性关键字为:结节。

则在描述性文本中不存在名称为肺的器官关键字,但存在纵隔这一其他器官关键字,则判断标签“肺结节”与该胸部CT影像报告不匹配。即该影像报告中的描述实则是对纵隔这一器官的反映;在此前提下,可直接判定其标签错误而不必进行获取第二目标文本的操作以及后续判断分析步骤,能够提高判断效率。

S440:若不存在,则在所述描述性文本的头部补入所述器官关键字。

示例性的,若肾脏超声影像报告的描述性文本为:左侧可见一个囊肿。标签为肾囊肿。则描述性文本中不存在任何器官的关键字,此时由于没有器官关键字“肾”,因此无法获得第一位置坐标和第一目标文本,因此,在该段描述性文本的头部补入该器官关键字,使得描述性文本更新为:肾左侧可见一个囊肿。

在一些优选的实施例中,在步骤S410:判断所述第一位置坐标是否为空之前,所述方法还包括:

S510:判断所述第二位置坐标是否为空;

S520:若所述第二位置坐标为空,则确定所述第一目标文本为空。即当所述描述性文本中不存在属性关键字时,则确定未获取到第一目标文本。本说明书实施例中,可优先判断描述性文本中是否包括属性关键字来判断第一目标文本是否为空,进而再判断描述性文本中是否包括器官关键字,可以提高第一目标文本的获取效率。

在一些优选的实施例中,所述根据所述第一位置坐标和所述第二位置信息坐标获得所述第一目标文本,可进一步为:

判断所述第一位置坐标和所述第二位置坐标之间是否存在标点符号;

若存在,则获取所述标点符号与所述第二位置坐标之间的文本作为所述第一目标文本。

需要说明的是,当位于第一位置坐标和第二位置坐标之间的所述标点符号的数量不止一个时,选择第二位置坐标、距离第二位置坐标最近的一个标点符号以及两者之间的文本作为所述第一目标文本。

示例性的,若一影像报告的描述性文本为:双侧甲状腺形态饱满,体积增大,峡部厚约5mm,包膜尚完整,实质回声增粗,分布不均,可见多发小结节。该影像报告的标签为:甲状腺结节。

则可知第一位置坐标为[2],第二位置坐标为[44],且第一位置坐标和第二位置坐标之间存在多个标点符号。则选择位置坐标为[38]的逗号和第二位置坐标之间的文本作为第一目标文本,即第一目标文本由原先的“甲状腺形态饱满,体积增大,峡部厚约5mm,包膜尚完整,实质回声增粗,分布不均,可见多发小结节”变更为“可见多发小结节”。在已经能够获得器官关键字的前提下,可以认为描述性文本中与属性关键字相连的一段文本是对该器官关键字的诊断性描述,从而,第一目标文本的语段变短,有利于后续根据第一目标文本对标签准确性的评估和分析。

在本说明书实施例中,步骤S240:根据所述第三位置坐标和所述第四位置坐标获取所述第二目标文本,可进一步包括:

S610:判断所述第四位置坐标是否为空;

S620:若所述所述第四位置坐标为空,则确定所述第二目标文本为空;

即若所述结论性文本中未见属性关键字,则确定第二目标文本为空。

S630:若所述第四位置坐标不为空,则判断所述第三位置坐标是否为空;

S640:若第三位置坐标不为空,则获取第三位置坐标、第四位置坐标以及两者之间的文本作为第二目标文本;具体地,所述第三位置坐标不为空,还包括第三位置坐标唯一和第三位置坐标不唯一这两种情况,对这两种情况下第二目标文本的获取与第一位置坐标在不同数量的情况下第一目标文本的获取相类似,此处不再赘述。

S650:若所述第三位置坐标为空,则在所述结论性文本的头部补入所述器官关键字。补充器官关键字后,器官关键字在结论性文本中的第三位置坐标则为[0],再以该第三位置坐标和第四位置坐标获取第二目标文本。当结论性文本中存在属性关键字而不存在器官关键字时,可认为结论性文本中的内容即是对该器官关键字相应的症结结论,补入器官关键字后可便于第二目标文本的提取。

示例性的,若影像报告的结论性文本为:甲状腺弥漫性回声异常。标签为:甲状腺结节,即器官关键字为:甲状腺;属性关键字为:结节。

则第三位置坐标为[0];第四位置坐标为

进一步地,如图4所示,步骤S150:根据所述第一目标文本和第二目标文本,判断所述标签是否与所述影像报告相匹配,进一步包括:

S710:若所述第二目标文本为空,则判断所述第一目标文本是否为空;

S720:若所述第一目标文本为空,则判定所述标签与所述影像报告不匹配;

即若一份影像报告其第一目标文本和第二目标文本均为空,则可判定预先提取得到的标签与该影像报告不匹配(即标签不准确)。

S730:若所述第一目标文本不为空,则进一步判断所述第一目标文本中是否存在其他器官关键字和否定词;

S740:若不存在其他器官关键字且不存在否定词,则判定所述标签与所述影像报告相匹配;

需要说明的是,本说明书实施例中,所述否定词是指诸如“没有”、“未”、“未见”、“未探及”、“无”等表示否定的字或词。

示例性的,有一影像报告,其描述性文本为:双侧甲状腺形态饱满,体积增大,峡部厚约5mm,包膜尚完整,实质回声增粗,分布不均,可见多发小结节。其结论性文本为:未见明显异常。其标签为:甲状腺结节。

可知,第一目标文本优选为:可见多发小结节。而第二目标文本为空。

则第一目标文本中既不存在其他器官关键字,也不存在否定词;则该影像报告对应的标签“甲状腺结节”为正确标签。

S750:若存在其他器官关键字和/或否定词,则判定所述标签与所述影像报告不匹配。

示例性的,若影像报告的描述性文本为:甲状腺大小形态正常,表面光滑,包膜完整,内部呈中等回声,光点细弱密集,分布均匀,甲状腺未见明显结节。结论性文本:甲状腺弥漫性回声异常。标签为:甲状腺结节。

则根据在前论述,可知第一目标文本为:甲状腺未见明显结节;第二目标文本为空。

第一目标文本中虽不存在其他器官关键字,但存在“未见”这一表示否定含义的否定词,因此,对于这一影像报告,标签“甲状腺结节”并不正确。

上述步骤仅是对第二目标文本为空的几种情形下标签准确性的判定,本说明书实施例提供的影像报告标签评估方法还包括:

S810:若所述第二目标文本不为空,则判断所述第二目标文本中是否存在其他器官关键字;

S820:若所述第二目标文本中不存在其他器官关键字,则判断所述第二目标文本中是否存在否定词;

S821:若所述第二目标文本中存在否定词,则判定所述标签与所述影像报告不匹配;

S822:若所述第二目标文本中不存在否定词,则判定所述标签与所述影像报告相匹配。

进一步地,如图5所示,所述方法还包括:

S830:若所述第二目标文本中存在其他器官关键字,则优选地,判断第二目标文本中是否存在诸如“均可见”、“均”、“可见”等表示肯定含义的肯定词;

S831:若存在上述肯定词,则判定所述标签与所述影像报告相匹配。

示例性的,若影像报告的标签为:肺结节;第二目标文本为:肺、纵隔均可见结节。则虽第二目标文本中除肺这一器官关键字之外,还存在纵隔这一其他器官关键字;但第二目标文本中也存在“均可见”这一表示肯定的词汇,因此,判定标签与影像报告相匹配。

S840:否则,判断所述第一目标文本是否为空;

S841:若所述第一目标文本为空,则判定所述标签与所述影像报告不匹配;

S850:若所述第一目标文本不为空,则判断所述第一目标文本中是否存在其他器官关键字和否定词;

S851:若所述第一目标文本中不存在其他器官关键字且不存在否定词,则判定所述标签与所述影像报告相匹配;

S852:若存在其他器官关键字和/或否定词,则判定所述标签与所述影像报告不匹配。

优选地,步骤S150:根据所述第一目标文本和第二目标文本,判断所述标签是否与所述影像报告相匹配后,所述方法还包括:

对判定与影像报告不匹配的标签进行剔除,还可以根据第一目标文本和第二目标文本生成正确的标签以对错误的标签进行替换。

除此之外,还可以对标签的召回率和精确度进行评估:抽取一定数量的影像报告及其标签(可抽取多种类别的标签),结合规则验证和机器学习算法验证标签准确率,用精确度和召回率进行评估,下表为两批次抽取评估的结果。

其中,A列为:采用现有的人工审核错误标签条数;

B列:利用本说明书实施例提供的影像报告标签评估方法判断得到的错误标签条数;

C列:利用本说明书实施例提供的影像报告标签评估方法判断的错误标签中判断准确的条数(即A列中错误标签确实是错误的情况);

精确度:每批次的C列值/每行B列值*100%;

召回率:每批次的C列值/每行A列值*100%;

原有标签准确率:1-A列/条数*100%,即采用人工审核方法得到的正确标签数占每批抽样的标签总数的比例;

新标签准确率:1-(A列值-C列值)/(条数-B列值)*100%,即采用本文提供的评估方法,去除被判定为错误(包括实际错误和实际准确的标签)后,实际判断准确的标签数占去除标签后每批抽样的剩余标签总数的比例;

则根据上述表格中数据可见,本说明书实施例提供的影像报告标签评估方法可以显著提升对标签评估的准确率。

需要说明的是,本说明书实施例提供的影像报告标签评估方法中,在解析获得描述性文本和结论性文本时,还包括对所述影像报告文本的预处理。所述预处理包括,将影像报告中的非格式化元素转换为格式化元素,去除文本中的重复内容,去除文本中空格、换行等。还包括生成器官关键字的同义词表和属性关键字的同义词表。还可将描述性文本、结论性文本、器官关键字和属性关键字同义词表生成表格,用于记录和统计分析。

综上所述,本说明书实施例提供的影像报告标签评估,能够解决现有技术仍需要依赖人工来审核影像报告的标签是否准确的问题,且能够提高对标签准确与否评估的可靠性和效率。

如图6所示,本说明书实施例还提供一种影像报告标签评估装置,包括:

第一获取模块10,用于获取待评估的影像报告及其标签,所述标签预先从所述影像报告中提取出得到;

第一解析模块20,用于解析所述影像报告,获得描述性文本和结论性文本;

第二解析模块30,用于解析所述标签,获得器官关键字和属性关键字;

第二获取模块40,用于根据所述器官关键字和所述属性关键字,从所述描述性文本中获取第一目标文本和从所述结论性文本中获取第二目标文本;

判断模块50,用于根据所述第一目标文本和第二目标文本,判断所述标签是否与所述影像报告相匹配。

通过本说明书实施例提供的装置所取得的有益效果和上述方法所取得的有益效果相一致,此处不再赘述。

如图7所示,为本文实施例提供的一种计算机设备,所述计算机设备702可以包括一个或多个处理器704,诸如一个或多个中央处理单元(CPU),每个处理单元可以实现一个或多个硬件线程。计算机设备702还可以包括任何存储器706,其用于存储诸如代码、设置、数据等之类的任何种类的信息。非限制性的,比如,存储器706可以包括以下任一项或多种组合:任何类型的RAM,任何类型的ROM,闪存设备,硬盘,光盘等。更一般地,任何存储器都可以使用任何技术来存储信息。进一步地,任何存储器可以提供信息的易失性或非易失性保留。进一步地,任何存储器可以表示计算机设备702的固定或可移除部件。在一种情况下,当处理器704执行被存储在任何存储器或存储器的组合中的相关联的指令时,计算机设备702可以执行相关联指令的任一操作。计算机设备702还包括用于与任何存储器交互的一个或多个驱动机构708,诸如硬盘驱动机构、光盘驱动机构等。

计算机设备702还可以包括输入/输出模块710(I/O),其用于接收各种输入(经由输入设备712)和用于提供各种输出(经由输出设备714))。一个具体输出机构可以包括呈现设备716和相关联的图形用户接口718(GUI)。在其他实施例中,还可以不包括输入/输出模块710(I/O)、输入设备712以及输出设备714,仅作为网络中的一台计算机设备。计算机设备702还可以包括一个或多个网络接口720,其用于经由一个或多个通信链路722与其他设备交换数据。一个或多个通信总线724将上文所描述的部件耦合在一起。

通信链路722可以以任何方式实现,例如,通过局域网、广域网(例如,因特网)、点对点连接等、或其任何组合。通信链路722可以包括由任何协议或协议组合支配的硬连线链路、无线链路、路由器、网关功能、名称服务器等的任何组合。

对应于图1中的方法,本文实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述方法的步骤。

本文实施例还提供一种计算机可读指令,其中当处理器执行所述指令时,其中的程序使得处理器执行如图1所示的方法。

应理解,在本文的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本文实施例的实施过程构成任何限定。

还应理解,在本文实施例中,术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系。例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。

本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本文的范围。

所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

在本文所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本文实施例方案的目的。

另外,在本文各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本文的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本文各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本文中应用了具体实施例对本文的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本文的方法及其核心思想;同时,对于本领域的一般技术人员,依据本文的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本文的限制。

相关技术
  • 影像报告标签评估方法、装置、计算机设备和存储介质
  • 医疗影像报告的生成方法、装置、计算机设备和存储介质
技术分类

06120113255163