掌桥专利:专业的专利平台
掌桥专利
首页

一种描述文本分型认知系统和方法

文献发布时间:2023-06-19 18:37:28


一种描述文本分型认知系统和方法

技术领域

本申请涉及文本描述信息认知技术领域,具体而言,涉及一种描述文本分型认知系统和方法。

背景技术

腹痛是临床上常见的一种症状,腹部疼痛大多数情况下是因为内部的器官病变导致的。腹部疼痛由于部位不同、器官不同、伴随症状不同、腹痛的病因也不同,以对应的疾病也不同。腹痛疾病判断看似简单,实际上很复杂。因此,在判断腹痛病因时,必须搞清腹部疼痛的部位、器官以及其他各种关系。当前,由于缺乏基于腹痛的疾病认知模型,已有的参考案例及腹痛相关资料难以为腹痛文本信息判断提供可靠依据。

针对相关技术中对腹痛的认知效率低和认知准确率低的问题,目前尚未提出有效的解决方案。

发明内容

本申请的主要目的在于提供一种描述文本分型认知系统和方法,以解决相关技术中对腹痛的认知效率低和认知准确率低的问题。

为了实现上述目的,第一方面,本申请提供了一种描述文本分型认知系统,该系统包括:数据采集模块,用于采集腹痛文本描述信息;特征提取模块,用于采用自然语言处理算法对所述腹痛文本描述信息进行特征提取,得到文本语义特征信息;认知计算模块,用于采用预先训练好的语义相似度计算模型根据所述文本语义特征信息计算得到所述腹痛文本描述信息的分型结果;以及判别分型模块,用于根据所述分型结果确定疼痛分级和方案描述信息。

根据本申请的描述文本分型认知系统,所述数据采集模块还用于采集训练描述信息;以及所述特征提取模块还用于采用所述自然语言处理算法对所述训练描述信息进行特征提取,得到训练语义特征信息;该系统还包括:特征划分模块,用于采用决策树算法根据所述训练语义特征信息对所述训练描述信息进行分类,以得到多个特征信息子集;模型训练模块,用于针对所述多个特征信息子集中的每一个特征信息子集,采用语义相似度算法根据所述训练语义特征信息分别进行模型训练,得到所述多个特征信息子集中的每一个特征信息子集的语义相似度计算模型;其中,所述认知计算模块还用于采用所述多个特征信息子集中的每一个特征信息子集的语义相似度计算模型根据所述文本语义特征信息,计算得到腹痛文本描述信息的分型结果。

根据本申请的描述文本分型认知系统,该系统还包括第一归一化模块,用于:对所述腹痛文本描述信息进行归一化,以得到归一化后的腹痛文本描述信息,所述特征提取模块还用于采用所述自然语言处理算法对归一化后的腹痛文本描述信息进行特征提取,以得到所述文本语义特征信息;以及对所述训练描述信息进行归一化,以得到归一化后的训练描述信息,所述特征提取模块还用于采用所述自然语言处理算法对归一化后的训练描述信息进行特征提取,以得到所述训练语义特征信息。

根据本申请的描述文本分型认知系统,所述认知计算模块还用于:采用所述多个特征信息子集中的每一个特征信息子集的语义相似度计算模型根据所述文本语义特征信息,分别计算得到每一个特征信息子集对应的相似度计算结果;以及对所述相似度计算结果进行加权求和,得到所述腹痛文本描述信息的分型结果。

根据本申请的描述文本分型认知系统,该系统还包括第二归一化模块,用于:采用归一化指数函数对每一个特征信息子集对应的相似度计算结果进行归一化,得到每一个特征信息子集对应的归一化后的相似度计算结果;其中,所述认知计算模块还用于对每一个特征信息子集对应的归一化后的相似度计算结果进行加权求和,得到所述腹痛文本描述信息的分型结果。

第二方面,本申请还提供了描述文本分型认知方法,该方法包括:采集腹痛文本描述信息;采用自然语言处理算法对所述腹痛文本描述信息进行特征提取,得到文本语义特征信息;采用预先训练好的语义相似度计算模型根据所述文本语义特征信息计算得到所述腹痛文本描述信息的分型结果;以及根据所述分型结果确定疼痛分级和方案描述信息。

根据本申请的描述文本分型认知方法,该方法还包括:采集训练描述信息;采用所述自然语言处理算法对所述训练描述信息进行特征提取,得到训练语义特征信息;采用决策树算法根据所述训练语义特征信息对所述训练描述信息进行分类,以得到多个特征信息子集;针对所述多个特征信息子集中的每一个特征信息子集,采用语义相似度算法根据所述训练语义特征信息分别进行模型训练,得到所述多个特征信息子集中的每一个特征信息子集的语义相似度计算模型;以及采用所述多个特征信息子集中的每一个特征信息子集的语义相似度计算模型根据所述文本语义特征信息,计算得到腹痛文本描述信息的分型结果。

根据本申请的描述文本分型认知方法,该方法还包括:对所述腹痛文本描述信息进行归一化,以得到归一化后的腹痛文本描述信息,采用所述自然语言处理算法对归一化后的腹痛文本描述信息进行特征提取,以得到所述文本语义特征信息;以及对所述训练描述信息进行归一化,以得到归一化后的训练描述信息,采用所述自然语言处理算法对归一化后的训练描述信息进行特征提取,以得到所述训练语义特征信息。

根据本申请的描述文本分型认知方法,采用所述多个特征信息子集中的每一个特征信息子集的语义相似度计算模型根据所述文本语义特征信息,计算得到腹痛文本描述信息的分型结果,包括:采用所述多个特征信息子集中的每一个特征信息子集的语义相似度计算模型根据所述文本语义特征信息,分别计算得到每一个特征信息子集对应的相似度计算结果;以及对所述相似度计算结果进行加权求和,得到所述腹痛文本描述信息的分型结果。

根据本申请的描述文本分型认知方法,该方法还包括:采用归一化指数函数对每一个特征信息子集对应的相似度计算结果进行归一化,得到每一个特征信息子集对应的归一化后的相似度计算结果;以及对每一个特征信息子集对应的归一化后的相似度计算结果进行加权求和,得到所述腹痛文本描述信息的分型结果。

本申请通过采用自然语言处理算法对所采集的腹痛文本描述信息进行特征提取,并采用预先训练好的语义相似度计算模型根据特征提取得到的文本语义特征信息计算得到腹痛文本描述信息的分型结果并据此确定疼痛分级和方案描述信息,通过本申请提供的技术方案,可以提高腹痛分型认知准确性和实效性。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解,使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:

图1是根据本申请实施例提供的描述文本分型认知系统的框图;

图2是根据本申请实施例提供的另一描述文本分型认知系统的框图;以及

图3是根据本申请实施例提供的描述文本分型认知方法的流程图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。

需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本申请中,术语“上”、“下”、“左”、“右”、“前”、“后”、“顶”、“底”、“内”、“外”、“中”、“竖直”、“水平”、“横向”、“纵向”等指示的方位或位置关系为基于附图所示的方位或位置关系。这些术语主要是为了更好地描述本申请及其实施例,并非用于限定所指示的装置、元件或组成部分必须具有特定方位,或以特定方位进行构造和操作。

并且,上述部分术语除了可以用于表示方位或位置关系以外,还可能用于表示其他含义,例如术语“上”在某些情况下也可能用于表示某种依附关系或连接关系。对于本领域普通技术人员而言,可以根据具体情况理解这些术语在本申请中的具体含义。

另外,术语“多个”的含义应为两个以及两个以上。

需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1是根据本申请实施例提供的描述文本分型认知系统的框图,如图1所示,该系统包括数据采集模块10、特征提取模块20、认知计算模块30和判别分型模块40。

数据采集模块10用于采集腹痛文本描述信息。腹痛文本描述信息一般来说根据用户描述得到,腹痛文本描述信息例如可以包括腹痛部位、腹痛器官、腹痛起病方式、疼痛的程度及性质、与饮食的关系、伴随症状和疼痛放射的部位等。

特征提取模块20用于采用自然语言处理算法对腹痛文本描述信息进行特征提取,得到文本语义特征信息。这里自然语言处理算法采用本领域公知的算法,只要可以实现特征提取到语义特征信息的自然语言处理算法均在本申请的保护范围之内,自然语言处理算法及采用自然语言处理算法进行特征提取的相关技术为本领域公知技术,于此不予赘述。

认知计算模块30用于采用预先训练好的语义相似度计算模型根据文本语义特征信息计算得到腹痛文本描述信息的分型结果。语义相似度计算模型可以采用本领域公知的技术,例如可以采用DSSM(Deep Structured Semantic Model,基于深度网络的语义模型)、CLSM(Convolutional Latent Semantic Model,卷积潜在语义模型,又叫CNN-DSSM)或LSTM(Long Short Term Memory,长短期记忆)-DSSM等,这里所采用的的语义相似度计算模型为公知技术,于此不予赘述,关于对语义相似度计算模型进行训练的过程将在下文进行阐述。

判别分型模块40用于根据分型结果确定疼痛分级和方案描述信息。关于疼痛分级和方案描述信息,对于不同的疼痛分级,对应不同的方案描述信息。

判别分型模块40可以根据获得的分型结果进行分级归类,例如,根据疼痛在临床上的分级,将腹痛为五级,分别为0度、Ⅰ度、Ⅱ度、Ⅲ度和Ⅳ度,这是世界卫生组织下发的疼痛分级,是一种权威的分级方法。0度就是没有任何痛苦,无需用药;Ⅰ度的疼痛较为轻微,疼痛间歇,可以使用药物,也可以不使用药物;Ⅱ度指出现持续性的疼痛,并且疼痛已经影响到休息,需要使用止痛药才可以睡眠;Ⅲ度是较为严重的一种疼痛,是持续性的疼痛,如果不用药物疼痛得不到缓解;Ⅳ度是最为严重的一种疼痛,疼痛除了影响工作生活和睡眠之外,影响到血压以及心率伴随其他的异常体征出现。

举例来说,分型结果为急性胆囊炎、胆石症,腹痛文本描述信息包括突然发作的右上腹持续性疼痛,可放射至右肩、背部,多因进食油腻食物后而诱发,常伴有恶心及呕吐,呕吐物中可含有胆汁,严重时有发热及黄疸表现;分型结果为急性胰腺炎,腹痛文本描述信息包括发生于中年以上、体型肥胖者,常于饱餐及饮酒后发病,表现为逐渐加剧或突发的上腹部持续性剧烈疼痛,向左腰、背部呈带状放射,伴有恶心、呕吐及腹胀感,严重时,疼痛可扩展至全腹,并出现四肢冰凉、出冷汗、脉搏微弱、血压下降等严重症状,如不及时治疗,可危及生命;分型结果还可以包括急性心肌梗塞、肺炎及阑尾炎,也可出现上腹部痛,常易被误诊,在家庭诊治时,需多加注意;分型结果为急性肠炎,腹痛文本描述信息包括急性中下腹痛的疼痛主要位于肚脐周围,呈钝痛或阵发性绞痛,腹内咕噜咕噜的肠鸣声可增加,多伴有腹泻,大便呈稀糊状或水样;分型结果为细菌性痢疾,腹痛文本描述信息包括大便内有脓血,并伴有发热;分型结果为外科及妇科疾病,腹痛文本描述信息包括中下腹急性腹痛;分型结果为慢性肠道疾病,腹痛文本描述信息包括慢性中下腹痛;分型结果为慢性结肠炎或慢性细菌性痢疾,腹痛文本描述信息包括左下腹部隐痛,伴有腹泻,大便稀糊状,有下坠感;分型结果为溃疡性结肠炎或外结肠癌,腹痛文本描述信息包括大便中带有脓血;分型结果为肠结核及肠道寄生虫病,腹痛文本描述信息包括慢性中下腹疼痛;分型结果为急性阑尾炎,腹痛文本描述信息包括在右下腹具有固定的压痛点,有时还伴有恶心、呕吐症状;分型结果为急性肠梗阻,腹痛文本描述信息包括突发性的肚脐周围阵发性绞痛,伴有恶心、呕吐及腹胀,无排便排气;分型结果为尿路结石,腹痛文本描述信息包括绞痛位于侧腹部或腰区,并向下放射;分型结果为妇科疾病,如急性盆腔炎、卵巢囊肿蒂扭转及宫外孕破裂等,腹痛文本描述信息包括多表现为下腹部疼痛;分型结果为外科疾病所致,包括弥漫性腹膜炎,腹腔内出血等,腹痛文本描述信息包括突然发作的全腹疼痛;分型结果为弥漫性腹膜炎,多由于阑尾炎、溃疡病、胆囊炎、肠梗阻等病引起的穿孔所致,腹腔内出血引起的全腹疼痛常由于肝、脾破裂或宫外孕破裂所致,腹痛文本描述信息包括严重时均会出现四肢冰冷、面色苍白、出冷汗、脉搏微弱、血压下降等休克症状;分型结果为慢性胃炎,腹痛文本描述信息包括反复出现的上腹疼痛或饱胀不适,多以心窝部为主,可伴有反酸、烧心、恶心、呕吐及嗳气、食量减少;分型结果为慢性胆囊炎、胆石症的急性发作,腹痛文本描述信息包括右上腹持续性钝痛,伴腹胀、恶心,在进食油煎或脂肪类食物后症状可加重;分型结果为消化道肿瘤如胃癌、肝癌、胰腺癌等疾病,腹痛文本描述信息包括中老年人长期出现上腹部隐痛不适,疼痛加重或性质改变,并出现食欲减退、食量减少、逐渐消瘦、疲乏无力,并有贫血、黄疸、大便变黑的症状。

图2是根据本申请实施例提供的另一描述文本分型认知系统的框图,如图2所示,数据采集模块10还用于采集训练描述信息;特征提取模块20还用于采用自然语言处理算法对训练描述信息进行特征提取,得到训练语义特征信息;本申请的描述文本分型认知该系统还包括特征划分模块50和模型训练模块60,特征划分模块50用于采用决策树算法根据训练语义特征信息对训练描述信息进行分类,以得到多个特征信息子集;模型训练模块60用于针对多个特征信息子集中的每一个特征信息子集,采用语义相似度算法根据训练语义特征信息分别进行模型训练,得到多个特征信息子集中的每一个特征信息子集的语义相似度计算模型;其中,认知计算模块40还用于采用多个特征信息子集中的每一个特征信息子集的语义相似度计算模型根据文本语义特征信息,计算得到腹痛文本描述信息的分型结果。

训练描述信息为用于训练语义相似度计算模型所采集的训练用的信息(可以是模拟的信息,也可以是实际通过专业机构采集的信息),训练描述信息的数据量远远大于所采集的腹痛文本描述信息,本申请为了区分实际使用过程中的信息和训练用的信息,将实际使用过程中所采集的信息称为腹痛文本描述信息,将训练过程中所采集的信息称为训练描述信息。

特征划分模块50分类得到的多个特征信息子集,可以按照腹痛的不同评价角度分别进行分类,例如可以从腹痛部位、腹痛器官、腹痛起病方式、疼痛的程度及性质、与饮食的关系、伴随症状和疼痛放射的部位等角度对腹痛进行分类并得到相应的子集,分类得到的所有特征信息子集的集合构成腹痛疾病知识库。特征划分模块50所采用的决策树算法是一种逼近离散函数值的方法,决策树算法是一种典型的分类方法,首先对数据进行处理,利用归纳算法生成可读的规则和决策树,然后使用决策对数据进行分析,本质上来说决策树是通过一系列规则对数据进行分类的过程。这里所采用的决策树算法为本领域熟知的技术,于此不予赘述。

模型训练模块50针对每一个特征信息子集分别进行模型训练,也就是对每一个特征信息子集中的数据采用语义相似度算法分别进行模型训练,得到每一个特征信息子集分别对应的语义相似度计算模型,例如可以包括腹痛部位模型、腹痛器官模型、腹痛起病方式模型、疼痛的程度及性质模型、饮食关系模型、伴随症状模型和放射部位模型等。

数据采集模块10采集到腹痛文本描述信息,特征提取模块20根据腹痛文本描述信息得到文本语义特征信息,认知计算模块30根据文本语义特征信息,采用每一个特征信息子集对应的语义相似度计算模型分别进行相似度计算,得到多个相似度计算结果,再对所得到的多个相似度计算结果进行处理得到腹痛文本描述信息的分型结果。

本申请提供的描述文本分型认知系统还包括第一归一化模块(图中未示出),用于:对腹痛文本描述信息进行归一化,以得到归一化后的腹痛文本描述信息,特征提取模块20还用于采用自然语言处理算法对归一化后的腹痛文本描述信息进行特征提取,以得到文本语义特征信息;对训练描述信息进行归一化,以得到归一化后的训练描述信息,特征提取模块20还用于采用自然语言处理算法对归一化后的训练描述信息进行特征提取,以得到训练语义特征信息。

为了使本申请提供的腹痛疾病认知系统计算结果更加准确,可以对信息进行归一化,然后对归一化后的信息再进行特征提取等后续操作,更具体地,在实际应用的情况下,第一归一化模块对腹痛文本描述信息进行归一化,在训练的情况下,第一归一化模块对训练描述信息进行归一化。

认知计算模块30还用于:采用多个特征信息子集中的每一个特征信息子集的语义相似度计算模型根据文本语义特征信息,分别计算得到每一个特征信息子集对应的相似度计算结果;对相似度计算结果进行加权求和,得到腹痛文本描述信息的分型结果。

具体来说,认知计算模块30在采用每一个特征信息子集的语义相似度计算模型(例如腹痛部位模型、腹痛器官模型、腹痛起病方式模型、疼痛的程度及性质模型、饮食关系模型、伴随症状模型和放射部位模型等)分别进行相似度计算,得到多个相似度计算结果,然后可以对这多个相似度计算结果进行加权求和,从而得到腹痛文本描述信息的分型结果。更具体地,在加权求和的结果超过预设阈值的情况下确定为相应的分型结果。

本申请提供的描述文本分型认知系统还包括第二归一化模块(图中未示出),用于:采用归一化指数函数对每一个特征信息子集对应的相似度计算结果进行归一化,得到每一个特征信息子集对应的归一化后的相似度计算结果;其中,认知计算模块30还用于对每一个特征信息子集对应的归一化后的相似度计算结果进行加权求和,得到腹痛文本描述信息的分型结果。

第二归一化模块所采用的归一化指数函数例如可以为softmax函数,在认知计算模块30计算得到每一个特征信息子集对应的相似度计算结果(即多个相似度计算结果)的情况下,第二归一化模块对这多个相似度计算结果进行归一化处理,得到多个归一化后的相似度计算结果,然后,认知计算模块30再对这多个归一化后的相似度计算结果进行加权求和,从而得到腹痛文本描述信息的分型结果。

关于分型结果的类型及疼痛分级和方案描述信息,使用者可以根据实际情况进行设定。

图3是根据本申请实施例提供的描述文本分型认知方法的流程图,如图3所示,该方法包括:

步骤S301,采集腹痛文本描述信息;

步骤S302,采用自然语言处理算法对腹痛文本描述信息进行特征提取,得到文本语义特征信息;

步骤S303,采用预先训练好的语义相似度计算模型根据文本语义特征信息计算得到腹痛文本描述信息的分型结果;

步骤S304,根据分型结果确定疼痛分级和方案描述信息。

本申请的描述文本分型认知方法还包括:采集训练描述信息;采用自然语言处理算法对训练描述信息进行特征提取,得到训练语义特征信息;采用决策树算法根据训练语义特征信息对训练描述信息进行分类,以得到多个特征信息子集;针对多个特征信息子集中的每一个特征信息子集,采用语义相似度算法根据训练语义特征信息分别进行模型训练,得到多个特征信息子集中的每一个特征信息子集的语义相似度计算模型;采用多个特征信息子集中的每一个特征信息子集的语义相似度计算模型根据文本语义特征信息,计算得到腹痛文本描述信息的分型结果。

本申请的描述文本分型认知方法还包括:对腹痛文本描述信息进行归一化,以得到归一化后的腹痛文本描述信息,采用自然语言处理算法对归一化后的腹痛文本描述信息进行特征提取,以得到文本语义特征信息;对训练描述信息进行归一化,以得到归一化后的训练描述信息,采用自然语言处理算法对归一化后的训练描述信息进行特征提取,以得到训练语义特征信息。

本申请的描述文本分型认知方法中,采用多个特征信息子集中的每一个特征信息子集的语义相似度计算模型根据文本语义特征信息,计算得到腹痛文本描述信息的分型结果,包括:采用多个特征信息子集中的每一个特征信息子集的语义相似度计算模型根据文本语义特征信息,分别计算得到每一个特征信息子集对应的相似度计算结果;对相似度计算结果进行加权求和,得到腹痛文本描述信息的分型结果。

本申请的描述文本分型认知方法还包括:采用归一化指数函数对每一个特征信息子集对应的相似度计算结果进行归一化,得到每一个特征信息子集对应的归一化后的相似度计算结果;对每一个特征信息子集对应的归一化后的相似度计算结果进行加权求和,得到腹痛文本描述信息的分型结果。

需要说明的是,本发明提供的描述文本分型认知方法的具体细节及益处与本发明提供的描述文本分型认知系统类似,于此不予赘述。

以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

技术分类

06120115635898