掌桥专利:专业的专利平台
掌桥专利
首页

一种文本描述信息识别系统和方法

文献发布时间:2023-06-19 18:37:28


一种文本描述信息识别系统和方法

技术领域

本申请涉及文本信息识别技术领域,具体而言,涉及一种文本描述信息识别系统和方法。

背景技术

中医头痛是临床常见症状,可见于多种疾病之中,这里处所讨论的头痛,因外感六淫、内伤杂病而引起,以头痛为主要症状,不包括某种疾病的兼证头痛。头痛会有很多不同的表现,诊断起来有时会非常困难。特别是中医还涉及到辨证分型以及论证,若仅靠经验进行诊断。

针对相关技术中中医头痛的识别效率低、识别准确率低的问题,目前尚未提出有效的解决方案。

发明内容

本申请的主要目的在于提供一种文本描述信息识别系统和方法,以解决相关技术中关于头痛的识别效率低和识别准确率低的问题。

为了实现上述目的,第一方面,本申请提供了一种文本描述信息识别系统,该系统包括:数据采集模块,用于采集头痛现象描述信息和头痛起因描述信息;特征提取模块,用于采用自然语言处理算法对所述头痛现象描述信息和所述头痛起因描述信息提取关键特征分词和关键特征语料,以得到所述头痛现象描述信息和所述头痛起因描述信息的关键特征分词和关键特征语料;以及文本识别模块,用于采用决策树算法根据所述头痛现象描述信息和所述头痛起因描述信息的关键特征分词和关键特征语料得到头痛识别结果及相应的方案描述信息和方剂描述信息。

根据本申请的文本描述信息识别系统,所述数据采集模块还用于采集第一训练信息和第二训练信息,所述第一训练信息包括头痛训练现象信息、头痛起因训练信息,所述第二训练信息包括与所述头痛训练现象信息和所述头痛起因训练信息相关联的头痛训练结果、方案训练信息和方剂训练信息;所述特征提取模块还用于采用所述自然语言处理算法对所述第一训练信息和所述第二训练信息分别提取关键特征分词和关键特征语料,以得到所述第一训练信息和所述第二训练信息的关键特征分词和关键特征语料;该系统还包括:模型训练模块,用于采用决策树算法根据所述第一训练信息和所述第二训练信息的关键特征分词和关键特征语料进行模型训练,以得到文本识别模型;其中,所述文本识别模块还用于采用所述文本识别模型根据所述头痛现象描述信息和所述头痛起因描述信息的关键特征分词和关键特征语料得到头痛识别结果及相应的方案描述信息和方剂描述信息。

根据本申请的文本描述信息识别系统,该系统还包括归一化模块,用于:对所述头痛现象描述信息和所述头痛起因描述信息进行归一化,以得到归一化后的头痛现象描述信息和头痛起因描述信息,其中,所述特征提取模块还用于采用自然语言处理算法对归一化后的头痛现象描述信息和头痛起因描述信息分别提取关键特征分词和关键特征语料,以得到所述头痛现象描述信息和所述头痛起因描述信息的关键特征分词和关键特征语料;以及对所述第一训练信息和所述第二训练信息进行归一化,以得到归一化后的第一训练信息和第二训练信息,其中,所述特征提取模块还用于采用自然语言处理算法对归一化后的第一训练信息和第二训练信息分别提取关键特征分词和关键特征语料,以得到所述第一训练信息和所述第二训练信息的关键特征分词和关键特征语料。

根据本申请的文本描述信息识别系统,所述头痛现象描述信息和所述头痛训练现象信息包括头痛的发生位置、疼痛性质和发作形式;所述头痛起因描述信息和所述头痛起因训练信息包括外感和内伤;所述头痛识别结果和所述头痛训练结果包括风热头痛、风湿头痛、肝阳头痛和血虚头痛;所述方案描述信息和所述方案训练信息包括宜疏风清热和络、宜祛风胜湿通窍、宜平肝潜阳息风和宜养血滋阴活络止痛;以及所述方剂描述信息和所述方剂训练信息包括芎芷石膏汤加减、羌活胜湿汤加减、天麻钩藤饮加减和加味四物汤加减。

根据本申请的文本描述信息识别系统,该系统还包括特征存储模块,用于:存储所述第一训练信息和所述第二训练信息的关键特征分词和关键特征语料,以形成信息库;以及存储所述第一训练信息和所述第二训练信息的关键特征分词和关键特征语料以及所述第一训练信息与所述第二训练信息之间的关联关系,以形成知识库。

第二方面,本申请还提供了一种文本描述信息识别方法,该方法包括:采集头痛现象描述信息和头痛起因描述信息;采用自然语言处理算法对所述头痛现象描述信息和所述头痛起因描述信息提取关键特征分词和关键特征语料,以得到所述头痛现象描述信息和所述头痛起因描述信息的关键特征分词和关键特征语料;以及采用决策树算法根据所述头痛现象描述信息和所述头痛起因描述信息的关键特征分词和关键特征语料得到头痛识别结果及相应的方案描述信息和方剂描述信息。

根据本申请的文本描述信息识别方法,该方法还包括:采集第一训练信息和第二训练信息,所述第一训练信息包括头痛训练现象信息、头痛起因训练信息,所述第二训练信息包括与所述头痛训练现象信息和所述头痛起因训练信息相关联的头痛训练结果、方案训练信息和方剂训练信息;采用所述自然语言处理算法对所述第一训练信息和所述第二训练信息分别提取关键特征分词和关键特征语料,以得到所述第一训练信息和所述第二训练信息的关键特征分词和关键特征语料;采用决策树算法根据所述第一训练信息和所述第二训练信息的关键特征分词和关键特征语料进行模型训练,以得到文本识别模型;以及采用所述文本识别模型根据所述头痛现象描述信息和所述头痛起因描述信息的关键特征分词和关键特征语料得到头痛识别结果及相应的方案描述信息和方剂描述信息。

根据本申请的文本描述信息识别方法,该方法还包括:对所述头痛现象描述信息和所述头痛起因描述信息进行归一化,以得到归一化后的头痛现象描述信息和头痛起因描述信息,其中,采用自然语言处理算法对归一化后的头痛现象描述信息和头痛起因描述信息分别提取关键特征分词和关键特征语料,以得到所述头痛现象描述信息和所述头痛起因描述信息的关键特征分词和关键特征语料;以及对所述第一训练信息和所述第二训练信息进行归一化,以得到归一化后的第一训练信息和第二训练信息,其中,采用自然语言处理算法对归一化后的第一训练信息和第二训练信息分别提取关键特征分词和关键特征语料,以得到所述第一训练信息和所述第二训练信息的关键特征分词和关键特征语料。

根据本申请的文本描述信息识别方法,所述头痛现象描述信息和所述头痛训练现象信息包括头痛的发生位置、疼痛性质和发作形式;所述头痛起因描述信息和所述头痛起因训练信息包括外感和内伤;所述头痛识别结果和所述头痛训练结果包括风热头痛、风湿头痛、肝阳头痛和血虚头痛;所述方案描述信息和所述方案训练信息包括宜疏风清热和络、宜祛风胜湿通窍、宜平肝潜阳息风和宜养血滋阴活络止痛;以及所述方剂描述信息和所述方剂训练信息包括芎芷石膏汤加减、羌活胜湿汤加减、天麻钩藤饮加减和加味四物汤加减。

根据本申请的文本描述信息识别方法,该方法还包括:存储所述第一训练信息和所述第二训练信息的关键特征分词和关键特征语料,以形成信息库;以及存储所述第一训练信息和所述第二训练信息的关键特征分词和关键特征语料以及所述第一训练信息与所述第二训练信息之间的关联关系,以形成知识库。

本申请通过采用自然语言处理算法得到头痛现象描述信息和头痛起因描述信息的关键特征分词和关键特征语料,并采用决策树算法得到头痛识别结果、方案描述信息和方剂描述信息,实现了在线即时准确地根据用户头痛现象描述信息和头痛起因描述信息进行头痛识别,大大提高了识别效率和识别准确率。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解,使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:

图1是根据本申请实施例提供的文本描述信息识别系统的框图;

图2是根据本申请实施例提供的另一文本描述信息识别系统的框图;以及

图3是根据本申请实施例提供的文本描述信息识别方法的流程图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。

需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本申请中,术语“上”、“下”、“左”、“右”、“前”、“后”、“顶”、“底”、“内”、“外”、“中”、“竖直”、“水平”、“横向”、“纵向”等指示的方位或位置关系为基于附图所示的方位或位置关系。这些术语主要是为了更好地描述本申请及其实施例,并非用于限定所指示的装置、元件或组成部分必须具有特定方位,或以特定方位进行构造和操作。

并且,上述部分术语除了可以用于表示方位或位置关系以外,还可能用于表示其他含义,例如术语“上”在某些情况下也可能用于表示某种依附关系或连接关系。对于本领域普通技术人员而言,可以根据具体情况理解这些术语在本申请中的具体含义。

另外,术语“多个”的含义应为两个以及两个以上。

需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1是根据本申请实施例提供的文本描述信息识别系统的框图,如图1所示,该系统包括数据采集模块10、特征提取模块20和文本识别模块30。

数据采集模块10用于采集头痛现象描述信息和头痛起因描述信息。这里头痛现象描述信息和头痛起因描述信息可以根据用户描述得到。

特征提取模块20用于采用自然语言处理算法对头痛现象描述信息和头痛起因描述信息分别提取关键特征分词和关键特征语料,以得到头痛现象描述信息和头痛起因描述信息的关键特征分词和关键特征语料。

这里自然语言处理算法可以为TF-IDF(term frequency–inverse documentfrequency,词频-逆文档频率)算法,TF-IDF算法为经过改进的特征权重算法,计算公式如下:

在公式(1)中,W(t,d)表示t在d中的权重,tf(t,d)为t在d中出现的频次,d为文本语料库C中的一个文档,t为文档d中的一个分词,C={c

这里采用的TF-IDF算法为本领域公知的技术,算法中的各个部分也可以通过公开资料得到,于此不予赘述。

文本识别模块30用于采用决策树算法根据头痛现象描述信息和头痛起因描述信息的关键特征分词和关键特征语料得到头痛识别结果及相应的方案描述信息和方剂描述信息。这里决策树算法可以为GBDT(Gradient Boosting Decision Tree,梯度提升决策树)算法。

图2是根据本申请实施例提供的另一文本描述信息识别系统的框图,如图2所示,该系统还包括模型训练模块40。

数据采集模块10还用于采集第一训练信息和第二训练信息,第一训练信息包括头痛训练现象信息、头痛起因训练信息,第二训练信息包括与头痛训练现象信息和头痛起因训练信息相关联的头痛训练结果、方案训练信息和方剂训练信息;特征提取模块20还用于采用自然语言处理算法对第一训练信息和第二训练信息分别提取关键特征分词和关键特征语料,以得到第一训练信息和第二训练信息的关键特征分词和关键特征语料;本申请的文本描述信息识别系统还包括模型训练模块40,该模型训练模块40用于采用决策树算法根据第一训练信息和第二训练信息的关键特征分词和关键特征语料进行模型训练,以得到文本识别模型;其中,文本识别模块30还用于采用文本识别模型根据头痛现象描述信息和头痛起因描述信息的关键特征分词和关键特征语料得到头痛识别结果及相应的方案描述信息和方剂描述信息。

应当理解,在文本识别模块30对头痛识别结果进行识别之前,可以首先采用决策树算法进行模型训练以得到文本识别模型,从而文本识别模块30可以采用文本识别模型准确地进行头痛类别的识别。

在进行模型训练的过程中,第一训练信息中的头痛训练现象信息、头痛起因训练信息以及第二训练信息中的与头痛训练现象信息和头痛起因训练信息相关联的头痛训练结果、方案训练信息和方剂训练信息均为通过数据采集模块10得到,第二训练信息中的头痛训练结果、方案训练信息和方剂训练信息为与第一训练信息中的头痛训练现象信息、头痛起因训练信息相关联的标准的头痛分型结果、方案描述信息和方剂描述信息。

在模型训练的过程中,将采集的头痛描述性的信息称为头痛训练现象信息,将采集的头痛描述性的原因称为头痛起因训练信息,将采集的经过核准的头痛类型称为头痛训练结果,将采集的经过核准的方案称为方案训练信息,将采集的经过核准的方剂称为方剂训练信息。

在进行信息识别的过程中,将采集的头痛描述性的信息称为头痛现象描述信息,将采集的头痛描述性的原因称为头痛起因描述信息,将采用文本识别模块30通过信息识别得到的结果称为头痛识别结果,并可以根据采用文本识别模块30得到的头痛识别结果得到对应的方案描述信息和方剂描述信息。

在图2所示的实施方式中,采用模型训练模块40进行模型训练得到文本识别模型之后,在需要进行文本描述信息识别的情况下,特征提取模块20根据所采集的头痛现象描述信息和所采集的头痛起因描述信息得到头痛现象描述信息和头痛起因描述信息的关键特征分词和关键特征语料,然后文本识别模块30利用文本识别模型根据头痛现象描述信息和头痛起因描述信息的关键特征分词和关键特征语料得到头痛识别结果、方案描述信息和方剂描述信息。模型训练的过程为本领域公知技术,于此不予赘述。

如图2所示,本申请提供的文本描述信息识别系统还包括归一化模块50,用于:对头痛现象描述信息和头痛起因描述信息进行归一化,以得到归一化后的头痛现象描述信息和头痛起因描述信息,特征提取模块20还用于采用自然语言处理算法对归一化后的头痛现象描述信息和头痛起因描述信息分别提取关键特征分词和关键特征语料,以得到头痛现象描述信息和头痛起因描述信息的关键特征分词和关键特征语料;对第一训练信息和所述第二训练信息进行归一化,以得到归一化后的第一训练信息和所述第二训练信息,特征提取模块20还用于采用自然语言处理算法对归一化后的第一训练信息和所述第二训练信息分别提取关键特征分词和关键特征语料,以得到第一训练信息和所述第二训练信息的关键特征分词和关键特征语料。

在特征提取模块20提取关键特征分词和关键特征语料之前,首先对数据采集模块10所采集的信息进行归一化处理,特征提取模块20对归一化之后的信息进行特征提取。具体来说,在模型训练的过程中,归一化模块50对数据采集模块10所采集的第一训练信息所包括的头痛训练现象信息和头痛起因训练信息及第二训练信息所包括的头痛训练结果、方案训练信息和方剂训练信息进行归一化处理,特征提取模块20对归一化后的第一训练信息和第二训练信息进行特征提取;在进行文本描述信息识别的过程中,归一化模块50对数据采集模块10所采集的头痛现象描述信息和头痛起因描述信息进行归一化处理,特征提取模块20对归一化后的头痛现象描述信息和头痛起因描述信息进行关键特征分词和关键特征语料的特征提取。

在本申请提供的技术方案中,头痛现象描述信息和头痛训练现象信息包括但不限于头痛的发生位置、疼痛性质和发作形式。头痛现象描述信息和头痛训练现象信息还可以包括例如患者有感受风邪或有饮食、劳倦、病后体虚等病史。头痛的发生位置包括但不限于前额、两颞、巅顶、枕项和全头部;头痛的疼痛性质包括但不限于跳痛、刺痛、胀痛、灼痛和重痛;头痛的发作形式包括但不限于突然发作、缓慢起病、反复发作、时痛时止、疼痛时间长短不一。

头痛起因描述信息和头痛起因训练信息包括但不限于外感和内伤。一般来说,由风、寒、湿、热等淫邪上扰清窍而致的头痛属外感,外感的特点包括发病急、病程短、病势较剧、痛无休止等,并常伴有恶寒、发热等表证;由脏腑阴阳气血失调而致的头痛属内伤,内伤的特点包括病程长、时作时止、病势时轻时重等特点。

头痛识别结果和头痛训练结果包括但不限于风热头痛、风湿头痛、肝阳头痛和血虚头痛。

方案描述信息和方案训练信息包括但不限于宜疏风清热和络、宜祛风胜湿通窍、宜平肝潜阳息风和宜养血滋阴活络止痛。

方剂描述信息和所述方剂训练信息包括但不限于芎芷石膏汤加减、羌活胜湿汤加减、天麻钩藤饮加减和加味四物汤加减。

在本申请提供的技术方案中,风热头痛对应的头痛现象描述信息还可以包括但不限于头痛而胀甚则头胀如裂、发热或恶风、面红目赤、口渴喜饮、大便不畅、便秘、小便赤、舌尖红、苔薄黄、脉浮数,风热头痛对应的头痛起因描述信息还可以包括但不限于风热外袭、上扰清空、窍络失和,风热头痛对应的方案描述信息包括但不限于宜疏风清热和络,风热头痛对应的方剂描述信息包括但不限于芎芷石膏汤加减。

风湿头痛对应的头痛现象描述信息还可以包括但不限于头痛如裹、肢体困重、胸闷纳呆、大便或溏、苔白腻、脉濡,风湿头痛对应的头痛起因描述信息还可以包括但不限于风湿上蒙头窍、困遏清阳,风湿头痛对应的方案描述信息包括但不限于宜祛风胜湿通窍,风湿头痛对应的方剂描述信息包括但不限于羌活胜湿汤加减。

肝阳头痛对应的头痛现象描述信息还可以包括但不限于头昏胀痛、两侧为重、心烦易怒、夜寐不宁、口苦面红、或兼胁痛、舌红苔黄、脉弦数,肝阳头痛对应的方案描述信息包括但不限于宜平肝潜阳息风,肝阳头痛对应的方剂描述信息包括但不限于天麻钩藤饮加减。

血虚头痛对应的头痛现象描述信息还可以包括但不限于头痛隐隐、时时昏晕、心悸失眠、面色少华、神疲乏力、遇劳加重、舌淡苔薄白、脉细弱,血虚头痛对应的方案描述信息包括但不限于宜养血滋阴、活络止痛,血虚头痛对应的方剂描述信息包括但不限于加味四物汤加减。

在本申请中所描述的头痛现象描述信息、头痛训练现象信息、头痛起因描述信息、头痛起因训练信息、头痛训练结果、方案训练信息和方剂训练信息仅仅是为了使本申请更加清楚,并不是为了限制本申请,任何可以采用本申请提供的技术方案的头痛现象描述信息、头痛训练现象信息、头痛起因描述信息、头痛起因训练信息、头痛训练结果、方案训练信息和方剂训练信息均在本申请的保护范围之内。

本申请提供的文本描述信息识别系统还包括特征存储模块(图中未示出),用于:存储第一训练信息和第二训练信息的关键特征分词和关键特征语料,以形成信息库;存储第一训练信息和第二训练信息的关键特征分词和关键特征语料以及第一训练信息与第二训练信息之间的关联关系,以形成知识库。特征存储模块可以将本申请中的相关信息存储起来。

图3是根据本申请实施例提供的文本描述信息识别方法的流程图,如图3所示,该方法包括:

步骤S301,采集头痛现象描述信息和头痛起因描述信息;

步骤S302,采用自然语言处理算法对头痛现象描述信息和头痛起因描述信息提取关键特征分词和关键特征语料,以得到头痛现象描述信息和头痛起因描述信息的关键特征分词和关键特征语料;

步骤S303,采用决策树算法根据头痛现象描述信息和头痛起因描述信息的关键特征分词和关键特征语料得到头痛识别结果及相应的方案描述信息和方剂描述信息。

其中,本申请提供的文本描述信息识别方法还包括:采集第一训练信息和第二训练信息,第一训练信息包括头痛训练现象信息、头痛起因训练信息,第二训练信息包括与头痛训练现象信息和头痛起因训练信息相关联的头痛训练结果、方案训练信息和方剂训练信息;采用自然语言处理算法对第一训练信息和第二训练信息分别提取关键特征分词和关键特征语料,以得到第一训练信息和第二训练信息的关键特征分词和关键特征语料;采用决策树算法根据第一训练信息和第二训练信息的关键特征分词和关键特征语料进行模型训练,以得到文本识别模型;采用文本识别模型根据头痛现象描述信息和头痛起因描述信息的关键特征分词和关键特征语料得到头痛识别结果及相应的方案描述信息和方剂描述信息。

其中,本申请提供的文本描述信息识别方法,该方法还包括:对头痛现象描述信息和头痛起因描述信息进行归一化,以得到归一化后的头痛现象描述信息和头痛起因描述信息,其中,采用自然语言处理算法对归一化后的头痛现象描述信息和头痛起因描述信息分别提取关键特征分词和关键特征语料,以得到头痛现象描述信息和头痛起因描述信息的关键特征分词和关键特征语料;对第一训练信息和第二训练信息进行归一化,以得到归一化后的第一训练信息和第二训练信息,其中,采用自然语言处理算法对归一化后的第一训练信息和第二训练信息分别提取关键特征分词和关键特征语料,以得到第一训练信息和第二训练信息的关键特征分词和关键特征语料。

其中,头痛现象描述信息和头痛训练现象信息包括头痛的发生位置、疼痛性质和发作形式;头痛起因描述信息和头痛起因训练信息包括外感和内伤;头痛识别结果和头痛训练结果包括风热头痛、风湿头痛、肝阳头痛和血虚头痛;方案描述信息和方案训练信息包括宜疏风清热和络、宜祛风胜湿通窍、宜平肝潜阳息风和宜养血滋阴活络止痛;方剂描述信息和方剂训练信息包括芎芷石膏汤加减、羌活胜湿汤加减、天麻钩藤饮加减和加味四物汤加减。

其中,本申请提供的文本描述信息识别方法还包括:存储第一训练信息和第二训练信息的关键特征分词和关键特征语料,以形成信息库;存储第一训练信息和第二训练信息的关键特征分词和关键特征语料以及第一训练信息与第二训练信息之间的关联关系,以形成知识库。

需要说明的是,本发明提供的文本描述信息识别方法的具体细节及益处与本发明提供的文本描述信息识别系统类似,于此不予赘述。

以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

技术分类

06120115635661