掌桥专利:专业的专利平台
掌桥专利
首页

流行病咨询防治与培训系统构建方法及系统

文献发布时间:2023-06-19 11:16:08


流行病咨询防治与培训系统构建方法及系统

技术领域

本申请属于流行病防治技术领域,具体涉及一种流行病咨询防治与培训系统构建方法及系统。

背景技术

流行性传染病(简称流行病)的每次爆发都会给人类社会带来巨大损失。流行病能在较短的时间内成为广泛蔓延的传染病,如流行性感冒、脑膜炎、霍乱等。流行病一般在局部地区发生,也会成为全球性的大流行。流行病会给社会造成重大的影响。因此流行病的防治显得格外的重要,也出现了很多防治相关的应用和系统。

相关技术中,流行病防治系统多为学术文档系统,针对的人群是专业的医疗领域群体,其陈述流行病理、症状、防治过程较为专业,普通人群很难理解,不能提供智能问答式咨询、防治及培训服务。

发明内容

为至少在一定程度上克服相关技术中,流行病防治系统多为学术文档系统,针对的人群是专业的医疗领域群体,普通人群很难理解,不能提供智能问答式咨询、防治及培训服务的问题,本申请提供一种流行病咨询防治与培训系统构建方法及系统。

第一方面,本申请提供一种流行病咨询防治与培训系统构建方法,包括:

获取流行病多维度知识信息;

根据所述流行病多维度知识信息构建知识库;

基于所述知识库构建流行病咨询防治与培训系统。

进一步的,所述获取流行病多维度知识信息包括:

从多种渠道获取流行病多维度知识信息;

所述多种渠道包括:世卫组织官网、中国疾控中心官网、中国疾控中心公众号、项目所在地疾控中心、所在国传染病流行病研究机构、公众防护指南、官方的诊疗方案的专业机构的发布渠道;

所述流行病多维度知识信息包括:流行病项目所在地医疗水平、气候环境条件、传染病流行病疾病谱系分布分析、传播渠道、传染病风险等级、预防用药和措施。

进一步的,所述根据所述流行病多维度知识信息构建知识库包括:

将流行病多维度知识信息对应文档进行格式分析生成结构化文档对象;

定义知识图谱,所述知识图谱包括实体与对应关系;

抽取所述结构化文档对象中的实体;

识别每个实体的对应关系,所述对应关系包括实体间的上下位、类属、别名关系、疾病的临床症状、发病部位、药物治疗、手术治疗、鉴别诊断、影像学检查、高危因素、传播途径、多发群体、季节环境因素、多发地区国家、就诊科室等以及药物的成分、适应症、用法用量、有效期、禁忌证中的一种或多种;

将实体及其对应关系导入图数据库生成知识库。

进一步的,所述基于所述知识库构建流行病咨询防治与培训系统,包括:

将知识库中的内容进行结构化切分和标引形成标准问答对和结构化的内容条目数据;

根据所述标准问答对和结构化的内容条目数据训练文本分类器;

在所述文本分类器输出结果满足准确率要求后生成基于所述知识库构建流行病咨询防治与培训系统。

进一步的,还包括:

获取用户的目标问题;

将所述目标问题输入所述知识库构建流行病咨询防治与培训系统已匹配出目标问题对应的候选问题;

根据候选问题召回参考答案。

进一步的,所述根据候选问题召回参考答案包括:

通过语义召回,采用使用行业语料训练的句向量语义相似度匹配模型,将句子表征成向量形式,通过向量间的距离来衡量句子间的相似度;

和/或,

通过倒排召回,针对用户问题中的每个词及其重要性,通过两个句子的关键词加权匹配的程度来衡量句子间的相似度;

和/或,

通过图谱召回,将知识库中的问答对抽象成图谱,通过问题中的实体抽取和问题分类识别,将问题转换成图数据结构化查询语言,实现图谱数据查询匹配。

进一步的,所述将所述目标问题输入所述知识库构建流行病咨询防治与培训系统已匹配出目标问题对应的候选问题,包括:

使用命名实体识别算法和工具识别目标问题中的候选实体;

将所述候选实体根据上下文、概念、类别表示为向量;

计算所述向量之间的相似度;

同时利用文本信息和知识库的信息消除候选实体的歧义,选取候选实体中相似度最高的候选实体作为候选问题。

进一步的,所述获取用户的目标问题后,还包括:

对所述目标问题进行改写和扩展,包括:

针对概念的定义与描述的问句改写;

和/或,利用上下位关系进行实体替换构造可能的问题;

和/或,获取知识图谱中已识别实体的别名,根据别名替换生成更多的问句表达;

和/或,根据图谱中的实体子类特化并列关系和相似度,生成更多的推荐及扩展问句的表达。

进一步的,还包括:

收集所有问答的过程数据;

检索出用户反馈不满意的问题和系统反馈无结果的问题;

对所述用户反馈不满意的问题和系统反馈无结果的问题重构问题索引;

根据重构问题索引进行答案查找;

将查找到的答案与用户反馈不满意的问题和系统反馈无结果的问题建立对应关系;

将查找到的答案、用户反馈不满意的问题和系统反馈无结果的问题及其对应关系补充进所述知识库。

第二方面,本申请提供一种流行病咨询防治与培训系统,包括:

处理器;以及

存储器,所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时实现如第一方面中任一项所述的流行病咨询防治与培训系统构建方法。

本申请的实施例提供的技术方案可以包括以下有益效果:

本发明实施例提供的流行病咨询防治与培训系统构建方法及系统,通过获取流行病多维度知识信息,根据流行病多维度知识信息构建知识库;基于知识库构建流行病咨询防治与培训系统,通过信息化手段,提供基于知识库的防治知识智能问答、咨询、防治和培训服务。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。

图1为本申请一个实施例提供的一种流行病咨询防治与培训系统构建方法的流程图。

图2为本申请另一个实施例提供的一种流行病咨询防治与培训系统构建方法的流程图。

图3为本申请一个实施例提供的另一种流行病咨询防治与培训系统构建方法的流程图。

图4为本申请另一个实施例提供的一种流行病咨询防治与培训系统构建方法的流程图。

图5为本申请一个实施例提供的另一种流行病咨询防治与培训系统构建方法的流程图。

图6为本申请一个实施例提供的另一种流行病咨询防治与培训系统构建方法的流程图。

图7为本申请一个实施例提供的一种流行病咨询防治与培训系统的功能结构图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚,下面将对本申请的技术方案进行详细的描述。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式,都属于本申请所保护的范围。

图1为本申请一个实施例提供的流行病咨询防治与培训系统构建方法的流程图,如图1所示,该流行病咨询防治与培训系统构建方法,包括:

S11:获取流行病多维度知识信息;

S12:根据流行病多维度知识信息构建知识库;

S13:基于知识库构建流行病咨询防治与培训系统。

传统流行病防治系统多为学术文档系统,针对的人群是专业的医疗领域群体,其陈述流行病理、症状、防治过程较为专业,普通人群很难理解,不能提供智能问答式咨询、防治及培训服务。

本实施例中,通过获取流行病多维度知识信息,根据流行病多维度知识信息构建知识库;基于知识库构建流行病咨询防治与培训系统,通过信息化手段,提供基于知识库的防治知识智能问答、咨询、防治和培训服务。

图2为本申请另一个实施例提供的一种流行病咨询防治与培训系统构建方法的流程图,如图2所示,该流行病咨询防治与培训系统构建方法,包括:

S21:从多种渠道获取流行病多维度知识信息;

多种渠道例如包括:世卫组织官网、中国疾控中心官网、中国疾控中心公众号、项目所在地疾控中心、所在国传染病流行病研究机构、公众防护指南、官方的诊疗方案的专业机构等的发布渠道;

流行病多维度知识信息例如包括:流行病项目所在地医疗水平、气候环境条件、传染病流行病疾病谱系分布分析、传播渠道、传染病风险等级、预防用药和措施。

系统根据平台服务对象需求,选择项目点所在地的官方疾控信息源,使用爬虫抓取官方发布的疾控信息、当地传染病疾病谱系分析数据、相关疾病预防、治疗、健康教育信息,形成知识库的完整内容。

S22:将流行病多维度知识信息对应文档进行格式分析生成结构化文档对象;

S23:定义知识图谱,所述知识图谱包括实体与对应关系;

为了提供准确可靠、有针对性的地方流行病传染病防治知识智能问答服务,根据流行病项目所在地医疗水平、气候环境条件、传染病流行病疾病谱系分布分析、传播渠道、传染病风险等级、预防用药和措施等多维度设计知识库的知识组织系统,从世卫组织官网、中国疾控中心官网、中国疾控中心公众号、项目所在地疾控中心、所在国传染病流行病研究机构、公众防护指南、官方的诊疗方案等专业机构的权威发布渠道采集数据,并进行文档结构化分析、文档解析、知识抽取、知识清洗、实体消歧、实体融合等操作,形成权威准确的行业相关知识图谱。

知识图谱融入到问题表示中辅助更好的语义理解和回复,把知识图谱融入到用户意图识别中,提升问答知识库召回与排序算法性能,用于更精准地给出答案。

S24:抽取所述结构化文档对象中的实体;

S25:识别每个实体的对应关系,对应关系包括实体间的上下位、类属、别名关系、疾病的临床症状、发病部位、药物治疗、手术治疗、鉴别诊断、影像学检查、高危因素、传播途径、多发群体、季节环境因素、多发地区国家、就诊科室等以及药物的成分、适应症、用法用量、有效期、禁忌证中的一种或多种;

S26:将实体及其对应关系导入图数据库生成知识库。

如图3所示,根据知识库的知识组织系统和知识库内容规范要求选择数据源,定义图谱结构和内容标引规范,导入图谱数据与内容数据,完成知识库构建。

知识组织系统本质上是知识库内容的多维度分类标签体系,用于从多个角度、线索揭示知识库的内容数据,实现更精准、可计算的知识问答。系统利用自然语言处理与文本挖掘技术,参考了ICD、ATC、SNOMED、MeSH、UMLS等权威的国际医学标准以及规模庞大、多源异构的临床指南、行业标准、诊疗规范与医学百科等医学文本信息,抽取其中关于药品、疾病、诊疗技术与设备等结构化知识描述,辅助以少量的人工标注,构建中文医学知识图谱。

中文医学知识图谱涵盖领域实体间的上下位、类属、别名关系、疾病的临床症状、发病部位、药物治疗、手术治疗、鉴别诊断、影像学检查、高危因素、传播途径、多发群体、季节环境因素、多发地区国家、就诊科室等以及药物的成分、适应症、用法用量、有效期、禁忌证等几十种常见关系类型,知识图谱描述的概念关系实例及属性三元组近百万,通过知识融合和知识加工后,构建出包含数百万个实体和数以亿计关系的高质量知识图谱。根据知识图谱构建知识库,可以丰富知识库内容,提高用户问题回答效率和准确率。

本实施例中,通过在互联网医疗平台的智能终端应用中部署知识库,为用户提供健康咨询、预问诊、在线导诊等远程医疗自助服务,聚焦解决流行病防控难题,可以极大缓解用户所在地公共卫生系统薄弱问题,针对所在地的地方常见病、传染病的预防与健康教育匮乏的问题,长期通过加强员工健康管理,提升应急救治能力来解决医疗保障问题,降低企业全球化战略经营成本。

图4为本申请另一个实施例提供的一种流行病咨询防治与培训系统构建方法的流程图,如图4所示,该流行病咨询防治与培训系统构建方法,包括:

S41:将知识库中的内容进行结构化切分和标引形成标准问答对和结构化的内容条目数据;

S42:根据标准问答对和结构化的内容条目数据训练文本分类器;

S43:在文本分类器输出结果满足准确率要求后生成基于所述知识库构建流行病咨询防治与培训系统。

基于专家认可的知识分类、概念体系、实体和属性关系,对知识库中的内容进行结构化切分和标引,同时借助人工标注以及分类,形成标准问答对和结构化的内容条目数据。基于这些行业知识和语料数据构建文本分类器,根据标准问答对和结构化的内容条目数据对文本分类器进行模型训练和测试,根据测试结果进行调优,调优包括语料扩充、同义词补充、缩写覆盖、标注知识的完善等工作。经过多轮训练后,达到预设上线准确率要求后,实现流行病咨询防治与培训系统上线发布。

如图5所示,还包括:

S51:获取用户的目标问题;

S52:将目标问题输入知识库构建流行病咨询防治与培训系统已匹配出目标问题对应的候选问题;

一些实施例中,将所述目标问题输入所述知识库构建流行病咨询防治与培训系统已匹配出目标问题对应的候选问题,包括:

识别目标问题中的候选实体;

将所述候选实体根据上下文、概念、类别表示为向量;

计算所述向量之间的相似度;

使用命名实体识别算法和工具识别目标问题中的候选实体;

将所述候选实体根据上下文、概念、类别表示为向量;

计算所述向量之间的相似度;

同时利用文本信息和知识库的信息消除候选实体的歧义,选取候选实体中相似度最高的候选实体作为候选问题。

S53:根据候选问题召回参考答案。

一些实施例中,根据候选问题召回参考答案包括:

通过语义召回,采用使用行业语料训练的句向量语义相似度匹配模型,将句子表征成向量形式,通过向量间的距离来衡量句子间的相似度;

和/或,

通过倒排召回,针对用户问题中的每个词及其重要性,通过两个句子的关键词加权匹配的程度来衡量句子间的相似度;

和/或,

通过图谱召回,将知识库中的问答对抽象成图谱,通过问题中的实体抽取和问题分类识别,将问题转换成图数据结构化查询语言,实现图谱数据查询匹配。

采用多种手段融合的方式进行多路召回,避免单一召回手段失效匹配不到最佳答案问题,增强问题的表达能力,生成多个候选问题召回结果,对召回结果进行排序筛选以匹配最佳参考答案。

一些实施例中,获取用户的目标问题后,还包括:

对目标问题进行改写和扩展,包括:

针对概念的定义与描述的问句改写;

和/或,利用上下位关系进行实体替换构造可能的问题;

和/或,获取知识图谱中已识别实体的别名,根据别名替换生成更多的问句表达;

和/或,根据图谱中的实体子类特化并列关系和相似度,生成更多的推荐及扩展问句的表达。

结合问题表征和三元组的知识图谱融合表征得到新的问题表示和候选问题表示,然后计算两部分的语义相似度。由于用户的问题通常呈现出表达口语化和信息不够丰富的问题,为保证系统能够更精准全面地召回正确答案,在查询分析阶段,需要利用知识图谱中的词间关系、同义、近义、上位、下位等语义关系对用户问题进行扩展、澄清、或查询改写,从而丰富问题信息。

一些实施例中,还包括:

收集所有问答的过程数据;

检索出用户反馈不满意的问题和系统反馈无结果的问题;

对所述用户反馈不满意的问题和系统反馈无结果的问题重构问题索引;

根据重构问题索引进行答案查找;

将查找到的答案与用户反馈不满意的问题和系统反馈无结果的问题建立对应关系;

将查找到的答案、用户反馈不满意的问题和系统反馈无结果的问题及其对应关系补充进所述知识库。

平台实时监控上线后知识问答系统的运行情况,收集所有问答的过程数据,对于用户反馈不满意以及系统无结果的问题进行重点优化,通过补充知识库内容,优化问题索引及答案查找,提升系统提供的问答准确度。

如图6所示,对于一个智能问答系统,较为精细的问句分类体系能够使问句分类更为精确,从而提高答案获取的准确率。获取自然语言问句,对自然语言问句进行问句预处理,如词法分析、句法分析、问句改写等,对预处理后的自然语言问句分别进行以下操作:

1)输入预训练的语言模型(BERT模型)进行领域微调生成问句向量表示;对问句向量进行语义相似度匹配以及问句分类识别;

2)文本查询分析,生成查询逻辑表达式,根据查询逻辑表达式进行问句相似度匹配;

3)领域实体识别、信息抽取,将识别出的实体进行图检索和知识图谱计算得到实体、属性及匹配关系。

将上述操作的结果输入排序模型,筛选出相关性最高的结果作为候选问题,在知识库内容检索检索候选问题对应的答案最为最优答案。

本实施例中的系统采用基于答案类型的层次分类体系,训练文本分类器,实现对用户问句的识别与解析。

问题的解析也是后续召回和排序的基础,系统基于预训练的BERT(BidirectionalEncoder Representation from Transformers,自然语言处理)模型,搭建BiLSTM+CRF的命名实体识别模型,使用医学语料训练命名实体识别模型,用来对用户问题进行识别,对于识别出来的实体,再使用依存句法分析、分类和相似度计算识别用户问题中的关系类型。其中的细粒度实体识别包括:人物(医生/患者)、地点(国家/地区/项目点所在地/国内地址等)、机构、数字、日期、时间、金额,以及领域实体(疾病、药品、治疗手段方法、医院科室)等实体。通过对问句集依存句法分析的统计数据分析,可以将问句划分为主题信息、疑问信息、限制信息的序列组合,有效减少相关知识库条目的候选答案空间,提升检索效率;通过问句分类体系的精细化定义,对输入的文本进行初步分析和特征工程,通过合理的分类,基于领域知识组织系统为不同的问句类型建立相应的问句模式识别规则库,提升问句识别的泛化能力和识别精度,并且可以根据问句类型制定答案抽取策略,提升答案获取的准确率。

由于用户的问题通常呈现出表达口语化和信息不够丰富的问题,为保证系统能够更精准全面地召回正确答案,在查询分析阶段,需要利用知识图谱中的词间关系、同义、近义、上位、下位等语义关系对用户问题进行扩展、澄清、或查询改写,从而丰富问题信息。召回组件从知识库中筛选出和用户问题相似度高的问题作为候选问题集,生成多个候选问题召回结果,进入排序筛选阶段。

排序筛选阶段中排序筛选模型在wide&deep的框架基础上融入知识图谱信息,并从语义和规则两种维度进行特征融合,达到两种相似度信息互相补充的目的,在排序筛选模型中,分别从业务关键词重要性、实体匹配、依存句法规则、问句分类等多个维度计算相似度得分,参与排序的规则特征包括但不限于:

(1)关键词加权匹配:结合行业语料训练语言模型,获得业务关键词权重统计数据,对用户问题和候选问题中的关键词、领域实体进行多层次的重要性打分,然后分别从用户问题角度和候选问题角度计算相似度得分。

(2)实体匹配:在医疗领域的问题中实体词(疾病、药品、治疗措施、地区、季节等)是问题中非常重要的成分,对能否匹配到正确的候选问起到重要的作用。利用知识图谱中实体的各种信息用TransE算法学习出实体词稠密向量的表示,采用语义向量相似度的方式计算用户问题和候选问题中实体词的匹配程度。

(3)使用Chi-Tf-idf加权匹配:由于垂类领域很多重要词出现次数会比较多,导致计算出idf值很低,通过卡方相关性分析和关键词词典等优化tf-idf的权重值,然后计算相似度得分。使用多种规则特征补充深度学习语义相似度计算的不足,可以提高计算准确性。

排序筛选出最优问题匹配后,从知识库中检索生成答案,返回给前端用户。

问答系统前端通过移动App/H5页面提供项目点所在地传染病地方常见病的防治知识问答服务及心理健康辅导咨询服务,针对流行病项目点的全球化布局,进行本地化的传染病谱系分布分析,向项目点医务室及区域医疗点推送本地化定制的防护措施及健康教育。

根据服务对象的需求,在知识库构建策略中,选择重点地区国家、与极端自然环境相关(高温、高湿、高寒、高海拔、高纬度地区)的多发疾病、青壮年人群易感的流行病疾病谱系分析数据,作为知识库规划的主线索,根据受众群体的综合需求,确定知识图谱的边界和知识库内容迭代扩充的路径,根据平台服务对象的地域分布,采集热点地区的流行病防治主题专业知识库及权威数据源,防止信息过载,为服务对象提供按需定制以疾病预防、健康教育培训科普为主题的知识库,可以有针对性地满足具特定地区特定人群的流行性疾病防治知识的快速精准的宣教,控制知识图谱的构建成本;提升了知识图谱构建的效率,缩短了知识图谱落地实施周期。

本实施例中,融合了文本检索、语义向量检索、图搜索等多种检索技术提升智能问答的召回精准性,排序模型充分地考虑了文本数据、语义向量表示、图谱关系等多源数据维度特征,采集领域语料数据,训练文本分类器,提升了流行病咨询防治与培训系统的文本语义识别精度以及准确性。

本发明实施例提供一种流行病咨询防治与培训系统,如图7所示的功能结构图,该流行病咨询防治与培训系统包括:

处理器71;以及

存储器72,存储器72上存储有计算机可读指令,所述计算机可读指令被处理器71执行时实现如上述实施例中所述的流行病咨询防治与培训系统构建方法。

可以理解的是,上述各实施例中相同或相似部分可以相互参考,在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。

需要说明的是,在本申请的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本申请的描述中,除非另有说明,“多个”的含义是指至少两个。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。

应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。

此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能组件的形式实现。所述集成的模块如果以软件功能组件的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器,磁盘或光盘等。

在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

需要说明的是,本发明不局限于上述最佳实施方式,本领域技术人员在本发明的启示下都可得出其他各种形式的产品,但不论在其形状或结构上作任何变化,凡是具有与本申请相同或相近似的技术方案,均落在本发明的保护范围之内。

相关技术
  • 流行病咨询防治与培训系统构建方法及系统
  • 基于增强现实的变电站仿真培训系统构建方法
技术分类

06120112859546