导航：首页> 特别适用于特定应用领域的信息通信技术〔ICT〕〔2018.01〕>一种智能临床试验方案生成方法及相关装置

一种智能临床试验方案生成方法及相关装置

文献发布时间：2023-06-19 19:27:02

技术领域

本发明涉及人工智能技术领域，特别涉及一种智能临床试验方案生成方法及相关装置。

背景技术

过去的几十年里，关于肿瘤的研究，在肿瘤的预防、诊断和治疗等各方面，都取得了不起的成就。随着人们对癌症的成因、进展以及各种治疗方法的预后效果的认识的逐渐深入，肿瘤新药临床实验也随之越来越复杂。而现代生物医学手段的不断创新，把肿瘤新药临床实验的复杂性更是提到一个前所未有的高度。

肿瘤研究的成本极其高昂，项目背景信息错综复杂，方案条款之间又有比一般的临床实验方案更为复杂的关联关系，加上不断更新的生物科技前沿，试验方案设计稍有不慎就会造成试验的失败，或者是试验成本效益比变得毫无价值，导致试验方案的产出效率较低且把控难度大。

发明内容

本发明的目的是提供一种智能临床试验方案生成方法及相关装置，旨在解决现有试验方案产出效率较低且把控难度大等问题。

第一方面，本发明实施例提供一种智能临床试验方案生成方法，包括：

通过神经网络算法对临床试验知识数据进行标注得到标注信息，并对所述标注信息进行数据清洗，将数据清洗后的标注信息转化为统一语言内容并将转化后的标注信息录入知识库；

获取用户的试验目的数据，并利用自然语言识别技术对所述试验目的数据进行识别，得到目的文本信息；

通过深度学习算法对所述用户的历史试验方案数据和使用行为习惯数据进行训练，得到训练好的试验数据模型；

将所述文本信息输入至所述试验数据模型，得到试验结果；

将所述试验结果输入所述知识库，生成相应的临时试验方案和知识体系并发送给用户；

获取用户根据所述知识体系对所述临时试验方案的完善内容并生成最终试验方案。

第二方面，本发明实施例提供一种智能临床试验方案生成装置，包括：

知识库补充单元，用于通过神经网络算法对临床试验知识数据进行标注得到标注信息，并对所述标注信息进行数据清洗，将数据清洗后的标注信息转化为统一语言内容并将转化后的标注信息录入知识库；

文本信息获取单元，用于获取用户的试验目的数据，并利用自然语言识别技术对所述试验目的数据进行识别，得到目的文本信息；

试验数据模型训练单元，用于通过深度学习算法对所述用户的历史试验方案数据和使用行为习惯数据进行训练，得到训练好的试验数据模型；

试验结果获取单元，用于将所述文本信息输入至所述试验数据模型，得到试验结果；

试验结果输入单元，用于将所述试验结果输入所述知识库，生成相应的临时试验方案和知识体系并发送给用户；

最终试验方案生成单元，用于获取用户根据所述知识体系对所述临时试验方案的完善内容并生成最终试验方案。

第三方面，本发明实施例又提供了一种计算机设备，其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面所述的智能临床试验方案生成方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其中所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时实现上述第一方面所述的智能临床试验方案生成方法。

本发明实施例提供了一种智能临床试验方案生成方法及相关装置，方法包括：通过神经网络算法对临床试验知识数据进行标注得到标注信息，并对所述标注信息进行数据清洗，将数据清洗后的标注信息转化为统一语言内容并将转化后的标注信息录入知识库；获取用户的试验目的数据，并利用自然语言识别技术对所述试验目的数据进行识别，得到目的文本信息；通过深度学习算法对所述用户的历史试验方案数据和使用行为习惯数据进行训练，得到训练好的试验数据模型；将所述文本信息输入至所述试验数据模型，得到试验结果；将所述试验结果输入所述知识库，生成相应的临时试验方案和知识体系并发送给用户；获取用户根据所述知识体系对所述临时试验方案的完善内容并生成最终试验方案。本发明基于创建的知识库，提供以目标为导向的多种学科交叉的知识体系，采用AI算法内部学习迭代，提供专业且个性的临床方案知识图谱，并辅以行业内海量内容产出临床药物试验方案，充分解决原有的重复性工作，提高试验方案的产出率，并通过试验数据模型定制出符合用户个性的试验方案。本发明实施例同时还提供了一种智能临床试验方案生成装置、一种计算机可读存储介质和一种计算机设备，具有上述有益效果，在此不再赘述。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本实施例的一种智能临床试验方案生成方法的流程图；

图2为本实施例的一种智能临床试验方案生成方法的子流程图；

图3为本实施例的一种智能临床试验方案生成方法的另一子流程图；

图4为本实施例的一种智能临床试验方案生成装置的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

请参阅图1，本发明提供了一种智能临床试验方案生成方法，包括：

S101：通过神经网络算法对临床试验知识数据进行标注得到标注信息，并对所述标注信息进行数据清洗，将数据清洗后的标注信息转化为统一语言内容并将转化后的标注信息录入知识库；

其中，在将标注信息录入知识库之前需要对标注信息进行审核，该审核可以为系统审核，也可以通过人工审核，从而确保临床试验知识的真实性和准确性。

请参阅图2，步骤S101包括：

S201：对所述临床试验知识数据进行预处理，得到预处理数据；

本实施例中对所述临床试验知识数据可进行去除ID属性、删除含有缺失值的特征等预处理。

S202：将所述预处理数据中的半结构化、非结构化的数据按照药物、临床、统计的类别进行预标注并对所述预标注进行标签处理；

本步骤中将预处理数据中的半结构化、非结构化的数据按照药物、临床、统计的类别进行预标注，后续按照标注临床试验知识数据按照药物、临床、统计的类别进行分类存储，能够提升临床试验知识的检索效率。

S203：采用双向长短期记忆神经网络和条件随机场相结合的算法从经过预标注的临床试验知识数据中抽取出实体信息；

具体的，获取经过预标注的临床试验知识数据；将经过预标注的临床试验知识数据输入长短期记忆模型，得到字符嵌入；将经过预标注的临床试验知识数据输入语言表征预训练模型，得到词嵌入；将所述字符嵌入和所述词嵌入拼接处理，将拼接后的字符嵌入和词嵌入输入到双向长短期记忆网络，得到处理结果；将所述处理结果输入条件随机场，得到实体信息。

S204：运用命名实体识别技术对所述实体信息进行文本三元组标注，得到文本三元组；

S205：根据所述文本三元组构建出知识图谱。

进一步的，构建出知识图谱后获取知识库中与该知识图谱同类的其他知识图谱数据，并通过余弦相似度算法计算出知识库中与该知识图谱相似度最高的知识图谱，将该知识图谱与知识库中相似度最高的知识图谱相关联并存储在知识库中。

在一个实施例中，还可通过步骤S101的方法创建专科的知识库，例如乳腺癌、胰腺癌等多种癌症类型的知识库，专科知识库的创建能够为用户提供更专业、更细化的知识体系。

在一个具体应用场景中，对当前研究病种非小细胞肺癌进行大量的数据收集和分析，根据现有的知识团队构建对应的符合研究、药厂方案填写的知识体系图谱，对拆解的段落内容进行对应的标注，常见的标注可以按照文案结构拆解为干预对象、干预手段等内容，通过临床维度可以标注为疾病、检验检查指标、药物、治疗手段等内容，通过统计维度可以标注为误差降低、样本量预估、分组建议等等内容；通过对现有拆解逻辑的提取以及双向长短期记忆神经网络和条件随机场相结合的算法生成对应的拆解模型算法，通过自然语言识别(NLP)技术和拆解模型算法实现对大批量数据的收集，拆解和标注；最终通过人工核查和确认之后，生成非小细胞肺癌知识库内容。其中一种标注示例如表1所示。

表1

本实施例通过步骤S101实现了对知识库的自动补充和完善，并构建出相应的知识图谱，当用户需要查询相关知识时，系统可为用户提供相似程度最佳的知识脉络和知识图谱，为用户撰写试验方案提供了专业的知识支持。

S102：获取用户的试验目的数据，并利用自然语言识别技术对所述试验目的数据进行识别，得到目的文本信息；

本步骤通过自然语言识别技术获取用户的试验目的数据，通过对用户的试验目的数据进行端点检测、降噪、特征提取，得到语言特征向量，接着对语言特征向量进行统计模式识别得到目的文本信息。

S103：通过深度学习算法对所述用户的历史试验方案数据和使用行为习惯数据进行训练，得到训练好的试验数据模型；

请参阅图3，本步骤的具体内容如下：

S301：对所述用户的历史试验方案数据和使用行为习惯数据进行实体抽取，得到实体识别数据；

本实施例中主要抽取的是文本中的原子信息元素，如干预手段、干预对象、预后效果、伦理内容、试验方案模板格式等，其中，干预对象为：研究者想要针对解决的某一病症，或者疾病的某一特定表征等；干预手段为：治疗该疾病的具体方法，即试验中在试的药物、医疗器械以及治疗方案等；预后效果为：试验计划所达到的测试目标，如有效性、安全性等；伦理内容为：必要的审查需要关注的理论政策点等。

S302：对所述实体识别数据进行特征选择和特征降维，得到特征数据；

具体的，获取所述实体识别数据的特征子集；计算所述特征子集的方差，并选取出方差最小的10个特征；采用特征压缩方法对所述10个特征进行降维，得到5个描述特征并将所述描述特征作为所述实体识别数据的特征数据。

S303：对所述特征数据进行聚类分析，得到归类数据；

具体的，通过K-means密度聚类算法将所述特征数据的集合按照特征相似度分成不同簇类对象，将特征相似的数据分布于同一簇中，将特征不相似的数据分布在簇外；计算所述特征数据的分布密度，并对所述特征数据的分布密度进行数据分析，得到归类数据。

S304：通过所述深度学习算法构建试验数据模型；

S305：将所述归类数据输入所述试验数据模型进行训练，得到训练好的试验数据模型。

本实施例通过实体抽取、特征选择、特征降维以及聚类分析等方法对用户的历史试验方案数据和使用行为习惯数据进行预处理，再将预处理的数据输入实验数据模型进行实现了对试验数据模型的训练，该试验数据模型能够学习用户的行为习惯，并通过结合知识库为用户提供符合自己习惯和个性的试验方案，提升试验方案的产出率。

S104：将所述文本信息输入至所述试验数据模型，得到试验结果；

S105：将所述试验结果输入所述知识库，生成相应的临时试验方案和知识体系并发送给用户；

S106：获取用户根据所述知识体系对所述临时试验方案的完善内容并生成最终试验方案。

其中，在生成最终试验方案之后，系统会将最终试验方案输入试验数据模型进行训练更新，同时通过神经网络算法将最终试验方案转化为知识图谱存储在知识库中。

进一步的，最终试验方案存储在知识库中时，其他用户可对该试验方案进行相关的修改，也可以根据实际情况对该方案进行相应的补充等，本实施例通过在线协同和对应的版本管理实现从试验方案草稿、版本修订过程、提交伦理审核、试验方案执行以及试验方案完成的试验方案全周期管控。

进一步的，，生成临时试验方案之前可构建整体常量框架库，具体流程为：对现有方案内容进行疾病、化学合成物、基因靶点等特异性特征抽取，对同类方案进行合并比较，对出现变量(如血小板降低)部分进行剔除和模糊，保留共用常量框架部分，形成最终的常量模板，根据对抽取的特异性特征进行标注并构建整体常量框架库。

在一个实施例中，通过深度学习算法对历史搜索热度以及用户历史开发方案过程中倾向使用的模板和对应疾病、靶点特色差异的内容综合进行规律提取和训练，形成试验数据模型，在主要研究者或者药厂相关机构根据自身需求发起一个临床试验方案时，用户将自身需求输入系统，系统依托试验数据模型去知识库和常量框架库中去抓取最佳推荐内容和多个相关的常量模板和知识库，最终用户根据自身需求对最佳推荐内容和多个相关的常量模板和知识库进行自由匹配和组装，得到临床试验方案的“毛坯”般的底层模板，系统还为用户提供针对底层模板进行完善、美化调整的操作，包括但不限于多种统计参考工具的使用、历史常见注意事项的提醒、常规知识内容之间强相关或无关联的知识规则的提醒、同类型下优秀写作方案模板参考及团队在线协作功能等，最终用户根据自身实际需求产出最终适用于当前药物、当前疾病的临床试验方案。

在一个具体应用场景中，按照系统范围边界进行内容点选：最终选择干预试验+III期及PD-1药物在非小细胞肺癌中应用，系统根据用户最终选择的内容检索知识库，进行最佳(标注匹配程度最高)模板和最常用(根据用户历史书写习惯)模板推荐，用户查看对应关系知识库和模板并进行选择后，得到方案骨架和常量部分，即得到“毛坯”级别的底层模板；用户可以在底层模板上基于非小细胞肺癌、PD-1靶点、III期所需要注意的事项或者临床关注内容进行必要关键节点提醒提示和填充；用户也可根据自己经验内容在得到的底层模板之上依托系统提供的多种工具对各个章节进行相关修改，如：根据样本量估算工具，输入对应试验药组和对照组的分配比例、每组受试者、脱落率和适应证药物相关率之后计算得到样本总容量并反向导入方案；用户可以通过多人在线协作的方式进行批注和对应批注沟通，通力完成某一集合度高的章节或者模块的编写；同时针对编写过程提供多个优秀行业案例模板参考，提高书写过程中的交互感等；最终生成一套完整的PD-1基因靶点针对非小细胞肺癌的临床试验方案并进行实践和推行。系统将会基于此次产生的试验方案内容进行动态拆解，经过知识库审核团队确认后动态更新知识库，同时更新试验数据模型。

本实施例通过一些网络在线技术保证工作的协同性，从本质上实现了原有线下工作内容的电子化；另外从试验立项开始，实现对试验的周期全流程化的管理；构建了权威专业的多学科交叉的知识库体系，对普通用户而言实现一站式试验方案的引导创建和生成。

请参阅图4，本实施例提供了一种智能临床试验方案生成装置400，包括：

知识库补充单元401，用于通过神经网络算法对临床试验知识数据进行标注得到标注信息，并对所述标注信息进行数据清洗，将数据清洗后的标注信息转化为统一语言内容并将转化后的标注信息录入知识库；

文本信息获取单元402，用于获取用户的试验目的数据，并利用自然语言识别技术对所述试验目的数据进行识别，得到目的文本信息；

试验数据模型训练单元403，用于通过深度学习算法对所述用户的历史试验方案数据和使用行为习惯数据进行训练，得到训练好的试验数据模型；

试验结果获取单元404，用于将所述文本信息输入至所述试验数据模型，得到试验结果；

试验结果输入单元405，用于将所述试验结果输入所述知识库，生成相应的临时试验方案和知识体系并发送给用户；

最终试验方案生成单元406，用于获取用户根据所述知识体系对所述临时试验方案的完善内容并生成最终试验方案。

进一步的，所述知识库补充单元401包括：

预处理子单元，用于对所述临床试验知识数据进行预处理，得到预处理数据；

标注子单元，用于将所述预处理数据中的半结构化、非结构化的数据按照药物、临床、统计的类别进行预标注并对所述预标注进行标签处理；

实体信息抽取子单元，用于采用双向长短期记忆神经网络和条件随机场相结合的算法从经过预标注的临床试验知识数据中抽取出实体信息；

文本三元组获取子单元，用于运用命名实体识别技术对所述实体信息进行文本三元组标注，得到文本三元组；

知识图谱构建子单元，用于根据所述文本三元组构建出知识图谱。

进一步的，所述实体信息抽取子单元包括：

数据获取子单元，用于获取经过预标注的临床试验知识数据；

字符嵌入获取子单元，用于将经过预标注的临床试验知识数据输入长短期记忆模型，得到字符嵌入；

词嵌入获取子单元，用于将经过预标注的临床试验知识数据输入语言表征预训练模型，得到词嵌入；

拼接处理子单元，用于将所述字符嵌入和所述词嵌入拼接处理，将拼接后的字符嵌入和词嵌入输入到双向长短期记忆网络，得到处理结果；

输入子单元，用于将所述处理结果输入条件随机场，得到实体信息。

进一步的，所述试验数据模型训练单元403包括：

实体识别数据获取子单元，用于对所述用户的历史试验方案数据和使用行为习惯数据进行实体抽取，得到实体识别数据；

特征数据获取子单元，用于对所述实体识别数据进行特征选择和特征降维，得到特征数据；

归类数据获取子单元，用于对所述特征数据进行聚类分析，得到归类数据；

试验数据模型构建子单元，用于通过所述深度学习算法构建试验数据模型；

归类数据输入子单元，用于将所述归类数据输入所述试验数据模型进行训练，得到训练好的试验数据模型。

进一步的，所述特征数据获取子单元包括：

特征子集获取子单元，用于获取所述实体识别数据的特征子集；

特征选择子单元，用于计算所述特征子集的方差，并选取出方差最小的10个特征；

特征降维子单元，用于采用特征压缩方法对所述10个特征进行降维，得到5个描述特征并将所述描述特征作为所述实体识别数据的特征数据。

进一步的，所述归类数据获取子单元包括：

特征聚类子单元，用于通过K-means密度聚类算法将所述特征数据的集合按照特征相似度分成不同簇类对象，将特征相似的数据分布于同一簇中，将特征不相似的数据分布在簇外；

分布密度计算子单元，用于计算所述特征数据的分布密度，并对所述特征数据的分布密度进行数据分析，得到归类数据。

进一步的，所述最终试验方案生成单元406包括：

存储子单元，用于将所述最终试验方案输入所述试验数据模型进行训练更新，同时通过神经网络算法将所述最终试验方案转化为知识图谱存储在知识库中。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述的装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本发明还提供了一种计算机可读存储介质，其上存有计算机程序，该计算机程序被执行时可以实现上述实施例所提供的方法。该存储介质可以包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明还提供了一种计算机设备，可以包括存储器和处理器，所述存储器中存有计算机程序，所述处理器调用所述存储器中的计算机程序时，可以实现上述实施例所提供的方法。当然所述计算机设备还可以包括各种网络接口，电源等组件。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的。

包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的状况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：何国平;翁星河;李金泉;陈海燕;
专利申请人：杭州数垚科技有限公司;

上一篇：一种可动态配置的社会稳定指数模型构建方法及系统
下一篇：无人机集群目标分配方法、装置、系统和存储介质