一种数据分析的方法及装置

文献发布时间：2023-06-19 10:35:20

技术领域

本发明涉及人工智能技术领域，尤其涉及一种数据分析的方法及装置。

背景技术

在开发新药的过程中，需要不断的进行临床试验，以验证新药的疗效。然而在进行任何一个临床试验前均需要提前评估临床试验设计参数和临床试验统计方法的可靠性。临床试验参数主要是指临床试验过程中涉及的样本量、入组快慢等的临床试验设计参数，临床试验统计方法主要是指对临床试验结果进行统计的方法。针对同一新药的临床试验，可以设计不同的临床试验参数和统计方法，但是合适的临床试验参数和统计方法能够提前捕抓到临床试验结果，从而提前结束临床试验，缩短新药研发的周期，进而使得有效的新药能够更早被应用于患者的救治。因此在进行临床试验前评估临床试验参数和和统计方法就显得尤为重要。

然而，现有技术中针对临床试验参数和统计方法的评估通常是基于非真实临床数据开展的，并通过改变非真实临床数据的参数重复多次评估临床试验参数和统计方法的可靠性；但是现有的这种评估方法不能充分反映真实的临床试验数据的分布特征，从而无法准确地评估给定的临床试验参数及统计方法在给定的临床场景中应用的可靠性。

发明内容

本发明实施例创造性地提供一种数据分析的方法及装置，以提高临床试验评估的可靠性。

根据本发明实施例第一方面，提供一种数据分析的方法，该方法包括：针对第一试验对象对应的受试者生存数据和第二试验对象对应的受试者生存数据，分别进行拟合，得到试验组生存函数和对照组生存函数，其中，生存数据包括：受试者的编号、存活时间和生存状态；基于预设中期临床试验参数、所述试验组生存函数和对照组生存函数，确定中期分析中受试者生存数据，并根据所述中期分析中受试者生存数据，利用预设方法统计中期分析中试验组相对于对照组的存活概率；基于预设末期临床试验参数、所述试验组生存函数和对照组生存函数，确定末期分析中受试者生存数据，并根据所述末期分析中受试者生存数据，利用预设方法统计末期分析中试验组相对于对照组的存活概率；判断中期分析中试验组相对于对照组的存活概率和末期分析中试验组相对于对照组的存活概率是否均满足预设条件。

根据本发明一实施方式，获取第一试验对象对应的试验组生存曲线以及所述试验组生存曲线上各时间点对应的存活人数；基于所述试验组生存曲线和所述存活人数，利用算法重建第一试验对象对应的受试者生存数据；获取第二试验对象对应的对照组生存曲线以及所述对照组生存曲线上各时间点对应的存活人数；基于所述对照组生存曲线和所述存活人数，利用算法重建第二试验对象对应的受试者生存数据。

根据本发明一实施方式，所述预设中期临床试验参数包括：试验组相对于对照组发生终点事件的风险参数，I类错误发生率参数，II类错误发生率参数，入组模式参数，中期分析时终点事件数相对末期分析时终点事件数的比率参数，末期分析时出现终点事件的受试者的百分比，以及中期分析优效界值参数和无效界值参数；所述预设末期临床试验参数包括：试验组相对于对照组发生终点事件的风险参数，I类错误发生率参数，II类错误发生率参数，入组模式参数，末期分析时出现终点事件的受试者的百分比，以及末期分析优效界值参数和无效界值参数。

根据本发明一实施方式，根据所述试验组相对于对照组发生终点事件的风险参数、I类错误发生率参数和II类错误发生率参数，计算得到末期分析事件数；基于所述末期分析时出现终点事件的受试者的百分比，以及所述末期分析事件数，计算得到拟入组的受试者数量；基于所述末期分析事件数和所述中期分析时的终点事件数相对末期分析时终点事件数的比率参数，计算得到中期分析事件数。

根据本发明一实施方式，所述基于预设中期临床试验参数、所述试验组生存函数和对照组生存函数，确定中期分析中受试者生存数据，包括：基于所述拟入组的受试者数量和所述入组模式参数，确定受试者的虚拟入组时间；从拟入组的所有受试者中选取实验组样本和对照组样本，所述试验组样本的受试者满足所述试验组生存函数，所述对照组样本的受试者满足所述对照组生存函数；基于所述试验组生存函数，确定所述试验组样本中每个受试者的存活时间，并基于所述对照组生存函数，确定所述对照组样本中每个受试者的存活时间；基于所述中期分析事件数、所述受试者的虚拟入组时间、所述试验组样本中每个受试者的存活时间以及所述对照组样本中每个受试者的存活时间，确定中期分析时间点；获取在所述中期分析时间点已完成入组的受试者列表，并基于所述中期分析时间点和所述受试者列表，生成中期分析中受试者生存数据。

根据本发明一实施方式，所述基于预设末期临床试验参数、所述试验组生存函数和对照组生存函数，确定末期分析中受试者生存数据，包括：基于所述末期分析事件数、所述受试者的虚拟入组时间、所述试验组样本中每个受试者的存活时间以及所述对照组样本中每个受试者的存活时间，确定末期分析时间点；获取在所述末期分析时间点已完成入组的受试者列表，并基于所述末期分析时间点和所述受试者列表，生成末期分析中受试者生存数据。

根据本发明实施例第二方面，还提供一种数据分析的装置，所述装置包括：拟合模块，用于针对第一试验对象对应的受试者生存数据和第二试验对象对应的受试者生存数据，分别进行拟合，得到试验组生存函数和对照组生存函数，其中，生存数据包括：受试者的编号、存活时间和生存状态；第一统计模块，用于基于预设中期临床试验参数、所述试验组生存函数和对照组生存函数，确定中期分析中受试者生存数据，并根据所述中期分析中受试者生存数据，利用预设方法统计中期分析中试验组相对于对照组的存活概率；第二统计模块，用于基于预设末期临床试验参数、所述试验组生存函数和对照组生存函数，确定末期分析中受试者生存数据，并根据所述末期分析中受试者生存数据，利用预设方法统计末期分析中试验组相对于对照组发生终点事件的存活概率；判断模块，用于判断中期分析中试验组相对于对照组的存活概率和末期分析中试验组相对于对照组的存活概率是否均满足预设条件。

根据本发明一实施方式，所述的装置还包括：第一获取模块，用于获取第一试验对象对应的试验组生存曲线以及所述试验组生存曲线上各时间点对应的存活人数；第一重建模块，用于基于试验组生存曲线和所述存活人数，利用算法重建第一试验对象对应的受试者生存数据；第二获取模块，用于获取第二试验对象对应的对照组生存曲线以及所述对照组生存曲线上各时间点对应的存活人数；第二重建模块，用于基于对照组生存曲线和存活人数，利用算法重建第二试验对象对应的受试者生存数据。

根据本发明一实施方式，所述的装置还包括：第一计算模块，用于根据所述试验组相对于对照组发生终点事件的风险参数、I类错误发生率参数和II类错误发生率参数，计算得到末期分析事件数；计算模块，用于基于所述末期分析时出现终点事件的受试者的百分比，以及所述末期分析事件数，计算得到拟入组的受试者数量；第三计算模块，用于基于中期分析时的终点事件数相对末期分析时终点事件数的比率参数，计算得到中期分析事件数。

根据本发明一实施方式，所述第一统计模块包括：第一确定单元，用于基于所述拟入组的受试者数量和所述入组模式参数，确定受试者的虚拟入组时间；选取单元，用于从拟入组的所有受试者中选取实验组样本和对照组样本，所述试验组样本的受试者满足所述试验组生存函数，所述对照组样本的受试者满足所述对照组生存函数；第二确定单元，用于基于所述试验组生存函数，确定所述试验组样本中每个受试者的存活时间，并基于所述对照组生存函数，确定所述对照组样本中每个受试者的存活时间；第三确定单元，用于基于所述中期分析事件数、所述受试者的虚拟入组时间、所述试验组样本中每个受试者的存活时间以及所述对照组样本中每个受试者的存活时间，确定中期分析时间点；生成单元，用于获取在所述中期分析时间点已完成入组的受试者列表，并基于所述中期分析时间点和所述受试者列表，生成中期分析中受试者生存数据。

根据本发明一实施方式，所述第二统计模块包括：确定单元，用于基于所述末期分析事件数、所述受试者的虚拟入组时间、所述试验组样本中每个受试者的存活时间以及所述对照组样本中每个受试者的存活时间，确定末期分析时间点；生成单元，用于获取在所述末期分析时间点已完成入组的受试者列表，并基于所述末期分析时间点和所述受试者列表，生成末期分析中受试者生存数据。

本发明实施例针对一种数据分析的方法、装置及计算机可读介质，首先针对第一试验对象对应的受试者生存数据和第二试验对象对应的受试者生存数据，分别进行拟合，得到试验组生存函数和对照组生存函数；并基于预设中期临床试验参数、试验组生存函数和对照组生存函数，确定中期分析中受试者生存数据，根据中期分析中受试者生存数据，利用预设方法统计中期分析中试验组相对于对照组的存活概率；基于预设末期临床试验参数、试验组生存函数和对照组生存函数，确定末期分析中受试者生存数据，并根据末期分析中受试者生存数据，利用预设方法统计末期分析中试验组相对于对照组的存活概率；之后判断中期分析中试验组相对于对照组的存活概率和末期分析中试验组相对于对照组的存活概率是否均满足预设条件。由此，利用上述数据分析方法重复多次开展基于真实试验数据的模拟临床试验，能够客观且有效地评估预设方法在预设中期临床试验参数的条件下应用的可靠性和成功率，从而指导研究者根据实际情况选取合适的临床试验参数和方法，进而节约资源，并缩短新药研发的周期。

需要理解的是，本发明的教导并不需要实现上面所述的全部有益效果，而是特定的技术方案可以实现特定的技术效果，并且本发明的其他实施方式还能够实现上面未提到的有益效果。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：

在附图中，相同或对应的标号表示相同或对应的部分。

图1示出了本发明一实施例数据分析的方法的流程示意图；

图2示出了本发明一实施例中试验组生存列表；

图3示出了本发明一实施例中试验组生存函数；

图4示出了本发明另一实施例数据分析的方法的流程示意图；

图5示出了本发明一实施例数据分析的装置示意图。

具体实施方式

下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解，给出这些实施方式仅仅是为使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。相反，提供这些实施方式是为使本发明更加透彻和完整，并能够将本发明的范围完整地传达给本领域的技术人员。

对下述可能出现的行业术语进行详细解释。

临床试验：临床试验是评价药物、疗法的有效性和安全性的金标准。其通过随机化分组的方法，使试验组和对照组的受试者的特征均衡可比，试验组和对照组的结局的差异可认为完全归因于试验药物。

存活时间：广义的存活时间指从进行随机分组的日期开始到出现终点事件(如死亡、肿瘤进展、肿瘤复发等)或删失(由于人力或其他原因未观察到终点事件发生)的时间间隔。

生存函数，用于表征存活时间的不同取值的分布规律的函数。例如，生存函数S(t)为观察的受试者存活时间T大于某时刻t的概率，用S(t)表示：S(t)＝P(T>t)；主要以时间t为横坐标，S(t)为纵坐标所作的曲线称为生存率曲线，该曲线是一条下降的曲线，下降的坡度越陡，表示生存率越低或存活时间越短，其斜率表示死亡速率。

限制性立方样条：基于分段多项式，拟合非线性曲线关系的算法。

中期分析：是指正式完成临床试验前(如出现预设的终点事件数的K％时[K<100％])，按事先制订的统计分析计划，比较试验组、对照组的有效性和安全性所作的统计分析。

末期分析：是指正式完成临床试验时(如出现预设的终点事件数的100％时)，按事先制订的统计分析计划，比较试验组、对照组的有效性和安全性所作的统计分析。

试验组相对于对照组发生终点事件的相对风险参数，例如HR。HR<1表明试验组相较对照组可降低终点事件的发生风险。

I类错误：当试验组和对照组的疗效实际无差别时，误判试验组和对照组的疗效有差别，即假阳性结果。I类错误发生率参数，又称第一类错误发生率，是指拒绝了实际上成立的，为“弃真”的错误，I类错误发生率参数通常用α表示。可取单尾也可取双尾，假设检验时研究者可以根据需要确定值大小，一般规定α＝0.05或α＝0.01，其意义为：假设检验中如果拒绝时，发生Ⅰ型错误的概率为5％或1％，即100次拒绝的结论中，平均有5次或1次是错误的。

II类错误：当试验组和对照组的疗效实际有差别时，误判试验组和对照组的疗效无差别，即假阴性结果。II类错误发生率参数，又称第二类错误发生率，是指不拒绝实际上不成立的，为“存伪”的错误，第二类错误发生率通常用β表示。β只能取单尾，假设检验时一般不知道β的值，在一定条件下(如已知两总体的差值δ、样本含量n和检验水准α)可以测算出来。

入组模式参数，包括受试者入组的速度及完成入组的时间跨度两个方面的信息。例如，受试者匀速入组，用时12个月完成全部受试者的入组。

中期分析时的终点事件数相对末期分析时终点事件数的比率参数，是指中期分析时终点事件数占末期分析时终点事件的比率。例如，如果试验结束时终点事件数有512例，中期分析时终点事件数是256例，那么中期分析时的终点事件数相对末期分析时终点事件数的比率参数为50％。

末期分析时出现终点事件的受试者的百分比，是指试验结束时受试者出现终点事件的比率。例如，有680例受试者参加试验(试验组和对照组按照1:1的方式让受试者入组)，当512例受试者出现终点事件则认为试验结束，那么试验结束时受试者出现终点事件的比率就是75％。

存活概率，用Z统计量表示，主要是指试验组与对照组发生终点事件的风险值再除以其标准误进行标准化后的值。标准化是指通过对测量值进行调整从而使不同测量值的概率分布保持一致的方法。例如，

优效界值参数，判断试验组疗效优于对照组疗效的界值参数。例如当Z统计量大于优效界值，则判断试验组疗效更优，试验组疗效为有效。

无效界值参数，判断试验组疗效不优于对照组疗效的界值参数。当存活概率小于无效界值，则判断试验组疗效不优于对照组疗效，试验组疗效为无效。

下面结合附图和具体实施例对本发明的技术方案进一步详细阐述。

图1示出了本发明一实施例数据分析的方法的流程示意图。图2示出了本发明一实施例中实验组的生存列表。图3示出了本发明一实施例中试验组生存函数。参考图1，一种数据分析的方法，包括：S101，针对第一试验对象对应的受试者生存数据和第二试验对象对应的受试者生存数据，分别进行拟合，得到试验组生存函数和对照组生存函数，其中，生存数据包括：受试者的编号、存活时间和生存状态；S102，基于预设中期临床试验参数、所述试验组生存函数和对照组生存函数，确定中期分析中受试者生存数据，并根据所述中期分析中受试者生存数据，利用预设方法统计中期分析中试验组相对于对照组的存活概率；S103，基于预设末期临床试验参数、所述试验组生存函数和对照组生存函数，确定末期分析中受试者生存数据，并根据所述末期分析中受试者生存数据，利用预设方法统计末期分析中试验组相对于对照组的存活概率；S104，判断中期分析中试验组相对于对照组的存活概率和末期分析中试验组相对于对照组的存活概率是否均满足预设条件。

在S101中，获取第一试验对象对应的生存列表和第二试验对象对应的生存列表；基于第一试验对象对应的生存列表获取第一试验对象对应的受试者生存数据，基于第二试验对象对应的生存列表获取第二试验对象对应的受试者生存数据。针对第一试验对象对应的受试者生存数据和第二试验对象对应的受试者生产数据，分别利用限制性立方样条的算法进行拟合，得到试验组生存函数和对照组生存函数。其中，第一试验对象对应的受试者形成试验组，第二试验对象对应的受试者形成对照组。

参考图2，生存列表包括多个受试者的生存数据，每一个受试者的生存数据包括受试者编号、存活时间和生存状态，其中，生存状态包括死亡和删失状态中的一种。例如受试者编号为1，生存期为15个月，生存状态为死亡；受试者编号为2，生存期为10个月，生存状态为死亡；受试者编号为3，生存期为20个月，生存状态为删失。

参考图3，示例：基于试验组真实生存数据及限制性立方样条的方法，拟合得到试验组生存函数。

在S102中，预设中期临床试验参数包括：试验组相对于对照组发生终点事件的风险参数，I类错误发生率参数，II类错误发生率参数，入组模式参数，中期分析时终点事件数相对末期分析时终点事件数的比率参数，末期分析时出现终点事件的受试者的百分比，以及中期分析优效界值参数和无效界值参数。基于末期分析时出现终点事件的受试者的百分比，以及末期分析事件数，计算得到拟入组的受试者数量。基于末期分析事件数和所述中期分析时的终点事件数相对末期分析时终点事件数的比率参数，计算得到中期分析事件数。基于所述拟入组的受试者数量和所述入组模式参数，确定受试者的虚拟入组时间。从拟入组的所有受试者中选取实验组样本和对照组样本，所述试验组样本的受试者满足所述试验组生存函数，所述对照组样本的受试者满足所述对照组生存函数；基于所述试验组生存函数，确定所述试验组样本中每个受试者的存活时间，并基于所述对照组生存函数，确定所述对照组样本中每个受试者的存活时间。基于所述中期分析事件数、所述受试者的虚拟入组时间、所述试验组样本中每个受试者的存活时间以及所述对照组样本中每个受试者的存活时间，确定中期分析时间点；获取在所述中期分析时间点已完成入组的受试者列表，并基于所述中期分析时间点和所述受试者列表，生成中期分析中受试者生存数据。

根据所述中期分析中受试者生存数据，利用预设方法统计中期分析中试验组相对于对照组的存活概率，具体通过如下方法实现：根据所述中期分析中受试者生存数据，利用预设的统计方法统计中期分析中试验组相对于对照组发生终点事件的风险值和置信水平值；基于风险值及置信水平值，计算中期分析中Z统计量。例如，利用Cox比例风险模型对中期分析中受试者生存数据进行处理，得到试验组相对对照组发生终点事件的风险值和95％的置信区间；基于风险值和95％的置信区间，计算得到Z统计量。在这里，Cox比例风险模型是基于预设统计方法获得的。

在S103中，所述预设末期临床试验参数包括：试验组相对于对照组发生终点事件的风险参数，I类错误发生率参数，II类错误发生率参数，入组模式参数，末期分析时出现终点事件的受试者的百分比，以及末期分析优效界值参数和无效界值参数。基于所述末期分析事件数、所述受试者的虚拟入组时间、所述试验组样本中每个受试者的存活时间以及所述对照组样本中每个受试者的存活时间，确定末期分析时间点；获取在所述末期分析时间点已完成入组的受试者列表，并基于所述末期分析时间点和所述受试者列表，生成末期分析中受试者生存数据。

根据末期分析中受试者生存数据，利用预设的金标准方法统计末期分析中试验组相对于对照组发生终点事件的存活概率，包括：根据所述末期分析中受试者生存数据，利用预设金标准统计方法统计末期分析中试验组相对于对照组发生终点事件的风险值和置信水平值；基于风险值及置信水平值，计算末期分析中试验组相对于对照组发生终点事件的存活概率，也就是Z统计量。

需要说明的是，中期分析中受试者生存数据包括：中期分析时第一试验对象对应的受试者生存数据和第二试验对象对应的受试者生存数据。

还需要说明的是，S102、S103中提及的存活时间特指从进行随机分组的日期到出现终点事件的时间间隔，这里不包括删失。

末期分析中受试者生存数据包括：末期分析时第一试验对象对应的受试者生存数据和第二试验对象对应的受试者生存数据。

在S104中，预设条件为存活概率大于优效界值，或者存活概率小于无效界值。例如，判断中期分析的Z统计量是否满足预设条件，以及判断末期分析中Z统计量是否满足预设条件。

由此，本发明实施例通过第一试验对象对应的受试者生存数据和第二试验对象对应的受试者生存数据模拟临床试验，从而能够客观且有效地评估预设的中期分析统计方法在预设临床试验参数的条件下应用的可靠性和成功率，从而指导研究者根据实际情况选取合适的临床试验参数和方法，进而节约资源，并缩短新药研发的周期。

下面结合具体应用场景，对上述方案进行详细说明，具体包括如下步骤：基于预设0.75的HR、双侧5％的I类错误发生率以及10％的II类错误发生率，算得需要512例终点事件。预设试验结束时75％的受试者出现终点事件，则需要入组680例受试者(按试验组比对照组1：1随机的话，两组各入组340例)。基于给定的入组模式(即：匀速入组，12个月完成入组)，产生680位受试者的虚拟入组日期。基于试验组生存函数、对照组对照组生存函数，通过独立、多次的抽样，产生服从试验组生存函数分布的340例试验组受试者的从入组至其死亡的存活时间，以及服从对照组生存函数分布的340例对照组受试者的从入组至其死亡的存活时间。基于各受试者的入组日期以及从入组至其死亡的存活时间，可获知该临床试验的中期分析时间点，即出现256例受试者死亡时的日期。基于获得的中期分析时间点，获知中期分析时已完成入组的受试者列表，即入组日期不晚于中期分析日期的受试者。基于获得的中期分析时间点、以及获得的中期分析时已入组的受试者列表，生成中期分析时各受试者的生存状态(即：死亡或删失)及存活时间：如受试者死亡的日期不晚于中期分析的日期，则该受试者的生存状态为死亡；如受试者死亡的日期晚于中期分析的日期，则该受试者的生存状态为删失；各受试者中期分析时存活时间为自入组至其死亡或删失的时间间隔。基于获得的中期分析时受试者生存数据，采用预设的统计学方法计算中期分析时观测到的试验组相对于对照组发生终点事件的风险值和95％的置信区间，基于风险值和95％的置信区间得到Z统计量。

基于各受试者的入组日期以及从入组至其死亡的时间间隔，可获知该模拟临床试验的末期分析时间点，即出现512例受试者死亡时的日期。末期分析时间点，获知末期分析时已完成入组的受试者列表，即入组日期不晚于末期分析日期的受试者。基于获得的末期分析时间点、以及获得的末期分析时已入组的受试者列表，生成末期分析时各受试者的生存状态(即：死亡或删失)及存活时间：如受试者死亡的日期不晚于末期分析时间点，则该受试者的生存状态为死亡；如受试者死亡的日期晚于末期分析的日期，则该受试者的生存状态为删失；各受试者的末期分析时的存活时间为自入组至其死亡或删失的时间间隔。基于获得的末期分析时受试者生存数据，采用采用预设的统计学方法计算末期分析时观测到的试验组相对于对照组发生终点事件的风险值和95％的置信区间，基于风险值和95％的置信区间得到Z统计量。

若中期分析的Z统计量大于中期分析优效界值，末期分析的Z统计量大于末期分析优效界值，则确定中期分析的预设统计方法在预设中期临床试验参数的条件下评估针对第一试验对象的效用为有效，即中期分析成功地提前捕捉到最终分析的阳性结果。

若中期分析的Z统计量小于中期分析无效界值，末期分析的Z统计量小于末期分析无效界值，则确定中期分析的预设统计方法在预设中期临床试验参数的条件下评估针对第一试验对象的效用为有效；即中期分析成功地提前捕捉到最终分析的阴性结果。

若中期分析的Z统计量大于中期分析优效界值，末期分析的Z统计量小于末期分析无效界值，则确定中期分析的预设统计方法在预设中期临床试验参数的条件下评估针对第一试验对象的效用为无效，即中期分析失败，且有假阳性风险。

若中期分析的Z统计量小于中期分析无效界值，末期分析的Z统计量大于末期分析优效界值，则确定中期分析的预设统计方法在预设中期临床试验参数的条件下评估针对第一试验对象的效用为无效，即中期分析失败，且有假阴性风险。

若中期分析的Z统计量不大于中期分析优效界值且不小于中期分析无效界值，末期分析的Z统计量大于末期分析优效界值，则确定中期分析的预设统计方法在预设中期临床试验参数的条件下评估针对第一试验对象的效用为无效，即中期分析失败，但未构成风险。

若中期分析的Z统计量不大于中期分析优效界值且不小于中期分析无效界值，末期分析的Z统计量小于末期分析无效界值，则确定中期分析的预设统计方法在预设中期临床试验参数的条件下评估针对第一试验对象的效用为无效，即中期分析失败，但未构成风险。

临床试验既要考察成功率，也要考察风险率。理想的中期分析方法：在提高成功率的同时，不能增加风险率。

上述模拟临床试验重复开展多次，计算临床试验的成功率，基于成功率确定预设的中期分析统计方法在预设临床试验参数的条件下应用的可靠性和成功率。

当中期分析成功地提前捕捉到最终分析的阳性结果或阴性结果时，通过计算中期分析的日期与末期分析的日期之差，获知所选统计学方法用于中期分析可潜在缩短的试验周期。

如图4所示，本发明另一实施例数据分析的方法的示意性流程图。本实施例是在前述实施例的基础上进一步优化得到的。一种评估临床试验设计的；该方法至少包括如下操作流程：S401，获取第一试验对象对应的试验组生存曲线以及试验组生存曲线上各时间点对应的存活人数；S402，基于试验组生存曲线和存活人数，利用算法重建第一试验对象对应的受试者生存数据；S403，获取第二试验对象对应的对照组生存曲线以及对照组生存曲线上各时间点对应的存活人数；S404，基于对照组生存曲线和存活人数，利用算法重建第二试验对象对应的受试者生存数据。S405，针对第一试验对象对应的受试者生存数据和第二试验对象对应的受试者生存数据，分别进行拟合，得到试验组生存函数和对照组生存函数，其中，生存数据包括：受试者的编号、存活时间和生存状态；S406，基于预设中期临床试验参数、试验组生存函数和对照组生存函数，确定中期分析中受试者生存数据，并根据中期分析中受试者生存数据，利用预设方法统计中期分析中试验组相对于对照组的存活概率；S407，基于预设末期临床试验参数、试验组生存函数和对照组生存函数，确定末期分析中受试者生存数据，并根据末期分析中受试者生存数据，利用预设方法统计末期分析中试验组相对于对照组的存活概率；S408，判断中期分析中试验组相对于对照组的存活概率和末期分析中试验组相对于对照组的存活概率是否均满足预设条件。

其中，S405、S406、S407和S408的具体实现过程与图1所示实施例中S101、S102、S103和S104的具体实现过程相类似，这里不再赘述。

例如，对于给定的临床试验，通过DigitizeIt软件，抓取试验组及对照组生存曲线的坐标数据。然后，我们收集试验组及对照组在不同时间点时的存活人数，并与生存曲线的坐标数据一起作为输入，应用R语言及reconstructKM软件包，重建出第一试验对象对应的受试者生存数据以及第二试验对象对应的受试者生存数据，即各受试者的存活时间、生存状态(即死亡或删失)

本发明实施例基于真实的试验组生存曲线构建第一试验对象对应的受试者生存数据，基于真实的试验组生存曲线构建第二试验对象对应的受试者生存数据。之后基于第一试验对象对应的受试者生存数据和第二试验对象对应的受试者生存数据，利用算法分别进行计算，得到试验组生存函数和对照组生存函数。之后基于试验组生存函数和对照组生存函数，确定预设的中期分析统计方法在预设临床试验参数的条件下开展单次临床试验中评估针对第一试验对象的效用是否为有效。由此通过大规模开展基于真实试验数据的模拟临床试验，可客观有效评估现有的临床试验设计类型及方法在给定的临床场景及因素(如疾病类型、试验药物类型等)的可靠性、成功率，从而指导研究者根据实际情况选取合适的试验设计方案及方法，进而节约资源，并缩短新药/疗法的研发周期，更为重要的是，使有效的药物/疗法能更早用于患者救治。此外，本平台有助于推动新药/疗法临床试验设计的方法学创新。

需要说明的是，预设临床试验参数包括：预设中期临床试验参数和预设末期临床试验参数，其中，预设中期临床试验参数和预设末期临床试验参数中有部分参数是重合的。预设临床试验参数具体包括：试验组相对于对照组发生终点事件的风险参数，I类错误发生率参数，II类错误发生率参数，入组模式参数，中期分析时终点事件数相对末期分析时终点事件数的比率参数，末期分析时出现终点事件的受试者的百分比，中期分析优效界值参数和无效界值参数，以及末期分析优效界值参数和无效界值参数。

应理解，在本发明的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在的逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

图5示出了本发明一实施例数据分析的装置示意图。基于上文所提及的一种数据分析的方法，本发明实施例又提供一种数据分析的装置，如图5所示，该装置500包括：拟合模块501，用于针对第一试验对象对应的受试者生存数据和第二试验对象对应的受试者生存数据，分别进行拟合，得到试验组生存函数和对照组生存函数，其中，生存数据包括：受试者的编号、存活时间和生存状态；第一统计模块502，用于基于预设中期临床试验参数、所述试验组生存函数和对照组生存函数，确定中期分析中受试者生存数据，并根据所述中期分析中受试者生存数据，用预设方法统计中期分析中试验组相对于对照组的存活概率；第二统计模块503，用于基于预设末期临床试验参数、所述试验组生存函数和对照组生存函数，确定末期分析中受试者生存数据，并根据所述末期分析中受试者生存数据，利用预设方法统计末期分析中试验组相对于对照组的存活概率；判断模块504，用于判断中期分析中试验组相对于对照组的存活概率和末期分析中试验组相对于对照组的存活概率是否均满足预设条件。

根据本发明一实施方式，所述的装置还包括：第一获取模块，用于获取第一试验对象对应的试验组生存曲线以及试验组生存曲线上各时间点对应的存活人数；第一重建模块，用于基于试验组生存曲线和存活人数，利用算法重建第一试验对象对应的受试者生存数据；第二获取模块，用于获取第二试验对象对应的对照组生存曲线以及对照组生存曲线上各时间点对应的存活人数；第二重建模块，用于基于对照组生存曲线和存活人数，利用算法重建第二试验对象对应的受试者生存数据。

根据本发明一实施方式，所述的装置还包括：第一计算模块，用于根据所述试验组相对于对照组发生终点事件的风险参数、I类错误发生率参数和II类错误发生率参数，计算得到末期分析事件数；第二计算模块，用于基于受试者出现终点事件的比率参数，以及所述末期分析事件数，计算得到拟入组的受试者数量；第三计算模块，用于基于所述末期分析事件数和所述中期分析时终点事件的比率参数，计算得到中期分析事件数。

这里需要指出的是：以上对针对数据分析的装置实施例的描述，与前述图1所示的方法实施例的描述是类似的，具有同前述图1所示的方法实施例相似的有益效果，因此不做赘述。对于本发明对针对数据分析的装置中未披露的技术细节，请参照本发明前述图1所示的方法实施例的描述而理解，为节约篇幅，因此不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个装置，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元；既可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以利用硬件的形式实现，也可以利用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于运算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(Read Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个运算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该运算机软件产品存储在一个存储介质中，包括若干指令用以使得一台运算机设备(可以是个人运算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：徐瑞华;王梓贤;谢丽;
专利申请人：中山大学肿瘤防治中心(中山大学附属肿瘤医院、中山大学肿瘤研究所);

上一篇：一种治疗功能失调性子宫出血的头顶一颗珠有效部位及制备方法
下一篇：一种扩增髓系来源的抑制性细胞的方法