掌桥专利:专业的专利平台
掌桥专利
首页

预测肿瘤的特性参数的计算机辅助预测系统、方法及计算机程序产品

文献发布时间:2023-06-19 10:51:07


预测肿瘤的特性参数的计算机辅助预测系统、方法及计算机程序产品

技术领域

本发明属于计算机辅助预测技术领域,特别是肿瘤的特性参数的计算机辅助预测技术领域。

背景技术

肿瘤的特性对于癌症的治疗成效息息相关,例如肿瘤的微环境(microenvironment)因子、肿瘤基因变异(例如突变等,以下以突变代称)等,因此肿瘤特性的预测将会影响到患者的预后与治疗策略。肿瘤的微环境因子,如缺氧、免疫环境、血管增生等,常会影响癌症治疗的预后(prognosis)。常见的肿瘤微环境因子可通过生物标记来表现,例如肿瘤的免疫环境可使用免疫检查点programmed death-ligand1(PD-L1)来标记,而肿瘤的缺氧情况可通过Hypoxia-inducible factor1-alpha(HIF-1α)来标记。此外,基因变异如KRAS突变,这些肿瘤特性都可影响着癌病的预后与治疗策略。因此,若能在治疗前从患者的影像预测肿瘤微环境的生物标记或肿瘤的基因突变可能性,将可以有效地评估患者治疗的成效与策略,也因此提升医疗质量。目前可针对肿瘤影像的影像组学特征进行分析以预测肿瘤的微环境生物标记的表现。此外,在已发表的研究中,KRAS基因的突变与肿瘤的正子扫描影像中的一些纹理特征具备关联性,因此也可以由肿瘤影像的影像组学特征进行分析,以预测肿瘤突变的可能性。

目前许多算法可分析影像组学特征,但是这些算法通常是默认好流程及离散量化条件,因此预测效果的再现性并不高。目前影像组学特征的取得存在着诸多缺点。有些研究在取得对肿瘤生物标记的表现预测具有最佳预测效果的前提下,决定所采用的特定肿瘤影像离散化的方法,然而这些离散化方法所所取得的影像组学特征对于其它的肿瘤生物标记或在不同的影像量化条件下未必能同样提供一致性的预测效果,当需要预测其它的肿瘤生物标记或是不同仪器的影像扫瞄条件有差异时,就可能必须重新研究新的量化条件来取得适合的影像组学特征,而使预测系统不具有再现性,所以仍无法被广泛使用。

因此,目前仍需要一种计算机辅助预测技术,以解决上述的问题。

发明内容

本发明的一实施例提出一种计算机辅助预测系统,是以随机森林技术为基础,并配合肿瘤正子摄影的精准影像组学特征来训练随机森林的二元判定树模型,其中精准影像组学特征是通过新颖的技术来取得,因此精准影像组学特征可具备稳定的预测肿瘤微环境生物标记或肿瘤基因突变的能力。当训练完成后,随机森林模型即可准确预测影响肿瘤治疗预后的微环境生物标记表现或肿瘤基因突变的预测能力。

根据本发明的一观点,兹提出一种计算机辅助预测系统,用以预测一肿瘤的一特性参数。该系统包含影像特征取得模块及随机森林模型,其中随机森林模型包含至少一个二元判定树模型。影像特征模块用于执行一精准影像组学特征取得程序,从肿瘤的影像中取得复数个精准影像组学特征;每个判定树模型分析精准影像组学特征,进而产生特性参数的初步预测数据;随机森林模型整合每个二元判定树模型所产生的初步预测数据,进而产生最终预测数据。

根据本发明的另一观点,是提供一种计算机辅助预测方法,用以预测肿瘤的特性参数,该方法是通过计算机辅助预测系统来执行,其中计算机辅助预测系统包含特影像征取得模块及随机森林模型,且该随机森林模型包含至少一二元判定树模型。该方法包含步骤:通过特征取得模块执行一精准影像组学特征取得程序,从肿瘤的影像中取得精准影像组学特征;通过二元判定树模型分析精准影像组学特征,以产生特性参数的初步预测数据;以及通过该随机森林模型,整合初步每个初步预测数据,进而产生最终预测数据。

根据本发明又另一观点,是提供一种计算机程序产品,储存于一非瞬时计算机可读取媒体之中,该计算机程序产品具备一指令,使一计算机辅助预测系统的一影像特征取得模块执行一精准影像组学特征取得程序,进而取得复数个精准影像组学特征,其中该精准影像组学特征用以预测肿瘤的特性参数,其中该精准影像组学特征取得程序包含步骤:使用第一离散化方法搭配不同的第一离散化参数对该肿瘤的影像进行多次离散化,以及使用第二离散化方法搭配不同的第二离散化参数对该影像进行多次离散化,其中每次离散化皆可从该影像中取得一纹理特征群组,且每个纹理特征群组皆包含复数个纹理特征;评估每个纹理特征对应不同离散化参数的预测准确度;计算第一数量及一第二数量,其中第一数量是在第一离散化方法所取得的该等纹理特征之中,预测准确度符合一稳定性门槛值的纹理特征的数量,第二数量是在该第二离散化方法所取得的纹理特征之中,预测准确度符合稳定性门槛值的纹理特征的数量;以及比较第一数量及第二数量,并将数量较多者所对应的纹理特征设定为精准影像组学特征。

附图说明

图1(A)是本发明一实施例的计算机辅助预测系统的系统架构图;

图1(B)是本发明一实施例的随机森林模型的二元判定树模型的结构示意图;

图2(A)是本发明一实施例的精准影像组学特征取得程序的步骤流程图;

图2(B)是本发明一实施例的第一数量及第二数量的示意图;

图2(C)是本发明另一实施例的第一数量及第二数量的示意图;

图3是本发明一实施例的随机森林模型的建立方法的步骤流程图

图4是本发明一实施例的计算机辅助预测预测方法的步骤流程图;

图5(A)是本发明一实施例的实验数据示意图;

图5(B)是本发明另一实施例的实验数据示意图;

图6是本发明一实施例的计算机辅助预测预测方法的步骤流程图;

图7是本发明一实施例的实验数据示意图。

具体实施方式

以下说明书将提供本发明的多个实施例。可理解的是,这些实施例并非用以限制。本发明的各实施例的特征可加以修饰、置换、组合、分离及设计以应用于其他实施例。

图1(A)是本发明一实施例的计算机辅助预测系统1的系统架构图,图1(B)是本发明一实施例的随机森林模型14的二元判定树模型20的结构示意图,请同时参考图1(A)及1(B)。计算机辅助预测系统1包含一特征取得模块13及一随机森林模型14,其中特征取得模块13可执行一精准影像组学特征取得程序130。在一实施例中,计算机辅助预测系统1更可包含一数据传输接口12。本发明的计算机辅助预测系统1可用于预测肿瘤的特性参数。本文中的「特性参数」至少包含肿瘤微环境的生物表现标记的表现强度或肿瘤的基因的突变可能性,且不限于此。此外,「生物表现标记的表现强度」主要是指头颈癌肿瘤的生物表现标记的表现强度,「肿瘤基因的突变」主要是指大肠/直肠癌肿瘤的肿瘤基因的突变,但并非限定。

接着先介绍计算机辅助预测系统1的主要组件。

数据传输接口12用以取得来自外部的影像数据,也即用户(例如医师)可通过数据传输接口12将影像数据输入至计算机辅助预测系统1中。此处所指的「影像数据」可以是一头颈癌患者的肿瘤的影像(或直肠/大肠癌患者的肿瘤的影像),且不限于此。此外,影像数据的类型可例如是氟代脱氧葡萄糖(18F-FDG)正子摄影(PET),其中影像数据报含了复数个从头颈癌肿瘤(或直肠/大肠癌肿瘤)萃取出的影像组学特征(radiomics)。在一实施例中,影像数据是患者在摄取示踪剂(例如18F-FDG)后,患者的肿瘤对示踪剂呈现异常代谢反应的PET影像的代谢肿瘤体积(Metabolic Tumor Volume,MTV)范围,其中,影像数据可具有复数个体积像素(voxel),且每个体积像素的像素值是指葡萄糖的标准代谢值(Standardizeduptake value,以下简称SUV值),但不限于此;为方便说明,后续段落皆以影像数据是正子摄影影像的代谢肿瘤体积范围的范例来说明。

特征取得模块13用于执行精准影像组学特征取得程序130,藉此从影像数据中取得复数个精准影像组学特征。在一实施例中,「精准影像组学特征」可包括多种类型的典型正子摄影特征及高稳定性纹理特征,其中该等高稳定性纹理特征是通过以一离散化方法搭配不同离散化参数对该影像(也即影像数据)进行离散化而被取得,并且通过不同离散化参数所取得的同一类型的高稳定性纹理特征具备相近的预测准确度。举例来说,当通过5个不同的离散化参数进行5次离散化而取得一高稳定性纹理特征A时,5次离散化所取得的该等高稳定性纹理特征A具备相似的预测能力。据此,由于精准影像组学特征取得程序130所取得的高稳定性纹理特征可具备稳定的预测能力,因此各种肿瘤微环境生物标记的「表现强度的预测」(或各种肿瘤基因的「突变可能性的预测」)皆可利用精准影像组学特征取得程序130的步骤流程来找出适合的精准影像组学特征,而无须再针对不同的肿瘤微环境生物标记(或不同的肿瘤基因的突变可能性)重新拟定方法步骤来寻找特定纹理特征(例如重新研究如何找出最适合的离散化方法或离散化参数值),如此将可节省大量的时间成本也具有高度的稳定性。

随机森林模型14包含了至少一个二元判定树模型20,每个二元判定树模型20包含至少一特征节点22。每个特征节点22对应至少一特征门槛值24,特征节点22具有两个分支23,其中每个分支23可接续另一特征节点22或对应一初步预测数据26,且所有分支23中的至少一分支23可对应该初步预测数据26。当数据传输接口12取得影像数据时,每个二元判定树模型20将根据特征节点22的特征门槛值24来分析影像数据的精准影像组学特征,进而产生患者的初步预测数据26。随机森林模型14可整合每个二元判定树模型20所产生的初步预测数据26,进而产生一最终预测数据28。当计算机辅助预测系统1用于预测肿瘤微环境生物标记的表现强度时,最终预测数据28可例如是肿瘤微环境生物标记的表现强度(或肿瘤基因的突变可能性),其中「表现强度」可定义为发生机率,当该肿瘤微环境因子的表现强度为强,则表示发生机率高;反之,则表示发生机率低;在一实施例中,肿瘤微环境因子可例如是「PD-L1≧5%」、「HIF-1α≧42%」或「PD-L1≧1%」等,且不限于此。当计算机辅助预测系统1用于预测肿瘤基因的突变可能性时,最终预测数据28可例如是肿瘤基因的突变机率;在一实施例中,肿瘤基因可例如是「KRAS基因」,且不限于此。

在一实施例中,当计算机辅助预测系统1用于预测肿瘤微环境生物标记的表现强度时,计算机辅助预测系统1可根据最终预测数据28产生一提示讯息,以提示肿瘤微环境生物标记表现强度的发生机率,例如当「PD-L1≧5%」的发生机率大于一门槛值(例如但不限于大于50%)时,计算机辅助预测系统1可产生例如「PD-L1≧5%可能会发生」或「PD-L1≧5%表现强度高」等提示讯息,且不限于此。

在一实施例中,当计算机辅助预测系统1用于预测肿瘤基因的突变可能性时,计算机辅助预测系统1可根据最终预测数据28产生提示讯息,以提示肿瘤基因的突变机率,例如当突变机率大于一门槛值(例如但不限于大于50%)时,计算机辅助预测系统1可产生例如「基因突变可能会发生」等提示讯息,且不限于此。

接着说明各组件的实施态样。计算机辅助预测系统1可以是一图像处理装置,其可通过任何具有微处理器的装置来实现,例如桌面计算机、笔记本电脑、智能型行动装置、服务器或云端主机等类似装置。在一实施例中,计算机辅助预测系统1可具备网络通讯功能,以将数据通过网络进行传输,其中网络通讯可以是有线网络或无线网络,因此计算机辅助预测系统1也可通过网络来取得影像数据。在一实施例中,计算机辅助预测系统1可具备显示器,因此提示讯息可在显示器中显示。在一实施例中,计算机辅助预测系统1可由微处理器中执行一计算机程序产品30来实现其功能,其中计算机程序产品30可具有复数个指令,该等指令可使处理器执行特殊运作,进而使处理器实现如特征取得模块13、随机森林模型14或二元判定树模型20的功能。在一实施例中,计算机程序产品30可储存于一非瞬时计算机可读取媒体(例如内存)之中,但不限于此。在一实施例中,计算机程序产品30也可预先储存于网络服务器中,以供使用者下载。

在一实施例中,数据传输接口12是取得外部数据的一实体端口,例如当计算机辅助预测系统1是由计算机实现时,数据传输接口12可以是计算机上USB接口、各种传输线接头等,但并非限定。此外,数据传输接口12也可与无线通信芯片整合,因此能以无线传输的方式接收数据。

特征取得模块13可以是一功能模块,其可通过一程序代码来实现,举例来说,当计算机辅助预测系统1的微处理器执行该程序代码时,该微处理器可执行所述的特征取得模块13的各种功能(例如执行精准影像组学特征取得程序130)。

本发明的随机森林模型14是一种人工智能模型,其是由二元判定树模型20所组成。每个二元判定树模型20可通过分析大量的影像数据(其中每个影像数据可具备复数种精准影像组学特征)来训练,并从大量的影像数据中找出与达成肿瘤微环境生物标记表现关联度较高(当预测肿瘤微环境生物标记的表现强度时)或与肿瘤基因的突变关联度较高(当预测肿瘤基因的突变可能性时)的精准影像组学特征,并且根据该等精准影像组学特征而建立出分析路径,意即二元判定树模型20可经由训练而决定分析路径中的特征节点为何,例如要使用哪一个精准影像组学特征、特征节点对应的特征门槛值为何、特征节点之间如何连接等。二元判定树模型20可由程序代码来实现。在一实施例中,在训练之前,二元判定树模型20的初步模型(即未训练的架构)可预先被建构出来,例如将基本参数设定好,而计算机辅助预测系统1可通过计算机程序产品30中的指令使二元判定树模型20进行训练,进而建构出二元判定树模型20的最终特征路径,例如建构出特征节点22的分支23、特征门槛值24及初步预测数据26等。当多个二元判定树模型20被训练完成后,计算机辅助预测系统1的处理器可通过计算机程序产品30中的指令将该等二元判定树模型20整合为随机森林模型14。需注意的是,为区分训练前与训练后的二元判定树模型20,下文中对于未训练的二元判定树模型20将以「初步模型」来称之。在一实施例中,初步模型可经历一训练阶段来进行训练,藉此建立出特征路径,并且可经历一测试阶段来测试特征路径的准确度。

为了要准确的预测肿瘤的特性参数,随机森林模型14的二元判定树模型20的数量可视为「第一变数参数」,而每个二元判定树模型20所具有的特征节点22的数量可视为「第二变数参数」,通过第一变量参数及第二变量参数的调整,可找出最适合的随机森林模型14的基本架构。在一实施例中,第一变数参数的最佳值可定义为第一临界值,且第一临界值定义为当二元判定树模型20的数量在未超出第一临界值时(例如小于或等于第一临界值时),随机森林模型14的预测能力将随着二元判定树模型20的数量的增加而提升,而当二元判定树模型20的数量超过第一临界值时(例如大于第一临界值时),随机森林模型14的预测能力将会趋缓。在一实施例中,第二变数参数的最佳值可定义为第二临界值,且第二临界值定义为当特征节点的数量未超出第二临界值时,随机森林模型14的预测能力将随着每个二元判定树模型20的特征节点数量的增加而提升,而当特征节点数量超出第二临界值时,随机森林模型14的预测能力将会下滑。换言之,当第一变数参数等于第一临界值且第二变数参数等于第二临界值时,随机森林模型14将具备最佳的预测能力。

以计算机辅助预测系统1用于默认肿瘤微环境生物标记的表现强度来举例,当预测不同肿瘤微环境生物标记的表现强度时,随机森林模块14可具备不同的第一变量参数及第二变量参数。在一实施例中,当预测「PD-L1≧5%」的表现强度时,随机森林模块14的第一变量参数为4,其第二变数参数为6。在一实施例中,当预测「HIF-1α≧42%」的表现强度时,随机森林模块14的第一变量参数为7,其第二变数参数为4。上述参数仅是举例而非限定。

接着说明二元判定树模型20。在一实施例中,二元判定树模型20具有多个特征节点22,其中每个特征节点22各自代表一个精准影像组学特征。每个特征节点22所对应的特征门槛值24则是该精准影像组学特征的临界值。此外,每个特征节点22各自具有二分支,其中每个分支的内容可以是对应初步预测数据或接续另一个特征节点22。此外,为了使随机森林模型14能够准确预测肿瘤微的特性参数(肿瘤因子的表现强度或肿瘤基因的突变机率),且为避免二元判定树模型20的训练过于发散,预先将一些精准影像组学特征设定为候选特征将可以提升系统1的运作效率。在一实施例中,多个影像组学特征可被预先设定为候选特征,并记录于系统1的储存区域(例如但不限定为内存)之中,而二元判定树模型20(初步模型)在训练时可自动从这些候选特征中挑选出最适合的特征作为特征节点,藉此建立出特征路径。在一实施例中,共有63个精准影像组学特征被设定为候选特征。

本发明的特色之一在于,精准影像组学特征包含了从PET影像的MTV范围中取得的复数个「典型PET特征」及复数个「高稳定性纹理特征」,其中「高稳定性纹理特征」是通过精准影像组学特征取得程序130来取得。

关于「典型PET特征」,在一实施例中,典型PET相关特征可用于描述MTV中每个体积像素的SUV值或反映出MTV范围的活性(activity)。由于典型PET特征可明确地反映出葡萄糖代谢强度(uptake),因此适合作为分析用的特征,故本发明将典型PET特征做为精准影像组学特征的一部份。在一实施例中,当用于预测肿瘤因子的表现强度时,典型PET相关特征可包含:SUV

关于「高稳定性纹理特征」,在一实施例中,高稳定性纹理特征是影像的纹理特征中预测能力的稳定性较高的特征,而「高稳定性纹理特征的取得」是先通过将MTV范围中的每个体积像素的SUV值将进行离散化而取得复数种类型的纹理特征后,再从中找出具备稳定性的高稳定性纹理特征。在一实施例中,当用于预测肿瘤因子的表现强度时,纹理特征可包含GLCM(Gray-level co-occurrence matrix)、NGLDM(Neighboring gray-leveldependence matrix)、GLRLM(Gray-level run-length matrix)及GLSZM(Gray-level sizezone matrix)等类型,并用以描述MTV范围中的SUV值的异质性(heterogeneity),这些纹理特征中对于预测肿瘤微环境生物标记表现具备稳定性的纹理特征将进一步做为高稳定性纹理特征。在一实施例中,当用于预测肿瘤基因的突变机率时,纹理特征也可包含上述特征,这些纹理特征中对于预测肿瘤基因的突变具备稳定性的纹理特征将进一步做为高稳定性纹理特征。

接着将详细说明高稳定性纹理特征的取得过程。图2(A)是本发明一实施例的精准影像组学特征取得程序130的步骤流程图,并请同时参考图1(A)及1(B)。

首先步骤S21被执行,特征取得模块13使用一第一离散化方法搭配不同的第一离散化参数对该影像进行多次离散化,以及使用一第二离散化方法搭配不同的第二离散化参数对该影像进行多次离散化,其中每次离散化皆可从该影像中取得一纹理特征群组,且每个纹理特征群组皆包含复数个特定的纹理特征。之后步骤S22被执行,特征取得模块13评估每一种纹理特征在对应不同第一离散化参数及不同的第二离散化参数时的肿瘤的特性参数的预测准确度。之后步骤S23被执行,特征取得模块13计算一第一数量及一第二数量,其中该第一数量定义为在该第一离散化方法所取得的该等纹理特征之中,预测准确度符合一稳定性门槛值的纹理特征的数量,而该第二数量定义为在该第二离散化方法所取得的该等纹理特征之中,预测准确度符合该稳定性门槛值的纹理特征的数量。之后步骤S24被执行,特征取得模块13比较该第一数量及第二数量。之后步骤S25被执行,特征取得模块13将数量较多者所对应的该等候选特征设定为高稳定性纹理特征的一部分。

关于步骤S21,在一实施例中,第一离散化方法是以固定间距宽度(fixed binwidth)对MTV范围进行离散化,也即特征取得模块13可利用第一离散化方法搭配不同的第一离散化参数而对MTV范围进行多次离散化,其中不同的第一离散化参数是设定为不同的间距宽度值,举例来说,当第一离散化参数为0.025g/ml

在一实施例中,第二离散化方法是以固定间距数量(fixed bin number)对MTV范围进行离散化,也即特征取得模块13可利用第二离散化方法搭配不同的第二离散化参数而对MTV范围进行多次离散化,其中不同的第二离散化参数是设定为不同的间距数量值,举例来说,当第二离散化参数为4时,特征取得模块13会将MTV范围分割为4个间距来进行离散化,而当第一离散化参数为80时,特征取得模块13将MTV范围分割为80个间距来进行离散化。在一实施例中,第二离散化参数(间距数量)可为2、3、4、(依此类推)…81等共80个参数,因此特征取得模块13将利用第二离散化方法搭配不同的第二离散化参数而对MTV范围进行80次离散化,且每次离散化皆会取得48个特定的纹理特征。

关于步骤S22,在一实施例中,特征取得模块13将评估每一个纹理特征在对应不同离散化参数时的预测准确度,举例来说,当一个纹理特征是通过第一离散化方法而被取得时,该纹理特征对应80个不同离散化参数的预测准确度都将被评估。在一实施例中,当计算机辅助预测系统1用于默认肿瘤微环境之微环境生物标记的表现强度时,同一纹理特征在对应一个离散化参数的预测准确度是通过对一定数量的肿瘤影像针对于肿瘤微环境的微环境生物标记表现强度进行预测以作为标准,例如同一个纹理特征在对应一离散化方法及一离散化参数时的预测准确度可通过对至少50个的肿瘤进行肿瘤微环境生物标记表现强度的预测来决定。在一实施例中,预测准确度是利用接收端操作特性曲线(ROC)的曲线下面积(AUC)来进行评估,例如通过ROC曲线观察50次预测的结果。相似地,当计算机辅助预测系统1用于默认肿瘤基因的突变时,也可采用上述步骤S22的方式进行。

关于步骤S23,在一实施例中,稳定性门槛值是一标准偏差门槛值。对于第一离散化方法,特征取得模块13将会计算每个纹理特征对应不同离散化参数(间距宽度)时的预测准确度的标准偏差(例如同一纹理特征对应在不同间距宽度时的预测准确度的标准偏差),并进一步将每个纹理特征的标准偏差与标准偏差门槛值进行比较,再将标准偏差值小于或等于该标准偏差门槛值的纹理特征的数量设定为第一数量。相似地,第二数量也可被设定。由于标准偏差越小,表示该纹理特征在对应不同离散化参数时的准确度的差异也越小,也即该纹理特征具备稳定的预测能力。藉此,具备高稳定性预测能力的纹理特征将可以被找出。在一实施例中,标准偏差门槛值是设定为0.01,但并非限定。

关于步骤S24及S25,由于数量较多也表示该种离散化方法能取得较多高稳定性纹理特征,特征取得模块13将比较第一数量及第二数量,其中数量较多者也表示该种离散化方法能取得较多高稳定性纹理特征。因此,数量较多者的该等纹理特征中符合稳定性门槛值的该等纹理特征将与典型PET特征一起被设定为高稳定性纹理特征。此外,数量较多者的所使用的离散化方法也将被设定为后续二元判定树模型训练及随机森林模型实际使用时所使用的离散化方法。

以下以计算机辅助预测系统1用于预测肿瘤微环境的生物标记的表现强度时的二个例子来举例。图2(B)是本发明一实施例(预测肿瘤微环境的生物标记的表现强度)的第一数量及第二数量的示意图,其显示了复数个纹理特征在通过不同离散化方法并搭配不同离散化参数时的预测准确度的标准偏差,其中纵轴是纹理特征的数量,横轴是预测准确度的标准偏差,且图2(B)是显示预测「PD-L1≧5%」的表现强度的情况。如图2(B)所示,假设标准偏差门槛值设定为0.01,则对于第一离散化方法(fixed bin width)而言,仅有5个以下的纹理特征小于0.01,而对于第二离散化方法(fixed bin number)而言,约有27个的纹理特征小于0.01;由此可知,对于预测「PD-L1≧5%」的表现强度而言,第二离散化方法可取得较多高稳定性纹理特征。因此,在本实施例中,该等27个纹理特征将被设定为高稳定性纹理特征,且第二离散化方法将会用于后续的步骤中。

图2(C)是本发明另一实施例(也为预测肿瘤微环境的生物标记的表现强度)的第一数量及第二数量的示意图,其相似于图2(B),但图2(C)是显示预测「HIF-1α≧42%」的表现强度的情况。如图2(C)所示,假设标准偏差门槛值设定为0.01,则对于第一离散化方法(fixed bin width)而言,仅有5个以下的纹理特征小于0.01,而对于第二离散化方法(fixed bin number)而言,约有24个的纹理特征小于0.01;由此可知,对于预测「HIF-1α≧42%」的表现强度而言,第二离散化方法可取得较多高稳定性纹理特征。因此,在本实施例中,该等24个纹理特征将被设定为高稳定性纹理特征,且第二离散化方法将会用于后续的步骤中。

上述实施例所述的方法也可用于找出能够预测KRAS基因的突变可能性的高稳定性纹理特征。在一实施例中,对于用于预测KRAS基因的突变可能性的80个纹理特征中,将有20个纹理特征被设定为高稳定性纹理特征,但并非限定。

藉此,精准影像组学特征的类型及后续所使用的离散化方法将可以被决定。

当精准影像组学特征的类型被决定后,随机森林模型14可开始被建立及训练。图3是本发明一实施例的随机森林模型14的建立方法的步骤流程图,其中该等步骤可由计算机辅助预测系统1的处理器执行计算机程序产品20中的指令而实现,并请同时参考图1(A)至图3。

首先,步骤S31被执行,计算机辅助预测系统1从复数个样本影像数据中各自撷取出特定数量的精准影像组学特征。之后,步骤S32被执行,计算机辅助预测系统1设定判定树模型二元判定树模型20的特征节点的选择规则。之后,步骤S33被执行,计算机辅助预测系统1根据不同的一第一变量参数及一第二变量参数而建立出复数个候选随机森林模型群组。之后,步骤S34被执行,计算机辅助预测系统1依照一预测条件来决定该第一变量参数及该第二变数参数的最佳值。之后,步骤S35被执行,计算机辅助预测系统1对具有该第一变量参数及该第二变数参数的最佳值的候选随机森林模型群组中的所有随机森林模型进行评估,并找出具有最佳预测效果的随机森林模型。

关于步骤S31,此步骤是通过特征取得模块13来找出每个样本影像数据中的精准影像组学特征,其中此步骤中的精准影像组学特征的类型及所使用的离散化方法是根据图2(A)的精准影像组学特征取得程序130的结果来决定,例如当第二离散化方法可取得较多高稳定性纹理特征时,则特征取得模块13将使用第二离散化方法来找出每个样本影像数据中的高稳定性纹理特征。此外,计算机辅助预测系统1用于预测肿瘤微环境的生物标记的表现强度时,此处「样本影像数据」是指多个头颈癌患者的头颈癌肿瘤(在预后之后)的PET影像数据的MTV范围,且这些患者的肿瘤微环境生物标记表现也会被系统1取得。而当计算机辅助预测系统1用于预测肿瘤基因的突变机率时,此处「样本影像数据」是指多个大肠/直肠癌患者的大肠/直肠癌肿瘤(在预后之后)的PET影像数据的MTV范围,且这些患者的肿瘤基因是否发生突变的结果也会被系统1取得。

关于步骤S32,此步骤是通过系统1的处理器来设定二元判定树模型20的特征节点的选择规则。在一实施例中,「特征节点的选择」是设定为在每次进行选择时,从候选特征中随机取出特定数量的特征,并将随机选取出的特征中具有最佳分割纯度的特征设定为特征节点,但不限于此。在一实施例中,「特定数量」是设定为“对候选特征的总数的平方根,且无条件进位成正整数”,但不限于此。此外,在一实施例中,步骤S32执行之前可预先执行一筛选步骤,即系统1先对该等候选特征进行筛选以缩小候选特征的数量。在一实施例中,当计算机辅助预测系统1用于预测肿瘤微环境的生物标记的表现强度时,此步骤是处理器利用ROC曲线分析来评估每个候选特征对于肿瘤生物标记表现的评估效果,进而将评估效果低于一默认值的一些候选特征排除。在一实施例中,当计算机辅助预测系统1用于预测肿瘤基因的突变机率时,此步骤是处理器利用ROC曲线分析来评估每个候选特征对于肿瘤基因的突变机率的评估效果,进而将评估效果低于一默认值的一些候选特征排除。本发明不限于此。

关于步骤S33,此步骤是通过系统1的处理器调整参数条件(第一变量参数及第二变量参数)而建立大量的随机森林模型14,其中每组参数条件皆会产生相同数量的随机森林模块14,且在下文中,每组参数条件所产生的多个随机森林模块14是定义为「候选随机森林模型群组」,每个候选随机森林模型群组中的随机森林模块14是定义为「候选随机森林模型」。此外,为方便说明,以下将随机森林模型14的参数条件定义为RF(x1,y1),其中x1是第一变量参数,y1是第二变数参数。

在一实施例中,第一变数参数是默认为1至10,第二变数参数也默认为1至10,计算机辅助预测系统1会在RF(1,1)至RF(10,10)的参数条件下,各自建立相同数量的候选随机森林模型,举例来说,对于每组参数条件(RF(1,1)至RF(10,10))而言,皆有500个候选随机森林模型被建立,也即每组参数条件皆会对应500个候选随机森林模型。

此外,在建立一个候选随机森林模型时,计算机辅助预测系统1会根据该等参数条件而设定好二元判定树模型20(初步模型)的数量以及特征节点的数量。在一实施例中,当训练一个二元判定树模型20的初步模型时,计算机辅助预测系统1皆会从样本影像数据中随机且可重复地进行N次数据取样(每次取样1个样本影像数据),并将取样的数据作为训练用数据,其中N为所有样本影像数据的数量,举例来说,假如所有样本影像数据的数量为200个(即200个肿瘤影像),则系统1会从200个样本影像数据中随机且可重复地取样200次,因此训练用数据最终会具有200个被取样数据,并且被取样数据之间可能会有重复数据。上述记载仅是举例,非本发明的限定。

另外,在建立一个二元判定树模型20的特征路径时,对于每个特征节点的建立而言,系统1皆会从候选特征中随机选取出复数特征,之后再根据训练用资料当下的状态来决定特征节点的实际特征以及所对应的特征门槛值,藉此建立出特征路径;举例来说,当候选特征节点的数量为63个,且二元判定树模型20被设定为具有10个特征节点时(假设有200笔训练数据),在建立每个特征节点时,系统1皆会从63个候选特征中随机选取出8个特征(sqrt(63)=8),且在建立二元判定树模型20的第一个特征节点时,该8个随机选出的特征会依序评估,以取得每个特征将200笔训练数据分割为两个群组的最佳门槛值,再挑选8种分割结果中的最佳分割结果,并将最佳分割结果所对应的特征以及门槛值设定为第一个特征节点。之后,假设200笔资料被分为N1与N2两组资料,则针对N1资料再随机选取出8个特征,依前述方式找出最佳分割结果来设定为第二特征节点的候选,同样也针对N2资料随机选取出8个特征,同样找出最佳分割结果来设定为第二特征节点的候选,之后再比较两个第二特征节点的候选的分割结果,并挑选具有较佳分割结果的特征与门槛值做为第二个特征节点。假设数据N1的分割结果为第二特征节点,并且被分割为N3与N4两组数据时,则在依照前述方式分别针对数据N3与数据N4在挑选出两个第三特征节点的候选,同时将先前N2所设定的第二特征节点的候选重新设定为第三特征节点的候选,之后在三个第三特征节点的候选中挑选出具有最佳分割效果的节点做为第三个特征节点;依此类推,直到10个特征节点皆被挑选出来为止。

在一实施例中,在根据当下数据状态评估每个特征的可能门槛值、挑选最佳分割门槛值以及比较不同特征的最佳分割结果时,使用的评估函数可以引用现有各种数学公式或是自行定义,例如使用熵函数(Entropy function),但并非限定。

需注意的是,对于每个候选随机森林模型而言,每个二元判定树模型20所使用的训练用数据皆是随机选取,因此可产生大量具备异质性的特征路径。

关于步骤S34,此步骤是通过系统1的处理器利用统计归纳的方式来找出符合预设条件的候选随机森林群组(统计归纳的过程可由处理器执行计算机程序产品30的指令而实现)。在一实施例中,系统1是使用所有样本影像数据做为测试用数据。在一实施例中,系统1是通过ROC曲线来分析每个候选随机森林群组对于肿瘤生物标记表现强度的预测能力。在一实施例中,系统1是依照第一预设条件来决定第一变量参数的最佳值,以及依照第二预设条件来决定第二变量参数的最佳值。在一实施例中,第一预设条件是当第一变量参数增加,但候选随机森林模型群组的预测能力的提升效果却趋缓的情况发生时。在一实施例中,第二预设条件是当第二变量参数增加,但该候选随机森林模型群组的预测能力却下降的情况发生时。藉此,第一变量参数及第二变量参数可被决定。

此外,在一实施例中,假如系统1无法从候选随机森林模型群组的预测能力找出符合预设条件的结果时(也即从统计归纳结果中找不到预测能力下降或趋缓的趋势),表示目前候选随机森林模型群组的整体数量不足,因此系统1会扩大第一变量参数及第二变量参数的默认范围,例如第一变量参数及第二变量参数的最大值可由10增加至15,但本发明不限于此。

关于步骤S55,此步骤是用以从具备最佳参数的随机森林模型群组中找出最适合的一个随机森林模型,并将该随机森林模型作为实际使用的模型。在一实施例中,系统1是以正向预测值(positive predictive value)来进行筛选以从该随机森林模型群组中找出最适合的随机森林模型14作为实际使用的预测模型,但不限于此。

当随机森林模型14被建立及训连完成后,计算机辅助预测系统1可实际被使用。

接着将说明计算机辅助预测系统1用于预测肿瘤微环境生物标记的表现强度时的实际使用情况,并请同时参考图1(A)至图4。图4是本发明一实施例的计算机辅助预测预测方法(用于预测肿瘤微环境生物标记的表现强度)的步骤流程图,该方法是由图1(A)的计算机辅助预测系统1执行,其中随机森林模型14属于已建立并训练完成的状态。如图4所示,首先步骤S41被执行,数据传输接口12取得一头颈癌患者的一影像数据(头颈肿瘤影像)。之后,步骤S42被执行,特征取得模块13从该头颈肿瘤影像中取得复数个精准影像组学特征。之后,步骤S43被执行,随机森林模型14的每个二元判定树模型20根据本身的特征节点22的特征门槛值24来分析精准影像组学特征,进而各自产生初步预测数据26。之后,步骤S44被执行,随机森林模型14整合每个二元判定树模型20所产生的初步预测数据26,进而产生该名患者的最终预测数据28。

关于步骤S41,在一实施例中,系统的用户(例如医师)可通过数据传输接口12将一名患者的影像数据输入至计算机辅助预测系统1中。

关于步骤S42,特征取得模块13是根据精准影像组学特征取得程序130的结果(例如图2(A)的步骤S25的结果)来对该名患者的影像数据进行离散化,以取得精准影像组学特征。

关于步骤S43,如同先前的记载,每个二元判定树模型20皆会对该等精准影像组学特征进行分析,并各自产生初步预测数据26。

关于步骤S44,在一实施例中,随机森林模型14所进行的「整合」是指将每个初步预测数据26加总,再将加总结果除以二元判定树模型20的数量;换言之,随机森林模型14所产生的一个最终预测数据28是该等初步预测数据26的平均值。在另一实施例中,本发明也可采用其它的方式来产生最终预测数据28。

由此可知,当随机森林模型14建立完成后,只要将患者的头颈肿瘤的PET影像输入至计算机辅助预测系统1中,随机森林模型14即可预测出该患者的肿瘤微环境生物标记的表现强度。藉此,可使得患者的医疗质量大幅提升。

图5(A)是本发明一实施例(用于预测肿瘤微环境生物标记的表现强度)的实验数据示意图,其是以ROC曲线来呈现本发明的随机森林模型14对于「PD-L1≧5%」的表现强度的预估准确度,其Y轴(以Sensitivity标注)为敏感度,X轴(以100-Specificity标注)为特异度。图5(B)是本发明另一实施例(用于预测肿瘤微环境生物标记的表现强度)的实验数据示意图,其是以ROC曲线来呈现本发明的随机森林模型14对于「HIF-1α≧42%」的表现强度的预估准确度,其Y轴也为敏感度,X轴也为特异度,其中图5(A)及图5(B)的随机森林模型14皆是通过如图2(A)描述的精准影像组学特征取得程序130来取得精准影像组学特征以及决定所使用的离散化方法。如图5(A)及图5(B)所示,该等随机森林模型14的ROC曲线的AUC皆在0.9以上,因此皆拥有良好的预测能力。由此可知,本发明的精准影像组学特征取得程序130可适用于不同肿瘤微环境生物标记表现强度之预测,而不会像目前因运算技术或研究目的不同,导致影像特征缺乏再现性之情形。

接着将说明计算机辅助预测系统1用于预测肿瘤基因的突变可能性时的实际使用情况,并请同时参考图1(A)至图6。图6是本发明一实施例的计算机辅助预测预测方法(用于预测肿瘤基因的突变可能性)的步骤流程图,该方法是由图1(A)的计算机辅助预测系统1执行,其中随机森林模型14属于已建立并训练完成的状态。如图6所示,首先步骤S61被执行,数据传输接口12取得一大肠/直肠癌患者的一影像数据(大肠/直肠肿瘤影像)。之后,步骤S62被执行,特征取得模块13从该大肠/直肠肿瘤影像中取得复数个精准影像组学特征。之后,步骤S63被执行,随机森林模型14的每个二元判定树模型20根据本身的特征节点22的特征门槛值24来分析精准影像组学特征,进而各自产生初步预测数据26。之后,步骤S64被执行,随机森林模型14整合每个二元判定树模型20所产生的初步预测数据26,进而产生该名患者的最终预测数据28。

步骤S61至S64可适用图4实施例的说明,故不再详述。通过步骤S61至S64,当随机森林模型14建立完成后,只要将患者的大肠/直肠肿瘤的PET影像输入至计算机辅助预测系统1中,随机森林模型14即可预测出该患者的肿瘤基因突变可能性。藉此,可使得患者的后续医疗更加完善。

图7是本发明一实施例(用于预测肿瘤基因的突变可能性)的实验数据示意图,其是以ROC曲线来呈现本发明的随机森林模型14对于「KRAS基因」的突变的预估准确度,其Y轴(以Sensitivity标注)为敏感度,X轴(以100-Specificity标注)为特异度。如图7所示,随机森林模型14的ROC曲线的AUC皆在0.9以上,因此也拥有良好的预测能力。

藉此,本发明所使用的随机森林模型可建立完成,换言之,只要将预测患者预后之后的肿瘤的精准影像组学特征输入至随机森林模型中,随机森林模型即可自动预测出肿瘤生物标记的表现强度或肿瘤基因的突变可能性,并提供良好的预测精准度。此外,本发明的精准影像组学特征取得程序可兼用于不同的肿瘤生物标记或不同的肿瘤基因,因此可节省大量的时间成本。

尽管本发明已通过上述实施例来说明,可理解的是,根据本发明的精神及本发明所主张的申请专利范围,许多修饰及变化都是可能的。

【符号说明】

1 计算机辅助预测系统

12 数据传输接口

13 特征取得模块

130 精准影像组学特征取得程序

14 随机森林模型

20 二元判定树模型

22 特征节点

23 分支

24 特征门槛值

26 初步表现强度预测数据

28 最终表现强度预测数据

30 计算机程序产品

S21~S25 步骤

S31~S35 步骤

S41~S44 步骤

S61~S64 步骤

相关技术
  • 预测肿瘤的特性参数的计算机辅助预测系统、方法及计算机程序产品
  • 生成复杂设备的结构参数的系统、计算机辅助的方法和计算机程序产品
技术分类

06120112706221