导航：首页> 液体变容式机械；液体泵或弹性流体泵>基于舌象图像的肿瘤预测系统、方法及其应用

基于舌象图像的肿瘤预测系统、方法及其应用

文献发布时间：2024-04-18 19:58:26

本申请是申请号为“2022108619974”、申请日为“2022年07月22日”、发明名称为“基于舌象图像的肿瘤预测系统、方法及其应用”的发明专利申请的分案申请。

技术领域

本发明涉及肿瘤学诊断、预测、评估技术领域，更具体来说，具体涉及基于舌象图像的肿瘤预测系统、方法及其应用，通过分析舌象图像与肿瘤学的关联关系，从而实现经济的、非侵入性的且具有较高准确度的肿瘤预测。

背景技术

根据最新数据，胃癌(GC)是全球第三大癌症相关死亡原因，仅2020年即新增GC病例109万例，死亡77万例，其中，中国新增病例48万例，死亡病例37万例，约占世界病例的一半。GC的诊断和筛查仍然依赖于胃镜检查，但由于其侵入性强、成本高以及需要专业的内镜医师，其应用受到很大限制。此外，由于胃癌早期缺乏特异性症状，临床疾病标志物的特异性和敏感性较差，超过60％的患者在确诊时即发生局部或远处转移。局部早期GC患者的5年生存率超过60％，而局部、远处转移患者的5年生存率分别显著下降至30％和5％。因此，迫切需要新的GC诊断或筛查方法，以提高该人群的早期诊断率和预后效果。

中医药是几千年来中国人民经验应用和保留的医学科学和文化遗产，舌象诊断是中医诊断疾病的重要依据之一。中医理论认为，舌象的变化(舌的颜色、大小和形状，舌苔的颜色、厚度和含水量)可以反映人体的健康状况，尤其与胃病密切相关。但尚未有研究证实舌象变化与GC存在对应关系，以及舌象变化在GC诊断和筛查中的价值。

人工智能(AI)可用于筛查、诊断和治疗各种疾病，Cheung CY等学者开发了一种深度学习系统(见参考文献)，通过测量视网膜血管的口径来评估心血管疾病的风险，可以有效预测心血管疾病的风险。Takenaka K等学者开发了一种深度神经网络(见参考文献)，用于评估溃疡性结肠炎患者的内窥镜图像，该网络以90.1％的准确度识别内镜缓解和组织学缓解的患者，准确率为92.9％。

福州数据技术研究院有限公司专利CN110251084A提供一种基于人工智能的舌像检测与识别方法，用于解决舌像采集过程中舌像舌体的实时检测拍摄、保存、上传，同时识别舌像舌色、舌形、苔质、苔色；其方案主要涉及了舌像的采集和识别技术，其中舌像识别更侧重于提取舌像颜色、纹理、舌苔区域或舌苔厚薄等特性，然而这些工作并没有将舌像信息与某一特殊胃病比如胃癌建立对应关系。

沈阳智朗科技有限公司专利CN111710394A提出一种人工智能辅助的早期胃癌筛查系统，以自动化代替人工分析胃镜切片图像来解决胃癌阳性确定工作量大的问题；然而此种基于胃镜图像分析的策略，仍然首先需要获得大量的专业仪器采集的胃镜图像用于模型的学习，在测试阶段仍然需要依据每个测试者的胃镜图像做出决策，而胃镜图像的获得仍然存在时间消耗大、物质成本高、测试人群标准高等缺陷，很难做到全国范围的普查筛选。

江苏天瑞精准医疗科技有限公司CN112133427A提供了一种基于人工智能的胃癌辅助诊断系统，包括：诊断选择模块、数据采集模块、预处理模块、诊断模块和显示输出模块，该系统能够根据采集到的就诊者的数据，个性化地给出诊断结果。该诊断系统诊断所依据的数据包括就诊者的基本信息、生活饮食、感染史、疾病史、家族史、临床症状和检验项目等，其中临床症状和检验项目等数据的收集难度较大，而单独依靠基本信息、生活饮食、感染史、疾病史、家族史等信息则会影响前期的筛查诊断效果。

参考文献：

Cheung CY,Xu D,Cheng CY,et al.A deep-learning system for theassessment of cardiovascular disease risk via the measurement of retinal-vessel calibre.Nature biomedical engineering 2021；5(6):498-508.doi:10.1038/s41551-020-00626-4[published Online First:2020/10/14]；

Takenaka K,Ohtsuka K,Fujii T,et al.Development and Validation of aDeep Neural Network for Accurate Evaluation of Endoscopic Images FromPatients With Ulcerative Colitis.Gastroenterology 2020；158(8):2150-57.doi:10.1053/j.gastro.2020.02.012[published Online First:2020/02/16]。

本发明力图解决这些和本领域中的其他待解决的需要。

发明内容

为解决上述背景技术中提及的至少一种技术问题，本发明的目的旨在提供基于舌象图像的肿瘤预测系统，所述系统旨在应用AI深度学习模型，基于舌象图像对肿瘤进行诊断预测，肿瘤预测系统操作简单，成本低廉，无痛无创，通过大量测试病例证实预测系统是一种针对于肿瘤的前瞻性的、经济性的、无创性的、有效性的筛查和诊断预测系统。

目前，人工智能在舌头上的应用中医图像诊断主要侧重于舌特征提取的标准化，以消除人为解释引起的差异。首次应用AI深度学习建立基于舌象图像的GC诊断模型，并评价其在GC诊断中的价值，为中医舌象诊断理论提供科学依据。

本发明针对一种基于舌象的肿瘤预测系统，其包括：

舌象获取模块，其被配置为获取测试试样的舌象图像；

数据处理模块，其被配置为通过下述操作来获得测试试样属于阳性的概率：

依据自动学习获得的舌象图像上的可判别性的特征预测测试试样属于阳性的概率。

在一个具体实施例中，所述肿瘤是胃癌、乳腺癌、结直肠癌、食道癌、肝胆胰腺癌、肺癌、前列腺癌、甲状腺癌、卵巢癌、神经母细胞瘤、滋养细胞肿瘤或头颈部鳞癌中的至少一种。

在一个具体实施例中，所述肿瘤是胃癌、乳腺癌、结直肠癌、食道癌、肝胆胰腺癌或肺癌中的至少一种。

在一个具体实施例中，所述系统还包括输出模块，其被配置为输出预测结果。

在一个具体实施例中，所述输出模块被配置为输出舌象图像与预测结果。

在一个具体实施例中，所述输出模块以电子显示、声音播报、打印、网络传输的至少一种模式输出。

在一个具体实施例中，所述可判别性的特征来自于舌象图像上的阳性类别与阴性类别之间。旨在通过充分对比、分析、学习阳性舌象图像和/或阴性舌象图像之间、之内的共性和差异，从而获得阳性类别和阴性类别之间可判别性的特征，通过深度判别测试试样舌象图像上阳性类别和阴性类别之间可判别性的特征即可判断得出测试试样属于阳性的概率，从而即可实现通过舌象图像对测试试样进行肿瘤预测。所述可判别性的特征可以来自于阳性舌象图像与阴性舌象图像之间的共性和差异，也可以来自于单一舌象图像上阳性类别与阴性类别之间的共性和差异，也即是从舌象图像上获得阳性类别、阴性类别间的可判别性的特征即可用于预测测试试样属于阳性类别还是阴性类别。

前述所述可判别性的特征来自于成对输入交互式深度学习模型的阳性舌象和阴性舌象。

在一个具体实施例中，所述数据处理模块具体配置为通过下述操作来预测测试试样属于阳性的概率：

充分对比同时输入交互式深度学习模型的阳性舌象图像和阴性舌象图像，自动学习在舌象图像上阳性类别和阴性类别之间的共性和差异，依据阳性类别和阴性类别之间可判别性的特征预测测试试样属于阳性的概率。本部分方案旨在通过充分对比、分析、学习阳性舌象图像和阴性舌象图像之间的共性和差异，从而获得阳性类别和阴性类别之间可判别性的特征，依据所述可判别性的特征即可预测输入至模型中的测试试样舌象图像属于阳性的概率，因此但凡能够通过对比、分析、学习阳性、阴性舌象图像之间的共性和差异，进而能够获得阳性类别和阴性类别之间可判别性的特征的模型均能够应用于本部分方案，也被包含在本部分方案的保护范围中，特别的，本申请选用但不限于以APINet模型进行举例分析说明。

在一个具体实施例中，所述阳性舌象图像采集自肿瘤阳性患者。

在一个具体实施例中，所述阴性舌象图像采集自肿瘤阴性患者。

在一个具体实施例中，所述交互式深度学习模型是APINet模型。

在一个具体实施例中，所述数据处理模块具体配置为通过下述操作来获得测试试样属于阳性的概率：

1)从预先获取的阳性舌象图像及阴性舌象图像中提取得到阳性特征和阴性特征；

2)以阳性特征和阴性特征训练模型，输出特征分属各个类别的概率；

3)将测试试样舌象图像输入训练完成的模型，输出测试试样属于阳性的概率。

在一个具体实施例中，前述步骤1)所述提取得到阳性特征和阴性特征的步骤包括：

编码器提取图像的特征向量，输出阳性特征f

将f

在一个具体实施例中，特征选择区的MLP充分学习f

在一个具体实施例中，前述步骤2)所述以阳性特征和阴性特征训练模型具体是将阳性特征和阴性特征输入到全连接层分类器中，输出这些特征分别属于各个类别的概率。

在一个具体实施例中，前述步骤2)所述输出特征分属各个类别的概率时，依据四个特征所述类别，最小化交叉熵损失函数：

其中，y是该特征所对应的真实标签，函数

注意到，f

在一个具体实施例中，前述步骤2)所述输出特征分属各个类别的概率时，考虑模型对特征f

其中，p

在一个具体实施例中，前述步骤3)所述将测试试样舌象图像输入训练完成的模型是指将单个测试试样舌象图像输入。

在一个具体实施例中，前述步骤3)所述输出测试试样分属类别的概率是指最终输出对应测试试样在各个类别上的概率分布，取概率最大所对应的类别为预测的类别。

在一个具体实施例中，仅应用舌象图像中舌面区域的外接矩形部分来训练和测试，可以有效地排除图像背景对模型的影响。

在一个具体实施例中，训练过程中，为了丰富训练集的样本空间，将训练集中的样本以一定概率进行随机翻转，然后在图像上的随机位置剪切子图，最后线性插值成固定大小的图像，标准化后输入交互式深度学习模型。

高质量的样品数据是获得高泛化性深度模型的前提，因此预先分别从肿瘤患者和非肿瘤人群中获得阳性和阴性舌象图像数据，本部分方案中，只有充分对比一对样本(包括一阳性舌象图像和一阴性舌象图像)，才能发现它们的共性和差异，将成对的图像作为输入来模拟真实场景，编码器提取图像特征向量后输出阳性特征和阴性特征，再结合拼接后的特征，最终输出一对阳性特征和一对阴性特征，输入到全连接层分类器即可输出这些特征分别属于各个类别的概率，同时最小化交叉熵损失函数与排序损失函数以达到训练模型的目的。测试时，将测试试样的舌象图像输入至系统即可得到其属于肿瘤阳性的概率，通过深度分析舌象图像在阳性与阴性间的区别，基于深度学习技术学习肿瘤与舌象信息的内在关联，针对肿瘤早期筛查准确率低、诊断策略成本较高等问题，自动化判断肿瘤阳性的概率，以筛选出肿瘤高发人群。

前述所述可判别性的特征来自于单一的阳性舌象图像或阴性舌象图像。

在一个具体实施例中，所述可判别性的特征来自于舌象图像切割成n小块后形成输入序列进行特征提取以获得利于分类的深层特征。

在一个具体实施例中，所述数据处理模块具体配置为通过下述操作来获得测试试样属于阳性的概率：

将测试试样舌象图像切割成小块，通过线性映射形成输入向量并添加位置索引，导入训练完成的深度学习模型进行特征提取及特征融合，输出选择后的有利于分类的深层特征，获得分属各个类别的概率。

在一个具体实施例中，所述深度学习模型通过下述步骤完成训练：

a)将舌面图像切割成n小块，然后将切割成的n小块按照顺序组成输入序列，形成长度为n的输入序列，通过线性映射形成输入向量，并添加位置索引0,1,2,…,n-1；

b)以基于TransFG模型的编码器进行特征提取及特征融合，输出选择后的有利于分类的深层特征，最终通过softmax分类器输出深层特征分属各个类别的概率分布。

在一个具体实施例中，前述步骤a)所述将舌面图像切割成n小块意指将舌象图像切割成互不重叠的n个正方形区域。

在一个具体实施例中，前述步骤b)所述编码器进行特征提取时，共包含L+1层Transformer层，且在每一层内部都包含了自注意力机制。

在一个具体实施例中，前述步骤b)所述编码器进行特征提取及特征融合时，为了去掉冗余特征，深度特征输入到最后一层之前，通过包含多头注意力机制的特征选择模块进行区域选择，所述特征选择模块返回注意力权重最大的前排特征的索引，将选择出来的前排特征输入到最后一层Transformer层进行特征融合。

在一个具体实施例中，前述所述前排特征是前k个特征，k是1,2,3，……，20的其中之一。

在一个具体实施例中，前述所述k＝12。

在一个具体实施例中，前述步骤b)所述输出深层特征分属各个类别的概率分布时，最小化交叉熵损失函数：

其中，y

在一个具体实施例中，前述步骤b)所述输出深层特征分属各个类别的概率分布时，最小化对比损失函数：

其中，N表示训练时批次的大小，函数D表示特征f

本部分方案中，通过将舌象图像切割成互不重叠的小块区域，然后按照顺序组成序列后通过线性映射形成输入向量，输入至TransFG模型中进行特征提取及特征融合，生成利于分类的深层特征并通过softmax分类器输出其分属各个类别的概率，以完成对舌象图像分属类别的预测，通过深度学习模型的自动学习模式，自动化预测筛选测试试样的肿瘤阳性概率，相较于传统肿瘤早期筛查准确率低、诊断策略成本较高等问题，本部分方案依据舌面图像，基于深度学习技术，自动化判断肿瘤阳性的概率，以筛选出肿瘤高发人群，本部分方案操作简单、成本低廉、测试准确度高。

前述所述可判别性的特征来自于舌象图像每一个像素点。

在一个具体实施例中，所述数据处理模块具体配置为通过下述操作来获得测试试样属于阳性的概率：

测试试样的舌象图像输入训练完成的深度学习模型，输出每一个像素点分别属于阳性、阴性、背景的概率，以最大概率类别作为该像素点的预测类别；

测试试样中预测为阳性的像素点个数/(预测为阳性的像素点个数+预测为阴性的像素点个数)即为测试试样属于阳性的概率。

在一个具体实施例中，前述所述获得测试试样属于阳性的概率过程中，预测为阳性的像素点个数大于预测为阴性的像素点个数则测试试样最终预测为阳性；反之预测为阴性。

在一个具体实施例中，所述深度学习模型经过下述步骤训练：

分别对阳性舌象图像或阴性舌象图像进行逐像素标注，具体是对阳性舌面区域像素点、阴性舌面区域像素点及背景区域像素点分别标准；

整体算法框架采用自动编码-解码结构，图像编码器用来编码整张图像特征，特征解码器输出为整张图像的概率图；

通过各像素点的真实标注与概率图中的预测概率，计算每个像素点的损失值，更新模型参数，直至训练完成。

在一个具体实施例中，阳性舌面区域像素点标注为2，阴性舌面区域像素点标注为1，背景区域像素点标注为0。

在一个具体实施例中，所述自动编码-解码结构中采用DeeplabV3+图像分割网络结构和/或Unet系列网络结构。能够生成概率图的自动编码-解码框架均可应用于本发明中，因此可供选择的深度网络结构较多，本发明中优先选择DeeplabV3+模型，而其他的自动编码-解码生成概率图的框架同样可以达到发明目的，比如在医学图像处理中常用的Unet系列网络结构。

在一个具体实施例中，所述自动编码-解码结构中的网络结构的输出层后加入类别判读模块，基于整张图像的概率图决策最终测试结果。

在一个具体实施例中，所述类别判读模块依据概率图采用如下公式所示的判读策略：

其中，m为像素点总数；函数I为指示函数，当条件满足时函数值为1，否则为0；t为像素类别判断阈值，其中t∈[0,1]。

在一个具体实施例中，前述所述判读策略公式中的t＝0.5。

在一个具体实施例中，深度学习模型训练过程中，采取逐像素预测的交叉熵代价函数：

其中，像素点i的真实标注类别为c(阳性、阴性、背景)，而P

根据确定的临床诊断结果将收集到的不同病例的舌像图像分别标注肿瘤阳性与阴性，获得足够的标注数据对于学习模型的优化和预测准确度是必须的，针对舌面图像采用逐像素的标注方式，利用现有的标注工具勾勒出舌面区域，然后为每一个阳性区域像素点、阴性区域像素点和背景区域像素点赋予标签，通过自动编码-解码结构输出概率图，然后计算各像素点的真实标注与概率图中的预测概率的损失差值，更新模型参数完成模型训练，将测试试样舌象图像输入模型即可自动化判断肿瘤阳性的概率，以此筛选出肿瘤高发人群，克服了传统肿瘤早期诊断所依据的数据收集成本高、难以实现大范围普查等缺陷，内部测试正确率达86.6％，因此具有较高的临床应用价值。

基于舌象图像的肿瘤预测方法，其包括：

获得测试试样的舌象图像；

将测试试样的舌象图像输入前述所述系统获得所述测试试样的肿瘤阳性概率。

前述所述基于舌象图像的肿瘤预测系统和/或方法的应用，其包括：

应用所述系统和/或方法对测试试样进行肿瘤预测。

在符合本领域常识的基础上，上述各优选条件，可以相互组合，得到具体实施方式。

本发明的有益效果为：

本发明提供了多种基于舌象图像的肿瘤预测系统，以非生物体样本舌象图像为直接实施对象，通过分析、学习舌象图像中阳性特征与阴性特征间的共性和差异，可对多种肿瘤发挥出优异的诊断预测功能，经过大批量的真实病患样本分析验证，测试预测胃癌准确率可达80％左右，在内部测试时的敏感性达0.741-0.826，准确性达0.785-0.806；外部测试时的敏感性达0.841-0.862，准确性达0.709-0.734；测试敏感性和准确性均显著优于应用传统血液肿瘤标志物的机器学习模型的敏感性和准确性；此外基于舌象图像的肿瘤预测系统还可对包括乳腺癌、结直肠癌、食道癌、肝胆胰腺癌、肺癌等的多种恶性肿瘤表现出优异的诊断预测价值，明显优于传统血液肿瘤标志物的组合，提供了一种针对于肿瘤的前瞻性的、经济性的、无创性的、有效性的筛查和诊断预测系统及方法。

本发明为实现上述目的而采用了上述技术方案，弥补了现有技术的不足，设计合理，操作方便。

附图说明

旨在为使得本领域技术人员更加迅速明确的了解本申请的上述和/或其他目的、特征、优点与实例，提供了部分附图，应当指出的是，构成本申请的说明书附图、示意性实施例及其说明用来提供对本申请的进一步理解，并不构成对本申请的不当限定。

图1是多中心临床研究及其病患分布示意图；

图2是APINet模型的判别框架；

图3是APINet模型对舌面图像的识别依据可视化；

图4是基于8个血液肿瘤的三种模型(SVM、DT、KNN)内部验证及外部验证的ROC和AUC；

图5是基于舌头图像的三个模型(APINet、TransFG、DeeplabV3+)内部验证及外部验证的ROC和AUC；

图6是APINet模型对GC和其他肿瘤的ROC及AUC；

图7是TransFG模型的判别框架；

图8是TransFG模型的区域选择模块结果可视化；

图9是TransFG模型对于GC和其他肿瘤的ROC及AUC；

图10是DeeplabV3+模型训练样本标注过程示意图；

图11是DeeplabV3+模型的判别框架；

图12是DeeplabV3+模型预测结果可视化；

图13是DeeplabV3+模型的输出图；

图14是DeepLabV3+模型对于GC和其他肿瘤的ROC及AUC；

图15是三个舌象模型的外部验证概率分布；

图16是具有不同概率的代表性舌图像。

具体实施方式

本领域技术人员可以借鉴本文内容，适当替换和/或改动工艺参数实现，然而特别需要指出的是，所有类似的替换和/或改动对本领域技术人员来说是显而易见的，它们都被视为包括在本发明。本发明所述内容已经通过较佳实例进行了描述，相关人员明显能在不脱离本发明内容、精神和范围内对本文所述的内容进行改动或适当变更与组合，来实现和应用本发明技术。

应该指出，以下详细说明都是示例性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制本申请的技术方案。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

APINet模型：APINet model，即attentive pairwise interaction neuralnetwork(APINet)model。

TransFG模型：TransFG model，即transformer architecture for fine-grainedrecognition(TransFG)model。

以下详细描述本发明。

<临床标本>

进行了全国性多中心临床研究消除了地域、饮食、中心差异对研究的影响，包括8个城市的11个中心，分别位于东部的杭州、温州和上海，南部的福州，西部的成都，北部的辽宁和黑龙江，中部地区的太原。

如图1所示，从2020年1月至2021年10月，从8个中心招募了1111名胃癌(GC)患者，从3个中心招募了1519名非胃癌(NGC)患者，包括169名健康对照(HCs)、648名浅表性胃炎(SGs)和702名萎缩性胃炎(AGs)。胃癌(GC)患者中选取865例、非胃癌(NGC)患者中随机选取1287例对前述系统进行训练和验证，其中早期GC(TNMI+II期)448例，晚期GC(TNMIII+IV期)417例)、健康对照组(HC)141例、浅表性胃炎(SG)547例、萎缩性胃炎(AG)599例；大约80％的案例被用作训练数据集，大约20％的案例被用作内部验证数据集。此外，将来自3个中心的246例GC和232例NGC作为独立的外部验证数据集，包括162例早期GC、84例晚期GC、28例HC、101例SG和103例AG。这些胃癌(GC)患者均为新诊断胃癌，既往未接受过针对其疾病的治疗，也未针对其疾病进行手术、化疗、放疗、靶向治疗或生物治疗。胃癌(GC)患者均未单发肿瘤，即发现患有两种或多种恶性肿瘤的患者也被排除在外。HCs、SGs和AGs经胃镜检查证实。

收集所有参与者的舌象图像和临床信息，这些数据包括年龄、性别、身高、体重、家族史、吸烟、饮酒、TNM分期、血液肿瘤标志物等。病理分期基于美国癌症联合委员会第8版第23期。所有GC参与者的舌像采集时间都在胃手术的早上，NGC参与者的舌头图像采集时间是胃镜检查的早上，空腹时间超过8小时，这排除了饮食对舌头图像的影响。表1中示出了GC组和NGC组之间的一般患者信息，例如年龄、性别、BMI、吸烟和饮酒情况，无论是在训练、内部验证还是独立的外部验证数据集中都非常匹配。

表1、GC和NGC参与者的临床信息

此外，从浙江省肿瘤医院招募了104名食管癌(EC)患者、129名肝胆胰腺癌(HBPC)患者、116名结直肠癌(CRC)患者、260名肺癌(LC)患者和154名乳腺癌(BC)患者。表2示出了其他癌症参与者的临床信息，可知除BC外，GC与其他癌症之间的一般信息匹配良好，如年龄、性别、BMI、吸烟和饮酒。

表2、其他癌症参与者的临床信息

<统计分析>

所有统计分析均使用SPSS23.0软件(SPSSInc.，Chicago，IL，USA)进行。结果表示为平均值±SD或平均值±SEM。根据数据是否呈正交分布，使用参数检验或非参数检验。计数数据采用卡方检验分析。P<0.05被认为具有统计学意义。

<伦理批准>

本申请研究获得了11家参与中心(IRB-2019-56)使用的集中伦理委员会的批准，具体包括浙江省肿瘤医院研究伦理委员会、温州医科大学第一附属医院、辽宁省肿瘤医院、上海交通大学附属仁济医院、福建省肿瘤医院、哈尔滨医科大学附属肿瘤医院、四川省肿瘤医院、山西省肿瘤医院、浙江省同德医院、浙江省中医院、余杭市人民医院。

<临床验证>

实施例1：

以APINet模型进行验证，具体是一种基于舌象图像的肿瘤诊断系统，其包括：

舌象获取模块，其被配置为获取测试试样的舌象图像；

数据处理模块，其被配置为通过下述操作来获得测试试样属于阳性的概率：

依据自动学习获得的舌象图像上的可判别性的特征预测测试试样属于阳性的概率。

设计了一种基于对比的交互式深度学习模型，通过充分对比同时输入的一对舌面图像，自动学习在舌面图像上阳性类别和阴性类别之间的共性和差异，最终依据可判别性的特征来预测测试样例属于阳性的概率。如图2所示整体算法框架分为三个模块：特征融合模块，特征选择模块和分类模块。

特征融合模块：同时输入一对舌象图像，分别属于阳性和阴性类别。首先编码器提取图像的特征向量，输出阳性特征f

特征选择模块：将f

分类模块：我们将选择后的特征输入到分类器(全连接层)，最后输出这些特征分别属于各个类别的概率。

在训练的过程中根据四个特征所属类别，最小化交叉熵代价函数：

其中y是该特征所对应的真实标签，函数

应当明确的是，一个泛化性较好的模型对特征f

其中p

共测试了905例相关病患，其中和训练集来自同一中心的内部测试427例，不同中心数据478例用于外部测试，测试结果如下表3、表4所示。

表3、内部测试结果

表4、外部测试结果

表3中，实际阴性病例数是162+52＝214例，实际阳性病例数是37+176＝213例；预测结果显示，162例正确预测为阴性，而52例错误预测为阳性；因此内部测试中预测准确率是(正确预测为阴性个数+正确预测为阳性个数)/测试样例总数＝(162+176)/(162+52+37+176)＝79％。同理从表4中可知外部测试的准确率可以达到71％。从内部测试和外部测试结果可知，本部分肿瘤诊断系统对于胃癌具有较好的预测准确度。

如图3为模型分类依据的可视化示意图，虚线左侧第一行的三个测试样例是阳性的舌面图像，第二行是模型根据舌面图像进行识别时所主要依据的区域，虚线右侧是阴性样例和对应的舌面识别依据可视化图像。在第二行图像中颜色越浓说明模型对该该区域越关注，从展示的结果发现模型识别过程所依据的区域主要集中在舌面上，而与黑色背景无关，因此不受背景影响。

由于临床症状隐匿，诊断筛查依赖消化道内镜，消化道肿瘤早期诊断率低，预后差，给社会和经济带来沉重负担，迫切需要开发无创、有效的筛查和诊断方法，以提高消化系统肿瘤的早期诊断率。人工智能为不断发展的医疗保健系统指明了一条清晰的道路，该系统充满了更高的精度和计算能力，在癌症筛查和诊断中发挥着越来越重要的作用。在我们的研究中，进行了一项观察性、前瞻性、多中心的临床研究，以评估舌象图像在筛查和诊断GC和其他肿瘤中的价值。

为了进一步评估舌象图像作为诊断和筛查肿瘤的手段的价值，我们将舌象图像与具有临床应用的血液肿瘤标志物进行了比较。作为对比，选用多种经典血液肿瘤标志物的组合验证对于肿瘤的预测，可供选择的血液肿瘤标志物选自甲胎蛋白(AFP)、癌胚抗原(CEA)、癌抗原125(CA125)、癌抗原15-3(CA15-3)、癌抗原199(CA199)、癌抗原72-4(CA72-4)、癌抗原242(CA242)、癌抗原50(CA50)、非小细胞肺癌相关抗原(CYFRA21-1)、小细胞肺癌相关抗原(神经元特异性烯醇化酶，NSE)、鳞状细胞癌抗原(SCC)、总前列腺特异性抗原(TPSA)、游离前列腺特异性抗原(FPSA)、α-L-岩藻糖苷酶(AFU)、EB病毒抗体(EBV-VCA)、肿瘤相关物质(TSGF)、铁蛋白(Ferritin)、β2-微球蛋(β2-MG)、胰胚胎抗原(POA)或胃泌素前体释放肽(PROGRP)中的至少一种，特别是选自CEA、CA242、CA72-4、CA125、CA199、CA50、AFP或Ferritin中的至少一种，更特别是选用上述八种血液肿瘤标志物的组合。基于上述所述血液肿瘤标志物指标的预测方法包括下述步骤：

1)数据预处理：由于所有病例的血清指标存在不同程度的缺失，而训练数据需要完整。因此在模型训练之前首先需要对数据进行补全，本申请采用K近邻缺失值插补法对数据进行补全；具体地，缺失的血清指标补全值为2个最近邻居的值的平均值；

2)模型训练：本发明采用三种机器学习分类方法，其分别为支持向量机(SVM)，决策树(DT)和K-近邻分类器(KNN)，具体地，病例的8种血液肿瘤标志物指标(CEA、CA242、CA72-4、CA125、CA199、CA50、AFP和Ferritin对应样本特征，病例的阴阳性诊断对应样本的标签，所有补全后的样本均送入三种分类器进行拟合；

3)模型评估：本申请采用了内部验证和外部验证对模型进行了评估；内部验证采用与训练数据相同医院、不同病例的数据，而外部验证采用了与训练数据不同的医院病例数据。采用包括敏感性，特异性和准确性在内的三种指标对模型进行预测。

相关GC病患的血液肿瘤标志物临床信息如表5所示，可知与NGC患者相比，GC患者的CEA、CA424、CA724、CA125、CA199、CA50、AFP和Ferritin等血液肿瘤标志物浓度显著升高。

表5、GC病患的血液肿瘤标志物临床信息

模型的训练、内部验证和外部验证数据集与舌象图像模型一致(排除血液指标缺失的情况)。基于三种机器学习分类方法的血液肿瘤标志物其对于GC诊断的敏感性、特异性、准确性验证结果见表6所示，其对于内部验证和外部验证的ROC及AUC参见图4，内部验证的AUC值范围为0.682至0.715，外部验证的AUC值范围为0.694至0.760；可知在SVM算法中，内部验证和外部验证的特异性均达到90％以上，说明该算法能够为胃癌诊断提供有价值的信息。而在DT和KNN中，特异性有所下降，敏感性和准确性均有不同程度的提升，可以为胃癌诊断提供多方面的信息。

表6、基于血液肿瘤标志物的模型对GC诊断的敏感性、特异性、准确性

应当明确的是，本申请的上述对比方案选用了CEA、CA242、CA72-4、CA125、CA199、CA50、AFP和Ferritin在内的八种血清指标，增加、缩减或者代替若干种血清指标均可对肿瘤特别是胃癌的阴阳性进行预测。上述对比方案采用了三种机器学习分类器SVM、DT和KNN，采用其他机器学习分类器方法如逻辑回归、随机森林亦可达到相应的目的。

与前述所述SVM、DT、KNN相比，本实施例的APINet模型对GC诊断的敏感性、特异性、准确性均具有不同程度的提升或改变，如表7所示。

表7、APINet模型对GC诊断的敏感性、特异性和准确性

表7显示出基于舌象图像的APINet模型对GC诊断的敏感性、特异性和准确性数据，可知APINet模型在内部验证及外部验证中对GC诊断均具有显著高于前述基于八种血液肿瘤标志物的SVM、DT和KNN模型的敏感性和准确性，提供了一种针对于肿瘤的前瞻性的、经济性的、无创性的、有效性的筛查和诊断预测方法。

APINet模型通过成对交互对输入数据进行充分比较，以识别用于分类的对比线索。图5示出了APINet模型内部验证及外部验证的ROC(Receiver OperatingCharacteristic)和AUC(Area Under roc Curve)，由图5可知，相比于图4的SVM、DT和KNN模型，图5中的APINet模型无论在内部验证还是外部验证时均具有较为远离(0,0)-(1,1)连线的ROC曲线，其内部验证AUC值达0.875，外部验证AUC值达0.792，高于八种血液肿瘤标志物的SVM、DT和KNN模型的内部验证AUC值(0.682-0.715)和外部验证AUC值(0.694-0.760)，可知APINet模型是一个表现较好的预测模型。基于舌象图像的AI诊断模型对GC的诊断价值明显优于单纯应用八项血液肿瘤标志物的组合的模型。

分析了模型准确性与临床信息之间的相关性，具体APINet模型精度与GC患者临床信息的相关性参见表8，APINet模型精度与NGC患者临床信息的相关性参见表9，可知，在NGC的判别中，APINet模型的准确性与吸烟、饮酒、血液肿瘤标志物指标有关；而在GC的判别中，APINet模型的准确性只与性别相关。也即是APINet模型区分GC和NGC的功能受临床信息的影响较小。

表8、APINet模型精度与GC患者临床信息的相关性

表9、APINet模型精度与NGC患者临床信息的相关性

旨在为观察基于舌象图像的GC诊断模型APINet的特异性和有效性，选取了104例EC、129例HBPC、116例CRC、260例LC和154例BC病患来评估诊断价值。APINet模型对GC和其他肿瘤的特异性结果如表10所示，可知舌象图像模型APINet对GC诊断最有用，对EC、HBPC、CRC、LC等消化道肿瘤的诊断有一定的作用。APINet模型对GC和其他肿瘤的ROC及AUC如图6所示，可知APINet模型对GC的诊断效果最好，对EC、HBPC、CRC、LC等均具有效果不等的诊断效果，可知APINet模型用于对前述多种肿瘤的诊断预测是积极的。

表10、APINet模型对GC和其他肿瘤的特异性

实施例2：

以TransFG模型进行验证，具体是一种基于舌象图像的肿瘤诊断系统，其包括：

舌象获取模块，其被配置为获取测试试样的舌象图像；

数据处理模块，其被配置为通过下述操作来获得测试试样属于阳性的概率：

依据自动学习获得的舌象图像上的可判别性的特征预测测试试样属于阳性的概率。

设计了一种基于Transformer的深度学习模型，通过将输入舌面图像无重叠地分成小块，然后将分开后的小块按照顺序组成序列输入到深度神经网络中。最终依据所提取的高辨别性特征来预测测试样例属于阳性的概率。

整体算法结构如图7所示，整个模型的输入是舌面图像。首先将舌面图像切割成n小块，然后将切割成的n小块按照顺序组成输入序列，形成长度为n的输入序列。将小图像块通过线性映射形成输入向量，并添加位置索引0,1,2,…,n-1。本发明基于Transformer模型的编码器部分进行特征提取，共包含L(L＝9)+1层Transformer层，而在每一层内部都包含了自注意力机制。为了去掉冗余特征，在深层特征输入到最后一层之前，首先通过特征选择模块进行区域选择，该模块包含多头注意力机制，返回注意力权重最大的前k(k＝12)块特征的索引，将选择出来的k个特征输入到最后一层Transformer层进行特征融合，输出选择后的有利于分类的深层特征，最终通过softmax分类器输出各个类别的概率分布。

输出深层特征分属各个类别的概率分布时，分别最小化交叉熵损失函数：

和最小化对比损失函数：

以使得类内特征更加聚集、类间特征差异更大，从而提高预测准确度。

共测试了905例，其中和训练集来自同一中心的内部测试427例，不同中心数据478例用于外部测试，测试结果如下表11、表12所示，其中内部测试和外部测试的准确率可以分别达到81％和73％。从内部测试和外部测试结果可知，本部分肿瘤诊断系统对于胃癌具有较好的预测准确度。

表11、内部测试结果

表12、外部测试结果

如图8为模型分类依据的可视化示意图，虚线左侧第一行的三个测试试样是阳性的舌面图像，第二行图像中的黄色小块是区域选择模块所返回的特征索引在原图像中所对应的区域，虚线右侧是阴性样例和区域选择结果。从展示的结果发现模型识别过程所依据的区域主要集中在舌面上半部分舌苔较重的区域，而与黑色背景以及舌面下半部分相关性较低。

参照前述所述，为了进一步评估舌象图像作为诊断和筛查肿瘤的手段的价值，我们将舌象图像与具有临床应用的血液肿瘤标志物进行了比较，具体是将基于舌象图像的TransFG模型与基于血液肿瘤标志物的SVM、DT、KNN模型进行对比。结果表明本实施例的TransFG模型对GC诊断的敏感性、特异性、准确性均具有不同程度的提升或改变，如表13所示。

表13、TransFG模型对GC诊断的敏感性、特异性和准确性

表13显示出基于舌象图像的TransFG模型对GC诊断的敏感性、特异性和准确性数据，可知TransFG模型在内部验证及外部验证中对GC诊断均具有显著高于前述基于八种血液肿瘤标志物(CEA、CA242、CA72-4、CA125、CA199、CA50、AFP和Ferritin)的SVM、DT和KNN模型的敏感性和准确性，提供了一种针对于肿瘤的前瞻性的、经济性的、无创性的、有效性的筛查和诊断预测方法。

TransFG模型以数据驱动的方式自动选择有利于分类的区域。图5示出了TransFG模型内部验证及外部验证的ROC和AUC，由图5可以看出，TransFG模型内部验证AUC＝0.859，外部验证AUC＝0.815，显著高于基于八种血液肿瘤标志物的SVM、DT和KNN模型的内部验证AUC值(0.682-0.715)和外部验证AUC值(0.694-0.760)，可知TransFG模型是一个表现较好的预测模型。基于舌象图像的AI诊断模型对GC的诊断价值明显优于八项血液肿瘤标志物的组合。

分析了模型准确性与临床信息之间的相关性，具体TransFG模型精度与GC患者临床信息的相关性参见表14，TransFG模型精度与NGC患者临床信息的相关性参见表15，可知，在NGC的判别中，TransFG模型的准确性与年龄、性别、BMI、吸烟和饮酒等一般情况无关，而在GC的判别中，TransFG模型只与性别相关，因此TransFG模型区分GC和NGC的功能受临床信息的影响较小。

表14、TransFG模型精度与GC患者临床信息的相关性

表15、TransFG模型精度与NGC患者临床信息的相关性

旨在为观察基于舌象图像的GC诊断模型TransFG的特异性和有效性，选取前述EC、HBPC、CRC、LC和BC病患来评估诊断价值。APINet模型对GC和其他肿瘤的特异性结果如表16所示，可知与APINet模型类似，TransFG模型同样对GC诊断最有用，对EC、HBPC、CRC、LC等肿瘤的诊断有效果不等的作用。

表16、TransFG模型对GC和其他肿瘤的特异性

TransFG模型GC和其他肿瘤的ROC及AUC如图9所示，可知TransFG模型对GC的诊断效果最好，其AUC＝0.815，其对EC、HBPC、CRC、LC等肿瘤诊断的AUC均超过了0.5，表现出一定的诊断作用，因此TransFG模型对包括GC的多种肿瘤的诊断预测是积极的。

实施例3：

以DeeplabV3+模型进行验证，具体是一种基于舌象图像的肿瘤诊断系统，其包括：

舌象获取模块，其被配置为获取测试试样的舌象图像；

数据处理模块，其被配置为通过下述操作来获得测试试样属于阳性的概率：

依据自动学习获得的舌象图像上的可判别性的特征预测测试试样属于阳性的概率。

利用计算机辅助手段，设计了一种自底向上的深度学习决策框架，根据预先获取的舌象图像自动化做出不同测试对象属于肿瘤阳性或隐性的判断。

为了在该任务上学得较优的深度学习模型，首先要获得足够的标注数据。如图10所示，针对舌象图像我们采用逐像素的标注方式。利用现有的标注工具勾勒出舌面区域，然后为每一个像素点赋予标签，若样例为肿瘤阳性样本则舌面区域像素点标签为2，若样例为肿瘤阴性样本则舌面区域像素点标注为1，所有背景区域像素点为0。应当明确的是，前述对舌面区域像素点进行标注2、1、0仅仅是示例性的，所有能够将阳性样本像素点、阴性样本像素点及背景区域像素点进行区分的标注均是可接受的，例如A、B、C，甲、乙、丙，Ⅰ、Ⅱ、Ⅲ，⑴、⑵、⑶，㈠、㈡、㈢等。

基于上述舌象图像的标注方式，本发明设计了自底向上的舌象图像深度学习模型，自动学习舌像的舌面特征，依据舌像信息最终输出对应样例的肿瘤阳性概率。整体算法框架采用自动编码-解码结构，如图11，Encoder为图像编码器，用来编码整张图像特征，Decoder为特征解码器，解码器输出为整张图像的概率图，表示每一个像素点分类为指定类别的概率，故该任务的总类别数即为模型输出概率图的层数。具体来说，在所有的自动编码-解码结构中，我们采用DeeplabV3+图像分割网络结构。为了有效判断测试样例的阳性概率，我们在DeeplabV3+网络输出层后加入类别判读模块，即基于整张图像的概率图决策最终测试结果。

假设输入图像像素点集合为M＝{i|i＝1,2,……,m}，类别集合为C＝{c|c＝0,1,2},类别集合中0,1,2分别表示背景、阴性和阳性，P

其中函数I为指示函数，当条件满足时函数值为1，否则为0。t为像素类别判断阈值，其中t∈[0,1]，本发明中取值为0.5，所以r表示在一张舌面图像中模型预测为阳性区域占舌面区域的比例，而我们将该比例r作为整体框架预测样例为胃癌阳性的概率。

在模型训练过程中，采取逐像素预测的交叉熵代价函数，对于一张输入的舌面图像，其对应的代价函数L为：

其中，像素点i的真实标注类别为c，而P

应用DeeplabV3+模型预测舌象图像阳性概率的详细步骤是；

1)预测时，模型输出每一个像素点分别属于三个类别(背景，阴性，阳性)的概率，对应类别判读模块中的0,1,2。通过对比每一个像素属于各个类别概率的大小，选择最大概率类别为预测类别，比如一个像素点属于背景，阴性，阳性的概率分别为0.3，0.5，0.2，那么该像素点被预测为阴性类别；

2)统计输入图像中分别被预测为阳性和阴性类别的像素点个数，如果被预测为阳性的像素点个数大于被预测为阴性的像素点个数，那么该输入图像最终预测为阳性，即如果阳性像素点个数/(阳性像素点个数+阴性像素点个数)大于0.5，输入图像被预测为阳性，而阳性像素点个数/(阳性像素点个数+阴性像素点个数)为输入图像属于阳性的概率。

为了排除图像背景对实验的影响，我们只应用图像中舌面区域的外接矩形部分来训练和测试。在训练过程中，为了丰富训练集的样本空间，我们将训练集中样本进行随机翻转，将指定比例的翻转后的舌像图像进行高斯模糊，在每一次训练周期内该比例在0到0.5范围内随机取值。我们共收集了678例舌象图像，其中544例用于训练，134例用于测试，测试结果如表17所示，其中有10例阳性错判为阴性，8例阴性错判为阳性，模型预测准确率是87％，可知无论是阴性试样还是阳性试样均具有较高的预测准确程度。

表17、测试结果

如图12为模型可视化后的测试结果，四个测试试样分别取自阴性、阳性、阳性和阴性病例的舌面图像，而我们的最终舌面图像类别判定结果和直接标注结果相同。第一列为输入的待预测舌面图像；第二列为输入图像各个像素点的预测结果，其中绿色区域(图中箭头所指G区)的像素点预测为阴性，而黄色区域(图中箭头所指Y区)对应的像素点预测为阳性，紫色区域(图中箭头所指P区)是模型预测的背景区域；因此对于阴性与阳性的判断区域均处于舌面区域，图像类别的预测不受背景区域的影响；第三列为预测结果在原图中的对应区域。根据前述公式设定，将黄色区域占舌面整体区域的比例视为模型预测该试样为胃癌阳性的概率，我们认为该概率大于0.5时，测试样例为胃癌阳性，其中模型预测的舌面区域为阳性区域和阴性区域的总和。

如图13显示出基于舌象图像的DeeplabV3+模型的一些样本的语义分割结果，虚线左侧第一行的三个测试试样是阳性的舌象图像，第二行图像中的整个舌面区域均是返回的特征索引在原图像中对应的区域，可知标记为黄色的像素被预测划分为阳性；同样的，虚线右侧第一行的三个测试试样是阴性的舌象图像，第二行图像中的整个舌面区域均是返回的特征索引在原图像中对应的区域，可知标记为绿色的像素被预测划分为阴性。因此阳性和阴性的判断区域均处于舌面区域，图像类别的预测不受背景区域的影响。

参照前述所述，为了进一步评估舌象图像作为诊断和筛查肿瘤的手段的价值，我们将舌象图像与具有临床应用的血液肿瘤标志物进行了比较，具体是将基于舌象图像的DeeplabV3+模型与基于血液肿瘤标志物的SVM、DT、KNN模型进行对比。结果表明本实施例的DeeplabV3+模型对GC诊断的敏感性、特异性、准确性均具有不同程度的提升或改变，如表18所示。

表18、DeeplabV3+模型对GC诊断的敏感性、特异性和准确性。

表18显示出基于舌象图像的DeeplabV3+模型对GC诊断表现出较为优异的敏感性和准确性，无论在内部验证还是在外部验证中均优于前述基于八种血液肿瘤标志物(CEA、CA242、CA72-4、CA125、CA199、CA50、AFP和Ferritin)的SVM、DT和KNN模型的敏感性(0.283-0.566、0.362-0.539)和准确性(0.603-0.622、0.645-0.662)，丰富了前瞻性的、经济性的、无创性的、有效性的肿瘤筛查和诊断预测方法。

图5示出了DeeplabV3+模型内部验证及外部验证的ROC和AUC，由图5可以看出，DeeplabV3+模型内部验证AUC＝0.836，外部验证AUC＝0.801，显著高于基于八种血液肿瘤标志物的SVM、DT和KNN模型的内部验证AUC值(0.682-0.715)和外部验证AUC值(0.694-0.760)，可知DeeplabV3+模型是一个表现较好的预测模型。基于舌象图像的AI诊断模型对GC的诊断价值明显优于八项血液肿瘤标志物的组合。

分析了模型准确性与临床信息之间的相关性，具体DeeplabV3+模型精度与GC患者临床信息的相关性参见表19，DeeplabV3+模型精度与NGC患者临床信息的相关性参见表20，可知，在NGC的判别中，DeepLabV3+模型的准确性只与性别有关；而在GC的判别中，DeeplabV3+模型与BMI和肿瘤位置相关，但与其他临床信息无关。因此，DeeplabV3+模型区分GC和NGC的功能受临床信息的影响较小。

表19、DeeplabV3+模型精度与GC患者临床信息的相关性

表20、DeeplabV3+模型精度与NGC患者临床信息的相关性

旨在为观察基于舌象图像的GC诊断模型DeeplabV3+的特异性和有效性，选取前述EC、HBPC、CRC、LC和BC病患来评估诊断价值。DeeplabV3+模型对GC和其他肿瘤的特异性结果如表21所示，可知与APINet模型及TransFG模型类似，DeeplabV3+模型同样对GC诊断最有用，对EC、HBPC、CRC、LC等肿瘤的诊断有效果不等的作用。

表21、DeeplabV3+模型对GC和其他肿瘤的特异性

DeeplabV3+模型GC和其他肿瘤的ROC及AUC如图14所示，可知DeeplabV3+模型对GC的诊断效果最好，其AUC＝0.801，其对EC、HBPC、CRC、LC等肿瘤诊断的AUC均超过了0.5，表现出一定的诊断作用，因此DeeplabV3+模型对包括GC的多种肿瘤的诊断预测是积极的。

对于前述实施例1-3所提供的APINet模型、TransFG模型、DeeplabV3+模型进行综合分析，图15示出了三个舌象模型的外部验证概率分布(胃癌)，可知大部分案例都分布在两侧，也即是三种对于阳性案例及阴性案例的判断较为确定，在0.41-0.60之间诊断模糊的病例较少，表明模型对于肿瘤的诊断预测结果是可信的，图16示出了具有不同概率的代表性舌象图像(胃癌，三种模型的交集)，可知若无自动学习模型的介入，单单从舌象图像直观观察难以区分出阳性概率，因此本申请提供了多种基于舌象图像的肿瘤诊断方法，对于包括胃癌等在内的多种肿瘤均可发挥出优异的诊断预测价值，为中医舌象诊断理论提供科学依据。

上述实施例中的常规技术为本领域技术人员所知晓的现有技术，故在此不再详细赘述。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

尽管对本发明已作出了详细的说明并引证了一些具体实施例，但是对本领域熟练技术人员来说，只要不离开本发明的精神和范围可作各种变化或修正是显然的。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

本发明未尽事宜均为公知技术。

完整全部详细技术资料下载