经济效益型模型在医学数据信息上的处理系统及处理方法
文献发布时间:2023-06-19 11:17:41
技术领域
本发明属于数据处理技术领域,尤其涉及一种经济效益型模型在医学数据信息上的处理系统及处理方法。
背景技术
目前,大数据一个重要的特征是价值,如何衡量一个数据集的价值是开展大数据人工智能探索的先决条件。目前,在世界范围内对于衡量大数据价值的研究与探索还鲜有报道。
一般情况下,机器学习过程要进行调参等操作,需要有经验的机器学习专家的参与,占用专家的时间与问题的复杂程度、数据集特征表达程度成正比,同时还需要占用一定时长的高性能计算力。显然,完成一个高价值的人工智能项目的效率并不高。
通过上述分析,现有技术存在的问题及缺陷为:
现有技术中,在医学预测上,现有地预测模型成本高;预测精度低;
人工智能效率不高。
发明内容
针对现有技术存在的问题,本发明提供了一种经济效益型模型在医学数据信息上的处理系统及处理方法。
本发明是这样实现的,一种经济效益型模型在医学数据信息上的处理系统,应用于计算机终端,所述经济效益型模型在医学数据信息上的处理系统包括:
映射关系指标获取模块,用于度量自变量向量空间与目标变量间映射关系的指标;以及利用自变量向量与指定向量均值的向量间的内积,得到各案例到指定空间的距离,使得各案例的多维向量降维到一维距离数值;主要应用于各案例向量到指定向量间关系的测量场景;其功能为案例向量投影到指定向量空间的大小度量。
评价模块,用于评价自变量组合对这种映射关系的影响;还用于应用非线性回归方法建立目标类别与得到的概率值的非线性回归方程。
所述评价模块主要用于反映自变量组合下,其综合投影到目标类别的有效性;其功能为鉴别各自变量对目标类别投影有效性的相对贡献大小。
进一步,所述映射关系指标获取模块包括:
指定向量模块,用于定义目标变量的阳性案例的各自变量的均值组成的指定向量;
内积计算模块,用于计算自变量向量与指定向量间的内积;
概率值计算模块,用于将计算得到的内积经标准化处理后,再计算各值的logistics分布的概率值;
映射关系建立模块,用于计算出的概率值和目标变量间建立的映射关系。
进一步,所述评价模块包括:
基准回归系数获取模块,用于计算所有自变量组合下的回归系数,得到基准回归系数;
组合的回归系数计算模块,用于计算任一个自变量缺乏下的组合的回归系数;
减少的自变量获取模块,用于以基准回归系数为阈值,找出回归系数减少的自变量;
新自变量向量获取模块,用于以找出的具作用的所述减少的自变量构成新自变量向量。
本发明的另一目的在于提供一种经济效益型模型在医学数据信息上的处理方法,应用于计算机终端,所述经济效益型模型在医学数据信息上的处理方法包括:
步骤一,度量自变量向量空间与目标变量间映射关系的指标;利用自变量向量与指定向量均值的向量间的内积,得到各案例到指定空间的距离,使得各案例的多维向量降维到一维距离数值;
步骤二,评价自变量组合对这种映射关系的影响;应用非线性回归方法,建立目标类别与得到的概率值的非线性回归方程。
进一步,所述步骤一具体包括:
(1)定义目标变量的阳性案例的各自变量的均值组成的指定向量;
(2)计算自变量向量与指定向量间的内积;包括:矢量A=[a1,a2,...an],B=[b1,b2...bn],矢量A和B的内积数值表示为:A·B=a1×b1+a2×b2+……+an×bn;
(3)将计算得到的内积经标准化处理后,再计算各值的logistics分布的概率值;plogis(scale(x))【R语言相对应的函数plogis(),标准化函数scale()】;包括:
(a)计算内积(X)的标准值(Xm)和标准差(Xsd);
(b)计算Z=(X-Xm)/Xsd;
(c)计算F(x)=1/(1+exp(-Z));
(4)计算出的概率值和目标变量间建立映射关系:
nls(y~plogis(a*scale(x)),data=data.frame(x=data_inner,y=data[,ncol(data)]),
start=list(a=1))。
进一步,所述步骤二具体包括:
1)计算所有自变量组合下的回归系数,得到基准回归系数;
a0<-coef(nls(y~plogis(a*scale(x)),data=data.frame(x=data_inner,y=data[,ncol(data)]),
start=list(a=1)));
2)计算任一个自变量缺乏下的组合的回归系数;
3)以基准回归系数为阈值,获得回归系数减少的那些自变量;
m<-which(temp1 4)以找出的具作用的自变量构成新自变量向量: newdata<-data.frame(data[,names(m)],y=data[,ncol(data)])。 本发明的另一目的在于提供一种计算机终端,所述计算机终端包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行所述经济效益型模型在医学数据信息上的处理方法。 本发明的另一目的在于提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行所述经济效益型模型在医学数据信息上的处理方法。 结合上述的所有技术方案,本发明所具备的优点及积极效果为: 本发明通过对自变量的筛选,遴选出对模型预测具有作用的自变量,消除那些对模型预测不具贡献的自变量,使得模型中的所有自变量对模型预测均具一定作用。 本发明减少自变量的数量,降低使用模型的使用成本;减小模型的复杂度,扩展模型的应用范围和场景;提高模型建模的速度和模型预测时的计算速度,减少响应时间;挖掘出那些对目标变量具有影响的因素变量,为构建知识图谱奠定基础。 对比的技术效果或者实验效果。见图图3(a)-图3(f)。 附图说明 为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图做简单的介绍,显而易见地,下面所描述的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。 图1是本发明实施例提供的经济效益型模型在医学数据信息上得处理系统示意图。 图中:1、映射关系指标获取模块;1-1、指定向量模块;1-2、内积计算模块;1-3、概率值计算模块;1-4、映射关系建立模块;2、评价模块;2-1、基准回归系数获取模块;2-2、组合的回归系数计算模块;2-3、减少的自变量获取模块;2-4、新自变量向量获取模块。 图2是本发明实施例提供的经济效益型模型在医学数据信息上的处理方法流程图。 图3(a)是本发明实施例提供的经济效益模型特征效果中原数据与精简数据总准确率平均差=0.00232136626490243示意图。 图3(b)是本发明实施例提供的经济效益模型特征效果中原数据与精简数据训练集准确率平均差=0.00309559931211119示意图。 图3(c)是本发明实施例提供的经济效益模型特征效果中原数据与精简数据测试集准确率平均差=0.00152446533120082示意图。 图3(d)是本发明实施例提供的经济效益模型特征效果中原数据自变量个数下自变量个数减少平均比例0.19784651061565示意图。 图3(e)是本发明实施例提供的经济效益模型特征效果中原数据样本量下自变量个数减少平均比例0.19784651061565示意图。 图3(f)是本发明实施例提供的经济效益模型特征效果中抽样比例下自变量个数减少平均比例0.19784651061565示意图。 具体实施方式 为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。 针对现有技术存在的问题,本发明提供了一种经济效益型模型在医学数据信息上的处理系统及处理方法,下面结合附图对本发明作详细的描述。 假定自变量的复杂组合形态构成一定拓扑向量空间,这种向量空间和目标类别具有一定的空间映射关系,这些自变量和目标类别之间的映射具有的最优解存在,那么其他的一些变量(需要筛选出的不具有作用或具干扰作用)的加入会影响或扭曲这种映射关系。 如图1所示,本发明提供一种经济效益型模型在医学数据信息上的处理系统,应用于计算机终端,所述经济效益型模型在医学数据信息上的处理系统包括: 映射关系指标获取模块1,用于度量自变量向量空间与目标变量间映射关系的指标;以及利用自变量向量与指定向量均值的向量间的内积,得到各案例到指定空间的距离,使得各案例的多维向量降维到一维距离数值;主要应用于各案例向量到指定向量间关系的测量场景;其功能为案例向量投影到指定向量空间的大小度量。 评价模块2,用于评价自变量组合对这种映射关系的影响;还用于应用非线性回归方法建立目标类别与得到的概率值的非线性回归方程。所述评价模块主要用于反映自变量组合下,其综合投影到目标类别的有效性;其功能为鉴别各自变量对目标类别投影有效性的相对贡献大小。 所述映射关系指标获取模块1包括: 指定向量模块1-1,用于定义目标变量的阳性案例的各自变量的均值组成的指定向量; 内积计算模块1-2,用于计算自变量向量与指定向量间的内积;包括:矢量A=[a1,a2,...an],B=[b1,b2...bn],矢量A和B的内积数值表示为:A·B=a1×b1+a2×b2+……+an×bn; 概率值计算模块1-3,用于将计算得到的内积经标准化处理后,再计算各值的logistics分布的概率值;包括:plogis(scale(x))【R语言相对应的函数plogis(),标准化函数scale()】; (a)计算内积(X)的标准值(Xm)和标准差(Xsd); (b)计算Z=(X-Xm)/Xsd; (c)计算F(x)=1/(1+exp(-Z)); 映射关系建立模块1-4,用于计算出的概率值和目标变量间建立的映射关系。 所述评价模块2包括: 基准回归系数获取模块2-1,用于计算所有自变量组合下的回归系数,得到基准回归系数; 组合的回归系数计算模块2-2,用于计算任一个自变量缺乏下的组合的回归系数; 减少的自变量获取模块2-3,用于以基准回归系数为阈值,找出回归系数减少的自变量; 新自变量向量获取模块2-4,用于以找出的具作用的所述减少的自变量构成新自变量向量。 本发明提出一种度量向量空间与目标变量间映射关系的指标。 本发明评价了每一个自变量对这种映射关系的影响大小。 本发明计算出筛选自变量的阈值。 本发明获得新自变量组合,得到新自变量组合形态构成的拓扑向量空间,最优解可求。 具体地, 如图2所示,本发明提出的方法包括如下步骤: S101,度量自变量向量空间与目标变量间映射关系的指标;利用自变量向量与指定向量均值的向量间的内积,得到各观察案例到指定空间的距离,使得各观察案例的多维向量降维到一维距离数值。 S102,评价自变量组合对这种映射关系的影响;应用非线性回归方法,建立目标类别与得到的概率值的非线性回归方程,非线性回归方程的回归系数大小能良好反映这种自变量组合的映射。 步骤S101具体包括:(1)定义目标变量的阳性案例的各自变量的均值组成的指定向量; (2)计算自变量向量与指定向量间的内积; (3)将计算得到的内积经标准化处理后,再计算各值的logistics分布的概率值; (4)计算出的概率值和目标变量间建立了良好的映射关系。 nls(y~plogis(a*scale(x)),data=data.frame(x=data_inner,y=data[,ncol(data)]), start=list(a=1))。 步骤S102具体包括: 1)计算所有自变量组合下的回归系数,得到基准回归系数; a0<-coef(nls(y~plogis(a*scale(x)),data=data.frame(x=data_inner,y=data[,ncol(data)]), start=list(a=1))); 2)计算任一个自变量缺乏下的组合的回归系数;
3)以基准回归系数为阈值,获得回归系数减少的那些自变量; m<-which(temp1 4)以找出的具作用的自变量构成新自变量向量: newdata<-data.frame(data[,names(m)],y=data[,ncol(data)])。 下面结合具体应用例对本发明技术方案作进一步描述。 应用例 1、从本发明提供的程序中提取EED函数,函数的代码如下:
2、应用EED函数对原数据集(data)进行计算,得到一个新数据集(newdata),程序代码如下: newdata<-EED(data) 2.1、原数据集要求,标签变量为最后一个变量; 2.2、原数据集无缺失项; 2.3、原数据各自变量近似正态分布或对称分布(可以通过变换为近似正态分布或对称分布)【效果最优】。 3、比较新数据集的自变量名称与原数据集自变量名称可得到节约的自变量,程序代码: setdiff(names(data),names(newdata)) 4、如一个具有50个自变量的原数据集经过EED函数处理,如节约了10个自变量,理论上建模处理以及预测中会节约20%信号采集费用。 同时建模过程的复杂程度降低,运算效率提高,机时占用减少。特别是对于高维数据集效果明显。 以一个医学上的冠心病风险模型为例: 自变量20个,每个指标采集平均费用30元/次,每次预测需要600元成本。如采用本方法,减少6个自变量,即减少180元/次。 如冠心病风险模型每年服务100万次,成本边际减少18000万元。 在本发明中,图3(a)是本发明实施例提供的经济效益模型特征效果中原数据与精简数据总准确率平均差=0.00232136626490243示意图。 图3(b)是本发明实施例提供的经济效益模型特征效果中原数据与精简数据训练集准确率平均差=0.00309559931211119示意图。 图3(c)是本发明实施例提供的经济效益模型特征效果中原数据与精简数据测试集准确率平均差=0.00152446533120082示意图。 图3(d)是本发明实施例提供的经济效益模型特征效果中原数据自变量个数下自变量个数减少平均比例0.19784651061565示意图。 图3(e)是本发明实施例提供的经济效益模型特征效果中原数据样本量下自变量个数减少平均比例0.19784651061565示意图。 图3(f)是本发明实施例提供的经济效益模型特征效果中抽样比例下自变量个数减少平均比例0.19784651061565示意图 本发明提出地经济效益模型特征如下:平均减少自变量20%,输入信号成本减少20%;模型预测精度下降小于0.5%;非线性回归系数可评价数据集价值。 在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上;术语“上”、“下”、“左”、“右”、“内”、“外”、“前端”、“后端”、“头部”、“尾部”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”等仅用于描述目的,而不能理解为指示或暗示相对重要性。 应当注意,本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现;软件部分可以存储在存储器中,由适当的指令执行系统,例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用由各种类型的处理器执行的软件实现,也可以由上述硬件电路和软件的结合例如固件来实现。 以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,都应涵盖在本发明的保护范围之内。
- 经济效益型模型在医学数据信息上的处理系统及处理方法
- 数据信息处理方法和数据信息处理系统