掌桥专利:专业的专利平台
掌桥专利
首页

数据的概率密度分布的确定方法、装置、设备和介质

文献发布时间:2023-06-19 10:08:35


数据的概率密度分布的确定方法、装置、设备和介质

技术领域

本发明实施例涉及一种数据处理技术领域,尤其涉及一种数据的概率密度分布的确定方法、装置、设备和介质。

背景技术

密度提琴图是展示一维数据分布密度的常见方法。随着web技术的发展,越来越多的网站可视化工具使用了可交互式提琴图,即可通过鼠标的移动展示更加详尽的信息。

密度提琴图的绘制主要是基于各像素点的概率密度分布函数进行绘制;现有的确定概率密度函数,普遍为后端设备将数据传输至前端,由前端设备利用JavaScript库(例如plotly.js或者d3.js等)通过核密度估计的方法估计出数据分布的密度,进而计算出每个像素点横坐标对应的概率密度函数值。

上述方案的缺陷在于:核密度估计的方法属于一种非参数方法,且需要经验参与;当数据传输量过大时,会给后端设备的传输带来压力;同时,前端设备在计算时需要花费较大时间,且难以保证计算效率。

发明内容

本申请实施例提供一种数据的概率密度分布的确定方法、装置、设备和介质,可以通过后端设备直接将有限的普通多项式系数传输给前端设备,由前端设备构建概率密度函数以实现概率密度分布的有效绘制,从而避免了数量传输量过大导致设备运行超负荷问题。

第一方面,本发明实施例提供了一种数据的概率密度分布的确定方法,所述方法包括:

根据样本属性数据,确定目标正交多项式中正交多项式系数的取值;

根据目标正交多项式中正交多项式系数与普通多项式中普通多项式系数之间的变换关系构建系数变换矩阵;

根据所述系数变换矩阵和所述正交多项式系数的取值,确定所述普通多项式系数的取值,将所述普通多项式系数的取值发送给前端设备,由所述前端设备根据所述普通多项式系数的取值绘制概率密度分布图。

可选的,根据样本属性数据,确定目标正交多项式中正交多项式系数的取值,包括:

从待分析样本中选取预设范围内的样本属性数据;其中,所述样本属性数据至少包括基因表达数据;所述基因表达数据包括单细胞基因表达量或非单细胞基因表达量;

从候选正交多项式中选择目标正交多项式,并基于所述样本属性数据,确定目标正交多项式中正交多项式系数的取值。

可选的,从候选正交多项式中选择目标正交多项式,并基于所述样本属性数据,确定目标正交多项式中正交多项式系数的取值,包括:

计算目标正交多项式中正交多项式系数在所述样本属性数据上的期望值;

根据所述期望值预估目标正交多项式中正交多项式系数的取值。

可选的,根据目标正交多项式中正交多项式系数与普通多项式中普通多项式系数之间的变换关系构建系数变换矩阵,包括:

根据目标正交多项式中正交多项式系数与普通多项式中普通多项式系数之间的变换关系,建立所述正交多项式系数与所述普通多项式系数的系数特征方程;

根据所述系数特征方程确定所述正交多项式系数和所述普通多项式系数之间的对等矩阵,得到系数变换矩阵。

第二方面,本发明实施例提供了一种数据的概率密度分布的确定方法,所述方法包括:

接收后端设备发送的普通多项式系数的取值;其中,所述普通多项式系数的取值由后端设备通过如下确定:根据样本属性数据,确定目标正交多项式中正交多项式系数的取值;根据目标正交多项式中正交多项式系数与普通多项式中普通多项式系数之间的变换关系构建系数变换矩阵;根据所述系数变换矩阵和所述正交多项式系数的取值,确定所述普通多项式系数的取值;

根据所述普通多项式系数的取值绘制概率密度分布图。

可选的,根据所述普通多项式系数的取值绘制概率密度分布图,包括:

根据所述普通多项式系数的取值确定概率密度分布函数;

获取待绘制概率密度分布图的像素点坐标;并将所述像素点坐标代入所述概率密度分布函数得到概率密度函数值,以绘制概率密度分布图。

第三方面,本发明实施例提供了一种数据的概率密度分布的确定装置,包括:

取值确定模块,用于根据样本属性数据,确定目标正交多项式中正交多项式系数的取值;

矩阵构建模块,用于根据目标正交多项式中正交多项式系数与普通多项式中普通多项式系数之间的变换关系构建系数变换矩阵;

取值发送模块,用于根据所述系数变换矩阵和所述正交多项式系数的取值,确定所述普通多项式系数的取值,将所述普通多项式系数的取值发送给前端设备,由所述前端设备根据所述普通多项式系数的取值绘制概率密度分布图。

可选的,取值确定模块包括数据选取单元和取值确定单元;

数据选取单元,用于从待分析样本中选取预设范围内的样本属性数据;其中,所述样本属性数据至少包括基因表达数据;所述基因表达数据包括单细胞基因表达量或非单细胞基因表达量;

数据确定单元,用于从候选正交多项式中选择目标正交多项式,并基于所述样本属性数据,确定目标正交多项式中正交多项式系数的取值。

可选的,取值确定单元,具体用于:

计算目标正交多项式中正交多项式系数在所述样本属性数据上的期望值;

根据所述期望值预估目标正交多项式中正交多项式系数的取值。

可选的,矩阵构建模块,具体用于:

根据目标正交多项式中正交多项式系数与普通多项式中普通多项式系数之间的变换关系,建立所述正交多项式系数与所述普通多项式系数的系数特征方程;

根据所述系数特征方程确定所述正交多项式系数和所述普通多项式系数之间的对等矩阵,得到系数变换矩阵。

第四方面,本发明实施例提供了一种数据的概率密度分布的确定装置,包括:

取值接收模块,用于接收后端设备发送的普通多项式系数的取值;其中,所述普通多项式系数的取值由后端设备通过如下确定:根据样本属性数据,确定目标正交多项式中正交多项式系数的取值;根据目标正交多项式中正交多项式系数与普通多项式中普通多项式系数之间的变换关系构建系数变换矩阵;根据所述系数变换矩阵和所述正交多项式系数的取值,确定所述普通多项式系数的取值;

分布图绘制模块,用于根据所述普通多项式系数的取值绘制概率密度分布图。

可选的,分布图绘制模块,具体用于:

根据所述普通多项式系数的取值确定概率密度分布函数;

获取待绘制概率密度分布图的像素点坐标;并将所述像素点坐标代入所述概率密度分布函数得到概率密度函数值,以绘制概率密度分布图。

第五方面,本发明实施例还提供了一种后端设备,该设备包括:

一个或多个处理器;

存储装置,用于存储一个或多个程序,

当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明实施例中的任一种应用于后端设备的数据的概率密度分布的确定方法。

第六方面,本发明实施例还提供了一种前端设备,该设备包括:

一个或多个处理器;

存储装置,用于存储一个或多个程序,

当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明实施例中的任一种应用于前端设备的数据的概率密度分布的确定方法。

第七方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明实施例中的任一种应用于后端设备的数据的概率密度分布的确定方法,或者实现本发明实施例中的任一种应用于前端设备的数据的概率密度分布的确定方法。

本发明实施例根据样本属性数据,确定目标正交多项式中正交多项式系数的取值;根据目标正交多项式中正交多项式系数与普通多项式中普通多项式系数之间的变换关系构建系数变换矩阵;根据系数变换矩阵和正交多项式系数的取值,确定普通多项式系数的取值,将普通多项式系数的取值发送给前端设备,由前端设备根据普通多项式系数的取值绘制概率密度分布图。本发明实施例能够通过后端设备直接将有限的普通多项式系数传输给前端设备,由前端设备构建概率密度函数以实现概率密度分布的有效绘制,从而避免了数量传输量过大导致设备运行超负荷问题。

附图说明

图1是本发明实施例一中的数据的概率密度分布的确定方法的流程示意图;

图2是本发明实施例二中的数据的概率密度分布的确定方法的流程示意图;

图3是本发明实施例二中的概率密度分布图的展示示意图;

图4是本发明实施例三中的数据的概率密度分布的确定装置的结构示意图;

图5是本发明实施例四中的数据的概率密度分布的确定装置的结构示意图;

图6是本发明实施例五中的电子设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1为本发明实施例一提供的数据的概率密度分布的确定方法的流程示意图。本实施例可适用于确定概率密度分布函数的系数,并将该系数发送给前端进行合理运用的情况,本实施例方法可由数据的概率密度分布的确定装置来执行,该装置可采用硬件/或软件的方式来实现,并可配置于电子设备中,其中,电子设备包括后端设备,例如服务器。可实现本申请任意实施例所述的数据的概率密度分布的确定方法。如图1所示,该方法具体包括如下:

S110、根据样本属性数据,确定目标正交多项式中正交多项式系数的取值。

在本实施例中,样本属性数据为需要进行数据可视化分析的一类数据;其中,可视化分析为将基于该样本属性数据进行绘制的概率密度分布图的展示,可以通过数据相应的概率密度分布图直观清晰的看出该样本属性数据的分布情况。

本实施例采用正交多项式拟合一组样本属性数据的概率密度分布函数,并得到正交多项式系数的取值,从而能够有效推导出概率密度分布函数的系数的取值,从而绘制概率密度分布图。其中,目标正交多项式为拟合概率密度分布函数所采用的特定正交多项式。

在本实施例中,可选的,根据样本属性数据,确定目标正交多项式中正交多项式系数的取值,包括:

从待分析样本中选取预设范围内的样本属性数据;其中,样本属性数据至少包括基因表达数据;基因表达数据包括单细胞基因表达量或非单细胞基因表达量;

从候选正交多项式中选择目标正交多项式,并基于样本属性数据,确定目标正交多项式中正交多项式系数的取值。

其中,本实施例中的待分析样本可以为各领域内需要进行概率密度分布统计的样本数据;例如生物科学研究中的基因数据、一个城市中人口的统计数据,或者环境的历年降水量数据。预设范围为闭区间的数据值的范围,例如区间[-1,1]。从待分析样本中选取预设范围内的样本属性数据,即选择数据值落入预设范围内的样本属性数据。

正交多项式可包括勒让德多项式、切比雪夫多项式以及Legendre多项式;在本实施例中,从上述候选正交多项式中选择勒让德多项式作为目标正交多项式。

在本实施例中,可选的,从候选正交多项式中选择目标正交多项式,并基于样本属性数据,确定目标正交多项式中正交多项式系数的取值,包括:

计算目标正交多项式中正交多项式系数在样本属性数据上的期望值;

根据期望值预估目标正交多项式中正交多项式系数的取值。

其中,基于目标正交多项式,计算该样本属性数据的各阶距(即期望值),以此作为目标正交多项式系数的取值。

具体的,以目标正交多项式为勒让德多项式为例进行说明。

根据如下公式(1)计算目标正交多项式中正交多项式系数在样本属性数据上的期望值。

其中,ψ

本实施例通过样本属性数据结合正交多项式能够精准有效的确定出目标正交多项式中各系数的取值。

S120、根据目标正交多项式中正交多项式系数与普通多项式中普通多项式系数之间的变换关系构建系数变换矩阵。

在本实施例中,由于任意正交多项式均由单项式线性叠加而成,因此,在已知正交多项式系数的取值后可通过线性变换得到每个单项式的系数的取值。其中,系数变换矩阵即为一组目标正交多项式中各单项式系数构成的矩阵。

在本实施例中,可选的,根据目标正交多项式中正交多项式系数与普通多项式中普通多项式系数之间的变换关系构建系数变换矩阵,包括:

根据目标正交多项式中正交多项式系数与普通多项式中普通多项式系数之间的变换关系,建立正交多项式系数与普通多项式系数的系数特征方程;

根据系数特征方程确定正交多项式系数和普通多项式系数之间的对等矩阵,得到系数变换矩阵。

其中,系数特征方程为正交多项式系数和正交多项式的基以及普通多项式系数与普通多项式的基的等式方程;根据该等式方程可得到系数变换矩阵。

具体的,以勒让德多项式系数进行说明。

目标正交多项式系数例如为:

则正交多项式系数与普通多项式系数的系数特征方程如下式(4)。

根据公式(4),可得到系数变换矩阵,参见公式(5)。

本实施例构建出的系数变换矩阵能够反映出正交多项式系数与普通多项式系数间的转换关系。

S130、根据系数变换矩阵和正交多项式系数的取值,确定普通多项式系数的取值,将普通多项式系数的取值发送给前端设备,由前端设备根据普通多项式系数的取值绘制概率密度分布图。

由于在现有技术中,后端设备是将采集到的样本属性数据全部发送给前端设备,使前端设备根据接收到的样本属性数据以经验性的方法预估出概率密度分布函数,继而再计算出每个像素点坐标对应的概率密度函数值,通过计算机绘制所有点构成的图边界,再进行填充形成闭合区域,以实现概率密度分布图的绘制;当后端设备发送的数据量过大时会导致前端设备计算度增大,计算效率也会相应降低。

因此,在本实施例中,利用后端设备将概率密度分布函数的系数预先计算出,仅仅将该系数(通常是20个,数据量较少)发送给前端设备,以使得前端设备根据该系数组建概率密度分布函数,进行概率密度分布图的有效绘制,减小存储代价并加速传输速度。

具体的,根据系数变换矩阵和正交多项式系数的取值,确定普通多项式系数的取值,可参见公式(6)。

从而勒让德多项式系数向量左乘变换矩阵A,可得到单项式系数。

本发明实施例根据样本属性数据,确定目标正交多项式中正交多项式系数的取值;根据目标正交多项式中正交多项式系数与普通多项式中普通多项式系数之间的变换关系构建系数变换矩阵;根据系数变换矩阵和正交多项式系数的取值,确定普通多项式系数的取值,将普通多项式系数的取值发送给前端设备,由前端设备根据普通多项式系数的取值绘制概率密度分布图。本发明实施例能够通过后端设备直接将有限的普通多项式系数传输给前端设备,由前端设备构建概率密度函数以实现概率密度分布的有效绘制,从而避免了数量传输量过大导致设备运行超负荷问题。

实施例二

图2为本发明实施例二提供的数据的概率密度分布的确定方法的流程示意图。本实施例可适用于绘制概率密度分布图的情况,本实施例方法可由数据的概率密度分布的确定装置来执行,该装置可采用硬件/或软件的方式来实现,并可配置于电子设备中;其中,电子设备包括前端设备,例如计算机。可实现本申请任意实施例所述的数据的概率密度分布的确定方法。如图2所示,该方法具体包括如下:

S210、接收后端设备发送的普通多项式系数的取值;其中,普通多项式系数的取值由后端设备通过如下确定:根据样本属性数据,确定目标正交多项式中正交多项式系数的取值;根据目标正交多项式中正交多项式系数与普通多项式中普通多项式系数之间的变换关系构建系数变换矩阵;根据系数变换矩阵和正交多项式系数的取值,确定普通多项式系数的取值。

在本实施例中,前端设备无需接收多数据量的数据,仅接收有限个数据,可以缓解前端设备的传输消耗;在存储接收到的数据时,每组数据点不管数据量再大,通常仅需存储20个多项式系数即可,解决了现有技术中存储过大数据量导致设备运行受限的问题。

S220、根据普通多项式系数的取值绘制概率密度分布图。

在本实施例中,前端设备仅需要计算像素点横坐标对应的多项式函数值,并且可用密布连线的方式实现内部填充;此外对于概率密度分布图的缩放等下游功能加速更加显著。

在上述实施例的基础上,可选的,根据普通多项式系数的取值绘制概率密度分布图,包括:

根据普通多项式系数的取值确定概率密度分布函数;

获取待绘制概率密度分布图的像素点坐标;并将像素点坐标代入概率密度分布函数得到概率密度函数值,以绘制概率密度分布图。

其中,可以选取绘制概率密度分布图的像素点对应的横坐标x,带入概率密度分布函数(通常为20次),即可快速计算出该点对应的密度函数值y;把每个像素点x对应的-y到y连接一条直线(因屏幕实际上由离散的像素点构成,但人眼看起来即为密集的区域,这与原始内部填充方式效果完全一致),即实现了无须连接所有轮廓点及内部填充就能实现的分布图(例如提琴图)渲染;可参见图3,图3为概率密度分布图的展示示意图。

具体的,选取绘制概率密度分布图的像素点对应的横坐标x,可以根据如下确定;例如数据点分布的范围为[0,10],待绘制密度分布图的宽度为100个像素,则将此区间分成100份,即x的坐标为0.1,0.2,0.3......。

本发明实施例通过接收后端设备发送的普通多项式系数的取值;并根据普通多项式系数的取值绘制概率密度分布图;能够便捷快速的绘制出概率密度分布图。

实施例三

图4是本发明实施例三中的数据的概率密度分布的确定装置的结构示意图,本实施例可适用于确定概率密度分布函数的系数,并将该系数发送给前端进行合理运用的情况。该装置配置于电子设备中,可实现本申请任意实施例所述的数据的概率密度分布的确定方法。该装置具体包括如下:

取值确定模块410,用于根据样本属性数据,确定目标正交多项式中正交多项式系数的取值;

矩阵构建模块420,用于根据目标正交多项式中正交多项式系数与普通多项式中普通多项式系数之间的变换关系构建系数变换矩阵;

取值发送模块430,用于根据所述系数变换矩阵和所述正交多项式系数的取值,确定所述普通多项式系数的取值,将所述普通多项式系数的取值发送给前端设备,由所述前端设备根据所述普通多项式系数的取值绘制概率密度分布图。

在上述实施例的基础上,可选的,取值确定模块430包括数据选取单元和取值确定单元;

数据选取单元,用于从待分析样本中选取预设范围内的样本属性数据;其中,所述样本属性数据至少包括基因表达数据;所述基因表达数据包括单细胞基因表达量或非单细胞基因表达量;

数据确定单元,用于从候选正交多项式中选择目标正交多项式,并基于所述样本属性数据,确定目标正交多项式中正交多项式系数的取值。

在上述实施例的基础上,可选的,取值确定单元,具体用于:

计算目标正交多项式中正交多项式系数在所述样本属性数据上的期望值;

根据所述期望值预估目标正交多项式中正交多项式系数的取值。

在上述实施例的基础上,可选的,矩阵构建模块420,具体用于:

根据目标正交多项式中正交多项式系数与普通多项式中普通多项式系数之间的变换关系,建立所述正交多项式系数与所述普通多项式系数的系数特征方程;

根据所述系数特征方程确定所述正交多项式系数和所述普通多项式系数之间的对等矩阵,得到系数变换矩阵。

通过本发明实施例三的数据的概率密度分布的确定装置,能够通过后端设备直接将有限的普通多项式系数传输给前端设备,由前端设备构建概率密度函数以实现概率密度分布的有效绘制,从而避免了数量传输量过大导致设备运行超负荷问题。

本发明实施例所提供的数据的概率密度分布的确定装置可执行本发明任意实施例所提供的数据的概率密度分布的确定方法,具备执行方法相应的功能模块和有益效果。

实施例四

图5是本发明实施例四中的数据的概率密度分布的确定装置的结构示意图,本实施例可适用于绘制概率密度分布图的情况。该装置配置于电子设备中,可实现本申请任意实施例所述的数据的概率密度分布的确定方法。该装置具体包括如下:

取值接收模块510,用于接收后端设备发送的普通多项式系数的取值;其中,所述普通多项式系数的取值由后端设备通过如下确定:根据样本属性数据,确定目标正交多项式中正交多项式系数的取值;根据目标正交多项式中正交多项式系数与普通多项式中普通多项式系数之间的变换关系构建系数变换矩阵;根据所述系数变换矩阵和所述正交多项式系数的取值,确定所述普通多项式系数的取值;

分布图绘制模块520,用于根据所述普通多项式系数的取值绘制概率密度分布图。

在上述实施例的基础上,可选的,分布图绘制模块520,具体用于:

根据所述普通多项式系数的取值确定概率密度分布函数;

获取待绘制概率密度分布图的像素点坐标;并将所述像素点坐标代入所述概率密度分布函数得到概率密度函数值,以绘制概率密度分布图。

通过本发明实施例四的数据的概率密度分布的确定装置,能够便捷快速的绘制出概率密度分布图。

本发明实施例所提供的数据的概率密度分布的确定装置可执行本发明任意实施例所提供的数据的概率密度分布的确定方法,具备执行方法相应的功能模块和有益效果。

实施例五

图6是本发明实施例五中的电子设备的结构示意图;其中,电子设备可以包括前端设备和后端设备;如图6所示,该电子设备包括处理器610、存储器620、输入装置630和输出装置640;电子设备中处理器610的数量可以是一个或多个,图6中以一个处理器610为例;电子设备中的处理器610、存储器620、输入装置630和输出装置640可以通过总线或其他方式连接,图6中以通过总线连接为例。

存储器620作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的数据的概率密度分布的确定方法对应的程序指令/模块。处理器610通过运行存储在存储器620中的软件程序、指令以及模块,从而执行电子设备的各种功能应用以及数据处理,即实现本发明实施例所提供的数据的概率密度分布的确定方法。

存储器620可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器620可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器620可进一步包括相对于处理器610远程设置的存储器,这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置630可用于接收输入的数字或字符信息,以及产生与电子设备的用户设置以及功能控制有关的键信号输入,可以包括键盘、鼠标等。输出装置640可包括显示屏等显示设备。

实施例六

本实施例提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于实现本发明实施例所提供的数据的概率密度分布的确定方法。

当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的数据的概率密度分布的确定方法中的相关操作。

通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。

值得注意的是,上述搜索装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。

注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

相关技术
  • 数据的概率密度分布的确定方法、装置、设备和介质
  • 违约概率的确定方法、装置、设备和介质
技术分类

06120112436973