掌桥专利:专业的专利平台
掌桥专利
首页

一种基于大语言模型认知先验的因果发现方法与系统

文献发布时间:2024-04-18 19:59:31


一种基于大语言模型认知先验的因果发现方法与系统

技术领域

本发明涉及人工智能、自然语言处理和机器学习技术领域,尤其涉及一种基于大语言模型认知先验的因果发现方法与系统。

背景技术

在数据驱动的决策和预测中,因果关系的发现是支持人类理解和预测现象的必要技术需求。随着数据规模不断扩大和数据复杂性的增加,影响数据特征之间关系的因素变得越来越复杂和多样化。因果关系的发现从简单的两个变量之间的关系转变为多个变量之间的复杂因果网。在这种复杂的情况下,各种变量并非是独立的,他们之间可能存在复杂的因果关系,不同的影响因素可能直接或间接地导致某个结果的发生。对于这种复杂数据的因果关系发现,需要在大量的数据中针对性地挖掘直接和间接的影响因素,并去除复杂环境中的无关因素,进而减小因果关系发现的复杂性,以精确高效地进行分析。

然而,当前的因果关系发现方法在处理大规模和复杂的数据时,计算复杂性高,需要大量的计算资源,且可能受到样本数量、噪声类型等因素的影响。因此,急需一种新的因果关系发现方案,能够有效地处理大规模和复杂的数据,降低计算复杂性,提高因果关系的发现效率。

申请号为CN202310743834.0的中国发明专利申请《一种基于条件独立性测试和连续优化的因果发现方法》。它通过对数据进行特定的统计测试,来判断两个变量之间是否存在因果关系。然而,这种方法在处理大量数据、复杂情况或噪声数据时,需要大量的计算资源,可能会受到样本数量、噪声类型等因素的影响。

申请号为CN202310518076.2的中国发明专利申请《一种基于互信息度量的时序数据因果发现方法》。它通过度量两个变量之间的信息共享程度,来判断它们是否存在因果关系。但是,这种方法同样面临着处理大规模数据、复杂情景和噪声数据的挑战。

申请号为CN202310588420.5的中国发明专利申请《一种基于因果发现老年慢病的医学风险要素分析方法》。它虽然考虑了医学应用场景和因果关系的复杂性,但在处理大规模的临床数据时,需要大量的计算资源。特别是在处理多元性和复杂性的医学数据时,计算复杂性会显著增加。

申请号为CN202310540168.0的中国专利申请《数字农业信息的分层因果发现方法、装置、介质及设备》。该方案尝试解决农业信息领域中的因果关系发现问题,但在处理大规模,多层次的农业数据时,同样需要大量的计算资源。处理这种大规模变量的计算复杂性会显著增加

以上传统的因果关系发现方案是通过执行特定的算法和统计测试,从而在多维数据中找出特定的关系。然而,这些方案在处理大规模和复杂的数据时,计算复杂性高,需要大量的计算资源,且可能受到样本数量、噪声类型等因素的影响。此外,由于数据的复杂性,低相关度与无关特征可能对现有方法造成较大干扰,难以准确获取精确有效的因果关系。因此,急需一种新的因果关系发现方案,能够有效地处理大规模和复杂的数据,降低计算复杂性,提高因果关系的发现效率。

发明内容

本发明的目的是提供一种基于大语言模型认知先验的因果发现方法与系统,能够有效地处理大规模和复杂的数据,降低计算复杂性,提高因果关系的发现效率和准确性,为数据驱动的决策和预测提供了更为准确和高效的支持。

本发明的目的是通过以下技术方案实现的:

一种基于大语言模型认知先验的因果发现方法,包括:

获取观察数据中待研究变量,并基于大语言模型,获得每一待研究变量的潜在原因集;其中,所述待研究变量为所属研究领域中各类型的术语;

根据待研究变量及其对应的潜在原因集,采用爬山算法或者最大最小爬山算法构建有向无环图来表示待研究变量之间的因果关系。

一种基于大语言模型认知先验的因果发现系统,包括:

基于大语言模型的认知先验获取单元,用于获取观察数据中待研究变量,并基于大语言模型,获得每一待研究变量的潜在原因集;其中,所述待研究变量为所属研究领域中各类型的术语;

基于的语言模型认知先验的因果发现单元,用于根据待研究变量及其对应的潜在原因集,采用爬山算法或者最大最小爬山算法构建有向无环图来表示待研究变量之间的因果关系。

一种处理设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序;

其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现前述的方法。

一种可读存储介质,存储有计算机程序,当计算机程序被处理器执行时实现前述的方法。

由上述本发明提供的技术方案可以看出,启用大语言模型,识别并筛选出每个变量的潜在可能原因,有效地缩小原因集的规模,这种策略显著地减少了搜索空间,使其呈现出指数级的缩减。通过这种方法,实现更为精确和效率更高的因果关系发现。这种利用大语言模型的认知先验来提高因果关系发现的准确性和效率,为数据驱动的决策和预测提供了更为准确和高效的支持。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。

图1为本发明实施例提供的一种基于大语言模型认知先验的因果发现方法的流程图;

图2为本发明实施例提供的一种基于大语言模型认知先验的因果发现系统的示意图;

图3为本发明实施例提供的一种处理设备的示意图。

具体实施方式

下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。

首先对本文中可能使用的术语进行如下说明:

术语“包括”、“包含”、“含有”、“具有”或其它类似语义的描述,应被解释为非排它性的包括。例如:包括某技术特征要素(如原料、组分、成分、载体、剂型、材料、尺寸、零件、部件、机构、装置、步骤、工序、方法、反应条件、加工条件、参数、算法、信号、数据、产品或制品等),应被解释为不仅包括明确列出的某技术特征要素,还可以包括未明确列出的本领域公知的其它技术特征要素。

下面对本发明所提供的一种基于大语言模型认知先验的因果发现方案进行详细描述。本发明实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。本发明实施例中未注明具体条件者,按照本领域常规条件或制造商建议的条件进行。

实施例一

本发明实施例提供一种基于大语言模型认知先验的因果发现方法,如图1所示,其主要包括如下步骤:

步骤1、获取观察数据中待研究变量,并基于大语言模型,获得每一待研究变量的潜在原因集。

本发明实施例中,所述待研究变量为所属研究领域中待研究对象,通常是各类型的术语。示例性的:在医学领域中,待研究变量可以包括:年龄、体重、身高、血压等。

本步骤的优选实施方式如下:

(1)基于大语言模型(LMM),获得每一待研究变量对应的描述性文本、以及所属研究领域。

(2)基于大语言模型,结合每一待研究变量对应的描述性文本、以及所属研究领域,获得每一待研究变量的潜在原因集(也可以称为可能原因集)。

步骤2、根据待研究变量及其对应的潜在原因集,采用爬山算法或者最大最小爬山算法构建有向无环图来表示待研究变量之间的因果关系。

本发明实施例中,采用爬山算法或者最大最小爬山算法构建的有向无环图中各节点对应于待研究变量,待研究变量之间的有向边表示待研究变量之间的因果关系,有向边的方向代表从因到果。

为了更加清晰地展现出本发明所提供的技术方案及所产生的技术效果,下面以具体实施例对本发明实施例所提供的方法进行详细描述。

一、基于大语言模型获取认知先验。

1、获取待研究变量的描述性文本。

本发明实施例中,观察数据为特定领域(例如,医学领域、)中的数据,观察数据中包含了多个待研究变量,以及各个待研究变量在不同样本下的信息(例如,不同样本下的取值)。作为举例:观察数据可以是一个列表形式的数据D,每一行是一组样本,每一列是每一个待研究变量在相应样本下的取值。

本发明实施例中,输入数据D的每列的名字即为对应的待研究的变量,构成一组待研究的变量集合X={x1,x2,…,xn},大语言模型被用于获取相关变量的描述性文本。询问大语言模型的方式按照以下形式:

"请简要解释变量xi"

"请简要说明变量xi的定义"

其中,xi表示任一个待研究变量,i=1,2,..,n,n为待研究变量的数目。

大语言模型的回答被视为相应变量的描述性文本。在完成所有变量的询问之后,可得到描述性文本集合T={t1,t2,…,tn},其中,ti为待研究变量xi对应的描述性文本。这些描述性文本包含了待研究变量的详细解释,有助于提高下一步潜在原因集发现过程的准确率。

2、确定研究领域。

根据待研究变量集合X={x1,x2,…,xn},大语言模型被用于获取相关变量所属的研究领域信息。询问过程如下:

"x1,x2,…,xn属于什么领域的研究范围?"

大语言模型的回答被视为Dm,表示所得到的研究领域。

3、确定潜在原因集。

利用前文介绍的方式获取的描述性文本T和研究领域Dm,以下询问被用于获取每个变量xi的潜在原因集(即,哪些变量可能是xi的直接原因):

"您是Dm方面的专家。您正在调查您的领域中以下变量之间的因果关系。变量及其含义如下。请给我所有直接影响xi的变量。

x1:t1

···

xn:tn"

对此询问的回答被视为变量xi的潜在原因集:

B(xi)=P(X,Dm,T;xi)

其中,P表示上述询问过程。X,Dm,T是提供给大语言模型的各类信息,xi是被询问的变量。令B表示所有潜在原因集B(xi)的集合,其将作为先验用于因果发现方法。

二、基于大语言模型认知先验的因果发现方案。

本发明实施例中,将使用前文介绍的方式获取的潜在原因集B和收集的数据集D来发现待研究变量集X之间的因果关系。因果发现的目标就是推断出这些待研究变量之间的有向关系,以表示因果关系。一种常用的表示方法是使用有向无环图(Directed AcyclicGraph,简称DAG)。在DAG中,节点代表待研究变量,节点之间的弧为有向边,代表待研究变量之间的因果关系,指向的方向即从因到果。

本领域技术人员可以理解,因果发现方法是从数据中挖掘出因果信息。数据集D可以是一个数据表,它的每一行为一组样本,每一列表示一个待研究变量在不同采样下的取值。

本发明实施例中,提供两种实现方式,一种为扩展的爬山算法,另一种为最大最小爬山(MMHC)算法,下面针对两种实现方式分别进行介绍。

1、基于大语言模型认知先验的爬山(HC)因果发现方案。

本方案中,采用了一个扩展的爬山算法,该算法利用了大语言模型的认知先验。爬山算法是一种基于评分和搜索的因果结构学习算法,它通过在DAG上进行迭代的修改操作(包括添加、删除和反转弧)并评估修改后的图的质量分数,来找出最优的因果结构。主要步骤包括:

步骤S11、初始化一个有向无环图(空的有向无环图),所有待研究变量构成节点集。

步骤S12、循环重复如下步骤:

步骤S121、针对有向无环图中的每一个弧变化(包括添加、删除或反转弧,记为ch),使用一个缓存,记录下弧变化后的有向无环图的质量分数,并判断是否属于步骤S122或步骤S123的情况,如果均不属于,则转入步骤S124。

本发明实施例中,质量分数能够反映一个有向无环图与数据D(即观察数据)的匹配程度,将用于指导后续有向无环图的选取。质量分数的选取可以是多样的,作为举例,可以选择贝叶斯评分准则(BIC),赤池评分准则(AIC)等。

步骤S122、弧变化是添加一个从待研究变量xi对应节点到待研究变量xj(j=1,2,..,n,j≠i)对应节点的弧,并且待研究变量xi不在待研究变量xj的潜在原因集中。

步骤S123、弧变化是反转一个从待研究变量xi对应节点到待研究变量xj对应节点的弧,并且待研究变量xj不在待研究变量xi的潜在原因集中。

步骤S124、计算每个弧变化的增量delta[ch],即弧变化后的有向无环图的质量分数减去弧变化前的有向无环图的质量分数。

步骤S125、如果最大的增量大于0,将弧变化设置为使增量最大化的弧变化。

步骤S13:将步骤S125设置的弧变化(即使增量最大化的弧变化)应用到有向无环图上;

步骤S14:重复步骤S12~步骤S13,直到最大的增量小于等于0,获得最终的有向无环图,最终的有向无环图中的有向边代表待研究变量之间因果关系,有向边的方向代表从因到果。

上述方案中,在每一步都尽可能地选择最优的弧变化以改善有向无环图和数据D的匹配程度。通过在每一步都考虑大语言模型产生的潜在原因集,能够有效地利用这些认知先验,从而指导并优化因果发现的过程。

2、基于大语言模型认知先验的最大最小爬山(MMHC)因果发现方案。

本部分介绍如何将大语言模型的认知先验应用于最大最小爬山(Max-Min Hill-Climbing,简称MMHC)的因果发现方法。MMHC是一种发现全局因果结构的启发式算法,它由两个阶段构成:第一阶段是使用最大最小父代(Max-Min Parents and Children,简称MMPC)方法发现每个目标变量的候选原因变量和结果变量;第二阶段是使用HC算法(如前文介绍的方案)从一个空的有向无环图开始,通过添加、删除和反转弧来找出和数据D最优匹配的因果结构。其主要步骤包括:

步骤S21、初始化一个有向无环图(空的有向无环图),所有待研究变量构成节点集。

步骤S22、对于节点集中的每一个节点,执行以下操作:

步骤S221:使用MMPC算法找到节点对应待研究变量x的候选原因变量和结果变量,记为PC(x);MMPC算法是一种启发式算法,可以发现局部骨架结构。

步骤S222:计算待研究变量x的潜在原因集B(x)与PC(x)的交集B'(x)。

步骤S23、使用爬山算法(如前文介绍的方案),从一个初始化的有向无环图开始,通过添加、删除和反转弧,以及利用步骤S22获得各节点对应交集B'(x)作为先验信息,找出最优因果结构,获得与数据D匹配程度最高的有向无环图(称为最终的有向无环图),最终的有向无环图中的有向边代表因果关系,有向边的方向代表从因到果,其中,使用爬山算法时,利用交集B'(x)替换对应的潜在原因集,具体的通过爬山算法获得最终的有向无环图即为执行前文提供的步骤S12~步骤S14,且在步骤S122与步骤S123中使用利用交集B'(x)替换对应的潜在原因集。

上述方案中,首先利用MMPC算法找到每个目标变量的候选原因变量和结果变量,然后将这些信息与大语言模型产生的潜在原因集合并,进一步缩小了搜索空间。然后,算法利用扩展的HC算法,通过迭代的添加、删除和反转弧,找出最优的因果结构。这种方法充分利用了大语言模型的认知先验,从而提高了观察数据中因果发现的效率和准确性,能够更好的为观察数据所属领域后续任务服务,为数据驱动的决策和预测提供了更为准确和高效的支持。

本发明实施例提供以上方案主要获得如下有益效果:

(1)利用了大语言模型的认知先验,即潜在的原因集,为因果发现提供了有益的先验指导。这不仅可以降低搜索空间,从而提高算法的效率,而且可以提供更有可能的因果关系,从而提高因果发现的准确性。

(2)采用的HC算法和MMHC算法都是基于评分和搜索的因果结构学习算法,可以灵活地添加、删除和反转弧,以找出最优的因果结构。通过优化图的质量,这些算法可以发现更准确和全面的因果关系,为数据驱动的决策和预测提供了更为准确和高效的支持。

(3)在基于大语言模型认知先验的最大最小爬山因果发现方案中,首先使用MMPC算法发现每个目标变量的候选原因变量和结果变量,然后使用HC算法发现全局的因果结构。这种结合全局和局部的策略可以更好地发现因果关系,同时也提高了因果发现的鲁棒性。

(4)基于大语言模型,可以广泛应用于各种语言和领域的因果发现任务。尤其是在缺乏足够领域知识的情况下,这种方法可以利用大语言模型的知识,为因果发现提供有益的指导。

为方便说明方案流程,下面给出一个具体的示例,此示例为整个基于大语言模型先验的因果发现方法的详细举例。需要说明的是,以下示例所涉及的具体变量及其数量与描述均为举例,并非构成限制,在实际应用中,用户可根据实际情况选择所需领域中的所需待研究变量。

一、大语言模型认知先验探索举例。

设有一个研究任务,观察数据为列表形式的数据D,其中包含8个医学领域的变量:年龄(x1),性别(x2),体重(x3),身高(x4),血糖(x5),血压(x6),胆固醇(x7)和心脏病历史(x8)。目标是通过应用本发明提出的方法,找出这些变量之间的因果关系。

步骤a1:首先,使用大语言模型(如GPT-4)获取每个变量的描述性文本。例如,询问:

"请简要解释变量X1(年龄)"

大语言模型可能会回答:"年龄是指从出生到现在的时间长度,通常以年为单位。"该回答则为年龄这一待研究变量的描述性文本。

对所有待研究变量执行此步骤,获得描述性文本集合T={t1(年龄的描述),t2(性别的描述),…,t8(心脏病历史的描述)}。

步骤a2:使用大语言模型确定研究领域。

询问:

"年龄,性别,体重,身高,血糖,血压,胆固醇,和心脏病历史属于什么领域的研究范围?"

大语言模型可能会回答:"这些变量属于医学领域,特别是心脏病学和内分泌学的研究范围。"此回答被视为Dm,表示得到的研究领域。

步骤a3:使用描述性文本T和研究领域Dm,询问大语言模型获取每个变量xi的潜在原因集。例如,询问:

"您是心脏病学和内分泌学方面的专家。您正在调查您的领域中以下变量之间的因果关系。变量及其含义如下。请给我所有直接影响血糖(x5)的变量。

年龄(x1):从出生到现在的时间长度,通常以年为单位。

性别(x2):个体的生物性别,通常为男性或女性。

体重(x3):个体的体重,通常以千克为单位。

身高(x4):个体的身高,通常以厘米为单位。

血压(x6):血液对血管壁的压力。

胆固醇(x7):血液中的脂质类物质,对身体健康有重要影响。

心脏病历史(x8):个体是否有心脏病的历史。"

大语言模型可能会回答:"直接影响血糖的变量可能包括年龄,体重,和胆固醇。"

对所有变量执行此步骤,得到每个变量的可能原因集B(xi):

年龄(x1)的潜在原因集:空

性别(x2)的潜在原因集:空

体重(x3)的潜在原因集:{年龄(x1),性别(x2)}

身高(x4)的潜在原因集:{年龄(x1),性别(x2)}

血糖(x5)的潜在原因集:{年龄(x1),体重(x3),胆固醇(x7)}

血压(x6)的潜在原因集:{年龄(x1),体重(x3),心脏病历史(x8)}

胆固醇(x7)的潜在原因集:{年龄(x1),体重(x3)}

心脏病历史(x8)的潜在原因集:{年龄(x1),性别(x2),血压(x6),胆固醇(x7)}。

二、基于大语言模型认知先验的因果发现方案。

1、基于大语言模型认知先验的爬山(HC)因果发现方法举例。

参照前文提供的方案,下面将用具体的例子来说明如何使用潜在原因集B和数据集D来发现变量集X之间的因果关系。这个过程采用了扩展的爬山算法。

步骤b1:初始化一个空的有向无环图(DAG)G,其节点集为所有待研究变量集合X组成。例如,设定X={年龄(x1),性别(x2),体重(x3),身高(x4),血糖(x5),血压(x6),胆固醇(x7)和心脏病历史(x8)},这些都是研究中需要考虑的变量。

步骤b2:开始迭代过程。在每一次迭代中,考虑图G中的所有可能的弧变化,包括添加弧、删除弧或反转弧。所有的弧变化都必须遵守不能创建环的规则。

步骤b2.1:针对每一个可能的弧变化ch,首先根据潜在原因集的约束进行筛选。如果弧变化是添加一个从"年龄"到"体重"的弧,但"年龄"不在"体重"的潜在原因集B("体重")中,则忽略这个弧变化。如果弧变化是反转一个从"年龄"到"体重"的弧,但"体重"不在"年龄"的潜在原因集B("年龄")中,也忽略这个弧变化。

步骤b2.2:计算每个弧变化的增量delta[ch],即G加上弧变化后的缓存分数减去G的缓存分数。这个增量可以显示每个弧变化对图G质量的影响。

步骤b3:选择出使增量最大的弧变化,并将其应用到图G上。这样做可以改善图G的质量。

步骤b4:如果最大的增量小于等于0,结束迭代。此时,返回图G作为最佳的因果结构。

此方案利用潜在原因集B来引导搜索过程,从而更有效地发现因果关系。这是一个有效利用大型语言模型认知先验的例子,通过引导和优化因果发现过程,可以找到更准确、更有用的因果关系。

2、基于大语言模型认知先验的最大最小爬山(MMHC)因果发现方法举例。

此部分将介绍如何将大语言模型的认知先验应用于最大最小爬山的因果发现方法。

假定仍然在研究的变量集是X={年龄(x1),性别(x2),体重(x3),身高(x4),血糖(x5),血压(x6),胆固醇(x7)和心脏病历史(x8)}。

步骤c1:初始化一个空的有向无环图(DAG)G,其节点集所有待研究变量集合X组成。

步骤c2:对于X中的每一个待研究变量x,执行以下操作:

步骤c2.1:使用MMPC算法找到待研究变量x的候选原因变量和结果变量,记为PC(x)。

例如,以体重作为待研究变量x,MMPC可能找到的候选原因变量和结果变量PC(x)=(年龄,性别,身高)。此阶段无需区分哪些区分具体的候选原因变量和结果变量。

步骤c2.2:计算B(x)(即x的潜在原因集)与PC(x)的交集,记为B'(x)。例如,如果"体重"的潜在原因集B("体重")是"年龄","性别"和"饮食习惯",那么B'("体重")就是"年龄"和"性别",因为"饮食习惯"没有在PC("体重")中。

步骤c3:使用扩展的HC算法,从一个空的有向无环图开始,通过添加、删除和反转弧,以及利用B'作为先验信息,找出最优的因果结构,更新图G。

步骤c4:返回图G作为结果。

上述方案中,首先利用MMPC算法找到每个目标变量的候选原因变量和结果变量,然后将这些信息与大语言模型产生的潜在原因集合并,进一步缩小了搜索空间。然后,算法利用扩展的HC算法,通过迭代的添加、删除和反转弧,找出最优的因果结构。这种方法充分利用了大语言模型的认知先验,从而提高了因果发现的效率和准确性。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,上述实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。

实施例二

本发明还提供一种基于大语言模型认知先验的因果发现系统,其主要用于实现前述实施例提供的方法,如图2所示,该系统主要包括:

基于大语言模型的认知先验获取单元,用于获取观察数据中待研究变量,并基于大语言模型,获得每一待研究变量的潜在原因集;其中,所述待研究变量为所属研究领域中各类型的术语;

基于的语言模型认知先验的因果发现单元,用于根据待研究变量及其对应的潜在原因集,采用爬山算法或者最大最小爬山算法构建有向无环图来表示待研究变量之间的因果关系。

本发明实施例中,所述基于大语言模型,获得每一待研究变量的潜在原因集包括:

基于大语言模型,获得每一待研究变量对应的描述性文本、以及所属研究领域;

基于大语言模型,结合每一待研究变量对应的描述性文本、以及所属研究领域,获得每一待研究变量的潜在原因集。

本发明实施例中,采用爬山算法构建有向无环图来表示待研究变量之间的因果关系的步骤包括:

步骤S11、初始化一个有向无环图,所有待研究变量构成节点集;

步骤S12、循环重复如下步骤:

步骤S121、针对有向无环图中的每一个弧变化,使用一个缓存,记录下弧变化后的有向无环图的质量分数,并判断是否属于步骤S122或步骤S123的情况,如果均不属于,则转入步骤S124;其中,质量分数能够反映一个有向无环图与观察数据的匹配程度,节点之间的弧为有向边;

步骤S122、弧变化是添加一个从待研究变量xi对应节点到待研究变量xj对应节点的弧,并且待研究变量xi不在待研究变量xj的潜在原因集中;

步骤S123、弧变化是反转一个从待研究变量xi对应节点到待研究变量xj对应节点的弧,并且待研究变量xj不在待研究变量xi的潜在原因集中;

步骤S124、计算每个弧变化的增量,即弧变化后的有向无环图的质量分数减去弧变化前的有向无环图的质量分数为弧变化的增量;

步骤S125、如果最大的增量大于0,将弧变化设置为使增量最大化的弧变化;

步骤S13:将步骤S125设置的弧变化应用到有向无环图上;

步骤S14:重复步骤S12~步骤S13,直到最大的增量小于等于0,获得最终的有向无环图,最终的有向无环图中的有向边代表待研究变量之间因果关系,有向边的方向代表从因到果。

本发明实施例中,采用最大最小爬山算法构建有向无环图来表示待研究变量之间的因果关系的步骤包括:

步骤S21、初始化一个有向无环图,所有待研究变量构成节点集;

步骤S22、对于节点集中的每一个节点,执行以下操作:

步骤S221:使用最大最小父代算法找到节点对应待研究变量x的候选潜在原因变量和结果变量,记为PC(x);

步骤S222:计算待研究变量x的潜在原因集与PC(x)的交集B'(x);

步骤S23、使用爬山算法,从一个初始化的有向无环图开始,通过添加、删除和反转弧,以及利用步骤S22获得各节点对应交集B'(x)作为先验信息,找出最优因果结构,获得最终的有向无环图,最终的有向无环图中的有向边代表因果关系,有向边的方向代表从因到果,其中,使用爬山算法时,利用交集B'(x)替换对应的潜在原因集,具体的通过爬山算法获得最终的有向无环图即为执行前文提供的步骤S12~步骤S14,且在步骤S122与步骤S123中使用利用交集B'(x)替换对应的潜在原因集。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将系统的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。

实施例三

本发明还提供一种处理设备,如图3所示,其主要包括:一个或多个处理器;存储器,用于存储一个或多个程序;其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现前述实施例提供的方法。

进一步的,所述处理设备还包括至少一个输入设备与至少一个输出设备;在所述处理设备中,处理器、存储器、输入设备、输出设备之间通过总线连接。

本发明实施例中,所述存储器、输入设备与输出设备的具体类型不做限定;例如:

输入设备可以为触摸屏、图像采集设备、物理按键或者鼠标等;

输出设备可以为显示终端;

存储器可以为随机存取存储器(Random Access Memory,RAM),也可为非不稳定的存储器(non-volatile memory),例如磁盘存储器。

实施例四

本发明还提供一种可读存储介质,存储有计算机程序,当计算机程序被处理器执行时实现前述实施例提供的方法。

本发明实施例中可读存储介质作为计算机可读存储介质,可以设置于前述处理设备中,例如,作为处理设备中的存储器。此外,所述可读存储介质也可以是U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。

相关技术
  • 一种改性光纤及其激光治疗仪
  • 一种用于激光治疗仪的光纤工作尖结构及激光治疗仪
技术分类

06120116520513