掌桥专利:专业的专利平台
掌桥专利
首页

类人行为决策模型的推理算法

文献发布时间:2023-06-19 11:49:09


类人行为决策模型的推理算法

技术领域

本发明属于人机交互技术领域,尤其涉及一种类人行为决策模型的推理算法。

背景技术

在智能机器人服务研究中,机器人在完成某项任务的过程中,大都是通过靠人实现编程来建立特定的规则库、知识库和推理机制进行任务规划,针对单一特定的环境信息和用户行为信息来进行分析,没有体现出机器人智能性决策,这极大的制约了服务机器人的自主认知性。社会对于服务机器人的需求量逐渐增加,人们对于服务器人的服务水平有了更高的期待,服务机器人在服务人类时,机器人不仅仅需要简单的完成任务,更需要机器人具有与人相似的思维推理与决策的能力,体现出机器人服务的智能性,在服务过程中应以人为本的角度出发,使得用户对任务的执行过程更加的满意,使服务机器人帮助用户高效的完成各种服务任务。

由此可见,通过把握人类认知行为决策和人工智能的本质,模拟人类思维推理和决策的方式使模糊、不确定的任务变得清晰具体的过程,推测出人类的真正意图,并且将其描述为相应的语言变量传递给机器人,来构建具有类似人类智能推理与决策的机器人。

因此,如何提供模拟人类思维推理和决策过程的方法,是本领域技术人员亟待解决的技术问题。

发明内容

本发明就是针对上述问题,提供一种类人行为决策模型的推理算法。

为实现上述目的,本发明采用如下技术方案,本发明包括感知层、评估层、决策层,其特征在于在感知层中用产生式系统结构的方法进行行为认知建模,把产生式作为人工智能系统中一个基本的知识结构单元,将产生式系统当做一种基本模式,并用产生式规则表示推理过程和行为,采用产生式规则表示因果关系,表示知识之间的规则,模拟人类求解问题时的逻辑思维推理过程;

在评估层中,服务机器人根据感知层输出的模糊状态信息,参照知识库中包含的经验和先验知识来理解、判断当前的态势,采用以认知为主的行为建模方法;

在决策层中,服务机器人根据评估层评估的结果,通过人机交互方式来询问用户的意见,最后决策出最终的目标任务,如果用户不能做出决策,根据先验知识和常识进行决策,并把最终的结果反馈到综合数据库和知识库中,以此来更新各层在推理判断时的结论信息。

作为一种优选方案,本发明所述产生式系统包括综合数据库(Global Database)、产生式规则库(Set of Product Rules)和控制系统(Control System);

综合数据库用于存放求解过程中各种当前任务信息的数据结构,其中的数据是产生式规则的处理对象,当规则库中某条产生式规则的前提与综合数据库中的事实相匹配时,该规则库就被激活,并把其推理的结论作为新的事实存入到综合数据库中,成为后面推理的已知事实;

产生式规则库是用于描述应用领域的常识和启发式知识,用来存放产生式规则,产生式规则库是某领域知识用规则行事表示的集合,其中包括将问题从初始的状态转换到目标状态的所有变换规则;这些规则描述了问题领域的一般性知识,规则库是产生式系统进行问题求解的基础;

控制系统是产生式系统的推理机;它是产生式规则的解释程序,利用规则库中的规则对综合数据库中的数据来进行逻辑操作;控制系统负责产生式规则前提或条件与综合数据库中的数据进行匹配,将所有匹配成功的规则按一定的逻辑运算进行推理,并在合适的时候结束产生式系统的运行,并且决定任务对象中的种类、属性的优先级推理顺序,当推理不出结论时,通过人机交互询问用户提供进一步的事实集,进行推理和判断。

作为另一种优选方案,本发明所述产生式规则的处理对象包括任务的初始状态信息、输入的事实或证据、中间推理结论、用户回答的问题、匹配成功的规则的结论、最终推理结果。

作为另一种优选方案,本发明存放推理时用到的先验知识、新增加的特定任务信息在综合数据库中设定任务对象的属性为三个,属性的状态表示各为两个。

作为另一种优选方案,本发明在推理和行为认知过程中用产生式规则,其形式为:IF P THEN Q,其中P为规则使用的前提;Q为规则条件满足时所得的结论。

作为另一种优选方案,本发明所述产生式系统中控制系统(推理机)采用正向推理的方式,按照综合数据库中给定的事实集推理出任务对象结论的方向进行的推理方式;推理过程是:

步骤一:根据用户给出的任务指令中向综合数据库提供一些初始已知事实,控制系统利用当前的数据与产生式规则库中规则的前提条件进行匹配,判断综合数据库中是否有包含问题的解,有则任务完成,否则进行步骤二;

步骤二:遍历产生式规则中的规则,如果匹配成功,被触发规则的后件将作为新的事实添加到综合数据库中,用更新过的综合数据库中的事实再与规则库中规则进行匹配,将其结论部分更新至综合数据库中,匹配失败则放弃该规则;

步骤三:重复步骤二的过程直到没有可匹配的产生式规则和不再有新的事实加入到综合数据库中为止,并将所有匹配成功的规则的后采用集合运算方法后构成一个知识集,得到匹配的规则集合,有解则表示推理得出任务目标,无解则通过人机交互询问用户提供进一步的事实集,进行推理和判断。

其次,本发明所述评估层中的建模方法采用贝叶斯网络,评估层加入学习器,通过决策层的反馈来改造知识库,在基于贝叶斯网络方法评估过程中,通过连接学习器,通过有监督的学习对知识库中的参数施加影响和改进;通过贝叶斯网络推理的方法评估推理,然后将评估的态势信息至决策层进行决策判断,其中知识库包含先验知识,以及贝叶斯网络形式推理知识(即贝叶斯网络的结构和参数)。

另外,本发明所述利用贝叶斯网络进行推理分析有四个步骤:

步骤一:确定任务对象中问题的向量及其状态表示,定义节点,构建贝叶斯网络,根据节点之间关系构建有向无环图;

步骤二:构建条件概率表,主要是根据经验初步生成的,带有一定的主观性;

步骤三:利用贝叶斯网络推理;

步骤四:更新贝叶斯网络。

本发明有益效果。

本发明提供一种服务机器人类人行为决策模型的推理算法,该方法通过类人行为决策模型分层框架结构(附图2),分为感知层、评估层、决策层三层来模拟人类行为推理决策,根据感知层、评估层和决策层模型各层的特点,给出了实现各层功能的方法,分别采用产生式系统、以认知为主的行为建模方法、人机交互询问方式进行决策的方法来模拟人类认知行为的模糊性和不确定性。首先在感知层接受到任务信息,把产生式系统作为人工智能的的主要结构,通过产生式规则基于不同任务信息建立相应的任务对象的种类规则库和属性规则库,模拟人类求解问题时的思维过程;然后在评估层中,服务机器人根据感知层输出的历史状态和当前状态信息与事件,并且参照知识库中包含的经验和先验知识以及贝叶斯网络的结构和参数来理解、判断当前的态势信息,评估下一步出现的各种事件和态势条件的可能性(概率大小)。最后在决策层中,服务机器人根据评估层评估的结果,再根据知识库中的先验知识,并以人机交互的方式以最少的交互次数获得更多的信息量完成最终的决策,从而确定最终的任务对象种类和属性,并把最终的结果反馈到感知层和评估层中,来更新综合数据库储存的信息和知识库中贝叶斯网络的结构和参数。

附图说明

下面结合附图和具体实施方式对本发明做进一步说明。本发明保护范围不仅局限于以下内容的表述。

图1是本发明的一种类人行为决策模型的推理算法。

图2是使用者使用本发明所述的类人行为决策模型分层框架结构。

图3~6是本发明有向无环图。

图7、8是图1的局部放大图。

具体实施方式

如图所示,本发明算法通过类人行为决策模型分层框架结构(附图2),分为感知层、评估层、决策层三层来模拟人类行为推理决策,根据感知层、评估层和决策层模型各层的特点,给出了实现各层功能的方法,分别采用产生式系统、贝叶斯网络、人机交互询问方式进行决策的方法来模拟人类认知行为的模糊性和不确定性;

在感知层中用产生式系统结构的方法进行行为认知建模,把产生式作为人工智能系统中一个基本的知识结构单元,从而将产生式系统当做一种基本模式,并用产生式规则表示推理过程和行为,采用产生式规则可表示因果关系的知识,清晰明确地表示知识之间的规则,表示形式与人类求解问题时的逻辑思维相似,合理且易于理解,以此来模拟人类求解问题时的逻辑思维推理过程。产生式系统由三部分组成,即综合数据库(GlobalDatabase),产生式规则库(Set of Product Rules)和控制系统(Control System)。

在类人行为决策模型推理算法中,综合数据库是用于存放求解过程中各种当前任务信息的数据结构,其中的数据是产生式规则的处理对象,如任务的初始状态信息、输入的事实或证据,中间推理结论,用户回答的问题,匹配成功的规则的结论,最终推理结果,当规则库中某条产生式规则的前提与综合数据库中的事实相匹配时,该规则库就被激活,并把其推理的结论作为新的事实存入到综合数据库中,成为后面推理的已知事实。存放推理时用到的先验知识,新增加的特定任务信息。在综合数据库中设定任务对象的属性为三个,属性的状态表示各为两个。

产生式规则库是用于描述应用领域的常识和启发式知识,用来存放产生式规则,产生式规则库是某领域知识用规则行事表示的集合,其中包括将问题从初始的状态转换到目标状态的所有变换规则。这些规则描述了问题领域的一般性知识,规则库是产生式系统进行问题求解的基础。在推理和行为认知过程中用产生式规则,其一般形式为:IF P THENQ,其中P为规则使用的前提;Q为规则条件满足时所得的结论。

控制系统是产生式系统的推理机。它是产生式规则的解释程序,利用规则库中的规则对综合数据库中的数据来进行逻辑操作。控制系统负责产生式规则前提或条件与综合数据库中的数据进行匹配,将所有匹配成功的规则按一定的逻辑运算进行推理,并在合适的时候结束产生式系统的运行,并且决定任务对象中的种类、属性的优先级推理顺序,当推理不出结论时,通过人机交互询问用户提供进一步的事实集,进行推理和判断。

产生式系统中控制系统(推理机)采用正向推理的方式,它是按照综合数据库中给定的事实集推理出任务对象结论的方向进行的推理方式。推理过程是:

步骤一:根据用户给出的任务指令中向综合数据库提供一些初始已知事实,控制系统利用当前的数据与产生式规则库中规则的前提条件进行匹配,判断综合数据库中是否有包含问题的解,有则任务完成,否则进行步骤二;

步骤二:遍历产生式规则中的规则,如果匹配成功,被触发规则的后件将作为新的事实添加到综合数据库中,用更新过的综合数据库中的事实再与规则库中规则进行匹配,将其结论部分更新至综合数据库中,匹配失败则放弃该规则;

步骤三:重复步骤二的过程直到没有可匹配的产生式规则和不再有新的事实加入到综合数据库中为止,并将所有匹配成功的规则的后采用集合运算方法后构成一个知识集,得到匹配的规则集合,有解则表示推理得出任务目标,无解则通过人机交互询问用户提供进一步的事实集,进行推理和判断。

在评估层中,服务机器人根据感知层输出的模糊状态信息,参照知识库中包含的经验和先验知识来理解、判断当前的态势,采用一种以认知为主的行为建模方法,采用方法是贝叶斯网络。由于人在推断和决策过程中,存在下意识强化经验知识以及主动学习和更新知识结构的行为,因此评估层可加入学习器,以便能够通过决策层的反馈来改造知识库,在基于贝叶斯网络方法评估过程中,也可以通过连接学习器,通过有监督的学习对知识库中的参数施加影响和改进在。通过贝叶斯网络推理的方法评估推理,然后将评估的态势信息至决策层进行决策判断,其中知识库包含先验知识,以及贝叶斯网络形式推理知识(即贝叶斯网络的结构和参数)。利用贝叶斯网络进行推理分析主要有四个步骤:

步骤一:确定任务对象中问题的向量及其状态表示,定义节点,构建贝叶斯网络,根据节点之间关系构建有向无环图;

步骤二:构建条件概率表,主要是根据经验初步生成的,带有一定的主观性。

步骤三:利用贝叶斯网络推理。

步骤四:更新贝叶斯网络。贝叶斯网络中的各个因素也是在不停的发生变化的,可能在某一个时间有了一个确定的结果。

在决策层中,服务机器人根据评估层评估的结果,通过人机交互方式来询问用户的意见,以最少的交互次数获得更多的信息量来完成决策,最后决策出最终的目标任务,如果用户不能做出决策,根据先验知识和常识进行决策,这样更符合人类思维推理和决策的过程,并把最终的结果反馈到综合数据库和知识库中,以此来更新各层在推理判断时的结论信息。

以老人吃水果的任务为例,假设老人牙口良好,肠胃不好,按照任务对象中的种类、属性的优先级进行推理,其中任务对象中的属性设定为三个,属性的状态表示各为两个,在推理出的结论都存在的条件下,该类人行为决策模型的算法推理过程如下:

①首先根据任务中已知的信息得出任务对象种类未知,再判断得出数据库中没有包含目标任务的解,建立基于任务对象的种类规则库,服务机器人根据时间段和环境信息得到的初始事实集为:春天季节|下午,表1为基于任务对象的种类规则库;

②依次取种类数据库中规则,用规则的前件与数据库中初始事实集进行匹配,取规则R1匹配成功,将此规则的结论作为新事实加入到数据库中的初始事实集中,初始事实集变为:春天季节|下午|中性或凉性;取规则R2时匹配不成功;取规则R3时不成功;当取规则R4时不成功,得到初始事实集变为春天季节|下午|中性或凉性|凉性;取规则R5成功;取规则R6、R7均不成功,取规则R8时成功,可推理得出老人要吃梨或草莓;

表1基于任务对象的种类规则库

用贝叶斯网络方法表示出在推理任务对象种类时,该问题的向量及其状态表示,定义节点,构建贝叶斯网络,根据节点之间关系构建有向无环图,如图3所示:

③用贝叶斯网络方法表示出在推理梨和草莓概率时,该问题的向量及其状态表示为:时间(早晚、下午)、环境(春夏季节、秋冬季节)、水果(梨、草莓),构建贝叶斯网络,根据节点之间关系构建有向无环图,如图4所示:

在时间和环境已知的条件下,梨和草莓的概率分别表示为:

P(F=P|T=A,E=SS),P(F=S|T=A,E=SS),其中,F=P表示梨,F=S表示草莓,T=A表示下午时间,E=SS表示春夏季节。

根据贝叶斯公式

假设在春夏季节的100天内只考虑老人吃梨和草莓的条件下,

D(F=P)=60,D(F=S)=40,D(T=A|F=P)=15,D(T=A|F=S)=12

可得到:

P(T=A,E=SS|F=P)=1/4,P(T=A,E=SS|F=S)=3/10

根据实际情况将时间分为早晚和下午两个时间段,环境分为春夏季节和秋冬季节,可得到P(T)=(2/3,1/3),P(E)=(1/2,1/2)。

由于时间和环境信息(季节)相对独立,可得:

P(T=A,E=SS)=P(T=A)P(E=SS)=1/6

根据综合数据库中可知环境信息为春夏季节,假设在春夏季节的100天内各时间段梨和草莓的天数分布如表2所示,已知在老人吃梨和草莓的条件下,建立时间和环境信息条件概率如表3所示。

表2在春夏季节的100天内各时间段梨和草莓的天数分布

表3基于水果种类下时间与环境信息的条件概率

故可得出:

P(T=A,E=SS,F=P)=P(F=P)×P(T=A,E=SS|F=P)=3/5×1/4=3/20

P(T=A,E=SS,F=S)=P(F=S)×P(T=A,E=SS|F=S)=2/5×3/10=3/25

因为9/10>18/25,所以可得出老人吃梨的概率大。

④在评估层中通过贝叶斯网络计算得出梨的概率大,然后根据综合数据库中的任务信息判断得出任务对象的属性不满三个,建立基于梨的属性规则库(表4),用综合数据库中已知的事实匹配基于梨的属性规则库可以得出老人吃软的或硬的、小的、常温的梨;

表4基于梨的属性规则库

在基于任务对象种类基础上用贝叶斯网络方法表示出在推理任务对象属性时,该问题的及其状态表示,定义节点,构建贝叶斯网络,根据节点之间关系构建有向无环图,如图5所示:

⑤用贝叶斯网络方法表示出在推理软、硬梨概率时,该问题的向量和状态表示:时间(早晚、下午)、环境(春夏季节、秋冬季节)、口感(软的、硬的),构建贝叶斯网络,根据节点之间关系构建有向无环图,如图6所示:

根据贝叶斯公式

假设在春夏季节100天内只考虑老人吃梨和草莓的条件下,D(M=S)=60,D(M=H)=40,D(M=S|T=A,F=P)=12,D(M=H|T=A,F=P)=10

可得到:

P(M=S)=3/5,P(M=H)=2/5,P(T=A,E=SS,F=P|M=S)=1/5,

P(T=A,E=SS,F=P|M=H)=1/4

在时间、环境信息和老人吃梨已知的条件下,软、硬梨的概率分别表示为:P(M=S|T=A,E=SS,F=P),P(M=H|T=A,E=SS,F=P),其中,M=S表示软的,M=H表示硬的。

根据综合数据库中可知环境信息为春夏季节,假设在春夏季节的100天内各时间段老人吃软、硬梨天数分布如表5所示,已知在老人吃软、硬梨的条件下,建立时间和环境信息条件概率表如6所示。

表5在春夏季节的100天内各时间段软、硬梨的天数分布

表6基于时间、环境信息和梨下口感的条件概率

故可得出:

因为4/5>2/3,所以可得出老人吃软梨的概率大。

⑥将评估层评估的态势信息至决策层中,再根据知识库中的先验知识,并以人机交互方式进行决策规划。首先判断是否有新增加特定任务信息,假设没有新增加的任务信息,判断推理出的任务对象的个数,假设推理出任务对象个数为一个,再判断老人是否可以做出决策,假设老人可以做出决策,然后通过人机交互的方式询问老人是否同意推理的结论,假设老人同意该结论,则最终可以得出老人要吃软的、小的、常温的梨。

各公式中T表示时间变量,E表示环境变量,F表示水果变量,S表示形状变量,M表示口感变量,Tem表示温度变量,D表示天数,B表示贝叶斯公式中的事件。

如图1所示,本发明提供一种服务机器人类人行为决策模型的推理算法其中,该算法通过类人行为决策模型分层框架结构(附图2),分为感知层、评估层、决策层三层来模拟人类行为推理决策,根据感知层、评估层和决策层模型各层的特点,给出了实现各层功能的方法,分别采用产生式系统、贝叶斯网络、人机交互询问方式进行决策的方法来模拟人类认知行为的模糊性和不确定性。在模拟人类逻辑思维推理的过程中,考虑了用户的个性特点(如沟通有障碍,语言表达能力弱,选择恐惧症等),关注用户的某些特定信息(如用户的身体状况和偏好),考虑新增加的目标相关特定信息。假设推理出的结论都存在的条件下,并且按照任务对象中的种类、属性的优先级进行推理,其中任务对象中的属性设定为三个,属性的状态表示各为两个。

在感知层中用产生式系统结构的方法进行行为认知建模,把产生式作为人工智能系统中一个基本的知识结构单元,从而将产生式系统当做一种基本模式,产生式系统由三部分组成,即综合数据库(Global Database),产生式规则库(Set of Product Rules)和控制系统(Control System)。产生式系统中的控制系统(推理机),它采用正向推理的方式,它是按照综合数据库中给定的事实集推理出任务对象结论的方向进行的推理方式。

在评估层中,服务机器人根据感知层输出的模糊状态信息,参照知识库中包含的经验和先验知识来理解、判断当前的态势,采用一种以认知为主的行为建模方法,采用方法是贝叶斯网络。首先确定任务对象中问题的向量及其状态表示,定义节点,构建贝叶斯网络,根据节点之间关系构建有向无环图;然后构建条件概率表,进行贝叶斯网络推理,最后确定评估推理的结果。

在决策层中,服务机器人根据评估层评估的结果,再根据知识库中的先验知识,并以人机交互的方式以最少的交互次数获得更多的信息量完成最终的决策,从而确定最终的任务对象种类和属性,并把最终的结果反馈到感知层和评估层中,来更新综合数据库储存的信息和知识库中贝叶斯网络的结构和参数。

如图2所示,本发明另一方面还提供一种类人行为决策模型分层框架结构,其中,该方法包括:

感知处理、态势评估、决策规划等三层来模拟人类行为逻辑推理与决策,分别简称为感知层、评估层、决策层,该算法在突出人的感知过程的同时,加入了决策层与各层之间反馈联系,增强了决策目标任务下人的主动认知行为,并加入了实时在线学习机制,并以产生式系统作为主线,给出了实现各层功能的方法,根据感知层、评估层和决策层模型各层的特点,给出了实现各层功能的方法,分别采用产生式系统、贝叶斯网络、人机交互询问方式进行决策的方法来模拟人类认知行为的模糊性和不确定性,实现了模拟人自主学习、对不确定因素和经验的分析处理等的建模过程,可以很好地描述人的认知行为过程。

可以理解的是,以上关于本发明的具体描述,仅用于说明本发明而并非受限于本发明实施例所描述的技术方案,本领域的普通技术人员应当理解,仍然可以对本发明进行修改或等同替换,以达到相同的技术效果;只要满足使用需要,都在本发明的保护范围之内。

相关技术
  • 类人行为决策模型的推理算法
  • 无人驾驶行为决策及模型训练的方法、装置及电子设备
技术分类

06120113065884