掌桥专利:专业的专利平台
掌桥专利
首页

基于学习模型的佛学知识识别方法、装置、设备及介质

文献发布时间:2023-06-19 11:57:35


基于学习模型的佛学知识识别方法、装置、设备及介质

技术领域

本发明涉及人工智能领域,尤其涉及一种基于学习模型的佛学知识识别方法、装置、设备及介质。

背景技术

近些年来,佛学的爱好者与研究者与日俱增,对佛学知识的搜索、问答也与日俱增,需要提升互联网上对佛学知识的管理,以为不同的佛学用户提高更加便捷的服务。在不同佛教传统中,产生了不同的学派,不同之学派之间对应的佛学知识不同,佛学知识的体系庞大、涉及面广且复杂,产生了对佛学知识的体系分类进行识别的需求,对佛学知识进行体系分类识别后,可以对不同的佛学知识和相关用户进行分门别类的管理,从而降低管理难度。

但目前市面上尚未有完善的佛学知识识别方法,发明人发现,现有的佛学知识识别方法主要依赖于人工标注分类,进行人工标注的人需要具有一定的佛学知识,学习成本、人工成本较大,导致对佛学知识进行体系分类的效率不高。而部分识别方法通过采用传统分类模型对佛学知识进行分类识别,以提高分类的效率,但传统分类模型虽然提高了佛学知识的分类效率,但由于佛学问题的界定较模糊,采用传统分类模型难以对佛学知识的体现分类进行准确识别,传统分类模型进行佛学知识体系分类识别的准确率较低。

发明内容

本发明提供一种基于学习模型的佛学知识识别方法、装置、设备及介质,以解决采用传统的分类模型难以进行分类识别,导致分类识别的准确率较低的问题。

一种基于学习模型的佛学知识识别方法,包括:

获取需要进行佛学知识体系分类的待识别数据;

获取预先根据预设佛学知识分类数据训练获得的预设分类模型,所述预设佛学知识分类数据为对佛学领域知识相关的问答数据进行多个维度分类标注后的多标签分类数据;

将所述待识别数据输入所述预设分类模型,并获得所述预设分类模型输出的类型标签;

按照所述类型标签将所述待识别数据进行分类,并将分类后的所述待识别数据作为所述预设分类模型的新增训练数据,以更新所述预设分类模型。

进一步地,所述预设分类模型通过如下方式获得:

获取佛学领域知识相关的所述问答数据;

对所述问答数据拆解为多个问句以及所述问句对应的答案,获得拆解数据;

对所述拆解数据进行问句动机分类标注和宗派体系分类标注,以获得所述预设佛学知识分类数据;

根据所述预设佛学知识分类数据和佛学领域的预训练模型进行模型训练,以获得所述预设分类模型。

进一步地,所述对所述拆解数据进行问句动机分类标注和宗派体系分类标注,以获得所述预设佛学知识分类数据,包括:

利用预设动机分类模型对所述拆解数据中的问句进行动机分类标注,以获得包括不同动机标签的问句以及所述对应答案的动机分类数据,所述预设动机分类模型为根据人工标注的佛学训练数据和分类算法训练获得的动机分类模型;

确定所述动机分类数据中各问句及所述对应答案的宗派体系类别,以获得包括不同宗派标签的所述预设佛学知识分类数据。

进一步地,所述确定所述动机分类数据中各问句及所述对应答案的宗派体系类别,以获得包括不同宗派标签的所述预设佛学知识分类数据,包括:

采用无监督聚类方法对所述动机分类数据进行聚类,获得所述动机分类数据的多个聚类关键词;

识别所述聚类关键词所属的佛学知识标签,并将所述聚类关键词对应的问句和答案标注为所述所属的佛学知识标签;

获取佛学专家对所述聚类关键词进行宗派体系标注的宗派标注结果;

根据所述宗派标注结果确定所述动机分类数据中各问句及对应答案的宗派标签,以获得所述预设佛学知识分类数据。

进一步地,所述利用预设动机分类模型对所述拆解数据中的问句进行动机分类标注,以获得包括不同动机标签的问句以及所述对应答案的动机分类数据,包括:

获取多个表示不同动机标签的提问模板句式;

确定所述拆解数据中的问句是否与所述提问模板句式匹配;

若所述拆解数据中的问句与所述提问模板句式匹配,则将所述拆解数据中的问句标注为所述提问模板句式对应的动机标签;

若所述拆解数据中的问句与所述提问模板句式不匹配,则获取所述预设动机分类模型,并利用所述预设动机分类模型对不匹配的问句进行动机分类标注,以获得所述动机分类数据。

进一步地,所述确定所述拆解数据中的问句是否与所述提问模板句式匹配,包括:

利用命名实体识别模型对所述拆解数据中的问句进行实体识别,以确定所述问句中的实体关键词;

将所述实体关键词置入所述提问模板句式中,确定所述提问模板句式的句式是否发生变化;

若所述提问模板句式的句式未发生变化,则确定所述拆解数据中的问句与所述提问模板句式匹配;

若所述提问模板句式的句式发生变化,则确定所述拆解数据中的问句与所述提问模板句式不匹配。

进一步地,所述对所述问答数据拆解为多个问句以及所述问句对应的答案,获得拆解数据,包括:

对所述问答数据进行数据清洗,获得清洗问答数据,所述数据清洗包括繁简转换、全角半角转换、去除停用词和敏感词;

确定所述清洗问答数据中的各句子是否存在问号;

若所述清洗问答数据中的句子存在所述问号,则提取以所述问号结尾的句子,作为所述清洗问答数据的问句;

若所述清洗问答数据中的句子不存在所述问号,则对不存在所述问号的句子进行句法分析,以拆解出所述清洗问答数据中的所有问句;

利用机器阅读理解模型在所述问句对应的原答案中抽取答案片段,作为所述问句对应的答案,以获得所述拆解数据。

一种基于学习模型的佛学知识识别装置,包括:

第一获取模块,用于获取需要进行佛学知识体系分类的待识别数据;

第二获取模块,用于获取预先根据预设佛学知识分类数据训练获得的预设分类模型,所述预设佛学知识分类数据为对佛学领域知识相关的问答数据进行多个维度分类标注后的多标签分类数据;

输入模块,用于将所述待识别数据输入所述预设分类模型,并获得所述预设分类模型输出的类型标签;

分类模块,用于按照所述类型标签将所述待识别数据进行分类,并将分类后的所述待识别数据作为所述预设分类模型的新增训练数据,以更新所述预设分类模型。

一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述基于学习模型的佛学知识识别方法的步骤。

一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述基于学习模型的佛学知识识别方法的步骤。

上述基于学习模型的佛学知识识别方法、装置、设备及介质所提供的一个方案中,通过获取需要进行佛学知识体系分类的待识别数据,并获取预先根据预设佛学知识分类数据训练获得的预设分类模型,预设佛学知识分类数据为对佛学领域知识相关的问答数据进行多个维度分类标注后的多标签分类数据,然后将待识别数据输入预设分类模型,并获得预设分类模型输出的类型标签,最后按照类型标签将待识别数据进行分类,并将分类后的待识别数据作为预设分类模型的新增训练数据,以更新预设分类模型;本发明中,通过对佛学领域知识相关的问答数据进行多个维度分类标注后获得多标签分类数据,并根据多标签分类数据训练出预设分类模型,使难以界定的佛学问题有了可靠的分类基础,提高了预设分类模型的模型性能,进而提高了预设分类模型对待识别数据进行分类识别的准确性。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1是本发明一实施例中基于学习模型的佛学知识识别方法的一应用环境示意图;

图2是本发明一实施例中基于学习模型的佛学知识识别方法的一流程示意图;

图3是本发明一实施例中预设分类模型的一获取流程示意图;

图4是图3中步骤S20的一实现流程示意图;

图5是图3中步骤S30的一实现流程示意图;

图6是图5中步骤S32的一实现流程示意图;

图7是图5中步骤S31的一实现流程示意图;

图8是图5中步骤S312的一实现流程示意图;

图9是本发明一实施例中基于学习模型的佛学知识识别装置的一结构示意图;

图10是本发明一实施例中计算机设备的一结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明实施例提供的基于学习模型的佛学知识识别方法,可应用在如图1的应用环境中,其中,终端设备通过网络与服务器进行通信。用户通过终端设备向服务器发送需要进行佛学知识体系分类的待识别数据,服务器通过终端设备获取待识别数据之后,获取预先根据预设佛学知识分类数据训练获得的预设分类模型,预设佛学知识分类数据为对佛学领域知识相关的问答数据进行多个维度分类标注后的多标签分类数据,然后将待识别数据输入预设分类模型,并获得预设分类模型输出的类型标签,最后按照类型标签将待识别数据进行分类,并将分类后的待识别数据作为预设分类模型的新增训练数据,以更新预设分类模型,通过对佛学领域知识相关的问答数据进行多个维度分类标注后获得多标签分类数据,并根据多标签分类数据训练出预设分类模型,使难以界定的佛学问题有了可靠的分类基础,提高了预设分类模型的模型性能,进而提高了预设分类模型对待识别数据进行分类识别的准确性,进而实现了对不同佛学知识进行体现分类识别的人工智能化。

其中,基于学习模型的佛学知识识别方法用到或者生产的相关数据存储在服务器的数据库中,本实施例中的数据库为存储于区块链网络中的区块链数据库,用于存储实现基于学习模型的佛学知识识别方法所用到、生成的数据,如待识别数据、预设佛学知识分类数据、类型标签和预设分类模型等相关数据。本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。将数据库部署于区块链可提高数据存储的安全性。

其中,终端设备可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一实施例中,如图2所示,提供一种基于学习模型的佛学知识识别方法,以该方法应用在图1中的服务器为例进行说明,包括如下步骤:

S01:获取需要进行佛学知识体系分类的待识别数据。

获取需要进行佛学知识体系分类的待识别数据,其中,待识别数据可以是与佛学知识相关的问答数据,也可以是与佛学知识相关的历史资料。

S02:获取预先根据预设佛学知识分类数据训练获得的预设分类模型,预设佛学知识分类数据为对佛学领域知识相关的问答数据进行多个维度分类标注后的多标签分类数据。

获取预先根据预设佛学知识分类数据训练获得的预设分类模型,以根据预设分类模型对待识别数据进行识别分类,以确定待识别数据的类型,其中,为对佛学领域知识相关的问答数据进行多个维度分类标注后的多标签分类数据。

预设分类模型的获取过程为:需要获取佛学领域知识相关的问答数据,然后对问答数据进行多个维度分类标注,以获得包括多维度分类标签的训练数据,然后在训练数据上进行模型训练,从而获得预设分类模型。

S03:将待识别数据输入预设分类模型,并获得预设分类模型输出的类型标签。

在获取预设分类模型和待识别数据之后,将待识别数据输入预设分类模型,以利用预设分类模型对待识别数据进行分类识别,从而获得预设分类模型输出的类型标签,即获得预设分类模型对待识别数据的分类识别结果。

其中,由于预设分类模型的训练数据为多标签分类数据,若待识别数据包括多个维度的标签,预设分类模型可以识别出同一待识别数据的多个类型标签。

例如,多维度分类标签包括宗派体系、提问动机、佛学知识三个维度的标签,预设分类模型输出是类型标签可以包括宗派体系、提问动机、佛学知识等三种类型标签。其中,宗派体系可以包括汉传佛教、外国佛教等大标签,汉传佛教包括大乘、小乘、密宗和藏密等小标签,小乘还包括成实宗、俱舍宗等细分标签,大乘包括华严宗、法华宗、唯识宗、中观宗、禅宗、密宗、净土宗、律宗等细分标签。提问动机可以包括求解,如请教佛教起源、佛经类型、佛理等;佛学知识可以包括佛理、佛经等大标签,以及佛理、佛经对应的小标签。

S04:按照类型标签将待识别数据进行分类,并将分类后的待识别数据作为预设分类模型的新增训练数据,以更新预设分类模型。

在将待识别数据输入预设分类模型,并获得预设分类模型输出的类型标签之后,按照类型标签将待识别数据进行分类,为后续佛学领域产品的精细划分提供基础。

例如,待识别数据为:心无虚妄在佛教里是什么意思?这一问句,将待识别数据输入预设分类模型之后,预设分类模型至少会输出三个类型标签:汉传佛教、求解、佛理,即宗派体系标签为汉传佛教,提问动机标签为求解,佛学知识标签为佛理,相应的,在汉传佛教、求解、佛理等大类型标签下,还可以输出对应的更小更细的类型标签,在获得汉传佛教、求解、佛理之后,可将待识别数据分别划分到问答系统中汉传佛教板块、求解板块、佛理板块中相应的细分类型板块上,便于问答系统的管理。

本实施例中,待识别数据为心无虚妄在佛教里是什么意思?这一问句,输出三个类型标签为汉传佛教、求解、佛理仅为示例性说明,在其他实施例中,待识别数据还可以是其他数据,对应的,预设分类模型输出的类型标签还可以是其他,在此不再赘述。

同时,并将分类后的待识别数据作为预设分类模型的新增训练数据,以更新预设分类模型

本实施例中,通过获取需要进行佛学知识体系分类的待识别数据,并获取预先根据预设佛学知识分类数据训练获得的预设分类模型,预设佛学知识分类数据为对佛学领域知识相关的问答数据进行多个维度分类标注后的多标签分类数据,然后将待识别数据输入预设分类模型,并获得预设分类模型输出的类型标签,最后按照类型标签将待识别数据进行分类,并将分类后的待识别数据作为预设分类模型的新增训练数据,以更新预设分类模型;通过对佛学领域知识相关的问答数据进行多个维度分类标注后获得多标签分类数据,并根据多标签分类数据训练出预设分类模型,使难以界定的佛学问题有了可靠的分类基础,提高了预设分类模型的模型性能,进而提高了预设分类模型对待识别数据进行分类识别的准确性。

此外,将分类后的待识别数据作为预设分类模型的新增训练数据,以更新预设分类模型,则会不断的扩充预设分类模型的训练数据,随着训练数据不断更新和扩充,不断第优化预设分类模型的分类性能,不依赖人工而自行确定出不同待识别数据的类型,减少了识别成本,提高了识别准确率。且由于多标签分类数据训练出的预设分类模型,输出的也为多维度的类型标签,支持多维度的分类体系,给佛学问答系统提供了可靠的支持,有利于佛学知识体系的合理构建,提高了佛学知识数据的管理效率,大大提高了产品本身的质量以及用户的体验效果。

在一实施例中,如图3所示,步骤S02之前,需要预先根据预设佛学知识分类数据训练获得的预设分类模型,其中,预设分类模型通过如下方式获得:

S10:获取佛学领域知识相关的问答数据。

在训练预设分类模型之前,需要预先获取佛学领域知识相关的问答数据(OA数据),问答数据包括针对佛学领域知识的提问问句和对应的答案,其中,问答数据可以从佛学领域问答系统中获取,液可以通过大数据分析技术获取。

S20:对问答数据拆解为多个问句以及问句对应的答案,获得拆解数据。

在获取问答数据之后,需要对问答数据进行预处理,以将问答数据拆解为多个问句以及问句对应的答案,从而获得拆解数据,便于后续对拆解数据进行不同维度的类型标注。

S30:对拆解数据进行问句动机分类标注和宗派体系分类标注,以获得预设佛学知识分类数据。

在获得拆解数据之后,对拆解数据进行问句动机分类标注和宗派体系分类标注,以获得预设佛学知识分类数据。需要确定拆解数据中各问句的提问动机,进而根据提问动机对问句进行动机分类标注,给对各问句及各问句对应的答案打上不同的问句动机标签,同时,还需要确定各问句及各问句对应的答案进行宗派体系分类标注,给宗派体系分类标注打上不同的宗派体系标签,从而获得预设佛学知识分类数据。

S40:根据预设佛学知识分类数据和佛学领域的预训练模型进行模型训练,以获得预设分类模型。

在获得预设佛学知识分类数据之后,选取一个佛学领域的SOTA(state of theart)预训练模型,在预设佛学知识分类数据对预训练模型进行学习训练,以获得分类识别准确性符合用户需求的模型,作为预设分类模型。

其中,SOTA预训练模型可以是bert预训练模型,在预设分类模型的训练过程中,还需要优化模型的交叉熵函数,以提高预设分类模型的分类性能。

本实施例中,通过获取佛学领域知识相关的问答数据,然后对问答数据拆解为多个问句以及问句对应的答案,获得拆解数据,进而对拆解数据进行问句动机分类标注和宗派体系分类标注,以获得预设佛学知识分类数据,最后根据预设佛学知识分类数据和佛学领域的预训练模型进行模型训练,以获得预设分类模型,明确了预设分类模型的获得方式,通过对佛学领域知识相关的问答数据进行问句动机分类标注和宗派体系分类标注,获得包括多个维度标签的预设佛学知识分类数据,进而训练获得预设分类模型,使难以界定的佛学问题有了可靠的分类基础,提高了预设分类模型的模型性能,为后续利用预设分类模型对待识别进行分类识别提供了基础。

在一实施例中,如图4所示,步骤S20中,即对问答数据拆解为多个问句以及问句对应的答案,获得拆解数据,具体包括如下步骤:

S21:对问答数据进行数据清洗,获得清洗问答数据,数据清洗包括繁简转换、全角半角转换、去除停用词和敏感词。

在获取佛学领域知识相关的问答数据之后,需要对问答数据进行数据清洗,获得清洗问答数据,其中,数据清洗包括繁简转换、全角半角转换、去除停用词和敏感词,即需要将问答数据中的中文繁体字转换为中文简体字,将问答数据中出现的半角字符转换为全角字符,同时,还需要去除问答数据中的停用词和敏感词,以保证清洗后的问答数据的格式统一,并提高数据有效性。

S22:确定清洗问答数据中的各句子是否存在问号。

在对问答数据进行数据清洗,获得清洗问答数据之后,利用正则表达式的方式,确定清洗问答数据中的问句,即确定清洗问答数据中的各句子是否存在问号,以根据判断结果进行不同的拆解操作。

S23:若清洗问答数据中的句子存在问号,则提取以问号结尾的句子,作为清洗问答数据的问句。

在确定清洗问答数据中的各句子是否存在问号之后,若清洗问答数据中的句子存在问号,表示句子的句式为问句,则提取以问号结尾的句子,作为清洗问答数据的问句。

S24:若清洗问答数据中的句子不存在问号,则对不存在问号的句子进行句法分析,以拆解出清洗问答数据中的所有问句。

在确定清洗问答数据中的各句子是否存在问号之后,若清洗问答数据中的句子存在问号,表示句子的句式不为问句,则需要对对不存在问号的句子进行句法分析,以拆解出清洗问答数据中的所有问句。

S25:利用机器阅读理解模型在问句对应的原答案中抽取答案片段,作为问句对应的答案,以获得拆解数据。

可以理解的是,在拆解出清洗问答数据中的所有问句之后,每个问句都会存在对应的原答案,利用机器阅读理解模型,即对机器阅读理解算法,可确定每个问句在原对应的原答案中,找出开始和结束位置,以抽离出问句对应的答案片段,以获得拆解数据。其中,机器阅读理解模型的损失函数可以为多分类的交叉熵函数。

本实施例中,通过对问答数据进行数据清洗,获得清洗问答数据,数据清洗包括繁简转换、全角半角转换、去除停用词和敏感词,并确定清洗问答数据中的各句子是否存在问号,若清洗问答数据中的句子存在问号,则提取以问号结尾的句子,作为清洗问答数据的问句,若清洗问答数据中的句子不存在问号,则对不存在问号的句子进行句法分析,以拆解出清洗问答数据中的所有问句,利用机器阅读理解模型在问句对应的原答案中抽取答案片段,作为问句对应的答案,以获得拆解数据,细化了对问答数据拆解为多个问句以及问句对应的答案获得拆解数据的具体过程,通过对问答数据进行数据清洗,保证了数据的有效性和统一性,便于后续利用正则和句法分析来对问句进行拆解,从而获得拆解数据,保证了拆解数据的准确性,从而为后续对拆解数据进行多维度标签的标注提供了坚实基础。

在一实施例中,如图5所示,步骤S30中,即对拆解数据进行问句动机分类标注和宗派体系分类标注,以获得预设佛学知识分类数据,具体包括如下步骤:

S31:利用预设动机分类模型对拆解数据中的问句进行动机分类标注,以获得包括不同动机标签的问句以及对应答案的动机分类数据,预设动机分类模型为根据人工标注的佛学训练数据和分类算法训练获得的动机分类模型。

在获取拆解数据之后,利用预设动机分类模型对拆解数据中的问句进行动机分类标注,以获得包括不同动机标签的问句以及对应答案的动机分类数据,其中,预设动机分类模型为根据人工标注的佛学训练数据和分类算法训练获得的动机分类模型。

S32:确定动机分类数据中各问句及对应答案的宗派体系类别,以获得包括不同宗派标签的预设佛学知识分类数据。

在获得包括不同动机标签的问句以及对应答案的动机分类数据之后,需要确定动机分类数据中各问句及对应答案的宗派体系类别,然后对动机分类数据中各问句及对应答案打上不同的宗派标签,从而获得包括不同宗派标签、不同动机标签的预设佛学知识分类数据。

本实施例中,通过利用预设动机分类模型对拆解数据中的问句进行动机分类标注,以获得包括不同动机标签的问句以及对应答案的动机分类数据,预设动机分类模型为根据人工标注的佛学训练数据和分类算法训练获得的动机分类模型,确定动机分类数据中各问句及对应答案的宗派体系类别,以获得包括不同宗派标签的预设佛学知识分类数据,细化了对拆解数据进行问句动机分类标注和宗派体系分类标注,以获得预设佛学知识分类数据的步骤,利用预设动机分类模型对拆解数据中的问句进行动机分类标注,提高了动机标签的准确性,从而保证了预设佛学知识分类数据的准确性。

在一实施例中,如图6所示,步骤S32中,即确定动机分类数据中各问句及对应答案的宗派体系类别,以获得包括不同宗派标签的预设佛学知识分类数据,具体包括如下步骤:

S321:采用无监督聚类方法对动机分类数据进行聚类,获得动机分类数据的多个聚类关键词。

在获得动机分类数据之后,采用无监督聚类方法对动机分类数据进行聚类,观察各问句及其对应答案的分布特征,判断每一类问句及其对应答案的的共性,可快速、准确地确定问句及其对应答案的聚类关键词,从而获得动机分类数据中的多个聚类关键词。

S322:识别聚类关键词所属的佛学知识标签,并将聚类关键词对应的问句和答案标注为所属的佛学知识标签。

在获得动机分类数据的多个聚类关键词之后,识别聚类关键词所属的佛学知识标签,并将聚类关键词对应的问句和答案标注为所属的佛学知识标签。

例如,例如,无监督聚类方法可以采用LDA(Latent Dirichlet Allocation)无监督主题聚类方式,对动机分类数据进行聚类后会得到一些关键词和关键词对应的权重,当聚类获得的聚类关键词为某一类佛经,且某一类佛经对应的权重很高,则该聚类关键词对应的问句及其答案则与某一类佛经有关,该聚类关键词所属的佛学知识标签为佛经,则该聚类关键词对应的问句及其答案的佛学知识标签为佛经。

其中,无监督聚类方法可以采用LDA仅为示例性说明,在其他实施例中,还可以采用其他类型的无监督聚类方法,在此不再赘述。

S323:获取佛学专家对聚类关键词进行宗派体系标注的宗派标注结果。

在获得动机分类数据的多个聚类关键词之后,佛学专家需要根据多个聚类关键词,对动机分类数据中各问句及对应答案的宗派体系进行分类标注,将动机分类数据中各问句及对应答案标打上对应的宗派标签,并通过终端设备发送给服务器,以使服务器获取佛学专家对聚类关键词进行宗派体系标注的宗派标注结果。

S324:根据宗派标注结果确定动机分类数据中各问句及对应答案的宗派标签,以获得预设佛学知识分类数据。

在获取佛学专家对聚类关键词进行宗派体系标注的宗派标注结果之后,根据宗派标注结果确定动机分类数据中各问句及对应答案的宗派标签,以获得预设佛学知识分类数据。

本实施例中,采用无监督聚类方法对动机分类数据进行聚类,获得动机分类数据的多个聚类关键词,识别聚类关键词所属的佛学知识标签,并将聚类关键词对应的问句和答案标注为所属的佛学知识标签,获取佛学专家对聚类关键词进行宗派体系标注的宗派标注结果,根据宗派标注结果确定动机分类数据中各问句及对应答案的宗派标签,以获得预设佛学知识分类数据,明确了确定动机分类数据中各问句及对应答案的宗派体系类别,以获得包括不同宗派标签的预设佛学知识分类数据的过程,通过无监督聚类方法对各问句及对应答案进行聚类,并根据佛学专家的宗派标注结果确定动机数据的宗派标签,提高了确定所属的佛学知识标签的速度,保证了所属的佛学知识标签和宗派标签的准确性。

在一实施例中,如图7所示,步骤S31中,即利用预设动机分类模型对拆解数据中的问句进行动机分类标注,以获得包括不同动机标签的问句以及对应答案的动机分类数据,具体包括如下步骤:

S311:获取多个表示不同动机标签的提问模板句式。

在获取拆解数据之后,获取多个表示不同动机标签的提问模板句式,该提问模板句式可以以正则表达式的方式表示,例如,XX是什么意思或者,XX的解释是什么。

利用预设动机分类模型对拆解数据中的问句进行动机分类标注,以获得包括不同动机标签的问句以及对应答案的动机分类数据,其中,预设动机分类模型为根据人工标注的佛学训练数据和分类算法训练获得的动机分类模型。

S312:确定拆解数据中的问句是否与提问模板句式匹配。

在获取多个表示不同动机标签的提问模板句式之后,确定拆解数据中的问句是否与提问模板句式匹配,以根据提问模板句式的匹配结果快速确定问句的动机,从而确定问句的动机标签。

S313:若拆解数据中的问句与提问模板句式匹配,则将拆解数据中的问句标注为提问模板句式对应的动机标签。

在确定拆解数据中的问句是否与提问模板句式匹配之后,若拆解数据中的问句与提问模板句式匹配,则确定提问模板句式对应的动机标签,并将拆解数据中的问句标注为提问模板句式对应的动机标签。

例如,提问模板句式包括XX是什么意思,而拆解数据中的问句为:心无虚妄在在佛教里是什么意思,则表示无虚妄在在佛教里是什么意思,与提问模板句式XX是什么意思匹配,则确定提问模板句式XX是什么意思对应的动机标签为求解,最后将拆解数据中心无虚妄在在佛教里是什么意思,这一问句的动机标签标注为求解。

本实施例中,提问模板句式为XX是什么意思,对应的动机标签为求解,而拆解数据中的问句为心无虚妄在在佛教里是什么意思,仅为示例性说明,在其他实施例中,提问模板句式和对应的动机标签还可以是其他,拆解数据中的问句还可以是其他,在此不再赘述。

S314:若拆解数据中的问句与提问模板句式不匹配,则获取预设动机分类模型,并利用预设动机分类模型对不匹配的问句进行动机分类标注,以获得动机分类数据。

在确定拆解数据中的问句是否与提问模板句式匹配之后,若拆解数据中的问句与提问模板句式不匹配,则需要获取预设动机分类模型,并利用预设动机分类模型对不匹配的问句进行动机分类标注,以获得动机分类数据,以提高动机标签的准确性。

本实施例中,通过获取多个表示不同动机标签的提问模板句式,确定拆解数据中的问句是否与提问模板句式匹配,若拆解数据中的问句与提问模板句式匹配,则将拆解数据中的问句标注为提问模板句式对应的动机标签,若拆解数据中的问句与提问模板句式不匹配,则获取预设动机分类模型,并利用预设动机分类模型对不匹配的问句进行动机分类标注,以获得动机分类数据,细化了利用预设动机分类模型对拆解数据中的问句进行动机分类标注,以获得包括不同动机标签的问句以及对应答案的动机分类数据的步骤,以不同的方式确定问句的动机标签,在保证动机标签准确性的基础上,提高了确定动机标签的效率,为后续对动机分类数据进行多维度的标注提供了基础。

在一实施例中,如图8所示,步骤S312中,即确定拆解数据中的问句是否与提问模板句式匹配,具体包括如下步骤:

S3121:利用命名实体识别模型对拆解数据中的问句进行实体识别,以确定问句中的实体关键词。

在获取拆解数据和多个表示不同动机标签的提问模板句式之后,需要利用命名实体识别模型对拆解数据中的问句进行实体识别,以确定问句中的实体关键词。

S3122:将实体关键词置入提问模板句式中,确定提问模板句式的句式是否发生变化。

在确定问句中的实体关键词之后,将实体关键词置入提问模板句式中,确定提问模板句式的句式是否发生变化。

S3123:若提问模板句式的句式未发生变化,则确定拆解数据中的问句与提问模板句式匹配。

在将实体关键词置入提问模板句式中,确定提问模板句式的句式是否发生变化之后,若提问模板句式的句式未发生变化,表示实体关键词可以套用该提问模板句式,则确定拆解数据中的问句与提问模板句式匹配,可以将提问模板句式对应的动机标签作为该问句的动机标签。

S3124:若提问模板句式的句式发生变化,则确定拆解数据中的问句与提问模板句式不匹配。

在将实体关键词置入提问模板句式中,确定提问模板句式的句式是否发生变化之后,若提问模板句式的句式发生变化,表示实体关键词无法套用该提问模板句式,则确定拆解数据中的问句与提问模板句式不匹配,需要使用预设动机分类模型确定该问句的动机标签。

本实施例中,通过利用命名实体识别模型对拆解数据中的问句进行实体识别,以确定问句中的实体关键词,将实体关键词置入提问模板句式中,确定提问模板句式的句式是否发生变化,若提问模板句式的句式未发生变化,则确定拆解数据中的问句与提问模板句式匹配,若提问模板句式的句式发生变化,则确定拆解数据中的问句与提问模板句式不匹配,明确了确定拆解数据中的问句是否与提问模板句式匹配的具体过程,为确定拆解数据中问句的动机提供了基础。

应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。

在一实施例中,提供一种基于学习模型的佛学知识识别装置,该基于学习模型的佛学知识识别装置与上述实施例中基于学习模型的佛学知识识别方法一一对应。如图9所示,该基于学习模型的佛学知识识别装置包括第一获取模块901、第二获取模块902、输入模块903和分类模块904。各功能模块详细说明如下:

第一获取模块901,用于获取需要进行佛学知识体系分类的待识别数据;

第二获取模块902,用于获取预先根据预设佛学知识分类数据训练获得的预设分类模型,所述预设佛学知识分类数据为对佛学领域知识相关的问答数据进行多个维度分类标注后的多标签分类数据;

输入模块903,用于将所述待识别数据输入所述预设分类模型,并获得所述预设分类模型输出的类型标签;

分类模块904,用于按照所述类型标签将所述待识别数据进行分类,并将分类后的所述待识别数据作为所述预设分类模型的新增训练数据,以更新所述预设分类模型。

进一步地,所述基于学习模型的佛学知识识别装置还包括训练模块905,所述训练模块905具体用于:

获取佛学领域知识相关的所述问答数据;

对所述问答数据拆解为多个问句以及所述问句对应的答案,获得拆解数据;

对所述拆解数据进行问句动机分类标注和宗派体系分类标注,以获得所述预设佛学知识分类数据;

根据所述预设佛学知识分类数据和佛学领域的预训练模型进行模型训练,以获得所述预设分类模型。

进一步地,所述训练模块905具体还用于:

利用预设动机分类模型对所述拆解数据中的问句进行动机分类标注,以获得包括不同动机标签的问句以及所述对应答案的动机分类数据,所述预设动机分类模型为根据人工标注的佛学训练数据和分类算法训练获得的动机分类模型;

确定所述动机分类数据中各问句及所述对应答案的宗派体系类别,以获得包括不同宗派标签的所述预设佛学知识分类数据。

进一步地,所述训练模块905具体还用于:

采用无监督聚类方法对所述动机分类数据进行聚类,获得所述动机分类数据的多个聚类关键词;

识别所述聚类关键词所属的佛学知识标签,并将所述聚类关键词对应的问句和答案标注为所述所属的佛学知识标签;

获取佛学专家对所述聚类关键词进行宗派体系标注的宗派标注结果;

根据所述宗派标注结果确定所述动机分类数据中各问句及对应答案的宗派标签,以获得所述预设佛学知识分类数据。

进一步地,所述训练模块905具体还用于:

获取多个表示不同动机标签的提问模板句式;

确定所述拆解数据中的问句是否与所述提问模板句式匹配;

若所述拆解数据中的问句与所述提问模板句式匹配,则将所述拆解数据中的问句标注为所述提问模板句式对应的动机标签;

若所述拆解数据中的问句与所述提问模板句式不匹配,则获取所述预设动机分类模型,并利用所述预设动机分类模型对不匹配的问句进行动机分类标注,以获得所述动机分类数据。

进一步地,所述训练模块905具体还用于:

利用命名实体识别模型对所述拆解数据中的问句进行实体识别,以确定所述问句中的实体关键词;

将所述实体关键词置入所述提问模板句式中,确定所述提问模板句式的句式是否发生变化;

若所述提问模板句式的句式未发生变化,则确定所述拆解数据中的问句与所述提问模板句式匹配;

若所述提问模板句式的句式发生变化,则确定所述拆解数据中的问句与所述提问模板句式不匹配。

进一步地,所述训练模块905具体还用于:

对所述问答数据进行数据清洗,获得清洗问答数据,所述数据清洗包括繁简转换、全角半角转换、去除停用词和敏感词;

确定所述清洗问答数据中的各句子是否存在问号;

若所述清洗问答数据中的句子存在所述问号,则提取以所述问号结尾的句子,作为所述清洗问答数据的问句;

若所述清洗问答数据中的句子不存在所述问号,则对不存在所述问号的句子进行句法分析,以拆解出所述清洗问答数据中的所有问句;

利用机器阅读理解模型在所述问句对应的原答案中抽取答案片段,作为所述问句对应的答案,以获得所述拆解数据。

关于基于学习模型的佛学知识识别装置的具体限定可以参见上文中对于基于学习模型的佛学知识识别方法的限定,在此不再赘述。上述基于学习模型的佛学知识识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于基于学习模型的佛学知识识别方法所用到、生成的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于学习模型的佛学知识识别方法。

在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:

获取需要进行佛学知识体系分类的待识别数据;

获取预先根据预设佛学知识分类数据训练获得的预设分类模型,所述预设佛学知识分类数据为对佛学领域知识相关的问答数据进行多个维度分类标注后的多标签分类数据;

将所述待识别数据输入所述预设分类模型,并获得所述预设分类模型输出的类型标签;

按照所述类型标签将所述待识别数据进行分类,并将分类后的所述待识别数据作为所述预设分类模型的新增训练数据,以更新所述预设分类模型。

在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:

获取需要进行佛学知识体系分类的待识别数据;

获取预先根据预设佛学知识分类数据训练获得的预设分类模型,所述预设佛学知识分类数据为对佛学领域知识相关的问答数据进行多个维度分类标注后的多标签分类数据;

将所述待识别数据输入所述预设分类模型,并获得所述预设分类模型输出的类型标签;

按照所述类型标签将所述待识别数据进行分类,并将分类后的所述待识别数据作为所述预设分类模型的新增训练数据,以更新所述预设分类模型。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

相关技术
  • 基于学习模型的佛学知识识别方法、装置、设备及介质
  • 基于深度学习模型极端行为识别方法与装置、设备及介质
技术分类

06120113115814