基于大模型的垂直领域数据整合方法、装置、设备及介质

文献发布时间：2024-04-18 19:58:21

技术领域

本发明涉及数据处理技术领域，具体涉及一种基于大模型的垂直领域数据整合方法、装置、设备及介质。

背景技术

垂直领域大模型是指在特定的领域或行业中经过训练和优化的大型语言模型，该模型可以用于解决该领域内的各种问题，具有较高的准确性和效率。与通用语言模型相比，垂直领域大模型更专注于某个特定领域的知识和技能，具备更高的领域专业性和实用性。

目前，将垂直领域与大模型结合起来的方法有以下几种：（1）预训练-微调：这是目前应用最广泛的方法之一。在这种方法中，模型首先在大规模的通用语料库上进行预训练，以学习语言的一般特征和结构。然后，通过在特定领域的数据上进行微调，使模型适应该领域的特定任务。（2）数据增强：数据增强是通过对原始数据进行一系列随机变换和处理来生成新的训练样本的技术。在垂直领域的大型模型中，可以使用各种数据增强技术来扩充训练数据集，以提高模型的泛化能力和鲁棒性。

而预训练-微调方法在大多数情况下是无监督或弱监督的，模型主要从大规模通用数据中学习。因此，模型可能缺乏特定领域的专业知识和细节，这限制了模型在垂直领域中的准确性和实用性。另外，不同领域之间的知识迁移可能受到数据分布的差异、领域特定的语言和规则等因素的影响，使模型在特定领域的表现仍然有限。

另一方面，数据增强方法可能导致模型对于某些特定的数据变化过于敏感，从而增加了过拟合的风险。如果增强的数据过于接近训练集中的某些样本，模型可能会在处理相似的数据时表现良好，但在面对新的、真实场景中的数据时表现较差。

发明内容

有鉴于此，本申请实施例提供一种基于大模型的垂直领域数据整合方法、装置、设备及介质，以实现垂直领域知识、数据和逻辑的高效整合。

本申请实施例提供以下技术方案：一种基于大模型的垂直领域数据整合方法，包括：

通过每个垂直领域对应的垂直领域代理接收用户输入的查询语句，其中，不同垂直领域分别设置有对应的垂直领域代理；

调用预先已训练的intent大模型，通过所述intent大模型识别所述查询语句的查询意图；

在所述垂直领域代理中，根据所述查询意图，调用预设的外部程序接口提取所述查询意图对应的实时数据，和/或，调用预先已训练的extraction大模型抽取所述查询意图对应的垂直领域知识；

调用预先已训练的digest大模型，将获得的所述实时数据和/或所述垂直领域知识整合为所述查询语句的应答数据。

根据本申请一种实施例，在所述垂直领域代理中，根据所述查询意图，调用预设的外部程序接口提取所述查询意图对应的实时数据，和/或，调用预先已训练的extraction大模型抽取所述查询意图对应的垂直领域知识，包括：

根据所述垂直领域包括的不同知识体系，在所述垂直领域代理中，为每个所述知识体系设置对应的知识体系DomainAgent；

通过所述intent大模型确定所述查询意图对应的知识体系DomainAgent；

在确定的知识体系DomainAgent中，调用所述外部程序接口提取所述查询意图对应的实时数据，和/或，调用所述extraction大模型抽取所述查询意图对应的垂直领域知识。

根据本申请一种实施例，在确定的知识体系DomainAgent中，调用所述外部程序接口提取所述查询意图对应的实时数据，和/或，调用所述extraction大模型抽取所述查询意图对应的垂直领域知识，包括：

根据不同知识体系包括的不同知识属性，在每个所述知识体系DomainAgent中，为每个知识属性设置对应的子知识体系DomainAgent；

通过所述intent大模型确定所述查询意图对应的知识体系DomainAgent以及在该知识体系DomainAgent中对应的子知识体系DomainAgent；

在确定的子知识体系DomainAgent中，调用所述外部程序接口提取所述查询意图对应的实时数据，和/或，调用所述extraction大模型抽取所述查询意图对应的垂直领域知识。

根据本申请一种实施例，还包括：

在每个所述知识体系DomainAgent和每个所述子知识体系DomainAgent中均分别设置有数据分析端口、知识抽取端口以及逻辑整合端口，以通过所述数据分析端口调用预设的外部程序接口，提取所述查询意图对应的实时数据，通过所述知识抽取端口调用预先已训练的extraction大模型，抽取所述查询意图对应的垂直领域知识获取所述垂直领域知识，通过所述逻辑整合端口调用预先已训练的digest大模型，将获得的所述实时数据和/或所述垂直领域知识整合为所述查询语句的应答数据。

根据本申请一种实施例，通过所述intent大模型识别所述查询语句的查询意图，包括：

通过所述intent大模型识别所述查询语句的查询意图的类型，其中，所述查询意图的类型包括实时数据查询和垂直领域知识查询。

根据本申请一种实施例，还包括：

根据接收到的模型训练指令，调用训练数据，对待训练intent大模型、待训练extraction大模型、待训练digest大模型分别进行训练，分别得到用于识别查询意图的所述intent大模型、用于抽取垂直领域知识的所述extraction大模型以及用于数据整合的所述digest大模型。

根据本申请一种实施例，所述待训练intent大模型、所述待训练extraction大模型以及所述待训练digest大模型的模型架构均是基于Transformer架构的大模型。

本申请实施例还提供一种基于大模型的垂直领域数据整合装置，包括：

查询接收模块，用于通过每个垂直领域对应的垂直领域代理接收用户输入的查询语句，其中，不同垂直领域分别设置有对应的垂直领域代理；

意图识别模块，用于调用预先已训练的intent大模型，通过所述intent大模型识别所述查询语句的查询意图；

数据获取模块，用于在所述垂直领域代理中，根据所述查询意图，调用预设的外部程序接口提取所述查询意图对应的实时数据，和/或，调用预先已训练的extraction大模型抽取所述查询意图对应的垂直领域知识；

数据整合模块，用于调用预先已训练的digest大模型，将获得的所述实时数据和/或所述垂直领域知识整合为所述查询语句的应答数据。

本申请实施例还提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述的基于大模型的垂直领域数据整合方法。

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有执行上述的基于大模型的垂直领域数据整合方法的计算机程序。

与现有技术相比，本发明实施例采用的上述至少一个技术方案能够达到的有益效果至少包括：

（1）高效整合：利用大语言模型的智能语言理解能力，实现垂直领域知识、数据和逻辑的高效整合。

（2）准确应用：结合领域特定的知识库、数据源和逻辑规则，提高模型在垂直领域的应用准确性和可靠性。

（3）自动化处理：通过预训练的大语言模型，实现自动化的知识、数据和逻辑处理，节省人力和时间成本。

（4）可扩展性：该方法可适用于不同的垂直领域，通过定制化的领域知识库和规则，扩展到不同领域的知识整合和应用。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本发明实施例的垂直领域数据整合方法流程示意图；

图2是本发明实施例的垂直领域代理框架示意图；

图3是本发明实施例的垂直领域数据整合装置框图；

图4是本发明计算机设备的结构示意图。

具体实施方式

下面结合附图对本申请实施例进行详细描述。

以下通过特定的具体实例说明本申请的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本申请的其他优点与功效。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。本申请还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本申请的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

如图1所示，本发明实施例提供了一种基于大模型的垂直领域数据整合方法，包括：

S101.通过每个垂直领域对应的垂直领域代理接收用户输入的查询语句，其中，不同垂直领域分别设置有对应的垂直领域代理；

大模型是指具有大量参数和复杂结构的机器学习模型。这些模型可以应用于处理大规模的数据和复杂的问题。传统的机器学习模型，如逻辑回归、决策树、朴素贝叶斯等，规模较小，只能处理少量的数据。而深度学习模型则可以包含数百万个参数，处理海量数据。超大规模深度学习模型甚至可以达到百亿级别的参数，需要使用超级计算机进行训练。大模型具有以下优点：（1）处理大规模数据能力强。大模型可以处理海量数据，从而提高机器学习模型的准确性和泛化能力。（2）处理复杂问题能力强。大模型具有更高的复杂度和更强的灵活性，可以处理更加复杂的问题。（3）具有更高的准确率和性能。大模型具有更多的参数和更为复杂的结构，能够更加准确地表达数据分布和学习到更复杂的特征，从而提高模型的准确率和性能。

垂直领域是指在某个特定的行业、领域或者市场细分中，专注于某个具体细分领域的企业或者产品。这些企业或者产品通常具有深入的行业知识和专业技能，以及针对特定目标受众的定制化服务或者产品。

本实施例中，垂直领域代理（Agent）是指在特定的垂直领域（如医疗、金融、旅游等）中，针对特定任务或问题领域专门构建的智能程序，通过对该领域的专业知识和数据进行理解和处理，提供针对性的服务、解决方案或信息。其相当于一个大的集合，将多个功能Endpoint（端口）集合起来，作为一个领域的整体。

S102.调用预先已训练的intent大模型（意图识别大模型），通过所述intent大模型识别所述查询语句的查询意图；

S103.在所述垂直领域代理中，根据所述查询意图，调用预设的外部程序接口提取所述查询意图对应的实时数据，和/或，调用预先已训练的extraction大模型（抽取大模型）抽取所述查询意图对应的垂直领域知识；

S104.调用预先已训练的digest大模型（理解大模型），将获得的所述实时数据和/或所述垂直领域知识整合为所述查询语句的应答数据。

在一种实施例中，在所述垂直领域代理中，根据所述查询意图，调用预设的外部程序接口提取所述查询意图对应的实时数据，和/或，调用预先已训练的extraction大模型抽取所述查询意图对应的垂直领域知识，包括：

根据所述垂直领域包括的不同知识体系，在所述垂直领域代理中，为每个所述知识体系设置对应的知识体系DomainAgent；通过所述intent大模型确定所述查询意图对应的知识体系DomainAgent；在确定的知识体系DomainAgent中，调用所述外部程序接口提取所述查询意图对应的实时数据，和/或，调用所述extraction大模型抽取所述查询意图对应的垂直领域知识。

本实施例中，DomainAgent（领域代理）是垂直领域Agent（代理）下细分的知识体系，例如垂直领域Agent是大气环境Agent，则DomainAgent就可以分为臭氧DomainAgent、PM2.5DomainAgent，是根据领域中具体的知识体系进行划分构建而成。

在进一步的一种实施例中，还包括：根据不同知识体系包括的不同知识属性，在每个所述知识体系DomainAgent中，为每个知识属性设置对应的子知识体系DomainAgent；通过所述intent大模型确定所述查询意图对应的知识体系DomainAgent以及在该知识体系DomainAgent中对应的子知识体系DomainAgent；在确定的子知识体系DomainAgent中，调用所述外部程序接口提取所述查询意图对应的实时数据，和/或，调用所述extraction大模型抽取所述查询意图对应的垂直领域知识。

本实施例在具体实施时，可以根据不同垂直领域的知识体系复杂程度，划分多级的DomainAgent（领域代理），从而获取更加精准的信息。

在一种实施例中，还包括：在每个所述知识体系DomainAgent和每个所述子知识体系DomainAgent中均分别设置有数据分析端口、知识抽取端口以及逻辑整合端口，以通过所述数据分析端口调用预设的外部程序接口，提取所述查询意图对应的实时数据，通过所述知识抽取端口调用预先已训练的extraction大模型，抽取所述查询意图对应的垂直领域知识获取所述垂直领域知识，通过所述逻辑整合端口调用预先已训练的digest大模型，将获得的所述实时数据和/或所述垂直领域知识整合为所述查询语句的应答数据。

在一种实施例中，通过所述intent大模型识别所述查询语句的查询意图，还包括：通过所述intent大模型识别所述查询语句的查询意图的类型。

本实施例中，所述用户意图的类型包括实时数据查询和垂直领域知识查询，先通过所述intent大模型先判断所述用户意图属于哪种类型，若所述用户意图为实时数据查询，则通过预先设计好的外部程序接口提取该用户意图对应的实时数据；若所述用户意图为垂直领域知识查询，则调用预先训练好的用于抽取垂直领域知识的extraction大模型抽取该用户意图对应的垂直领域知识；若所述用户意图包括了实时数据查询和垂直领域知识，则通过预先设计好的外部程序接口提取该用户意图对应的实时数据，同时调用预先训练好的用于抽取垂直领域知识的extraction大模型抽取该用户意图对应的垂直领域知识。

本发明实施例在具体实施时主要包括以下步骤：

步骤一：intent大模型（意图识别大模型）、extraction大模型（抽取大模型）、digest大模型（理解大模型）训练。

intent大模型用于分析用户的输入文本或语音，确定用户的查询意图或目的。intent大模型可以通过对大量语言数据进行预训练，学习到丰富的语言知识和语义理解能力。intent大模型构建的步骤如下：模型架构基于Transformer。收集代表性的对话数据、用户查询或文本数据，涵盖不同的意图、语境和表达方式。数据通过人工标注、现有数据集或合成数据生成。将数据馈送到模型中进行训练，对模型进行调优与迭代。

extraction大模型用于从文本中提取出特定的实体、关系和属性等结构化信息。extraction大模型可以通过对大规模文本数据的预训练，具备理解和分析文本的能力。extraction大模型构建的步骤如下：模型架构基于Transformer。收集包含目标信息的文本数据，如文章、新闻、评论、对话等，涵盖想要提取和分析的特定内容。将数据馈送到模型中进行训练，对模型进行调优与迭代。

digest大模型用于将大模型得到的多个结果进行总结、归纳，使最终输出的文本易于人类阅读。digest大模型可以通过大量包含分项知识和汇总摘要知识的高质量语料进行训练。digest大模型构建的步骤如下：模型架构基于Transformer。收集代表性的文本数据，文章、文档、新闻、对话等，包含摘要或总结。将数据馈送到模型中进行训练，对模型进行调优与迭代。

步骤二：针对不同垂直领域构建垂直领域Agent（代理）。每个Agent包含若干知识体系DomainAgent（领域代理）和功能Endpoint（端口）。功能Endpoint由DataEndpoint（数据分析端口）、KnowledgeEndpoint（知识抽取端口）和LogicEndpoint（逻辑整合端口）组成。DataEndpoint负责提取实时数据，包含多种设计好的接口；KnowledgeEndpoint负责垂直领域知识抽取；LogicEndpoint负责分析功能。

以生态环境为例，可构建垂直领域Agent、对应知识体系DomainAgent（领域代理）以及功能Endpoint（端口），具体如图2所示。

步骤三：用户问题输入及意图判断。用户问题输入初始垂直领域Agent，通过intent大模型判断进入哪一个知识体系DomainAgent，再通过intent大模型判断是进入下一个知识体系DomainAgent还是调用Endpoint的功能。

例如，用户提问“细颗粒物的定义是什么，以及今天A城市的PM2.5浓度是多少？”，系统运作流程如下：首先用户输入进入生态环境Agent；通过intent大模型识别出用户提问涉及大气领域，进入大气环境Agent；通过intent大模型识别出用户提问涉及数据查询和专业知识，则进入DataEndpoint和KnowledgeEndpoint。

步骤四：具体功能调用。经过意图判断后，调用识别回答用户问题需要使用的Endpoint。

调用知识体系DataEndpoint中的查询某城市PM2.5浓度的接口、调用KnowledgeEndpoint，通过extraction大模型，抽取相关知识。调用的每个Endpoint都会形成一份对应结果。知识体系DataEndpoint返回的结果是“2023年7月3日A城市的PM2.5浓度是45微克/每立方米”；KnowledgeEndpoint返回的结果是“细颗粒物又称细粒、细颗粒、PM。细颗粒物指环境空气中空气动力学当量直径小于等于2.5微米的颗粒物”。

步骤五：结果整合。将调用的多个Endpoint形成的结果输入到digest大模型中，digest大模型会对多个结果进行整理、总结归纳、语意优化等，输出最终结果，使得结果易于人类阅读。

最终结果为：细颗粒物又称细粒、细颗粒、PM。细颗粒物指环境空气中空气动力学当量直径小于等于2.5微米的颗粒物。今天A城市的PM2.5浓度是45微克/每立方米。

本发明实施例通过训练intent大模型、extraction大模型、digest大模型三种大模型，每个模型负责不同的功能，intent大模型负责意图识别、extraction大模型负责整合垂直领域知识、digest大模型负责整合结果。intent大模型可以接受多种输入类型，如文本、图像、音频等，并将它们融合在一起进行意图分类。intent大模型可以更好地处理多模态的场景，提供更准确和全面的意图理解。Extraction大模型能够处理多粒度的实体抽取，从单词级别到短语级别甚至句子级，能够有效地捕捉跨句子的关系和上下文信息。digest大模型能够对文本、图像、音频的结果进行整合归纳，易于用户阅读。

在训练大模型的基础上，通过构建垂直领域Agent和功能Endpoint，可以将多领域的知识融合到对话中。使得大模型能够回答更加复杂和专业化的问题，并提供更全面和准确的信息。

如图3所示，本申请实施例还提供一种基于大模型的垂直领域数据整合装置200，包括：

查询接收模块201，用于通过每个垂直领域对应的垂直领域代理接收用户输入的查询语句，其中，不同垂直领域分别设置有对应的垂直领域代理；

意图识别模块202，用于调用预先已训练的intent大模型，通过所述intent大模型识别所述查询语句的查询意图；

数据获取模块203，用于在所述垂直领域代理中，根据所述查询意图，调用预设的外部程序接口提取所述查询意图对应的实时数据，和/或，调用预先已训练的extraction大模型抽取所述查询意图对应的垂直领域知识；

数据整合模块204，用于调用预先已训练的digest大模型，将获得的所述实时数据和/或所述垂直领域知识整合为所述查询语句的应答数据。

在一种实施例中，所述数据获取模块203还用于，根据所述垂直领域包括的不同知识体系，在所述垂直领域代理中，为每个所述知识体系设置对应的知识体系DomainAgent；通过所述intent大模型确定所述查询意图对应的知识体系DomainAgent；在确定的知识体系DomainAgent中，调用所述外部程序接口提取所述查询意图对应的实时数据，和/或，调用所述extraction大模型抽取所述查询意图对应的垂直领域知识。

在一种实施例中，所述数据获取模块203还用于，根据不同知识体系包括的不同知识属性，在每个所述知识体系DomainAgent中，为每个知识属性设置对应的子知识体系DomainAgent；通过所述intent大模型确定所述查询意图对应的知识体系DomainAgent以及在该知识体系DomainAgent中对应的子知识体系DomainAgent；在确定的子知识体系DomainAgent中，调用所述外部程序接口提取所述查询意图对应的实时数据，和/或，调用所述extraction大模型抽取所述查询意图对应的垂直领域知识。

在一种实施例中，所述数据获取模块203还用于，在每个所述知识体系DomainAgent和每个所述子知识体系DomainAgent中均分别设置数据分析端口、知识抽取端口以及逻辑整合端口，以通过所述数据分析端口调用预设的外部程序接口，提取所述查询意图对应的实时数据，通过所述知识抽取端口调用预先已训练的extraction大模型，抽取所述查询意图对应的垂直领域知识获取所述垂直领域知识，通过所述逻辑整合端口调用预先已训练的digest大模型，将获得的所述实时数据和/或所述垂直领域知识整合为所述查询语句的应答数据。

在一种实施例中，所述意图识别模块202还用于，通过所述intent大模型识别所述查询语句的查询意图的类型，其中，所述查询意图的类型包括实时数据查询和垂直领域知识查询。

在一种实施例中，所述垂直领域数据整合装置200还包括模型训练模块，用于根据接收到的模型训练指令，调用训练数据，对待训练intent大模型、待训练extraction大模型、待训练digest大模型进行训练，分别得到用于识别查询意图的所述intent大模型、用于抽取垂直领域知识的所述extraction大模型以及用于数据整合的所述digest大模型。

在一种实施例中，提供了一种计算机设备，如图4所示，包括存储器301、处理器302及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任意的基于大模型的垂直领域数据整合方法。

具体的，该计算机设备可以是计算机终端、服务器或者类似的运算装置。

在本实施例中，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有执行上述任意的基于大模型的垂直领域数据整合方法的计算机程序。

具体的，计算机可读存储介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机可读存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读存储介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

显然，本领域的技术人员应该明白，上述的本发明实施例的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明实施例不限制于任何特定的硬件和软件结合。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：北京英视睿达科技股份有限公司;

上一篇：一种集群化消息同步方法、装置、计算机设备及存储介质
下一篇：一种激光雷达扫描方法、系统及存储介质