掌桥专利:专业的专利平台
掌桥专利
首页

一种基于通用大语言模型的垂直领域应用的实现方法

文献发布时间:2024-04-18 20:01:30


一种基于通用大语言模型的垂直领域应用的实现方法

技术领域

本发明涉及自然语言处理技术领域,具体为一种基于通用大语言模型的垂直领域应用的实现方法。

背景技术

自然语言处理(Natural Language Processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。

现有技术中,语言模型的概念:语言模型(language model)是自然语言处理的重要技术。自然语言处理中最常见的数据就是文本数据。简单来说,语言模型的概念为:语言模型计算一个句子是句子的概率的模型。通过语言模型,可以量化地评估一串文字存在的可能性。对于一段长度为n的文本,文本中的每个单词都有通过上文预测该单词的过程,所有单词的概率乘积便可以用来评估文本存在的可能性。基于语言模型,配合相应的深度学习算法,可以实现各种语言处理功能,如语义匹配,智能问答,文本分类等等;垂直领域,互联网行业术语,指的是为限定群体提供特定服务,宽泛定义指娱乐、医疗、环保、教育、体育等产业。具体就是指各行各业自身所处的业务细分领域。Elasticsearch是一个分布式、高扩展、高实时的开源搜索与数据分析引擎。它能很方便的使大量数据具有搜索、分析和探索的能力。充分利用Elasticsearch的水平伸缩性,能使数据在生产环境变得更有价值。

但是,目前通用大语言模型作为新兴技术,在垂直领域的企业应用方式并不是非常成熟,主流的落地方式一般以调用大模型服务商的云资源为主,这种方式需要企业向服务商提供自己的业务数据来进行模型训练,对于企业自身信息安全性有着很高的风险,对于通用大语言模型服务商而言,也存在模型被企业数据污染的可能性。另外也有通用大语言模型私有化部署的使用方式,但这种模式对物理硬件资源要求极高,中小型企业几乎没有实现的可能。最后,由于通用大语言模型的黑盒属性,导致其回答一定程度的不可控,对于企业内部业务,人们更希望计算机反馈的是精准正确的回答,而不是一个AI消耗大量算力生成的充满随机性的错误答案。

因此,提出一种企业信息保密程度高,企业落地成本低,企业业务问答精准可控的通用大语言模型的垂直领域应用方法变得尤为重要。

发明内容

本发明的目的在于提供一种基于通用大语言模型的垂直领域应用的实现方法,以解决上述背景技术中提出的问题。

为实现上述目的,本发明提供如下技术方案:一种基于通用大语言模型的垂直领域应用的实现方法,所述方法包括以下步骤:

建立业务问题数据库与数据表;

在问答数据库中创建完成后,需要设置一个后端服务,通过暴露API给用户的方式,实现问题问答服务,问题拦截,数据同步服务的功能;

创建敏感词数据表,记录与企业内部业务强相关的敏感词;

调用通用大语言模型的云资源对用户提问进行处理,并将返回结果提交给后端服务;

后端使用ES对结果进行分词,然后在ES敏感词数据库中查询并使用replacement进行替换。

优选的,建立业务问题数据库与数据表的具体操作包括:

建立一个存储业务问题的问答数据库以及数据表,使用常见的关系型持久化数据库,数据表基础字段只要求具备问题与回答以及唯一主键。

优选的,建立数据表时建议遵循以下规则,以提高半智能问答回答的准确性:

(1)对于同一个业务问题,创建多条问答数据,question字段存储同一问题的不同问法;

(2)不同的业务问题,尽量避免问题提出的语句过于相似,如果两个问题具有很高相似性,将提问方式写的详细些,增加语句的长度,方便后续语言模型匹配识别;

(3)尽量避免同一个业务问题有不同的回答或者解释方式,增加回答的精确性。

优选的,后端服务的实现语言不限,使用常用的后端语言如JAVA,GO,C++均可,用户将后端暴露的问答API作为唯一接口,将通用大语言模型的云资源与用户分割开。

优选的,后端服务需要以下几个基础组成部分:

数据同步服务:需要提供一个数据同步服务,定时或者通过接口控制,将数据库中问答数据更新到Elasticsearch上,后续调用问答API时将直接使用ES进行模糊搜索,而不是直接查询数据库;

语义匹配服务:后端需要引入一个用于语义匹配的预训练模型,目前开源的能够支持语义匹配功能的自然语言处理模型很多,如ERNIE,GPT2;

ES搜素:当用户提出问题时,需要以问题为关键字在ES中进行模糊搜索,为了提高精确性,需要开启同义词匹配,语言分词的功能;

问答API:作为用户提问的唯一入口。

优选的,敏感词数据表必要字段至少包括以下字段:

敏感词:与业务强相关的内容,单词,可能涉及企业机密信息的单词;除此之外也加入一些违法违规的单词,带有辱骂性质的单词等,不过如果是与企业业务关系不密切的敏感词,通过后续调用第三方API的方式进行过滤,以减少私有化部署的负担;

敏感词的替换词:但检测到敏感词时,将使用replacement去代替敏感词,如果合适的replacement,可以用“*”去代替;

创建完成后将数据同步到ES中敏感词数据库中,方便查询。

优选的,调用通用大语言模型之前,先在ES中对问题进行分词,分词后在ES敏感词数据库中查询并使用replacement进行替换。

优选的,使用第三方敏感词过滤API再次对结果进行清洗,防止结果出现违规的情况,最后将过滤后的结果返回给用户。

与现有技术相比,本发明的有益效果是:

本发明提出的基于通用大语言模型的垂直领域应用的实现方法,拦截企业业务数据进行私有化处理,将业务问题的回答存储在持久化数据库保证回答的精确性,只将业务弱相关的问题交给大模型服务商的API处理,在将最终结果返回给用户前进行企业信息以及敏感词过滤。使用这种方法来达到通用大语言模型在垂直领域落地时降低企业通用大语言模型应用的落地成本,预防企业数据泄露,提高业务问答的精确性与可控性的目的。

附图说明

图1为本发明方法流程图。

具体实施方式

为了使本发明的目的、技术方案进行清楚、完整地描述,及优点更加清楚明白,以下结合附图对本发明实施例进行进一步详细说明。应当理解,此处所描述的具体实施例是本发明一部分实施例,而不是全部的实施例,仅仅用以解释本发明实施例,并不用于限定本发明实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

请参阅图1,本发明提供一种技术方案:一种基于通用大语言模型的垂直领域应用的实现方法,所述方法包括以下步骤:

首先建立一个半智能问答服务,对用户提出的问题进行拦截识别,如果是业务相关的问题,将直接调用半智能问答服务进行问题回复,当问题不属于企业业务范围内,再将问题传递给下一步进行处理。

该部分视为第一部分,分为以下几个阶段:

1.建立业务问题数据库与数据表:

首先需要建立一个存储业务问题的问答数据库以及数据表,使用常见的关系型持久化数据库即可。数据表基础字段只要求具备问题(question)与回答(answer)以及唯一主键即可,根据业务其它需要也可以继续增加诸如问题ID,用户权限相关字段等,这里不做详细扩展。

建立数据表时建议遵循以下规则,以提高半智能问答回答的准确性:

(1)对于同一个业务问题,创建多条问答数据,question字段存储同一问题的不同问法;

(2)不同的业务问题,尽量避免问题提出的语句过于相似,如果两个问题具有很高相似性,可以将提问方式写的详细些,增加语句的长度,方便后续语言模型匹配识别;

(3)尽量避免同一个业务问题有不同的回答或者解释方式,增加回答的精确性。

2.在问答数据库中创建完成后,需要设置一个后端服务,通过暴露API给用户的方式,实现问题问答服务,问题拦截,数据同步服务的功能。后端服务的实现语言不限,使用常用的后端语言如JAVA,GO,C++等均可。用户将后端暴露的问答API作为唯一接口,将通用大语言模型的云资源与用户分割开。后端服务需要以下几个基础组成部分:

(1)数据同步服务:需要提供一个数据同步服务,定时或者通过接口控制,将数据库中问答数据更新到Elasticsearch上(后续说明中Elasticsearch简称ES)。后续调用问答API时将直接使用ES进行模糊搜索,而不是直接查询数据库。

(2)语义匹配服务:后端需要引入一个用于语义匹配的预训练模型,目前开源的能够支持语义匹配功能的自然语言处理模型很多,如ERNIE,GPT2等,该模型与通用大语言模型服务商的语言模型训练原理类似,但体量可以小的多,一般参数量在1GB左右就可以很好的完成任务,语义匹配模型的主要功能是判断两个自然语言句子在语义上的相似程度,并给出这两个相似程度的得分Similarity,语义越相近,Similarity得分越高,得分越高。为了提高语义匹配服务的语义匹配智能程度,应当将问答数据库中的数据作为语料进行模型训练,由于语义匹配的模型很小,且是私有化部署,不需要担心信息安全的问题。

(3)ES搜素:当用户提出问题时,需要以问题为关键字在ES中进行模糊搜索,为了提高精确性,需要开启同义词匹配,语言分词的功能;

(4)问答API:作为用户提问的唯一入口。

首先需要调用数据同步服务,将问答数据库中的数据同步到ES数据库中。当用户通过问答API提交问题后,后端先使用ES搜索,在分词与同义词匹配的加持下到ES数据库中去搜索与用户提交问题关键词相匹配的question,如果查找出匹配的n条数据(n>0),调用语义匹配模型的服务,将查找出来的n条数据中的question逐条与用户提交的问题进行匹配,将这n条数据按照语义匹配模型给出的Similarity得分按照从大到小进行排列。设定一个Similarity得分基准S,判断这n条数据中Similarity最大的那条是否大于等于基准S,如果比S大,则直接将这条数据对应的answer作为结果返回给用户;如果比基准S小,则说明语义相似度没有达到预期,则将用户提问传递给第二部分继续处理;而如果最开始使用ES搜索查找到0条数据,则跳过语义模型匹配,直接进行第二部分处理。

通过第一部分所述的步骤,对用户提问拦截进行私有化处理,如果第一部分没能返回合适的answer,则调用通用大语言模型的云资源服务,将用户提问提交给通用大语言模型进行处理,通用大语言模型的返回结果返回给第一部分提到的后端服务,后端对结果进行敏感词过滤,业务相关性校正等操作,将最终结果返回给用户。

该过程作为第二部分,分为以下几个阶段:

1.创建敏感词数据表,记录与企业内部业务强相关的敏感词,敏感词数据表必要字段至少包括以下字段:

敏感词(sensitive_words):与业务强相关的内容,单词,可能涉及企业机密信息的单词;除此之外也可以加入一些违法违规的单词,带有辱骂性质的单词等,不过如果是与企业业务关系不密切的敏感词,可以通过后续调用第三方API的方式进行过滤,以减少私有化部署的负担;

敏感词的替换词(replacement):但检测到敏感词时,将使用replacement去代替敏感词,如果合适的replacement,可以用“*”去代替。

创建完成后将数据同步到ES中敏感词数据库中,方便查询。

2.首先调用通用大语言模型的云资源对用户提问进行处理,并将返回结果提交给后端服务。可选的:调用通用大语言模型之前,可以先在ES中对问题进行分词,分词后在ES敏感词数据库中查询并使用replacement进行替换。

3.后端使用ES对结果进行分词,然后在ES敏感词数据库中查询并使用replacement进行替换。可选的:可以使用第三方敏感词过滤API再次对结果进行清洗,防止结果出现违规的情况。最后将过滤后的结果返回给用户。

尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

相关技术
  • 模型训练用图像的自动标注方法、系统、设备及存储介质
  • 一种操作系统的预安装方法、系统、电子设备及存储介质
  • 模型训练方法、广告推荐方法、相关装置、设备及介质
  • 活体检测模型的训练方法、检测方法、装置、介质及设备
  • 即插即用预训练模型后门去除系统、方法、设备及介质
  • 基于最大熵损失的文本预训练模型后门消除方法、系统及介质
技术分类

06120116556761