掌桥专利:专业的专利平台
掌桥专利
首页

一种通信专业细分场景下的智能模型的建立方法及装置

文献发布时间:2024-04-18 19:59:31


一种通信专业细分场景下的智能模型的建立方法及装置

技术领域

本发明属于大数据模型领域,更具体地,涉及一种通信专业细分场景下的智能模型的建立方法及装置。

背景技术

随着ChatGPT(全称为:Chat Generative Pre-trained Transformer))发布,人工智能(Artificial Intelligence,简称为AI)技术进入2.0时代。各种基础模型向雨后春笋一般发展出现,并且各行各业也都开始研究自己领域的细分领域的大模型。因为各种基础模型能力参差不齐,各种大模型排行榜也很多。各种细分领域大模型的研究,如果从零开始是耗费巨大的人力物力的。通常细分领域大模型的研究一般要站在选定的基础模型上进行微调训练,从而产生细分领域的大模型。如何准确、快速地从众多模型中选取合适的模型,作为通信专业细分场景下的智能模型,是目前亟待解决的问题。

发明内容

针对现有技术的以上缺陷或改进需求,本发明提供了一种通信专业细分场景下的智能模型的建立方法及装置,其目的在于能够快速地从海量模型中筛选出满足需求的模型,然后在对模型进行微调和评估,可以得到最契合通信专业细分场景的智能模型,提高了模型建立的效率,由此解决如何准确、快速地从众多模型中选取合适的模型,作为通信专业细分场景下的智能模型的技术问题。

为实现上述目的,按照本发明的一个方面,提供了一种通信专业细分场景下的智能模型的建立方法,包括:

根据通信专业细分场景的需求对多个待评估模型进行评估,从中选取出能够满足需求的至少两个备选模型;

分别对所述备选模型分别进行至少一次训练,得到至少两个细分场景模型;

针对模型所需要具备的基础能力建立开放数据集,针对模型所需要具备的专业能力建立专业数据集;采用所述开放数据集和所述专业数据集分别对所述细分场景模型进行评估,得到各个细分场景模型所对应的评分;

将评分最高的细分场景模型作为通信专业细分场景下的智能模型。

进一步地,所述根据通信专业细分场景的需求对多个待评估模型进行评估,从中选取出能够满足需求的至少两个备选模型包括:

根据通信专业细分场景的需求确定基本评估维度和发展评估维度;

从多个待评估模型选取出满足所述基本评估维度的至少三个基础模型;

根据所述发展评估维度分别对所述基础模型进行评估,得到每个基础模型所对应的评分;

按照评分的高低顺序,从所述基础模型中选取出至少两个备选模型。

进一步地,所述发展评估维度包括多个发展评估指标;

所述根据所述发展评估维度分别对所述基础模型进行评估,得到每个基础模型所对应的评分包括:

分别为每个发展评估指标设置评分系数;

针对每个基础模型,分别对多个发展评估指标进行评估,得到每个发展评估指标的指标评分;

将指标评分与相应的评分系数相乘,得到每个发展评估指标的加权评分;将全部发展评估指标的加权评分求和,得到每个基础模型所对应的评分。

进一步地,所述基本评估维度包括推理算力、参数规模区间、中文特性、是否开源、商用风险和应用分类中的至少一种;

所述发展评估维度包括语言能力、参数规模、排行榜名次和可持续性中的至少一种。

进一步地,所述分别对所述备选模型分别进行至少一次训练,得到至少两个细分场景模型包括:

根据通信专业细分场景的一级场景确定一级数据集,根据通信专业细分场景的二级场景确定二级数据集;其中,所述二级场景为所述一级场景的细分场景;

针对每个备选模型,采用所述一级数据集对所述备选模型进行第一次训练,得到训练后的备选模型;

采用所述二级数据集对训练后的备选模型进行微调训练,直至备选模型的损失小于设定门限值,得到细分场景模型。

进一步地,所述采用所述开放数据集和所述专业数据集分别对所述细分场景模型进行评估,得到各个细分场景模型所对应的评分包括:

对于每个细分场景模型,采用所述开放数据集对细分场景模型进行评估,得到基础能力得分;

采用所述专业数据集对细分场景模型进行评估,得到专业能力得分;

按照设定的权重,对基础能力得分和专业能力得分进行加权求和,得到细分场景模型所对应的评分。

进一步地,所述开放数据集包括N条开放测试数据,所述采用所述开放数据集对细分场景模型进行评估,得到基础能力得分包括:

通过所述开放测试数据对细分场景模型进行问答测试,得到回答结果;

对所述回答结果和所述开放测试数据的标准答案进行文字和语义匹配,根据匹配情况为所述回答结果设置相应的评分;

将N条开放测试数据所对应的评分进行求和,再将求和结果除以N得到基础能力得分。

进一步地,所述专业数据集包括M条专业测试数据,所述采用所述专业数据集对细分场景模型进行评估,得到专业能力得分包括:

通过所述专业测试数据对细分场景模型进行问答测试,得到回答结果;

对所述回答结果和所述专业测试数据的标准答案进行文字和语义匹配,根据匹配情况为所述回答结果设置相应的评分;

将M条专业测试数据所对应的评分进行求和,再将求和结果除以M得到专业能力得分。

进一步地,所述开放数据集包括N条开放测试数据,所述专业数据集包括M条专业测试数据;所述采用所述开放数据集和所述专业数据集分别对所述细分场景模型进行评估,得到各个细分场景模型所对应的评分包括:

采用所述开放数据集和所述专业数据集分别对至少两个细分场景模型进行评估,获取回答结果达不到预期的开放测试数据和/或专业测试数据;

采用回答结果达不到预期的开放测试数据和/或专业测试数据,以及各测试数据所对应的标准答案,构建调整数据集;

根据所述调整数据集对所述细分场景模型进行微调训练,得到调整后的细分场景模型;

采用迭代方式,继续采用所述开放数据集和所述专业数据集分别对至少两个调整后的细分场景模型进行评估,直至回答结果达不到预期的开放测试数据和/或专业测试数据的数量少于设定阈值;

获取每轮评估的评分,将评分进行求和,再除以评估次数,得到各个细分场景模型所对应的评分。

按照本发明的另一方面,提供了一种通信专业细分场景下的智能模型的建立装置,包括至少一个处理器和存储器,所述至少一个处理器和存储器之间通过数据总线连接,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令在被所述处理器执行后,用于完成前述所述的通信专业细分场景下的智能模型的建立方法。

总体而言,通过本发明所构思的以上技术方案与现有技术相比,具有如下有益效果:在本发明中,根据通信领域细分场景需求,对待评估模型进行选型评估,从而从众多的待评估模型中选择适合需求的备选模型,此外,在选择的备选模型上进行微调训练,从而生成细分场景模型,并且对细分场景模型进行评估,得到最契合通信专业细分场景的智能模型。通过此方式,能够快速地从海量模型中筛选出满足需求的模型,然后在对模型进行微调和评估,可以得到最契合通信专业细分场景的智能模型,提高了模型建立的效率。

附图说明

图1是本发明实施例提供的一种通信专业细分场景下的智能模型的建立方法的流程示意图;

图2是本发明实施例提供的图1中步骤10的流程示意图;

图3是本发明实施例提供的图1中步骤20的流程示意图;

图4是本发明实施例提供的图1中步骤30的一种流程示意图;

图5是本发明实施例提供的等级匹配规则示意图;

图6是本发明实施例提供的图1中步骤30的另一种流程示意图;

图7是本发明实施例提供的一种通信专业细分场景下的智能模型的建立装置的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

实施例1:

参阅图1,为解决前述问题,本实施例提供一种通信专业细分场景下的智能模型的建立方法,包括:

步骤10:根据通信专业细分场景的需求对多个待评估模型进行评估,从中选取出能够满足需求的至少两个备选模型。

其中,根据通信专业细分场景的需求确定评估维度,基于评估维度和评估结果从众多待评估模型中选择备选模型。

步骤20:分别对所述备选模型分别进行至少一次训练,得到至少两个细分场景模型。

在一个实施例中,采用通信专业数据集对备选模型进行第一轮训练,采用细分场景数据集进行优化训练,对第一轮训练后的备选模型进行微调训练,得到备选模型所对应的细分场景模型。

步骤30:针对模型所需要具备的基础能力建立开放数据集,针对模型所需要具备的专业能力建立专业数据集,采用所述开放数据集和所述专业数据集分别对所述细分场景模型进行评估,得到各个细分场景模型所对应的评分。

在一个实施例中,确定细分场景模型的评估维度以及评估方法。细分场景模型的评估维度包括基础能力和专业能力(也称之为专业领域细分场景能力)。

其中,基础能力包含文字生成、多轮对话、逻辑与推理、知识问答、阅读理解、文本分类、翻译和文本改写等八个方面。

专业能力需要根据具体细分场景制定,例如,光传送网故障智能问答场景,专业能力包括光传送网基础、告警、性能、配置、拓扑等五个方面的问答能力。

步骤40:将评分最高的细分场景模型作为通信专业细分场景下的智能模型。

按照评分的高低顺序,将评分最高的细分场景模型作为通信专业细分场景下的智能模型。

在本实施例中,根据通信领域细分场景需求,对待评估模型进行选型评估,从而从众多的待评估模型中选择适合需求的备选模型,此外,在选择的备选模型上进行微调训练,从而生成细分场景模型,并且对细分场景模型进行评估,得到最契合通信专业细分场景的智能模型。通过此方式,能够快速地从海量模型中筛选出满足需求的模型,然后在对模型进行微调和评估,可以得到最契合通信专业细分场景的智能模型,提高了模型建立的效率。

参阅图2,在步骤10中,具体包括:

步骤101:根据通信专业细分场景的需求确定基本评估维度和发展评估维度。

其中,所述基本评估维度包括推理算力、参数规模区间、中文特性、是否开源、商用风险和应用分类中的至少一种;所述发展评估维度包括语言能力、参数规模、排行榜名次和可持续性中的至少一种。

在一个实施例中,根据用户使用场景能够提供的大模型训练、推理资源和语言种类要求,将推理算力、参数规模区间、中文特性、是否开源、商用风险、应用分类等6个维度作为基本评估维度,这是模型选择的基本条件,作为一票否决项。

举例而言,推理算力只有中央处理器(Central Processing Unit,简称为CPU)的场景,无图形处理器(Graphics Processing Unit,简称为GPU)的场景,参数规模区间建议选择1B(10亿)以下;推理算力可提供40G的GPU,建议参数规模区间选择1B-10B,如推理算力可提供80G以上的GPU,建议参数规模区间选11B-40B。通信专业细分场景大模型建议参数规模控制在40B以内。

模型需要支持中文输入,应用分类主要分为文本、代码、图像、视频、音频、3D和其他等。商用风险必须选择具有无商用风险的大模型。

将语言能力、参数规模、排行榜名次、可持续性等4个评估维度作为发展评估维度,衡量在此基础模型是否具有发展潜力。

步骤102:从多个待评估模型选取出满足所述基本评估维度的至少三个基础模型。

在一个实施例中,根据基本评估维度初步建立基础模型备选池,再根据发展评估维度从基础模型备选池中满足要求的备选模型。

其中,基础模型备选池中所包含的基础模型数量建议选择3-5个,备选模型的具体数量不做限定,可以依据实际情况而定。

步骤103:根据所述发展评估维度分别对所述基础模型进行评估,得到每个基础模型所对应的评分。

其中,所述发展评估维度包括多个发展评估指标。发展评估指标为是语言能力、参数规模、排行榜名次或可持续性。

在一个实施例中,分别为每个发展评估指标设置评分系数;针对每个基础模型,分别对多个发展评估指标进行评估,得到每个发展评估指标的指标评分;将指标评分与相应的评分系数相乘,得到每个发展评估指标的加权评分;将全部发展评估指标的加权评分求和,得到每个基础模型所对应的评分。

即,基础模型的评分规则为:

其中,α

步骤104:按照评分的高低顺序,从所述基础模型中选取出至少两个备选模型。

在一个实施例中,按照语言能力、参数规模、排行榜名次、可持续性四项对基础模型排序,如果有5个基础模型,则排序第一的基础模型得5分,第二基础模型得4分,依次类推。如果有3个基础模型,则排序第一的基础模型模型的3分,第二的基础模型得2分,依次类推。

在一个实施例中,系统会自动记录评估得分,便于后续其他通信专业细分场景选择基础模型使用,根据计算得分从中选择最优的2个基础模型作为备选模型。

参阅图3,在步骤20中,具体包括:

步骤201:根据通信专业细分场景的一级场景确定一级数据集,根据通信专业细分场景的二级场景确定二级数据集。

其中,所述二级场景为所述一级场景的细分场景。

在一个实施例中,根据一级场景确定一级数据集。例如,某个公司的光传输领域,一级数据集包括光传输基本知识、该公司光传输网络设备、光传输网络维护和光传输网络配置等。

根据二级场景确定二级数据集。例如,针对光传送网故障智能问答场景细分场景,采集原有人工处理的故障案例库。二级数据集采用TXT文本格式,每条记录采用如下格式:问题(Q),答案(A)格式。例如,问题(Q)为:光线路LOSS故障如何处理?答案(A)为:第一步查看......第二步查看......

步骤202:针对每个备选模型,采用所述一级数据集对所述备选模型进行第一次训练,得到训练后的备选模型。

步骤203:采用所述二级数据集对训练后的备选模型进行微调训练,直至备选模型的损失小于设定门限值,以得到细分场景模型。

在transformers框架下采用qlora(quick and long-range activation)对选择的备选模型,采用上述一级数据集和二级数据集对备选模型进行训练,直到损失(LOSS)小于设定门限值。其中,设定门限值是根据模型精度要求和能提供的算力资源进行设定,建议数值设置在0.1以下,并且多次训练的门限值可以设置不同。

在实际训练过程中,如果对备选模型的某些参数进行多次训练微调后,仍旧无法满足备选模型的损失小于设定门限值,此时需要调整训练调节的参数,对备选模型的其他参数进行多次训练微调,直至备选模型的损失小于设定门限值。

参阅图4,在步骤30中具体包括:

步骤301a:对于每个细分场景模型,采用所述开放数据集对细分场景模型进行评估,得到基础能力得分。

其中,所述开放数据集包括N条开放测试数据。

在一个实施例中,通过所述开放测试数据对细分场景模型进行问答测试,得到回答结果;对所述回答结果和所述开放测试数据的标准答案进行文字和语义匹配,根据匹配情况为所述回答结果设置相应的评分;将N条开放测试数据所对应的评分进行求和,再将求和结果除以N得到基础能力得分。例如,所述开放数据集包括1000条开放测试数据,则获取每一条开放测试数据的评分xi,开放能力得分等于(x1+x2+x3+......+x1000)/1000。

步骤302a:采用所述专业数据集对细分场景模型进行评估,得到专业能力得分。

其中,所述专业数据集包括M条专业测试数据。

在一个实施例中,通过所述专业测试数据对细分场景模型进行问答测试,得到回答结果;对所述回答结果和所述专业测试数据的标准答案进行文字和语义匹配,根据匹配情况为所述回答结果设置相应的评分;将M条专业测试数据所对应的评分进行求和,再将求和结果除以M得到专业能力得分。例如,所述专业数据集包括1000条专业测试数据,则获取每一条专业测试数据的评分xi,专业能力得分等于(x1+x2+x3+......+x1000)/1000。

在一个实施例中,开放数据集和专业数据集采用TXT文本格式,直接采用大段文本方式对细分场景模型进行二次预训练。为了提升二次预训练效果,采用2:1的方式,将专业数据集和开放数据集(可以理解为开源数据集)轮番进行预训练。在transformers框架下,直到细分场景模型的损失(LOSS)小于设定门限值。

在一个实施中,分别采用上述两种测试数据集进行问答测试,对测试问题的回答和测试集中的标准答案进行文字和语义匹配,其中文字匹配采用关键字百分比进行软件自动对比生成,语义匹配按照人工选择结果(优、良、合格、无帮助)。参阅图5,匹配级别从高到底分为A、B、C、D、E等5类:A类得1分;B类得0.8分;C类得0.6分;D类得0.4分;E类得0分。

步骤303a:按照设定的权重,对基础能力得分和专业能力得分进行加权求和,得到细分场景模型所对应的评分。

在一个实施例中,确定细分场景模型的评估规则为:

细分场景模型的评分=(a*基础能力得分+b*专业能力得分)*100,其中,a,b为权重,a+b=1。

其中,根据专业能力的侧重程度,b值可在[0.5-0.7]之间选择,权重越大,对专业细分场景的侧重程度越高。

其中,针对基础能力采用互联网中的开放数据集,每种基础能力的测试数据不少于30个。针对专业领域细分场景能力建立自有测试数据集,每种专业领域细分场景能力的测试数据不少于50个。

在一个实施例中,根据评估过程中的问题反馈进行二次优化训练,以提高模型的回答准确率。

参阅图6,在步骤30中具体包括:

步骤301b:采用所述开放数据集和所述专业数据集分别对至少两个细分场景模型进行评估,获取回答结果达不到预期的开放测试数据和/或专业测试数据。

参阅图5,将评分等级为D和E的测试数据,挑选出来。将这些测试数据与相应的标准答案,构建调整数据集,通过调整数据集再次对细分场景模型进行调整。

步骤302b:采用回答结果达不到预期的开放测试数据和/或专业测试数据,以及各测试数据所对应的标准答案,构建调整数据集。

步骤303b:根据所述调整数据集对所述细分场景模型进行微调训练,得到调整后的细分场景模型。

步骤304b:采用迭代方式,继续采用所述开放数据集和所述专业数据集分别对至少两个调整后的细分场景模型进行评估,直至回答结果达不到预期的开放测试数据和/或专业测试数据的数量少于设定阈值。

其中,步骤301b~303b可能会进行多次,具体取决于回答结果能否满足要求。即,重复执行步骤301b~303b,回答结果达不到预期的开放测试数据和/或专业测试数据的数量少于设定阈值。设定阈值可以依据实际情况而定,在此不做具体限定。

步骤305b:获取每轮评估的评分,将评分进行求和,再除以评估次数,得到各个细分场景模型所对应的评分。

在一个实施例中,获取每轮评估的评分,将评分进行求和,再除以评估次数,计算出平均得分,并记录在系统上,系统自动根据得分高低,列出排行,并给出最高分的作为推荐选择使用的模型。

举例而言,经历了3轮评估,才得到最终的细分场景模型。分别获取3轮评估的评分,将3轮评估的评分累加在一起,再除以3,得到各个细分场景模型所对应的评分。

在本实施例中,根据通信领域细分场景需求,对待评估模型进行选型评估,从而从众多的待评估模型中选择适合需求的备选模型,此外,在选择的备选模型上进行微调训练,从而生成细分场景模型,并且对细分场景模型进行评估,得到最契合通信专业细分场景的智能模型。通过此方式,能够快速地从海量模型中筛选出满足需求的模型,然后在对模型进行微调和评估,可以得到最契合通信专业细分场景的智能模型,提高了模型建立的效率。

进一步地,还可以根据细分场景模型的评估情况,多次对细分场景模型进行优化训练,更进一步提高了模型的准确率。

实施例2:

在上述实施例1提供的通信专业细分场景下的智能模型的建立方法的基础上,本发明还提供了一种通信专业细分场景下的智能模型的建立装置,如图7所示,是本发明实施例的装置架构示意图。本实施例的装置包括一个或多个处理器21以及存储器22。其中,图7中以一个处理器21为例。

所述处理器21和所述存储器22可以通过总线或者其他方式连接,图7中以通过总线连接为例。

所述存储器22作为一种通信专业细分场景下的智能模型的建立方法的非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如实施例1中的通信专业细分场景下的智能模型的建立方法。所述处理器21通过运行存储在所述存储器22中的非易失性软件程序、指令以及模块,从而执行装置的各种功能应用以及数据处理,即实现实施例的通信专业细分场景下的智能模型的建立方法。

所述存储器22可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,所述存储器22可选包括相对于所述处理器21远程设置的存储器,这些远程存储器可以通过网络连接至所述处理器21。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

所述程序指令/模块存储在所述存储器22中,当被所述一个或者多个处理器21执行时,执行上述实施例中的通信专业细分场景下的智能模型的建立方法。

本领域普通技术人员可以理解实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取存储器(RAM,Random AccessMemory)、磁盘或光盘等。

本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

技术分类

06120116524151