掌桥专利:专业的专利平台
掌桥专利
首页

主体分类处理方法、相关装置和介质

文献发布时间:2024-04-18 19:58:21


主体分类处理方法、相关装置和介质

技术领域

本公开涉及人工智能技术领域,特别是涉及一种主体分类处理方法、相关装置和介质。

背景技术

随着人工智能技术的迅速发展,大语言模型在自然语言理解等方面体现出了较好的效果表现。基于此,在对主体的真实类别进行识别时,能充分利用大语言模型的语言理解能力,基于主体的基本信息确定该主体的主体类别。

虽然,大语言模型能为主体分类的过程提供便利。但是,大语言模型的模型参数规模较大,这会使得大语言模型在运行时对算力要求较高。另外,庞大的参数量也会使大语言模型的推理速度较慢,会导致模型推理速度难以满足实际需求。

目前,大多数的主体分类方法常常采取对大语言模型进行模型量化的方式,通过降低参数的存储精度来减少计算量,从而提高模型推理速度。这一方式往往只是降低了模型参数精度,但并没有减少模型参数量,仍然存在着模型计算量较大的问题。另外,由于经过模型量化的大语言模型中参数的存储精度较低,还可能会导致主体分类的准确性降低。

发明内容

本公开实施例提供了一种主体分类处理方法、相关装置和介质,它能够在减少模型计算量的同时,提高主体分类的准确性。

根据本公开的一方面,提供了一种主体分类方法,包括:

获取目标主体的目标主体描述信息;

将所述主体描述信息输入分类模型,得到所述目标主体的目标主体类别,其中,所述分类模型在经过预训练的第一模型的基础上通过以下方式调整而成:

基于所述第一模型对样本主体的样本主体描述信息的第一类别预测结果、和预设的第二模型对所述样本主体的样本主体描述信息的第二类别预测结果,计算第一损失函数,其中,所述样本主体描述信息具有主体类别标签;

基于所述样本主体的所述第一类别预测结果、和所述主体类别标签,计算第二损失函数;

基于所述第一损失函数、和所述第二损失函数对所述第一模型进行调整,得到所述分类模型,其中,所述第二模型的参数数目大于所述第一模型的参数数目。

根据本公开的一方面,提供了一种主体分类装置,包括:

信息获取单元,用于获取目标主体的目标主体描述信息;

分类单元,用于将所述主体描述信息输入分类模型,得到所述目标主体的目标主体类别,其中,所述分类模型在经过预训练的第一模型的基础上通过以下方式调整而成:

基于所述第一模型对样本主体的样本主体描述信息的第一类别预测结果、和预设的第二模型对所述样本主体的样本主体描述信息的第二类别预测结果,计算第一损失函数,其中,所述样本主体描述信息具有主体类别标签;

基于所述样本主体的所述第一类别预测结果、和所述主体类别标签,计算第二损失函数;

基于所述第一损失函数、和所述第二损失函数对所述第一模型进行调整,得到所述分类模型,其中,所述第二模型的参数数目大于所述第一模型的参数数目。

可选地,所述分类模型包括语义编码子模型和分类层;所述分类单元包括:

输入单元,用于将所述目标主体描述信息输入所述语义编码子模型,得到所述目标主体描述信息的语义表征向量;

概率确定单元,用于通过所述分类层,基于所述语义表征向量,得到各个候选主体类别的判定概率;

类别判断单元,用于将所述各个候选主体类别中判定概率最高的候选主体类别判定为所述目标主体类别。

可选地,所述输入单元,具体用于:

对所述目标主体描述信息进行分词,得到多个目标词;

针对每个所述目标词,对所述目标词进行词嵌入处理,得到所述目标词的词嵌入向量;

将多个所述目标词的词嵌入向量输入至所述语义编码子模型,得到各个所述目标词的预测词表征;

基于所述预测词表征,得到所述目标主体描述信息的语义表征向量。

根据本公开的一方面,提供了一种模型训练装置,包括:

第一计算单元,用于基于所述第一模型对样本主体的样本主体描述信息的第一类别预测结果、和预设的第二模型对所述样本主体的样本主体描述信息的第二类别预测结果,计算第一损失函数,其中,所述样本主体描述信息具有主体类别标签;

第二计算单元,用于基于所述样本主体的所述第一类别预测结果、和所述主体类别标签,计算第二损失函数;

调整单元,用于基于所述第一损失函数、和所述第二损失函数对所述第一模型进行调整,得到所述分类模型,其中,所述第二模型的参数数目大于所述第一模型的参数数目。

可选地,所述调整单元,用于:

获取所述第一损失函数的第一权重、和所述第二损失函数的第二权重;

基于所述第一权重和所述第二权重,计算所述第一损失函数和所述第二损失函数的加权和,作为总损失函数;

基于所述总损失函数对所述第一模型进行调整,得到所述分类模型。

可选地,所述第一类别预测结果包括多个候选主体类别的第一预测分数,所述第二类别预测结果包括多个候选主体类别的第二预测分数;

所述第一计算单元,具体包括:

归一化单元,用于对多个所述候选主体类别的所述第一预测分数进行归一化,得到多个第一预测概率,并对多个所述候选主体类别的所述第二预测分数进行归一化,得到多个第二预测概率;

确定单元,用于基于所述样本主体的多个所述第一预测概率和多个所述第二预测概率,确定所述样本主体的第一损失子函数;

相加单元,用于对多个所述样本主体的第一损失子函数进行相加,得到所述第一损失函数。

可选地,所述确定单元,具体用于:

针对每个所述候选主体类别,对所述第二预测概率和所述第一预测概率取对数差;

将所述对数差和所述第二预测概率相乘,得到所述候选主体类别的乘积结果;

将所有所述候选主体类别的乘积结果进行相加,得到所述第一损失子函数。

可选地,所述归一化单元,具体用于:

第一优化单元,用于针对每个所述候选主体类别,基于预设的蒸馏温度对所述候选主体类别的所述第一预测分数进行优化,得到第一优化分数;

第一求和单元,用于对多个所述候选主体类别的第一优化分数进行求和,得到第一优化总分数;

第一概率生成单元,用于基于所述第一优化总分数对所述第一优化分数进行归一化,得到所述第一预测概率;

第二优化单元,用于针对每个所述候选主体类别,基于所述蒸馏温度对所述候选主体类别的所述第二预测分数进行优化,得到第二优化分数;

第二求和单元,用于对多个所述候选主体类别的第二优化分数进行求和,得到第二优化总分数;

第二概率生成单元,用于基于所述第二优化总分数对所述第二优化分数进行归一化,得到所述第二预测概率。

可选地,所述第一优化单元,具体用于:

针对每个所述候选主体类别,将所述第一预测分数除以所述蒸馏温度,得到第一调整分数;

以所述第一调整分数为指数,对自然常数进行指数计算,得到所述第一优化分数。

可选地,所述蒸馏温度通过以下方式确定:

获取所述分类模型的目标精确率、目标召回率、和目标准确率;

基于所述目标精确率,确定第一分数;

基于所述目标召回率,确定第二分数;

基于所述目标准确率,确定第三分数;

基于所述第一分数、所述第二分数、和所述第三分数,得到所述蒸馏温度。

可选地,所述第一类别预测结果包括多个候选主体类别的第一预测分数;

所述第二计算单元,具体用于:

针对每个所述样本主体,从所述第一类别预测结果中提取预测出的主体类别与所述主体类别标签一致的所述第一预测分数;

对提取的所述第一预测分数进行归一化,得到第三预测概率;

对所述第三预测概率取负对数,得到所述样本主体的第二损失子函数;

对多个所述样本主体的所述第二损失子函数进行平均,得到所述第二损失函数。

可选地,所述第二模型在大语言模型的基础上通过以下方式调整而成:

确定提示模板,其中,提示模板用于指示所述第二模型所要输出的结果;

基于所述提示模板,构建多个提示示例,其中,所述提示示例包括多个第一主体的第一主体描述信息、以及所述第一主体在各个候选主体类别上的得分;

基于所述提示模板、所述第一主体描述信息、所述得分对所述大语言模型进行调整,得到所述第二模型。

根据本公开的一方面,提供了一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如上所述的主体分类处理方法。

根据本公开的一方面,提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的主体分类处理方法。

根据本公开的一方面,提供了一种计算机程序产品,该计算机程序产品包括计算机程序,所述计算机程序被计算机设备的处理器读取并执行,使得该计算机设备执行如上所述的主体分类处理方法。

本公开实施例中,主体类别的分类模型的训练首先将多个样本主体的样本主体描述信息输入至参数数目较少的第一模型,得到各个样本主体的第一类别预测结果,同时又将多个样本主体的样本主体描述信息输入参数数目较多的第二模型,利用第二模型的自然语言理解能力,得到各个样本主体的第二类别预测结果。进一步地,基于第一类别预测结果与第二类别预测结果计算第一损失函数,以利用第一损失函数来训练模型,能实现参数数目较多的第二模型到参数数目较少的第一模型的知识迁移,使参数数目较少的第一模型经过训练具备第二模型的处理能力。另外,本公开实施例还基于第一类别预测结果与主体类别标签计算第二损失函数,以利用第二损失函数来训练模型,实现了对参数数目较少的第一模型的有监督训练。因此,本公开实施例既基于第一类别预测结果、和主体类别标签的比对,又基于第一类别预测结果、和第二类别预测结果的比对,来对第一模型进行调整,提高了分类的准确性。同时,由于将第二模型的模型处理能力迁移到参数数目更少的第一模型,能够利用轻量级的第一模型作为分类模型,相较于利用第二模型作为分类模型,大大减少了模型的计算量。

本公开的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本公开而了解。本公开的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本公开技术方案的进一步理解,并且构成说明书的一部分,与本公开的实施例一起用于解释本公开的技术方案,并不构成对本公开技术方案的限制。

图1是根据本公开的实施例的主体分类处理方法应用的系统的体系构架图;

图2A-图2C示出了根据本公开的实施例的主体分类处理方法应用在主体分类场景下的示意图;

图3是根据本公开的一个实施例的主体分类处理方法的流程图;

图4是本公开的一个实施例的对经过预训练的第一模型进行调整的流程图;

图5是图3中步骤320将目标主体描述信息输入分类模型,得到目标主体类别的流程图;

图6示出了图3中步骤320将目标主体描述信息输入分类模型,得到目标主体类别的实现过程示意图;

图7是图5中步骤510基于语义编码子模型,得到目标主体描述信息的语义表征向量的流程图;

图8是图5中步骤510基于语义编码子模型,得到目标主体描述信息的语义表征向量的实现过程示意图;

图9是图4中步骤410根据第一类别预测结果和第二类别预测结果计算第一损失函数的流程图;

图10是图9中步骤910对第一预测分数、第二预测分数进行归一化的流程图;

图11是图10中步骤1010基于蒸馏温度对第一预测分数进行优化的流程图;

图12是图4中步骤420根据第一类别预测结果和主体类别标签计算第二损失函数的流程图;

图13是图4中步骤430根据第一损失函数和第二损失函数进行模型调整的流程图;

图14示出了本公开的一个实施例的对第一模型进行调整的实现过程示意图;

图15是根据本公开的一个实施例的对大语言模型进行调整得到第二模型的流程图;

图16A-图16B示出了本公开的一个实施例的提示模板和提示示例的示意图;

图17是根据本公开的一个实施例的对第一模型进行预训练的流程图;

图18A-图18B示出了本公开的一个实施例的对第一样本句进行分词和掩码、以及生成掩码预测结果的实现过程示意图;

图19是图17中步骤1730基于接续句标签、与接续句预测结果,计算第三损失函数的流程图;

图20是图17中步骤1760基于第一目标词和掩码预测结果,计算第四损失函数的流程图;

图21是根据本公开的一个实施例的主体分类处理方法的实施细节示意图;

图22是根据本公开一个实施例的主体分类处理装置的模块图;

图23是根据本公开一个实施例的模型训练装置的模块图;

图24是根据本公开一个实施例的主体分类处理方法的终端结构图;

图25是根据本公开一个实施例的主体分类处理方法的服务器结构图。

具体实施方式

为了使本公开的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本公开进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本公开,并不用于限定本公开。

对本公开实施例进行进一步详细说明之前,对本公开实施例中涉及的名词和术语进行说明,本公开实施例中涉及的名词和术语适用于如下的解释:

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、预训练模型技术、操作/交互系统、机电一体化等。其中,预训练模型又称大模型、基础模型,经过微调后可以广泛应用于人工智能各大方向下游任务。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。

随着人工智能技术的迅速发展,大语言模型在自然语言理解等方面体现出了较好的效果表现。基于此,在对主体的真实类别进行识别时,能充分利用大语言模型的语言理解能力,基于主体的基本信息确定该主体的主体类别。

虽然,大语言模型能为主体分类的过程提供便利。但是,大语言模型的模型参数规模较大,这会使得大语言模型在运行时对算力要求较高。另外,庞大的参数量也会使大语言模型的推理速度较慢,会导致模型推理速度难以满足实际需求。

目前,大多数的主体分类方法常常采取对大语言模型进行模型量化的方式,通过降低参数的存储精度来减少计算量,从而提高模型推理速度。这一方式往往只是降低了模型参数精度,但并没有减少模型参数量,仍然存在着模型计算量较大的问题。另外,由于经过模型量化的大语言模型中参数的存储精度较低,还可能会导致主体分类的准确性降低。

本公开实施例应用的系统体系构架及场景说明

图1是根据本公开的实施例的分类处理方法所应用的系统构架图。它包括对象终端140、互联网130、网关120、主体分类处理平台服务器110、标签库150等。其中,标签库150用于存储多个主体分类标签。

对象终端140包括桌面电脑、膝上型电脑、PDA(个人数字助理)、手机、车载终端、家庭影院终端、专用终端等多种形式。另外,它可以是单台设备,也可以是多台设备组成的集合。对象终端140可以以有线或无线的方式与互联网130进行通信,交换数据。其中,对象终端140包含主体分类处理系统,主体分类处理系统用于对对象输入的主体数据进行分类处理。

主体分类处理平台服务器110是指能对对象终端140提供某些服务的计算机系统。相对于普通对象终端140来说,主体分类处理平台服务器110在稳定性、安全性、性能等方面都要求更高。服务器110可以是网络平台中的一台高性能计算机、多台高性能计算机的集群、一台高性能计算机中划出的一部分(例如虚拟机)、多台高性能计算机中划出的一部分(例如虚拟机)的组合等。其中,主体分类处理平台服务器110用于接收对象终端140发送的主体数据,并根据标签库150中存储的分类标签对主体数据进行分类,得到主体数据的主体类别,并将主体类别反馈给对象终端140,以使对象终端140通过分类处理系统将主体数据的主体类别展示给对象。

网关120又称网间连接器、协议转换器。网关在传输层上实现网络互连,是一种充当转换作用的计算机系统或设备。在使用不同的通信协议、数据格式或语言,甚至体系结构完全不同的两种系统之间,网关是一个翻译器。同时,网关也可以提供过滤和安全功能。对象终端140向主体分类处理平台服务器110发送的消息要通过网关120发送到相应的主体分类处理平台服务器110。主体分类处理平台服务器110向对象终端140发送的消息也要通过网关120发送到相应的对象终端140。

当对象A想要识别某个主体的主体类别时,对象A将这个主体的主体数据输入至对象终端140的主体分类处理系统。接着,在经过对象A授权许可后,主体分类处理系统会通过互联网130和网关120将主体数据发送给主体分类处理平台服务器110。进一步地,主体分类处理平台服务器110会从标签库150中抽取用于标识主体类别的分类标签。接着,主体分类处理平台服务器110结合抽取到的分类标签、以及自身训练好的分类模型来对主体数据进行分类,得到主体数据所对应的主体类别。进一步地,主体分类处理平台服务器110将生成的主体类别通过互联网130和网关120发送到对象终端140的主体分类处理系统,由主体分类处理系统向对象A反馈主体数据所对应的主体类别。

本公开实施例可以应用在多种场景下,例如图2A-图2C所示的主体分类场景等。

如图2A所示,当对象想要检测某个主体的所属主体类别时,首先在对象终端140上打开主体分类处理系统。此时,对象终端140上显示主体分类处理系统的内容页面。在这个内容页面中,显示有提示字段“请输入需要检测的主体的主体信息”,并显示有主体名称输入框、主体简介输入框以及所在地区输入框。其中,主体名称输入框用于提供给对象输入具体的主体名称,主体简介输入框用于提供给对象输入具体的主体描述信息,所在地区输入框用于提供给对象输入所要检测的主体的所处位置。此时,对象在主体名称输入框中输入主体的主体名称“Xxxxxxx”,在主体简介输入框中输入主体的描述信息“Axxxx134”,所在地区输入框中输入主体的所在位置“A市”,并点击“确定”控件。

如图2B所示,当对象点击“确定”控件后,主体分类处理系统会对输入的主体信息进行处理。另外,内容页面上会显示一个弹窗,弹窗中显示有提示字段:“提示:正在检测主体的所属类别,请耐心等待...”。

如图2C所示,当主体分类处理系统完成对主体信息的处理后,内容页面上会显示一个弹窗,弹窗中显示有提示字段:“提示:该主体所属的主体类别是类别M”。另外,弹窗中还显示有“确定”按钮和“帮助”按钮。此时,对象终端140通过弹窗将主体的主体类别反馈给对象,对象点击“确定”,完成主体分类。

本公开实施例的总体说明

根据本公开的一个实施例,提供了一种主体分类处理方法。

该主体分类处理方法可以用于如图2A-图2C的主体分类场景,还可以用于主体风险识别、大数据等场景。本公开实施例提供了一种基于知识蒸馏和有监督学习的方式训练出分类模型,并基于分类模型进行主体分类的方案,能够在减少模型计算量的同时,提高主体分类的准确性。

本公开实施例的分类处理方法既可以在对象终端实现,也可以在服务器实现。

如图3所示,根据本公开一个实施例的主体分类处理方法可以包括:

步骤310、获取目标主体的目标主体描述信息;

步骤320、将主体描述信息输入分类模型,得到目标主体的目标主体类别;

下面对步骤310-320进行详细描述。

在步骤310中,获取目标主体的目标主体描述信息。

目标主体指的是能够实施一些行为的人、企业或者机构。

目标主体描述信息指的是能够表明目标主体的身份、所处地区、从事业务领域、具体业务内容的信息。

例如,目标主体是某个金融机构时,目标主体描述信息能够指示该金融机构的机构名称、所在地区、涉及的金融业务等内容。

在该实施例具体实现时,获取目标主体的目标主体描述信息的方式包括但不限于以下方式:

(1)从目标主体的公开网站、公众号等渠道获取目标主体描述信息。

(2)从具备一定可信性的第三方平台获取目标主体的目标主体描述信息。

需要说明的是,在本公开实施例中,在获取目标主体的目标主体描述信息时,会通过弹窗或者跳转到确认页面等方式获得对象的单独许可或者单独同意,在明确获得对象的单独许可或者单独同意之后,再获取目标主体的目标主体描述信息。

在步骤320中,将主体描述信息输入分类模型,得到目标主体的目标主体类别。

目标主体类别用于区分不同目标主体所属类别。例如,当目标主体是一些机构时,目标主体类别包括但不限于包括金融、体育、食品、运输等等,根据目标主体类别能够清楚地区分各个机构所从事的业务类型。

分类模型指的是经过人工智能技术构建的、能够用于数据分类的模型。分类模型的输入数据不做限制,分类模型的输出一般是输入数据的所属类别。

在本公开实施例中,将目标主体描述信息作为分类模型的输入,将目标主体类别作为分类模型的输出,分类模的作用在于根据目标主体的目标主体描述信息来自主判断这个目标主体最有可能属于的主体类别,并输出目标主体类别。

为节省篇幅,步骤320将主体描述信息输入分类模型,得到目标主体的目标主体类别的具体实现过程将在下文中进行详细描述,此处不做赘述。

通过上述步骤310-320,本公开实施例,利用分类模型对目标主体描述信息进行分类,得到目标主体类别,分类模型能够利用自身的自然语言理解能力,实现对目标主体描述信息的智能化处理,能有效地提高主体分类准确性。

如图4所示,上述的分类模型在经过预训练的第一模型的基础上通过以下方式调整而成:

步骤410、基于第一模型对样本主体的样本主体描述信息的第一类别预测结果、和预设的第二模型对样本主体的样本主体描述信息的第二类别预测结果,计算第一损失函数;

步骤420、基于样本主体的第一类别预测结果、和主体类别标签,计算第二损失函数;

步骤430、基于第一损失函数、和第二损失函数对第一模型进行调整,得到分类模型。

下面对步骤410-430进行详细描述。

在步骤410中,基于第一模型对样本主体的样本主体描述信息的第一类别预测结果、和预设的第二模型对样本主体的样本主体描述信息的第二类别预测结果,计算第一损失函数。

样本主体指的是用于模型调整的主体,样本主体描述信息指的是用于模型调整的主体的描述信息。其中,样本主体描述信息具有主体类别标签,主体类别标签用于指示样本主体所属的主体类别。

在本公开实施例中,在步骤410之前,还包括获取样本主体的样本主体描述信息。具体地,获取样本主体的样本主体描述信息的具体实现过程与上述步骤310获取目标主体的目标主体描述信息的具体实现过程类似。区别在于,样本主体描述信息用于模型调整,目标主体描述信息用于确定目标主体所属的目标主体类别,两者的信息来源不同,用途不同。为节省篇幅,不再赘述。

第一模型指的是具备一定的分类处理能力的、轻量级的神经网络模型。例如,BERT模型等等。

第二模型指的是具备较为强大的自然语言处理能力、参数量较多的神经网络模型。例如、大语言模型等等。

其中,第二模型的参数数目大于第一模型的参数数目。

第一类别预测结果用于指示第一模型预测出的样本主体的主体类别。

第二类别预测结果用于指示第二模型预测出的样本主体的主体类别。

第一损失函数用于衡量第一模型预测出的样本主体的主体类别、和第二模型预测出的样本主体的主体类别之间的差距。当第一模型预测出的样本主体的主体类别、和第二模型预测出的样本主体的主体类别之间的差距越大,则第一损失函数的输出越大。

为节省篇幅,步骤410中基于第一模型的第一类别预测结果、和第二模型的第二类别预测结果,计算第一损失函数的具体实现过程将在下文中进行详细描述,此处不做赘述。

在步骤420中,基于样本主体的第一类别预测结果、和主体类别标签,计算第二损失函数。

第二损失函数用于衡量第一模型预测出的样本主体的主体类别、和样本主体的真实类别之间的差距。当第一模型预测出的样本主体的主体类别、和真实类别之间的差距越大,则第二损失函数的输出越大。

为节省篇幅,步骤420基于样本主体的第一类别预测结果、和主体类别标签,计算第二损失函数的具体实现过程将在下文中进行详细描述,此处不做赘述。

在步骤430中,基于第一损失函数、和第二损失函数对第一模型进行调整,得到分类模型。

在该实施例具体实现时,基于第一损失函数、和第二损失函数对第一模型进行调整,需要使第一模型的模型参数尽可能地满足第一损失函数的输出最小化,以减小第一模型的输出与第二模型的输出之间的差距,使第一模型的输出与第二模型的输出尽可能地接近;同时,还需要使第一模型的模型参数尽可能地满足第二损失函数的输出最小化,以减小第一模型的输出与真实类别之间的差距,使第一模型的输出与真实类别也尽可能地接近。

为节省篇幅,步骤430基于第一损失函数、和第二损失函数对第一模型进行调整,得到分类模型的具体实现过程将在下文中进行详细描述,此处不做赘述。

通过上述步骤410-430,本公开实施例中,主体类别的分类模型的训练首先将多个样本主体的样本主体描述信息输入至参数数目较少的第一模型,得到各个样本主体的第一类别预测结果,同时又将多个样本主体的样本主体描述信息输入参数数目较多的第二模型,利用第二模型的自然语言理解能力,得到各个样本主体的第二类别预测结果。进一步地,基于第一类别预测结果与第二类别预测结果计算第一损失函数,以利用第一损失函数来训练模型,能实现参数数目较多的第二模型到参数数目较少的第一模型的知识迁移,使参数数目较少的第一模型经过训练具备第二模型的处理能力。另外,本公开实施例还基于第一类别预测结果与主体类别标签计算第二损失函数,以利用第二损失函数来训练模型,实现了对参数数目较少的第一模型的有监督训练。因此,本公开实施例既基于第一类别预测结果、和主体类别标签的比对,又基于第一类别预测结果、和第二类别预测结果的比对,来对第一模型进行调整,提高了分类的准确性。同时,由于将第二模型的模型处理能力迁移到参数数目更少的第一模型,能够利用轻量级的第一模型作为分类模型,相较于利用第二模型作为分类模型,大大减少了模型的计算量。

以上是对步骤310-320、步骤410-430进行的总体描述。由于步骤310已在上述总体描述中详尽,下面将针对步骤320、步骤410、步骤420和步骤430的具体实现展开详细描述。

步骤320的详细描述

在步骤320中,将主体描述信息输入分类模型,得到目标主体的目标主体类别。

在该实施例具体实现时,分类模型包括语义编码子模型和分类层。语义编码子模型用于提取输入的主体描述信息中的语义特征信息;分类层用于根据提取到的语义特征信息进行主体分类,以确定目标主体的目标主体类别。

参照图5,在一些实施例中,步骤320包括但不限于包括以下步骤510-530:

步骤510、将目标主体描述信息输入语义编码子模型,得到目标主体描述信息的语义表征向量;

步骤520、通过分类层,基于语义表征向量,得到各个候选主体类别的判定概率;

步骤530、将各个候选主体类别中判定概率最高的候选主体类别判定为目标主体类别。

下面对步骤510-530进行详细描述。

在步骤510中,将目标主体描述信息输入语义编码子模型,得到目标主体描述信息的语义表征向量。

语义表征向量用于指示目标主体描述信息所包含的整体语义内容。

在该实施例具体实现时目标主体的目标主体描述信息常常是以句子的形式存在,直接将句子级别的目标主体描述信息输入语义编码子模型,经由语义编码子模型对目标主体描述信息进行句子上下文提取,得到目标主体描述信息的语义表征向量。

在步骤520中,通过分类层,基于语义表征向量,得到各个候选主体类别的判定概率。

候选主体类别是预设的主体类别,包含目标主体有可能属于的主体类别。本公开实施例的候选主体类别可以根据公开的各个主体的主体描述信息及其真实的主体类别来设置,候选主体类别包括但不限于医疗、交通运输、新能源、投资融资等等。

判定概率用于指示目标主体属于各个候选主体类别的可能性。其中,判定概率的取值在[0,1]范围内,所有候选主体类别的判定概率的和为1。如果某个候选主体类别的判定概率越大,表明目标主体属于这个候选主体类别的可能性越高。

在该实施例具体实现时,分类层中设置有softmax函数,softmax函数用于基于目标主体的语义表征向量预测各个候选主体类别的判定概率。具体地,首先将语义表征向量输入至分类层。接着,由分类层中的softmax函数根据语义表征向量生成目标主体在候选主体类别上的概率分布。最后,分类层根据概率分布输出各个候选主体类别的判定概率。

在步骤530中,将各个候选主体类别中判定概率最高的候选主体类别判定为目标主体类别。

在该实施例具体实现时,由于判定概率越高,候选主体类别是目标主体的真实主体类别的可能性越大。基于此,可以将各个候选主体类别中判定概率最高的候选主体类别判定为目标主体类别。

如图6所示,将目标主体的目标主体描述信息“AAA体育用品专卖店,销售范围:羽毛球拍、运动袜子、跳绳、拉力绳等”输入至分类模型,经由分类模型的语义编码子模型对目标主体描述信息进行特征提取,得到目标主体描述信息对应的语义表征向量。接着,经由分类层根据语义表征向量对目标主体进行分类,生成目标主体在各个候选类别的判定概率。其中,目标主体的候选主体类别的判定概率有“医疗类别的判定概率为0.01”、“体育类别的判定概率为0.8”、“保险类别的判定概率为0.08”、“食品类别的判定概率为0.02”等等。由此可见,目标主体在体育类别的判定概率最高,通过分类模型的分类层输出目标主体类别为“体育”。

通过上述步骤510-530,本公开实施例,基于语义编码子模型和分类层构建分类模型,使分类模型的结构简单,能够减少模型的计算复杂度。进一步地,利用语义编码子模型提取到表征目标主体描述信息的整体内容的语义表征向量,并利用分类层筛选出判定概率最高的候选主体类别判定为目标主体类别,能够较好地提高分类模型的处理能力,进而提高分类准确性和客观性。

由于目标主体的目标主体描述信息常常是以句子的形式存在,如果直接在句子级别上利用语义编码子模型生成语义表征向量,往往会使语义表征向量所包含的语义信息不够全面。基于此,本公开实施例提供了一种在词语级别上利用语义编码子模型生成语义表征向量的方案,能够使语义编码子模型的处理过程更细粒度化,从而提高语义表征向量所包含的语义信息的全面性。

下面结合图7、图8对基于语义编码子模型生成目标主体描述信息的语义表征向量的过程进行详细描述。

参照图7,在一些实施例中,步骤510包括但不限于包括以下步骤710-740:

步骤710、对目标主体描述信息进行分词,得到多个目标词;

步骤720、针对每个目标词,对目标词进行词嵌入处理,得到目标词的词嵌入向量;

步骤730、将多个目标词的词嵌入向量输入至语义编码子模型,得到各个目标词的预测词表征;

步骤740、基于预测词表征,得到目标主体描述信息的语义表征向量。

下面对步骤710-740进行详细描述。

在步骤710中,对目标主体描述信息进行分词,得到多个目标词。

目标词指的是目标主体描述信息中的多个词语。

在该实施例具体实现时,可以利用预设的分词算法对目标主体描述信息进行分词。具体地,预设的分词算法包括但不限于Jieba分词算法、WordPiece算法。以采用Jieba分词算法为例,利用Jieba分词算法将目标主体描述信息拆分成多个单独的词语,将每个单独的词语作为一个目标词,从而得到多个目标词。

在步骤720中,针对每个目标词,对目标词进行词嵌入处理,得到目标词的词嵌入向量。

词嵌入向量用于指示目标词在某个预设向量空间的表现形式。

在该实施例具体实现时,针对每个目标词,首先将目标词从语义空间映射到预设的向量空间,得到目标词的向量表示。接着,将目标词的向量表示作为目标词的词嵌入向量。

在步骤730中,将多个目标词的词嵌入向量输入至语义编码子模型,得到各个目标词的预测词表征。

预测词表征用于指示由语义编码子模型输出的各个目标词的词语含义。

在该实施例具体实现时,将多个目标词的词嵌入向量按照目标词在目标主体描述信息的顺序依次输入至语义编码子模型,经由语义编码子模型对词嵌入向量进行上下文提取,生成各个目标词的预测词表征。

在步骤740中,基于预测词表征,得到目标主体描述信息的语义表征向量。

在该实施例具体实现时,由于输入的目标主体描述信息的CLS信息常常包含有目标主体描述信息的整体语义,因此,可以将CLS信息所对应的预测词表征作为目标主体描述信息的语义表征向量。

进一步地,为了提高语义表征向量的准确性,还可以将所有目标主体描述信息的CLS信息的预测词表征和所有目标词的预测词表征进行平均池化,将池化结果作为目标主体描述信息的语义表征向量。

如图8所示,语义编码子模型基于BERT模型构建而成。目标主体的目标主体描述信息是“AAA体育用品专卖店,销售范围:羽毛球拍、运动袜子、跳绳、拉力绳等”。首先,将“AAA体育用品专卖店,销售范围:羽毛球拍、运动袜子、跳绳、拉力绳等”进行分词,得到多个目标词,目标词包括Tok1“A”、Tok2“A”、Tok3“A”、Tok4“体”、Tok5“育”、……、TokN“等”。进一步地,针对每个目标词,对目标词进行词嵌入处理,得到目标词的词嵌入向量,其中,目标词Tok1的词嵌入向量是E

通过上述步骤710-740,本公开实施例,将目标主体描述信息处理成目标词,将句子级别的分类转换成词语级别的分类,使主体分类过程更加细粒度化。进一步地,还将目标词转换成模型更加方便处理的嵌入向量形式,能进一步地提高分类模型的处理效率和处理效果,进而使经由语义编码子模型输出的语义表征向量具备较好的质量,有利于提高分类准确性。

步骤410的详细描述

在步骤410中,基于第一模型对样本主体的样本主体描述信息的第一类别预测结果、和预设的第二模型对样本主体的样本主体描述信息的第二类别预测结果,计算第一损失函数。

在该实施例具体实现时,为了使第一模型尽可能多地学习到第一模型的特征提取能力和处理能力,会希望第一模型的第一类别预测结果和第二模型的第二类别预测结果尽可能地接近。基于此,本公开实施例中考虑到了利用相对熵损失来衡量第一模型的第一类别预测结果和第二模型的第二类别预测结果之间的差异程度。

需要说明的是,第一类别预测结果包括多个候选主体类别的第一预测分数。第一预测分数用于指示第一模型对样本主体属于各个候选主体类别的评分情况。第二类别预测结果包括多个候选主体类别的第二预测分数。第二预测分数用于指示第二模型对样本主体属于各个候选主体类别的评分情况。

下面结合图9对基于第一类别预测结果、和第二类别预测结果,计算第一损失函数的过程进行详细描述。

参照图9,在一些实施例中,步骤910包括但不限于包括以下步骤910-930:

步骤910、对多个候选主体类别的第一预测分数进行归一化,得到多个第一预测概率,并对多个候选主体类别的第二预测分数进行归一化,得到多个第二预测概率;

步骤920、基于样本主体的多个第一预测概率和多个第二预测概率,确定样本主体的第一损失子函数;

步骤930、对多个样本主体的第一损失子函数进行相加,得到第一损失函数。

下面对步骤910-930进行详细描述。

在步骤910中,对多个候选主体类别的第一预测分数进行归一化,得到多个第一预测概率,并对多个候选主体类别的第二预测分数进行归一化,得到多个第二预测概率。

归一化是一种简化计算的方式,即将原始数据进行线性变换,将原始数据映射到[0,1]之间。

第一预测概率是第一预测分数经过归一化得到的概率。

第二预测概率是是第二预测分数经过归一化得到的概率。

在该实施例具体实现时,首先将所有第一预测分数进行求和,得到第一预测总分数。接着,将各个候选主体类别的第一预测分数除以第一预测总分数,得到各个候选主体类别的第一预测概率,从而实现对多个候选主体类别的第一预测分数的归一化。

同样地,首先将所有第二预测分数进行求和,得到第二预测总分数。接着,将各个候选主体类别的第二预测分数除以第二预测总分数,得到各个候选主体类别的第二预测概率,从而实现对多个候选主体类别的第二预测分数的归一化。

在步骤920中,基于样本主体的多个第一预测概率和多个第二预测概率,确定样本主体的第一损失子函数。

在该实施例具体实现时,第一损失子函数是相对熵函数,第一损失子函数用于衡量某个样本主体的第一类别预测结果和第二类别预测结果之间的差异程度。具体地,步骤920包括但不限于包括以下步骤:

针对每个候选主体类别,对第二预测概率和第一预测概率取对数差;

将对数差和第二预测概率相乘,得到候选主体类别的乘积结果;

将所有候选主体类别的乘积结果进行相加,得到第一损失子函数。

在该实施例具体实现时,针对每个样本主体,首先将每个候选主体类别的第二预测概率除以第一预测概率,得到除法结果,接着,将除法结果取对数,得到候选主体类别的对数差。进一步地,将每个候选主体类别的对数差和其第二预测概率相乘,得到候选主体类别的乘积结果。最后,将所有候选主体类别的乘积结果进行相加,得到样本主体的第一损失子函数。

其中,第i个样本主体的第一损失子函数可以表示如公式(1)所示:

其中,loss(i)是第i个样本主体的第一损失子函数。M是候选主体类别的总数目。c表示第c个候选主体类别。q

在步骤930中,对多个样本主体的第一损失子函数进行相加,得到第一损失函数。

在该实施例具体实现时,将所有样本主体的第一损失子函数进行相加,得到求和结果,将求和结果作为第一损失函数。其中,第一损失函数可以表示如公式(2)所示:

其中,KL(SL,SP)是第一损失函数。SP是第i个样本主体的第一预测概率的集合。SL是第i个样本主体的第二预测概率的集合。N是样本主体的总数目。

通过上述步骤910-930,本公开实施例,对第一类别预测结果中的第一预测分数进行归一化,对第二类别预测结果中的第二预测分数进行归一化,并利用归一化得到的第一预测概率、和归一化得到的第二预测概率来构建第一损失函数,利用第一损失函数来衡量第一模型和第二模型对样本主体的类别预测的差异程度,使得在基于第一损失函数进行模型训练时,尽可能地鼓励第一模型学习第二模型的输出分布,实现第二模型的模型知识向第一模型的迁移,使第一模型能够尽可能地获取到第二模型的模型处理能力,从而当需要运用第二模型的处理功能实现模型处理时,直接调用第一模型去进行相应处理即可,能实现第二模型的模型压缩,利用轻量级的第一模型取代第一模型的处理,有效地降低模型处理时的计算开销。

由于常规的归一化方式仅仅是将所有预测分数转换成无量纲的表现形式,往往无法在模型训练中使模型学习到更多的有用信息。基于此,本公开实施例提供了一种基于蒸馏温度的归一化方案,能够通过归一化的方式在模型训练中使模型学习到更多的有用信息,提高模型训练效果。

下面结合图10对将第一预测分数、第二预测分数归一化的过程进行详细描述。

参照图10,在一些实施例中,对多个候选主体类别的第一预测分数进行归一化,得到多个第一预测概率的过程包括但不限于包括以下步骤1010-1030:

步骤1010、针对每个候选主体类别,基于预设的蒸馏温度对候选主体类别的第一预测分数进行优化,得到第一优化分数;

步骤1020、对多个候选主体类别的第一优化分数进行求和,得到第一优化总分数;

步骤1030、基于第一优化总分数对第一优化分数进行归一化,得到第一预测概率。

下面对步骤1010-1030进行详细描述。

在步骤1010中,针对每个候选主体类别,基于预设的蒸馏温度对候选主体类别的第一预测分数进行优化,得到第一优化分数。

蒸馏温度是一个超参数,蒸馏温度用于将各个候选主体类别缩放到同一个量级表示内,使各个候选主体类别在分数上的区分度更加明显。

第一优化分数是基于蒸馏温度,对第一预测分数进行一系列数学运算得到的分数。

在该实施例具体实现时,可以利用蒸馏温度对第一预测分数进行加减乘除四则运算,也可以是对第一预测分数进行幂指对数运算,不做限制。例如,将蒸馏温度作为一个优化系数,将第一预测分数和蒸馏温度的乘积作为第一优化分数。

在步骤1020中,对多个候选主体类别的第一优化分数进行求和,得到第一优化总分数。

第一优化总分数是某个样本主体,在所有候选主体类别的第一优化分数的总和。

在该实施例具体实现时,为了使总分数具备更好的全面性,可以直接将所有候选主体类别的第一优化分数进行求和,将得到的求和结果作为第一优化总分数。

在步骤1030中,基于第一优化总分数对第一优化分数进行归一化,得到第一预测概率。

在该实施例具体实现时,针对每个候选主体类别,首先将第一优化分数除以第一优化总分数,得到除法结果,其中,除法结果用于指示各个候选主体类别的第一优化分数在第一优化总分数中的所占比例。接着,将除法结果作为第一预测概率。

通过上述步骤1010-1030,本公开实施例,引入蒸馏温度对第一预测分数进行优化,能提高用于计算第一损失函数的第一预测概率的准确性。能够使第一损失函数的输出趋于平滑,使第一损失函数的分布的熵变大,从而利用第一损失函数对第一模型进行调整时,使第一模型更加关注第一预测概率的准确性,提高模型训练效果。

参照图10,在一些实施例中,对多个候选主体类别的第二预测分数进行归一化,得到多个第二预测概率的过程包括但不限于包括以下步骤1040-1060:

步骤1040、针对每个候选主体类别,基于蒸馏温度对候选主体类别的第二预测分数进行优化,得到第二优化分数;

步骤1050、对多个候选主体类别的第二优化分数进行求和,得到第二优化总分数;

步骤1060、基于第二优化总分数对第二优化分数进行归一化,得到第二预测概率。

下面对步骤1040-1060进行详细描述。

第二优化分数是基于蒸馏温度,对第二预测分数进行一系列数学运算得到的分数。

第二优化总分数是某个样本主体,在所有候选主体类别的第二优化分数的总和。

在该实施例具体实现时,步骤1040-1060的具体实现过程与上述步骤1010-1030的具体实现过程类似。区别在于,步骤1040-1060是对第二预测分数进行归一化,而步骤1010-1030是对第一预测分数进行归一化,两者归一化处理的对象不同。为节省篇幅,不再赘述。

通过上述步骤1040-1060,本公开实施例,引入蒸馏温度对第二预测分数进行优化,能提高用于计算第一损失函数的第二预测概率的准确性。能够使第一损失函数的输出趋于平滑,使第一损失函数的分布的熵变大,从而利用第一损失函数对第一模型进行调整时,使第一模型以第二预测概率为基准,使第一模型更加关注第一预测概率和第二预测概率的差距,提高模型训练效果。

由于不同的优化方式带来的优化效果往往是不一样的。为了改善优化效果,使归一化的结果更为准确,本公开实施例提供了一种基于蒸馏温度进行指数计算的方案,能够增大各个候选主体类别的分数差异,使优化效果更为明显。

下面结合图11对基于预设的蒸馏温度对候选主体类别的第一预测分数进行优化的过程进行详细描述。

参照图11,在一些实施例中,基于预设的蒸馏温度对候选主体类别的第一预测分数进行优化的过程包括但不限于包括以下步骤1110-1120:

步骤1110、针对每个候选主体类别,将第一预测分数除以蒸馏温度,得到第一调整分数;

步骤1120、以第一调整分数为指数,对自然常数进行指数计算,得到第一优化分数。

下面对步骤1110-1120进行详细描述。

在步骤1110中,针对每个候选主体类别,将第一预测分数除以蒸馏温度,得到第一调整分数。

第一调整分数指的是将第一预测分数利用蒸馏温度进行缩放处理得到的分数。

在该实施例具体实现时,针对每个候选主体类别,用这个候选主体类别的第一预测分数除以蒸馏温度,得到一个除法结果,将这个除法结果作为第一调整分数。

例如,第k个候选主体类别的第一预测分数为z

在步骤1120中,以第一调整分数为指数,对自然常数进行指数计算,得到第一优化分数。

在该实施例具体实现时,首先将第一调整分数作为自然常数的指数;接着,计算自然常数以第一调整分数时的指数结果,将指数结果作为第一优化分数。

例如,第k个候选主体类别的第一调整分数表示为(z

进一步地,对某个样本主体的第k个候选主体类别的第一预测分数进行归一化的过程可以表示如公式(3)所示:

其中,Softmax(T:t)指的是第一预测概率,T指的是蒸馏温度的变量形式,此时,T=t。j表示候选主体类别的总数目。∑

通过上述步骤1110-1120,本公开实施例,利用基于蒸馏温度进行指数计算。具体地,将第一预测分数除以蒸馏温度,得到第一调整分数,接着,以第一调整分数为指数,对自然常数进行指数计算,得到第一优化分数,能够增大各个候选主体类别的分数差异,使优化效果更为明显,进而提高归一化的准确性。

由于不同的蒸馏温度下的归一化效果会各不相同,为了提高归一化效果,本公开实施例提供了一种基于模型的调整目标确定蒸馏温度的方案,能够提高蒸馏温度的准确性和合理性,进而提高模型调整的准确性。

在一些实施例中,蒸馏温度通过以下方式确定:

获取分类模型的目标精确率、目标召回率、和目标准确率;

基于目标精确率,确定第一分数;

基于目标召回率,确定第二分数;

基于目标准确率,确定第三分数;

基于第一分数、第二分数、和第三分数,得到蒸馏温度。

在该实施例具体实现时,目标准确率用于指示分类模型预测正确的样本与所有样的比值。目标召回率用于指示预测正确的正样本与所有正样本的比值。目标精确率用于指示预测正确的正样本与预测正确的正样本和预测错误的负样本之和的比值。在获取分类模型的目标精确率、目标召回率、和目标准确率时,可以根据实际业务需求或者模型的训练目标来确定分类模型的目标精确率、目标召回率、和目标准确率。

进一步地,在基于目标精确率,确定第一分数时,采用查表法来确定目标精确率所对应的第一分数。具体地,获取第一关系表,其中,第一关系表用于指示每个精确率区间所对应的分数。接着,查询第一关系表,确定目标精确率所在的精确率区间;最后,将与目标精确率所在的精确率区间对应的分数作为第一分数。

其中,基于目标召回率,确定第二分数的具体实现过程、基于目标准确率,确定第三分数的具体实现过程与基于目标精确率,确定第一分数的具体实现过程类似。为节省篇幅,不再赘述。

进一步地,获取第一分数的第一分数权重、第二分数的第二分数权重、和第三分数的第三分数权重,其中,第一分数权重用于指示目标精确率对确定蒸馏温度的重要程度,第二分数权重用于指示目标召回率对确定蒸馏温度的重要程度;第三分数权重用于指示目标准确率对确定蒸馏温度的重要程度。接着,根据第一分数权重、第二分数权重、第三分数权重对第一分数、第二分数、和第三分数进行加权和,得到总分数。

进一步地,采用查表法来确定总分数所对应的蒸馏温度。其具体实现过程与基于目标精确率,确定第一分数的具体实现过程类似。为节省篇幅,不再赘述。

通过上述方式,本公开实施例,基于模型的调整目标确定蒸馏温度,根据模型所要求的目标精确率、目标召回率、和目标准确率来综合确定最终的蒸馏温度,能够提高蒸馏温度的准确性和合理性,进而提高模型调整的准确性。

步骤420的详细描述

在步骤420中,基于样本主体的第一类别预测结果、和主体类别标签,计算第二损失函数。

在该实施例具体实现时,由于样本主体的样本主体描述信息是有标签数据,于样本主体具有的主体类别标签能够指示于样本主体的真实主体类别。同时,第一类别预测结果用于指示于样本主体的预测主体类别,当主体类别标签和第一类别预测结果尽可能地接近时,表明第一模型的分类效果较好。基于此,可以选择交叉熵损失来衡量多个于样本主体的第一类别预测结果、和主体类别标签之间的差距,将使第一类别预测结果、和主体类别标签之间的差距尽可能地小作为一个训练目标,使用多个样本主体的第一类别预测结果和主体类别标签构建交叉熵损失函数,并将构建得到的交叉熵损失函数作为第二损失函数。

需要说明的是,第一类别预测结果包括多个候选主体类别的第一预测分数,第一预测分数用于指示第一模型对样本主体属于各个候选主体类别的评分情况。当样本主体在某个候选主体类别的第一预测分数越高,则表明样本主体属于这个候选主体类别的可能性越大。

下面结合图12对基于第一类别预测结果、和主体类别标签计算第二损失函数的过程进行详细描述。

参照图12,在一些实施例中,基于第一类别预测结果、和主体类别标签计算第二损失函数的过程具体包括但不限于包括以下步骤1210-1220:

步骤1210、针对每个样本主体,从第一类别预测结果中提取预测出的主体类别与主体类别标签一致的第一预测分数;

步骤1220、对提取的第一预测分数进行归一化,得到第三预测概率;

步骤1230、对第三预测概率取负对数,得到样本主体的第二损失子函数;

步骤1220、对多个所述样本主体的第二损失子函数进行平均,得到第二损失函数。

下面对步骤1210-1220进行详细描述。

在步骤1210中,针对每个样本主体,从第一类别预测结果中提取预测出的主体类别与主体类别标签一致的第一预测分数。

在该实施例具体实现时,针对每个样本主体,首先将第一类别预测结果中的多个候选主体类别与主体类别标签进行比对。如果候选主体类别与主体类别标签一致,则从第一类别预测结果中提取这个候选主体类别的第一预测分数。

在步骤1220中,对提取的第一预测分数进行归一化,得到第三预测概率。

第三预测概率是第一类别预测结果中主体类别与主体类别标签一致的第一预测分数经过归一化得到的概率。

在该实施例具体实现时,对提取的第一预测分数进行归一化,得到第三预测概率的具体实现过程与上述步骤1010-1030的具体实现过程类似。区别在于,步骤1220是对提取的第一预测分数进行归一化,且蒸馏温度是T=1。而步骤1010-1030则是对所有的第一预测分数进行归一化,且蒸馏温度是T=t,t是除1之外的数值,两者的归一化对象不同,蒸馏温度不同。为节省篇幅,不再赘述。

在步骤1230中,对第三预测概率取负对数,得到样本主体的第二损失子函数。

第二损失子函数是交叉熵损失函数。

在该实施例具体实现时,直接对第三预测概率P

在步骤1220中,对多个样本主体的第二损失子函数进行平均,得到第二损失函数。

在该实施例具体实现时,首先获取样本主体的总数量。接着,再将所有第一损失子函数进行求和,得到求和结果。最后,将求和结果与样本主体的总数量相除,得到第一损失函数。其中,第二损失函数可以表示如公式(4)所示:

其中,CE(HP,HL)表示第一损失函数;N表示样本主体的总数量;M表示候选主体类别的总数量;c表示第c个候选主体类别。y

通过上述步骤1310-1320,本公开实施例,采用交叉熵损失衡量样本主体的第一类别预测结果、和主体类别标签之间的差距,能以缩小第一类别预测结果、和主体类别标签之间的差距的差异为训练目标,实现对第一模型的有监督训练,提高了模型的训练效果,从而提高了分类的准确性。

步骤430的详细描述

在步骤430中,基于第一损失函数、和第二损失函数对第一模型进行调整,得到分类模型。

在该实施例具体实现时,首先将第一损失函数和第二损失函数整合成一个总的损失函数。接着,基于总的损失函数对分类模型的模型参数进行调整,将使总的损失函数的输出结果尽可能地小为参数调整目标。最后,当总的损失函数的输出结果最小时,或者当总的损失函数的输出结果小于预定阈值时,停止对分类模型的调整,将此时的模型作为分类模型。

由于第一损失函数与第二损失函数对模型调整的重要程度,如果直接结合第一损失函数、第二损失函数进行模型调整,会存在着调整不准确的问题。基于此,本公开实施例提供了一种基于不同损失函数的重要程度进行模型调整的方案,能提高模型调整的准确性,从而提高分类的准确性。

参照图13,在一些实施例中,基于第一损失函数、和第二损失函数对第一模型进行调整的过程包括但不限于包括以下步骤1310-1330:

步骤1310、获取第一损失函数的第一权重、和第二损失函数的第二权重;

步骤1320、基于第一权重和第二权重,计算第一损失函数和第二损失函数的加权和,作为总损失函数。

步骤1330、基于总损失函数对第一模型进行调整,得到分类模型。

下面对步骤1310-1330进行详细描述。

在步骤1310中,获取第一损失函数的第一权重、和第二损失函数的第二权重。

第一权重用于表征样本主体的第一类别预测结果和第二类别预测结果的差异在模型调整中的重要程度。第二权重用于表征样本主体的第一类别预测结果和真实类别标签的差异在模型调整中的重要程度。

在该实施例具体实现时,第一权重和第二权重根据实际需求预先设置,并存储在权重数据库里。基于此,可以直接从权重数据库中调用第一权重和第二权重,其中,第一权重和第二权重的和为1。

在步骤1320中,基于第一权重和第二权重,计算第一损失函数和第二损失函数的加权和,作为总损失函数。

在该实施例具体实现时,首先将第一权重和第一损失函数相乘,得到第一加权损失函数;接着,将第二权重和第二损失函数相乘,得到第二加权损失函数。进一步地,将第一加权损失函数和第二加权损失函数相加,得到第一损失函数和第二损失函数的加权和。最后,将第一损失函数和第二损失函数的加权和作为总损失函数。其中,总损失函数可以表示如公式(5)所示:

Loss=α*KL(SL,SP)+(1-α)*CE(HP,HL)公式(5)

其中,Loss表示总损失函数。KL(SL,SP)表示第一损失函数。CE(HP,HL)表示第二损失函数。α表示第一权重,(1-α)表示第二权重。

在步骤1330中,基于总损失函数对第一模型进行调整,得到分类模型。

在该实施例具体实现时,利用反向传播的方式来基于总损失函数对第一模型进行调整。具体地,首先获取总损失函数在每个迭代轮次的输出损失值;接着,将输出损失值和预设阈值进行比较。如果输出损失值大于预设阈值,则第一模型的模型参数进行调整,并继续下一轮的迭代训练。重复上述训练过程,直到在某个迭代轮次中,输出损失值小于或者等于预设阈值时,将此轮迭代设置的模型参数作为最终的模型参数,从而得到分类模型。其中,预设阈值根据实际需求设置,不做限制。

如图14所示,首先将样本主体的样本主体描述信息分别输入至第一模型、第二模型,其中,第一模型是学生模型,第二模型是教师模型。经由第二模型输出第二预测结果,并经由softmax函数按照蒸馏温度T=t对第二预测结果进行归一化,得到第二预测概率,将第二预测概率作为软标签SL。同样地,经由第一模型输出第一预测结果,经由softmax函数按照蒸馏温度T=t对第一预测结果进行归一化,得到第一预测概率,将第一预测概率作为软标签SP。同时,经由softmax函数按照蒸馏温度T=1对第一预测结果进行归一化,得到第三预测概率,将第三预测概率作为硬标签HP。进一步地,利用第一预测概率和第二预测概率计算第一损失函数,第一损失函数为软损失。同样地,利用第三预测概率和样本主体的主体类别标签(硬标签HL)计算第二损失函数,第二损失函数为硬损失。最后,将第二损失函数和第一损失函数进行加权和,得到总损失函数。

通过上述步骤1310-1330,本公开实施例,基于不同损失函数的重要程度进行模型调整。将第一损失函数赋予第一权重,将第二损失函数赋予第二权重,根据第一损失函数和第二函数的加权结果来调整第一模型的模型参数,能提高模型调整的准确性,使第一模型基于第一损失函数中第一预测类别结果和第二预测类别结果的差异,学习到第二模型的特征表达能力,并基于第二损失函数中第一预测类别结果和主体类别标签的差异进行有监督学习,从而提高分类的准确性。

本公开实施例的第二模型的处理过程的详细描述

由于大语言模型在自然语言理解等方面体现出了较好的效果表现,在对主体的真实类别进行识别时,能充分利用大语言模型的语言理解能力,从而提高主体分类的准确性。基于此,本公开实施例提供了一种基于对大语言模型调整生成第二模型的方案,能提高第二模型对主体描述信息的处理能力,进而使第一模型学习到更好的模型能力。

下面结合图15、图16A-图16B对基于对大语言模型调整生成第二模型的过程进行详细描述。

参照图15,在一些实施例中,第二模型在大语言模型的基础上通过以下方式调整而成:

步骤1510、确定提示模板;

步骤1520、基于提示模板,构建多个提示示例。

步骤1530、基于提示模板、第一主体描述信息、得分对大语言模型进行调整,得到第二模型。

下面对步骤1510-1530进行详细描述。

在步骤1510中,确定提示模板。

提示模板用于指示第二模型所要输出的结果。

在该实施例具体实现时,提示模板根据实际的业务需求设置,不做限制。其中,提示模板中包含对输入信息的格式、以及输出信息的格式的限制。

如图16A所示,是一个提示模板(Prompt)的示意图。在提示模板中,限定输入为主体描述信息,设定条件为“已知主体类别列表1、类别A;2、类别B;3、类别C;4、类别D;5、类别E”,目标为“以json格式输出“xx”主体描述信息在各个主体类别上的评分”。

在步骤1520中,基于提示模板,构建多个提示示例。

提示示例是符合提示模板要求的例子。提示示例包括多个第一主体的第一主体描述信息、以及第一主体在各个候选主体类别上的得分。其中,第一主体描述信息用于指示第一主体的主体名称、主体所在区域、简要描述等内容。得分用于指示第一主体属于各个候选主体类别的可能性。

在该实施例具体实现时,首先获取多个第一主体的主体描述信息、以及预定的多个候选主体类别;接着,由相关对象按照提示模板,将多个第一主体的主体描述信息进行格式调整,并赋予第一主体在各个候选主体类别上的得分,从而生成多个提示示例。其中,相关对象指的是具备一定的主体分类能力的人、或者智能助手等等,不做限制。

如图16B所示,是根据提示模板生成的两个提示示例。具体地,提示示例1包含的信息为:第一主体M的主体描述信息是“xxxxxxx1”。根据主体描述信息,确定第一主体M在类别A的评分为80分,在类别B的评分为10分,在类别C的评分为0分,在类别D的评分为0分,在类别E的评分为0分。提示示例2包含的信息为:第一主体P的主体描述信息是“xxxxxYY”。根据主体描述信息,确定第一主体P在类别A的评分为0分,在类别B的评分为5分,在类别C的评分为75分,在类别D的评分为10分,在类别E的评分为0分。

在步骤1530中,基于提示模板、第一主体描述信息、得分对大语言模型进行调整,得到第二模型。

本公开实施例中的大语言模型包括但不限于chatGLM、chatGPT、MOSS、BLOOM等等。

在该实施例具体实现时,首先将提示模板和第一主体描述信息输入大语言模型,得到大语言模型输出的第一主体在各个候选主体类别上的预测得分。接着,基于第一主体在各个候选主体类别上的得分和预测得分生成模型子损失值。进一步地,将所有第一主体的模型子损失值生成模型总损失值,并基于模型总损失值对大语言模型进行调整,得到第二模型。

具体地,由于大语言模型具备自主学习能力和自然语言理解能力,在将提示模板和第一主体描述信息输入大语言模型后,大语言模型会自主地学习提示模板的内容,并依据自身的自然语言理解能力来根据第一主体描述信息输出第一主体在各个候选主体类别上的预测得分。

进一步地,由于第一主体在各个候选主体类别上的得分和预测得分越接近,表明大语言模型的模型处理能力越好。基于此,将第一主体在各个候选主体类别上的得分和预测得分的一致性损失作为模型子损失值。具体地,针对每个第一主体,计算每个候选主体类别上的得分和预测得分的差的平方,接着,将所有候选主体类别上的得分和预测得分的差的平方进行求和,得到差的平方和,将差的平方和作为第一主体的模型子损失值。

进一步地,由于大语言模型对每个第一主体的第一主体描述信息的理解能力存在差异,为了客观地评估大语言模型的模型处理能力,可以将所有第一主体的模型子损失值进行平均,将得到的平均损失值作为模型总损失值。

最后,利用反向传播的方式将模型总损失值传回到大语言模型,以使大语言模型不断地根据每个迭代轮次的模型总损失值进行优化学习,直到模型总损失值满足预设条件,将满足预设条件的大语言模型作为第二模型。

通过上述步骤1510-1530,本公开实施例,选取大语言模型作为第二模型,通过设置提示模板和提示示例来训练和调整大语言模型,将调整后的大语言模型作为第二模型,使得第二模型具备大语言模型的自然语言理解能力。另外,还基于提示模板和提示示例的模型调整,使第二模型适用于特定的场景,并具备对特定场景的各种信息的处理能力,实现了大语言模型在具体的垂直领域中的知识迁移,进而使第一模型从第二模型中学习到更好的模型能力。

本公开实施例的第一模型的预训练过程的详细描述

由于本公开实施例的模型调整过程中需要基于第一模型来生成各个样本主体的第一类别预测结果,第一模型需要具备一定的分类处理能力。基于此,本公开实施例提供了一种对第一模型进行预训练的方案,能提高第一模型的分类处理能力。

为了减少第一模型的参数量,本公开实施例的第一模型指的是一些轻量级的神经网络模型,例如,预训练语言模型BERT模型等等。

下面结合图17对第一模型进行预训练的过程进行详细描述。

参照图15,在一些实施例中,对第一模型进行预训练的过程包括但不限于包括步骤1710-1770:

步骤1710、获取多个样本句;

步骤1720、将样本句输入第一模型,得到接续句预测结果。

步骤1730、基于多个样本句各自的接续句标签、与接续句预测结果,计算第三损失函数;

步骤1740、将每个样本句进行分词,从分出的第一词中选择第一目标词,并对第一目标词进行掩码;

步骤1750、将掩码后的样本句输入第一模型,得到掩码预测结果。

步骤1760、基于多个样本句中的第一目标词和掩码预测结果,计算第四损失函数;

步骤1770、基于第三损失函数和第四损失函数,训练第一模型。

下面对步骤1710-1770进行详细描述。

在步骤1710中,获取多个样本句。

样本句是用于训练第一模型的句子。其中,样本句的长度根据实际需求设置,为了提高预训练效果,样本句一般是长度较短的句子。例如,样本句A为“明天是星期日。”。

样本句包括接续句标签,接续句是样本句后的下一个句子。接续词标签用于标识样本句后的下一个句子是什么。

例如,基于句子“今天是周日,我们出去玩”,生成样本句包含句子“今天是周日”、以及接续句标签“我们出去玩”。

在该实施例具体实现时,获取多个样本句的方式包括但不限于以下方式:

(1)采集不同业务场景中的对话数据,将对话数据中的对话句子作为样本句。其中,业务场景包括但不限于包括问诊场景、保险推荐场景等等。当业务场景是问诊场景时,对话句子是关于医学问诊的问答句子。当业务场景是保险推荐场景时,对话句子是关于保险产品的产品描述句子等。

(2)从各种文章、论文或者书籍中截取句子,将截取到的句子作为样本句。

需要说明的是,在本公开实施例中,在获取多个样本句时,会通过弹窗或者跳转到确认页面等方式获得相关对象的单独许可或者单独同意,在明确获得相关对象的单独许可或者单独同意之后,再获取多个样本句。

在步骤1720中,将样本句输入第一模型,得到接续句预测结果。

接续句预测结果是用于表征第一模型预测出的样本句的下一个句子是什么。

在该实施例具体实现时,将样本句输入第一模型,经由第一模型通过transformer算法来获取样本句的上下文本信息,并基于获取到的上下文信息预测样本句的下一个句子,得到多个预测句子,以及每个预测句子的概率。最后,选取概率最大的预测句子作为最终的接续句预测结果。

在步骤1730中,基于多个样本句各自的接续句标签、与接续句预测结果,计算第三损失函数。

第三损失函数用于衡量多个样本句各自的接续句标签、与接续句预测结果之间的差距。如果第三损失函数越小,样本句各自的接续句标签、与接续句预测结果之间的差距越小,表明第一模型对句子之间的语义理解能力较好。

在该实施例具体实现时,基于多个样本句各自的接续句标签、与接续句预测结果,计算第三损失函数的具体实现过程与上述步骤420中基于样本主体的第一类别预测结果和主体类别标签计算第二损失函数的具体实现过程类似。区别在于,步骤1730基于样本句的接续句与接续句预测结果来计算第三损失函数,步骤420则是基于样本主体的第一类别预测结果和主体类别标签确定第二损失函数,两者计算损失函数所依据的数据不同,损失函数的作用不同。为节省篇幅,不再赘述。

在步骤1740中,将每个样本句进行分词,从分出的第一词中选择第一目标词,并对第一目标词进行掩码。

第一目标词是样本句中能单独存在、且需要进行掩码处理的词语。

在该实施例具体实现时,首先利用预设的分词算法对每个样本句进行分词,得到第一词。接着,在分出的第一词中随机选择第一目标词。最后,对第一目标词进行掩码。具体地,预设的分词器算法包括但不限于Jieba分词算法、WordPiece算法。当采用Jieba分词算法时,利用Jieba分词算法将样本句拆分成多个单独的词语,将每个单独的词语作为一个第一词。进一步地,根据业务需求,在分出的第一词中随机选择满足业务需求所要求的数目个第一目标词。进一步地,对第一目标词进行掩码,得到第一目标词的掩码。最后,将第一目标词的掩码、以及未选择的第一词整合成掩码后的第一样本句。

如图18A所示,样本句A是“明天是星期日。”。进一步地,经由分词器进行分词,分出的第一词包含“明”、“天”、“是”、“星”、“期”、“日”、“。”。接着,随机筛选出“天”、“星”、“期”、以及“。”作为第一目标词,对筛选出的第一目标词进行掩码,得到掩码后的第一样本句,其中,掩码后的第一样本句包含的词语为“明”、“Mask”、“是”、“Mask”、“Mask”、“日”、“Mask”。

在步骤1750中,将掩码后的样本句输入第一模型,得到掩码预测结果。

掩码预测结果用于指示第一模型预测出的掩码后的样本句中各个掩码所对应的预测词。

在该实施例具体实现时,首先将掩码后的样本句输入第一模型。接着,经由第一模型提取掩码后的样本句的语义表征信息和语言表征信息,并基于提取到的语义表征信息和语言表征信息预测掩码后的样本句中掩码所对应的词语,将预测到的词语作为掩码的预测词。

例如,当第一模型是BERT模型时,BERT模型先提取掩码后的样本句的语义表征信息和语言表征信息作为嵌入表征特征。接着,经由BERT模型中的transformer编码器对嵌入表征特征进行注意力计算,生成每个掩码所对应的预测词。

如图18B所示,本公开实施例的第一模型可以由掩码语言模型(Masked LanguageModeling,MLM)构成。样本句M是“明天是星期日。”。其中,样本句M中的第一词有“明”、“天”、“是”、“星”、“期”、“日”、“。”。被掩码的第一目标词为“天”、“星”、“期”、以及标点符号“。”。进一步地,按照第一词在样本句的顺序进行位置标注,依次得到每个第一词的位置嵌入[1]、[2]、…、[11]。进一步地,针对每个第一词,将第一词、位置嵌入进行拼接,得到第一词的拼接结果。例如,第一词“天”的拼接结果是[MASK]+[2]、第一词“是”的拼接结果是[是]+[3],依次类推,得到所有第一词的拼接结果。接着,将所有的拼接结果进行整合,得到整合句,并将整合句输入到transformer编码器,得到每个掩码对应的预测词。其中,第一目标词“天”的掩码[MASK]所对应的预测词为天;第一目标词“星”的掩码[MASK]所对应的预测词为星;第一目标词“期”的掩码[MASK]所对应的预测词为期。

在步骤1760中,基于多个样本句中的第一目标词和掩码预测结果,计算第四损失函数。

第四损失函数用于衡量多个样本句中的第一目标词和掩码预测结果之间的差距。如果第四损失函数越小,样本句中的第一目标词和掩码预测结果之间的差距越小,表明第一模型对样本句中各个词的语义理解能力较好。

在该实施例具体实现时,首先针对每个样本句,计算样本句中的第一目标词和掩码预测结果中的预测词的差异大小,得到计算结果。接着,根据所有样本句的计算结果,计算第四损失函数,从而根据第四损失函数的输出情况来判断第一模型是否符合训练要求。

例如,第一模型的期望准确率为0.5。多个样本句包含样本句A、样本句B以及样本句C,其中,样本句A包含4个第一目标词,样本句B包含2个第一目标词,样本句C包含4个第一目标词。首先,经由第一模型输出所有第一目标词的掩码预测结果。接着,将各个第一目标词与掩码预测结果中的预测词进行比较,样本句A中只有1个第一目标词与其预测词一致,样本句B中所有第一目标词与其预测词一致,样本句C中有2个第一目标词与其预测词一致、基于此,确定第一模型对样本句A的预测准确率为0.25;确定第一模型对样本句B的预测准确率为1;确定第一模型对样本句C的预测准确率为0.5。进一步地,将三个样本句的预测准确率平均,得到第一模型的预测准确率是0.33。由于第一模型的预测准确率小于期望准确率,所以需要对第一模型进行参数调整,并继续迭代训练第一模型。

在步骤1770中,基于第三损失函数和第四损失函数,训练第一模型。

在该实施例具体实现时,基于第三损失函数和第四损失函数,联合训练第一模型的具体实现过程与上述步骤430基于第一损失函数和第二损失函数对第一模型进行调整,得到分类模型的具体实现过程类似。区别在于,步骤1770中是基于第三损失函数和第四损失函数预训练第一模型,属于模型预训练阶段;而步骤430是基于第一损失函数和第二损失函数对第一模型进行调整,属于模型微调阶段。步骤1770的实现过程早于步骤430的实现过程执行。为节省篇幅,不再赘述。

通过上述步骤1710-1770,本公开实施例,针对第一模型,采用样本句的接续句标签和接续句预测结果来计算第三损失函数,将使接续句标签和接续句预测结果尽可能地接近作为一个训练目标,以训练第一模型对句子之间的语义理解能力。同时,针对第一模型,还采用样本句的第一目标词和掩码预测结果来计算第四损失函数,将使第一目标词和掩码预测结果尽可能地接近作为另一个训练目标,以训练第一模型对样本句的词的语义理解能力。最后,基于第三损失函数和第四损失函数,联合训练第一模型,能够对第一模型进行多训练目标、多维度的训练,从而综合提高预训练的第一模型的分类准确性。

由于即便两个句子不是完全一致的,当其表示的句子语义相同或者相似也可以认为这两个句子是相同的。基于此,本公开实施例提供了一种基于句子相似度来计算第三损失函数的方案,能够提高计算准确性和合理性。

接续句预测结果包括预测接续句、和预测接续句的第一概率。其中,预测接续句的第一概率用于指示预测接续句和接续句标签一致的可能性。

参照图19,在一些实施例中,步骤1730包括但不限于包括以下步骤1910-1920:

步骤1910、针对每个样本句,计算样本句的接续句标签和预测接续句之间的句子相似度;

步骤1920、将句子相似度大于预设阈值的预测接续句的第一概率的和,除以样本句的句子总数目,得到第三损失函数。

下面对步骤1910-1920进行详细描述。

在步骤1910中,针对每个样本句,计算样本句的接续句标签和预测接续句之间的句子相似度。

句子相似度用于指示接续句标签和预测接续句之间的句子语义接近程度。句子相似度越高,表明接续句标签和预测接续句之间的句子语义越接近。

在该实施例具体实现时,针对每个样本句,利用余弦相似度算法、欧式距离等相似度算法计算样本句的接续句标签和预测接续句之间的句子相似度。具体地,以余弦相似度算法为例,首先将样本句的接续句标签和预测接续句进行向量化;接着,采用余弦相似度算法将向量化的接续句标签和向量化的预测接续句进行相似度计算,得到向量相似度。最后,将向量相似度作为样本句的接续句标签和预测接续句之间的句子相似度。

在步骤1920中,将句子相似度大于预设阈值的预测接续句的第一概率的和,除以样本句的句子总数目,得到第三损失函数。

在该实施例具体实现时,首先比较每个样本句的预测接续句的句子相似度与预设阈值,将句子相似度大于预设阈值的预测接续句作为目标预测句。接着,将目标预测句的第一概率进行求和,得到第一概率的和。进一步地,计算样本句的总数,得到句子总数目。最后,将第一概率的和除以句子总数目,将除法结果作为第三损失函数。

通过上述步骤1910-1920,本公开实施例,基于句子相似度来计算第三损失函数。将句子相似度高于阈值的预测接续句作为预测正确的句子,并利用预测正确的预测接续句的总和以及样本句的总数目来衡量第一模型在预测句子之间的关联性的准确性,能够提高第三函数的计算准确性和合理性。

由于第一模型在对样本句的掩码进行预测时,常常会根据概率来判断掩码所对应的预测词。因此,掩码预测结果往往会包含预测出的掩码预测词、以及每个掩码预测词的第二概率,第二概率用于指示掩码预测词是第一目标词的可能性。基于此,本公开实施例提供了一种基于掩码预测词的第二概率来计算第四损失函数的方案,能够提高计算准确性。

参照图20,在一些实施例中,步骤1760包括但不限于包括以下步骤2010-2030:

步骤2010、针对每个样本句,确定样本句的多个掩码中掩码预测词与第一目标词一致的目标掩码;

步骤2020、将目标掩码对应的掩码预测词的第二概率的和,除以样本句中的掩码数目,得到样本句的第四损失子函数;

步骤2030、基于多个样本句的第四损失子函数,计算第四损失函数。

下面对步骤2010-2030进行详细描述。

在步骤2010中,针对每个样本句,确定样本句的多个掩码中掩码预测词与第一目标词一致的目标掩码。

目标掩码指的是样本句中掩码预测词与第一目标词一致的掩码。

在该实施例具体实现时,针对样本句中的每个掩码,将掩码的掩码预测词和第一目标词进行比较。如果掩码的掩码预测词和第一目标词不一致,表明掩码预测不正确。如果掩码的掩码预测词和第一目标词一致,表明掩码预测正确,将这个掩码作为目标掩码。

在步骤2020中,将目标掩码对应的掩码预测词的第二概率的和,除以样本句中的掩码数目,得到样本句的第四损失子函数。

在该实施例具体实现时,针对每个样本句,首先将样本句中所有目标掩码对应的掩码预测词的第二概率进行求和,得到第二概率的和。接着,计算该样本句中掩码的总数目,得到掩码数目。最后,用第二概率的和除以掩码数目,得到样本句的第四损失子函数。

在步骤2030中,基于多个样本句的第四损失子函数,计算第四损失函数。

在该实施例具体实现时,将多个样本句的第四损失子函数平均,得到第四损失函数。具体地,首先确定样本句的总数目;接着,将所有样本句的第四损失子函数相加,得到相加结果。最后,将相加结果和总数目相除,得到第四损失函数。

通过上述步骤2010-2030,本公开实施例,根据每个样本句中掩码预测词与第一目标词一致的目标掩码的概率和、以及样本句中掩码的总数量来衡量每个样本句的掩码预测情况,能较为方便地判断样本句的掩码预测准确性。进一步地,根据所有样本句的掩码预测情况来计算第四损失函数,提高了函数计算的准确性和合理性。

本公开实施例的主体分类处理方法的实施细节的描述

下面参照图21,详细示例性说明本公开实施例的主体分类处理方法的实施细节。

如图21所示,是主体分类处理平台服务器110和对象终端140的交互过程示意图。主体分类处理平台服务器110在模型训练阶段,首先将样本主体的样本主体描述信息分别输入到经过提示模板和提示示例进行调整的大语言模型(即第二模型)和BERT模型(即第一模型)。其中,基于提示模板和提示示例对大语言模型进行调整得到第二模型的过程与上述步骤1510-1530的具体实现过程类似。

接着,经由BERT模型对样本主体描述信息进行处理,得到第一类别预测结果。经由经过提示模板和提示示例进行调整的大语言模型对样本主体描述信息进行处理,得到第二类别预测结果。接着,由softmax函数,按照设定的蒸馏温度对第一类别预测结果、第二类别预测结果进行归一化,得到第一类别预测概率、第二预测概率,其具体实现过程与上述步骤1010-1060的具体实现过程类似。

接着,针对BERT模型输出的第一类别预测结果,还由softmax函数,按照另一个设定的蒸馏温度对第一类别预测结果进行归一化,得到第三类别预测概率,其具体实现过程与上述步骤1010-1030的具体实现过程类似。

进一步地,基于第一类别预测概率、第二预测概率计算第一损失函数,其具体实现过程与上述步骤920-930的具体实现过程类似。

进一步地,基于第三类别预测概率、主体类别标签计算第二损失函数,其具体实现过程与上述步骤1210-1240的具体实现过程类似。

最后,基于第一损失函数和第二损失函数对BERT模型进行联合调整,得到分类模型,其具体实现过程与上述步骤1310-1330的具体实现过程类似。

此外,当对象终端140想要对目标主体进行分类,将目标主体的目标主体描述信息发送给主体分类处理平台服务器110。接着,主体分类处理平台服务器110将接收到的目标主体描述信息输入到分类模型,得到目标主体类别,其具体实现过程与上述步骤320的具体实现过程类似。最后,主体分类处理平台服务器110将生成的目标主体类别反馈给对象终端140。

本公开实施例的装置和设备描述

可以理解的是,虽然上述各个流程图中的各个步骤按照箭头的表征依次显示,但是这些步骤并不是必然按照箭头表征的顺序依次执行。除非本实施例中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,上述流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时间执行完成,而是可以在不同的时间执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

需要说明的是,在本申请的各个具体实施方式中,当涉及到需要根据目标对象属性信息或属性信息集合等与目标对象特性相关的数据进行相关处理时,都会先获得目标对象的许可或者同意,而且,对这些数据的收集、使用和处理等,都会遵守相关法律法规和标准。此外,当本申请实施例需要获取目标对象属性信息时,会通过弹窗或者跳转到确认页面等方式获得目标对象的单独许可或者单独同意,在明确获得目标对象的单独许可或者单独同意之后,再获取用于使本申请实施例能够正常运行的必要的目标对象相关数据。

图22为本公开实施例提供的主体分类处理装置2200的结构示意图。该主体分类处理装置2200包括:

信息获取单元2210,用于获取目标主体的目标主体描述信息;

分类单元2220,用于将主体描述信息输入分类模型,得到目标主体的目标主体类别,其中,分类模型在经过预训练的第一模型的基础上通过以下方式调整而成:

基于第一模型对样本主体的样本主体描述信息的第一类别预测结果、和预设的第二模型对样本主体的样本主体描述信息的第二类别预测结果,计算第一损失函数,其中,样本主体描述信息具有主体类别标签;

基于样本主体的第一类别预测结果、和主体类别标签,计算第二损失函数;

基于第一损失函数、和第二损失函数对第一模型进行调整,得到分类模型,其中,第二模型的参数数目大于第一模型的参数数目。

可选地,分类模型包括语义编码子模型和分类层;分类单元2220包括:

输入单元(未示出),用于将目标主体描述信息输入语义编码子模型,得到目标主体描述信息的语义表征向量;

概率确定单元(未示出),用于通过分类层,基于语义表征向量,得到各个候选主体类别的判定概率;

类别判断单元(未示出),用于将各个候选主体类别中判定概率最高的候选主体类别判定为目标主体类别。

可选地,输入单元(未示出),具体用于:

对目标主体描述信息进行分词,得到多个目标词;

针对每个目标词,对目标词进行词嵌入处理,得到目标词的词嵌入向量;

将多个目标词的词嵌入向量输入至语义编码子模型,得到各个目标词的预测词表征;

基于预测词表征,得到目标主体描述信息的语义表征向量。

图23为本公开实施例提供的模型训练装置2300的结构示意图。该模型训练装置2300包括:

第一计算单元2310,用于基于第一模型对样本主体的样本主体描述信息的第一类别预测结果、和预设的第二模型对样本主体的样本主体描述信息的第二类别预测结果,计算第一损失函数,其中,样本主体描述信息具有主体类别标签;

第二计算单元2320,用于基于样本主体的第一类别预测结果、和主体类别标签,计算第二损失函数;

调整单元2330,用于基于第一损失函数、和第二损失函数对第一模型进行调整,得到分类模型,其中,第二模型的参数数目大于第一模型的参数数目。

可选地,调整单元2330用于:

获取第一损失函数的第一权重、和第二损失函数的第二权重;

基于第一权重和第二权重,计算第一损失函数和第二损失函数的加权和,作为总损失函数;

基于总损失函数对第一模型进行调整,得到分类模型。

可选地,第一类别预测结果包括多个候选主体类别的第一预测分数,第二类别预测结果包括多个候选主体类别的第二预测分数;

第一计算单元2310,具体包括:

归一化单元(未示出),用于对多个候选主体类别的第一预测分数进行归一化,得到多个第一预测概率,并对多个候选主体类别的第二预测分数进行归一化,得到多个第二预测概率;

确定单元(未示出),用于基于样本主体的多个第一预测概率和多个第二预测概率,确定样本主体的第一损失子函数;

相加单元,用于对多个样本主体的第一损失子函数进行相加,得到第一损失函数。

可选地,确定单元(未示出),具体用于:

针对每个候选主体类别,对第二预测概率和第一预测概率取对数差;

将对数差和第二预测概率相乘,得到候选主体类别的乘积结果;

将所有候选主体类别的乘积结果进行相加,得到第一损失子函数。

可选地,归一化单元(未示出),具体用于:

第一优化单元(未示出),用于针对每个候选主体类别,基于预设的蒸馏温度对候选主体类别的第一预测分数进行优化,得到第一优化分数;

第一求和单元(未示出),用于对多个候选主体类别的第一优化分数进行求和,得到第一优化总分数;

第一概率生成单元(未示出),用于基于第一优化总分数对第一优化分数进行归一化,得到第一预测概率;

第二优化单元(未示出),用于针对每个候选主体类别,基于蒸馏温度对候选主体类别的第二预测分数进行优化,得到第二优化分数;

第二求和单元(未示出),用于对多个候选主体类别的第二优化分数进行求和,得到第二优化总分数;

第二概率生成单元(未示出),用于基于第二优化总分数对第二优化分数进行归一化,得到第二预测概率。

可选地,第一优化单元(未示出),具体用于:

针对每个候选主体类别,将第一预测分数除以蒸馏温度,得到第一调整分数;

以第一调整分数为指数,对自然常数进行指数计算,得到第一优化分数。

可选地,蒸馏温度通过以下方式确定:

获取分类模型的目标精确率、目标召回率、和目标准确率;

基于目标精确率,确定第一分数;

基于目标召回率,确定第二分数;

基于目标准确率,确定第三分数;

基于第一分数、第二分数、和第三分数,得到蒸馏温度。

可选地,第一类别预测结果包括多个候选主体类别的第一预测分数;

第二计算单元2320具体用于:

针对每个样本主体,从第一类别预测结果中提取预测出的主体类别与主体类别标签一致的第一预测分数;

对提取的第一预测分数进行归一化,得到第三预测概率;

对第三预测概率取负对数,得到样本主体的第二损失子函数;

对多个样本主体的第二损失子函数进行平均,得到第二损失函数。

可选地,第二模型在大语言模型的基础上通过以下方式调整而成:

确定提示模板,其中,提示模板用于指示第二模型所要输出的结果;

基于提示模板,构建多个提示示例,其中,提示示例包括多个第一主体的第一主体描述信息、以及第一主体在各个候选主体类别上的得分;

基于提示模板、第一主体描述信息、得分对大语言模型进行调整,得到第二模型。

参照图24,图24为实现本公开实施例的主体分类处理方法的终端的部分的结构框图,该终端包括:射频(Radio Frequency,简称RF)电路2410、存储器2415、输入单元2430、显示单元2440、传感器2450、音频电路2460、无线保真(wireless fidelity,简称WiFi)模块2470、处理器2480、以及电源2490等部件。本领域技术人员可以理解,图24示出的终端结构并不构成对手机或电脑的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。

RF电路2410可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,给处理器2480处理;另外,将设计上行的数据发送给基站。

存储器2415可用于存储软件程序以及模块,处理器2480通过运行存储在存储器2415的软件程序以及模块,从而执行对象终端的各种功能应用以及数据处理。

输入单元2430可用于接收输入的数字或字符信息,以及产生与对象终端的设置以及功能控制有关的键信号输入。具体地,输入单元2430可包括触控面板2431以及其他输入装置2432。

显示单元2440可用于显示输入的信息或提供的信息以及对象终端的各种菜单。显示单元2440可包括显示面板2441。

音频电路2460、扬声器2461,传声器2462可提供音频接口。

在本实施例中,该终端所包括的处理器2480可以执行前面实施例的主体分类处理方法。

本公开实施例的终端包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端、飞行器等。本发明实施例可应用于各种场景,包括但不限于数据安全、区块链、数据存储、信息技术等。

图25为实施本公开实施例的主体分类处理方法的服务器的部分的结构框图。服务器可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(Central Processing Units,简称CPU)2522(例如,一个或一个以上处理器)和存储器2532,一个或一个以上存储应用程序2542或数据2544的存储介质2130(例如一个或一个以上海量存储装置)。其中,存储器2532和存储介质2530可以是短暂存储或持久存储。存储在存储介质2530的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器2522可以设置为与存储介质2530通信,在服务器上执行存储介质2530中的一系列指令操作。

服务器还可以包括一个或一个以上电源2525,一个或一个以上有线或无线网络接口2550,一个或一个以上输入输出接口2558,和/或,一个或一个以上操作系统2541,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。

服务器中的中央处理器2522可以用于执行本公开实施例的主体分类处理方法。

本公开实施例还提供一种计算机可读存储介质,计算机可读存储介质用于存储程序代码,程序代码用于执行前述各个实施例的主体分类处理方法。

本公开实施例还提供了一种计算机程序产品,该计算机程序产品包括计算机程序。计算机设备的处理器读取该计算机程序并执行,使得该计算机设备执行实现上述的事务上链。

本公开的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“包含”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或装置不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或装置固有的其它步骤或单元。

应当理解,在本公开中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。

应了解,在本公开实施例的描述中,多个(或多项)的含义是两个以上,大于、小于、超过等理解为不包括本数,以上、以下、以内等理解为包括本数。

在本公开所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本公开各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机装置(可以是个人计算机,服务器,或者网络装置等)执行本公开各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

还应了解,本公开实施例提供的各种实施方式可以任意进行组合,以实现不同的技术效果。

以上是对本公开的实施方式的具体说明,但本公开并不局限于上述实施方式,熟悉本领域的技术人员在不违背本公开精神的条件下还可作出种种等同的变形或替换,这些等同的变形或替换均包括在本公开权利要求所限定的范围内。

相关技术
  • 分类模型的处理方法、装置、电子设备及存储介质
  • 控制信道处理方法、装置、系统、相关设备及存储介质
  • 加热装置、介质处理装置以及介质处理方法
  • 车辆控制装置、车辆、车辆控制装置的处理方法以及存储介质
  • 语音处理方法及装置、家电设备、存储介质电子装置
  • 垃圾分类处理方法、相关设备及可读存储介质
  • 一种用于负荷分类的能源计量的数据处理方法及相关装置
技术分类

06120116480689