掌桥专利:专业的专利平台
掌桥专利
首页

回复信息生成方法、装置、计算机设备及存储介质

文献发布时间:2024-04-18 19:59:31


回复信息生成方法、装置、计算机设备及存储介质

技术领域

本申请实施例涉及计算机技术领域,特别涉及一种回复信息生成方法、装置、计算机设备及存储介质。

背景技术

随着计算机技术的发展,人工智能对话的应用越来越广泛。在人工智能对话场景下,通常为该场景训练一个对话模型,在用户输入对话信息的情况下,利用对话模型,生成对话信息的回复信息,并输出回复信息,以实现人工智能对话。但是,这种回复信息的生成方式,导致回复信息的准确性差。

发明内容

本申请实施例提供了一种回复信息生成方法、装置、计算机设备及存储介质,能够保证了回复信息的准确性。所述技术方案如下:

一方面,提供了一种回复信息生成方法,所述方法包括:

对对话信息进行分类,得到所述对话信息的类别,所述类别包括第一类别或第二类别,所述第一类别指示多个目标对话模型,每个目标对话模型用于对一种意图类型的对话信息进行回复,所述第二类别指示通用对话模型;

在所述对话信息的类别为所述第一类别的情况下,通过大语言模型,对所述对话信息进行语义分析,得到所述对话信息的语义信息;

基于所述语义信息,从所述多个意图类型中,确定第一意图类型,所述第一意图类型与所述语义信息匹配;

通过所述第一意图类型下的目标对话模型,对所述对话信息进行处理,得到第一回复信息。

另一方面,提供了一种回复信息生成装置,所述装置包括:

分类模块,用于对对话信息进行分类,得到所述对话信息的类别,所述类别包括第一类别或第二类别,所述第一类别指示多个目标对话模型,每个目标对话模型用于对一种意图类型的对话信息进行回复,所述第二类别指示通用对话模型;

分析模块,用于在所述对话信息的类别为所述第一类别的情况下,通过大语言模型,对所述对话信息进行语义分析,得到所述对话信息的语义信息;

确定模块,用于基于所述语义信息,从所述多个意图类型中,确定第一意图类型,所述第一意图类型与所述语义信息匹配;

处理模块,用于通过所述第一意图类型下的目标对话模型,对所述对话信息进行处理,得到第一回复信息。

在一种可能实现方式中,所述对话信息为问题信息;所述分析模块,用于在所述对话信息的类别为所述第一类别的情况下,通过所述大语言模型,识别所述问题信息的问题类型;通过所述大语言模型,对所述问题信息进行分类,得到第二意图类型,所述第二意图类型为所述多个意图类型中与所述问题类型匹配的意图类型;通过所述大语言模型,将所述第二意图类型和所述问题类型,构成所述语义信息。

在另一种可能实现方式中,所述装置还包括:

识别模块,用于通过所述大语言模型,识别所述问题信息的主题、所述问题信息中的实体词语或所述实体词语的词语类型中的至少一项;

所述分析模块,用于通过所述大语言模型,将所述主题、所述实体词语或所述词语类型中的至少一项以及所述第二意图类型和所述问题类型,构成所述语义信息。

在另一种可能实现方式中,所述确定模块,用于基于所述语义信息,查询类型映射表,所述类型映射表包括所述多个意图类型中每个意图类型对应的问题类型;在查询到所述第二意图类型在所述类型映射表中对应的问题类型与所述语义信息中的问题类型相同的情况下,将所述第二意图类型确定为所述第一意图类型。

在另一种可能实现方式中,所述装置还包括:

获取模块,用于获取第一指示信息,所述第一指示信息指示所述大语言模型按照语义分析的示例,对输入信息进行语义分析,所述示例包括输入信息示例及所述输入信息示例的语义信息示例;

所述分析模块,用于在所述对话信息的类别为所述第一类别的情况下,通过所述大语言模型,基于所述第一指示信息,对所述对话信息进行语义分析,得到所述对话信息的语义信息。

在另一种可能实现方式中,所述处理模块,还用于在所述对话信息的类别为所述第二类别的情况下,通过所述通用对话模型,对所述对话信息进行处理,得到第二回复信息。

在另一种可能实现方式中,所述处理模块,还用于在所述多个意图类型与所述语义信息均不匹配的情况下,通过所述通用对话模型,对所述对话信息进行处理,得到第二回复信息。

在另一种可能实现方式中,所述装置还包括:

获取模块,用于获取样本对话信息及第二指示信息,所述第二指示信息指示语义分析模型按照语义分析的示例,对输入信息进行语义分析;

所述分析模块,还用于通过所述语义分析模型,基于所述第二指示信息,对所述样本对话信息进行语义分析,得到样本语义信息;

所述处理模块,还用于通过所述大语言模型,对所述样本对话信息进行处理,得到预测语义信息;

训练模块,用于基于所述预测语义信息及所述样本语义信息,对所述大语言模型进行训练。

另一方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条计算机程序,所述至少一条计算机程序由所述处理器加载并执行以实现如上述方面所述的回复信息生成方法所执行的操作。

另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条计算机程序,所述至少一条计算机程序由处理器加载并执行以实现如上述方面所述的回复信息生成方法所执行的操作。

再一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述方面所述的回复信息生成方法所执行的操作。

本申请实施例提供的方案,预先设置了通用对话模型和多个目标对话模型,多个目标对话模型和通用对话模型属于不同的类别,获取到对话信息后,先对对话信息进行分类,以识别出利用哪类对话模型进行回复,而在确定对话信息的类别为第一类别的情况下,通过大语言模型分析出对话信息的语义信息,以便利用语义信息,从多种意图类型中确定出与语义信息匹配的第一意图类型,进而利用第一意图类型下的对话模型,生成相应的回复信息,这样,采取简单的二分类方式对对话信息进行粗筛,以确定出使用哪类的对话模型来进行回复,在确定出使用多个意图类型下的对话模型来进行回复的情况下,会利用大语言模型进行精准匹配,以确定出对话信息的对话需求与哪个意图类型匹配,进而使用所确定的意图类型下的对话模型进行回复,这样能够保证所使用的对话模型与对话信息的对话需求更匹配,进而保证了回复信息的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请实施例的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种实施环境的结构示意图;

图2是本申请实施例提供的一种回复信息生成方法的流程图;

图3是本申请实施例提供的另一种回复信息生成方法的流程图;

图4是本申请实施例提供的一种对话信息进行分类的示意图;

图5是本申请实施例提供的再一种回复信息生成方法的流程图;

图6是本申请实施例提供的一种对话信息的比例的示意图;

图7是本申请实施例提供的一种回复信息生成装置的结构示意图;

图8是本申请实施例提供的另一种回复信息生成装置的结构示意图;

图9是本申请实施例提供的一种终端的结构示意图;

图10是本申请实施例提供的一种服务器的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。

本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种概念,但除非特别说明,这些概念不受这些术语限制。这些术语仅用于将一个概念与另一个概念区分。举例来说,在不脱离本申请的范围的情况下,可以将第一类别称为第二类别,且类似地,可将第二类别称为第一类别。

本申请所使用的术语“至少一个”、“多个”、“每个”、“任一”,至少一个包括一个、两个或两个以上,多个包括两个或两个以上,而每个是指对应的多个中的每一个,任一是指多个中的任意一个。举例来说,多个意图类型包括3个意图类型,而每个是指这3个意图类型中的每一个意图类型,任一是指这3个意图类型中的任一个意图类型,能够是第一个意图类型,或者,是第二个意图类型,或者,是第三个意图类型。

需要说明的是,本申请所涉及的信息(包括但不限于用户设备信息、用户个人信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号,均为经用户授权或者经过各方充分授权的,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。例如,本申请中涉及到的对话信息是在充分授权的情况下获取的。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、预训练模型技术、操作/交互系统、机电一体化等。其中,预训练模型又称大模型、基础模型,经过微调后可以广泛应用于人工智能各大方向下游任务。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(Computer Vision,CV)是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。大模型技术为计算机视觉技术发展带来重要变革,Swin Transformer(一种深度学习模型),ViT(Vision Transformer,一种深度学习模型),V-MOE(Vision MoE,一种视觉模型),MAE(Masked Auto Encoders,自动编码器)等视觉领域的预训练模型经过微调(Fine Tune)可以快速、广泛适用于下游具体任务。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR(Optical Character Recognition,光学字符识别)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D(3Dimensions,三维)技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。

自然语言处理(Nature Language Processing,NLP)是计算机科学领域与人工智能领域中的重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理涉及自然语言,即人们日常使用的语言,与语言学研究密切;同时涉及计算机科学和数学等人工智能领域模型训练的重要技术,预训练模型(Pre-trainedModels,PTM),即是从NLP领域的大语言模型(Large Language Model,LLM)发展而来。预训练模型,也称基石模型、大模型,指具有大参量的深度神经网络(Deep Neural Network,DNN),在海量未标记的数据上对其进行训练,利用大参量DNN的函数近似能力使PTM在数据上提取共性特征,经微调(Fine Tune)、参数高效微调(PEFT)、Prompt-Tuning(提示调优)等技术,适用于下游任务。因此,预训练模型能够在小样本(Few-shot)或零样本(Zero-shot)场景下达到理想效果。PTM按照处理的数据模态分为语言模型、视觉模型、语音模型、多模态模型等。例如,语言模型为ELMO(Embeddings from Language Model,一种语言模型),BERT(Bidirectional Encoder Representations from Transformers,一个双向预训练语言模型,GPT(Generative Pre-trained Transformer,预训练生成式模型)等。其中,多模态模型指建立两种或以上数据模态特征表示的模型。预训练模型是输出人工智能生成内容(Artificial Intelligence Generated Content,AIGC)重要工具,也可以作为连接多个具体任务模型的通用接口。经过微调,大语言模型能够广泛应用于下游任务。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。预训练模型是深度学习的最新发展成果,融合了以上技术。

本申请实施例提供的方案,基于人工智能的机器学习技术,能够训练大语言模型,进而利用训练后的大语言模型,实现了回复信息生成方法。

本申请实施例提供的回复信息生成方法,能够由计算机设备执行。可选地,该计算机设备为终端或服务器。可选地,该服务器是独立的物理服务器,或者,是多个物理服务器构成的服务器集群或者分布式系统,可选地,是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content DeliveryNetwork,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。可选地,该终端是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、智能语音交互设备、智能家电及车载终端等,但并不局限于此。

在一些实施例中,本申请实施例所涉及的计算机程序可被部署在一个计算机设备上执行,或者在位于一个地点的多个计算机设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算机设备上执行,分布在多个地点且通过通信网络互连的多个计算机设备能够组成区块链系统。

在一些实施例中,计算机设备提供为服务器。图1是本申请实施例提供的一种实施环境的示意图。参见图1,该实施环境包括终端101和服务器102。终端101和服务器102之间通过无线或者有线网络连接。

终端101用于获取用户输入的对话信息,向服务器102发送对话信息。服务器102用于接收终端101发送的对话信息,基于本申请实施例提供的回复信息生成方法,生成该对话信息的回复信息,向终端101发送回复信息,以使终端101显示该回复信息,实现人机智能对话。

在一些实施例中,终端101上安装由服务器102提供服务的应用,终端101能够通过该应用实现例如人机智能对话等功能。可选地,应用为终端101操作系统中的应用,或者为第三方提供的应用。例如,应用为对话应用,该对话应用具有人机智能对话的功能,当然,该对话应用还能够具有其他功能,例如,点评功能、购物功能、导航功能、游戏功能等。

终端101用于基于用户标识登录应用,通过应用能够显示对话界面,用户通过终端101能够在对话界面中输入对话信息,终端101获取到对话信息后,通过应用向服务器102发送对话信息,服务器102用于接收对话信息,基于本申请实施例提供的回复信息生成方法,生成该对话信息的回复信息,向终端101发送该回复信息,终端101接收该回复信息,在对话界面中显示回复信息。

图2是本申请实施例提供的一种回复信息生成方法的流程图,该方法由计算机设备执行,如图2所示,该方法包括:

201、计算机设备对对话信息进行分类,得到对话信息的类别,类别包括第一类别或第二类别,第一类别指示多个目标对话模型,每个目标对话模型用于对一种意图类型的对话信息进行回复,第二类别指示通用对话模型。

在本申请实施例中,预先设置了通用对话模型和多个目标对话模型,多个目标对话模型与多种意图类型一一对应,不同的目标对话模型对应的意图类型不同,以便后续能够通过多种目标对话模型,对多种意图类型的对话信息进行回复,而对于不属于多种意图类型的对话信息,则通过通用对话模型进行回复。

在本申请实施例中,多个目标对话模型相当于是多种特殊场景下的对话模型,对话信息适用于这多种特殊场景中的一种时,后续通过多个目标对话模型中的一个生成回复信息,对话信息不适用于多种特殊场景时,后续通过通用对话模型生成回复信息。多个目标对话模型和通用对话模型属于不同的类别,在获取到对话信息的情况下,通过对对话信息进行分类,以确定后续通过哪类对话模型对对话信息进行回复。

其中,对话信息能够是任意类型的信息,例如,对话信息为文本、图像或视频等。意图类型为任意的类型,例如,意图类型包括天气类型、代码类型、文生图类型或股票类型等。目标对话模型能够是任意的网络模型,通用对话模型能够是任意的网络模型,例如,目标对话模型及通用对话模型均能够是大语言模型。

202、计算机设备在对话信息的类别为第一类别的情况下,通过大语言模型,对对话信息进行语义分析,得到对话信息的语义信息。

在本申请实施例中,对话信息的类别为第一类别,表示对话信息可能与多个意图类型中的任一意图类型匹配,因此,通过大语言模型对对话信息进行语义分析,以确定对话信息的语义,以便后续基于对话信息的语义,确定出对话信息与哪个意图类型匹配。

其中,语义信息能够是任意类型的信息,例如,语义信息是文本信息。

203、计算机设备基于语义信息,从多个意图类型中,确定第一意图类型,第一意图类型与语义信息匹配。

在本申请实施例中,在确定对话信息的语义信息的情况下,该语义信息能够指示对话信息的语义,则基于语义信息指示的语义,从多个意图类型中,能够确定出与语义信息匹配的意图类型,即确定出与对话信息匹配的意图类型。

204、计算机设备通过第一意图类型下的目标对话模型,对对话信息进行处理,得到第一回复信息。

在本申请实施例中,第一意图类型与对话信息匹配,则通过第一意图类型下的目标对话模型,对对话信息进行处理,以使得到的第一回复信息与对话信息匹配,保证第一回复信息更准确。

本申请实施例提供的方案,预先设置了通用对话模型和多个目标对话模型,多个目标对话模型和通用对话模型属于不同的类别,获取到对话信息后,先对对话信息进行分类,以识别出利用哪类对话模型进行回复,而在确定对话信息的类别为第一类别的情况下,通过大语言模型分析出对话信息的语义信息,以便利用语义信息,从多种意图类型中确定出与语义信息匹配的第一意图类型,进而利用第一意图类型下的对话模型,生成相应的回复信息,这样,采取简单的二分类方式对对话信息进行粗筛,以确定出使用哪类的对话模型来进行回复,在确定出使用多个意图类型下的对话模型来进行回复的情况下,会利用大语言模型进行精准匹配,以确定出对话信息的对话需求与哪个意图类型匹配,进而使用所确定的意图类型下的对话模型进行回复,这样能够保证所使用的对话模型与对话信息的对话需求更匹配,进而保证了回复信息的准确性。

在图2所示实施例的基础上,本申请实施例是以对话信息为问题信息为例,通过大语言模型得到的语义信息包括意图类型及问题类型,进而结合类型映射表,确定出第一意图类型,具体过程详见下述实施例。

图3是本申请实施例提供的一种回复信息生成方法的流程图,该方法由计算机设备执行,如图3所示,该方法包括:

301、计算机设备对对话信息进行分类,得到对话信息的类别,类别包括第一类别或第二类别,第一类别指示多个目标对话模型,每个目标对话模型用于对一种意图类型的对话信息进行回复,第二类别指示通用对话模型。

在本申请实施例中,对话信息为问题信息,例如,问题信息为“今天天气怎么样”或者“写一段代码遍历文件夹”。

在一种可能实现方式中,该步骤301包括:通过分类模型,对对话信息进行分类,得到对话信息的类别。

其中,分类模型能够是任意的网络模型,例如,分类模型为轻模型,如BERT(Bidirectional Encoder Representations from Transformers,双向编码器表示),如图4所示,对话信息包括n个字符,将对话信息输入BERT中,由BERT对对话信息进行分类,输出对话信息的类别。

在本申请实施例中,该分类模型为二分类模型,用于对对话信息进行分类,以确定是通过多个目标对话模型中一个进行回复,还是通过通用对话模型进行回复。

302、计算机设备在对话信息的类别为第一类别的情况下,通过大语言模型,识别问题信息的问题类型。

在本申请实施例中,对话信息为问题信息,问题类型包括查询类型、编程类型、创作类型等。大语言模型能够是任意类型的模型,例如,大语言模型为GPT(Generative Pre-Trained Transformer,生成式预训练模型),该大语言模型是基于预训练的GPT进行SFT(Supervised Fine-Tuning,监督微调)得到。其中,GPT使用Transformer解码器模块构建。

303、计算机设备通过大语言模型,对问题信息进行分类,得到第二意图类型,第二意图类型为多个意图类型中与问题类型匹配的意图类型。

在本申请实施例中,通过大语言模型,对问题信息进行分类,以便从多个意图类型中确定出与该问题信息的问题类型匹配的意图类型。

例如,问题信息为“画一个月亮”,则第二意图类型为文生图类型;问题信息为“写一个快速排序代码”,则第二意图类型为代码类型;问题信息为“今天天气怎么样”,则第二意图类型为天气类型;问题信息为“1+1等于多少”,则第二意图类型为计算类型。

304、计算机设备通过大语言模型,将第二意图类型和问题类型,构成语义信息。

在本申请实施例中,语义信息包括第二意图类型和问题类型。在对话信息为问题信息的情况下,通过大语言模型,对对话信息进行处理,以识别出问题信息的问题类型及问题类型匹配的第二意图类型,将第二意图类型和问题类型构成语义信息,使得语义信息能够指示出问题信息的类型及相关的意图类型,丰富了语义信息的内容,保证了语义信息指示问题信息的语义的准确性,进而保证了语义信息的准确性,以便后续能够基于语义信息确定出准确的意图类型。

在一种可能实现方式中,该步骤304包括:通过大语言模型,识别问题信息的主题、问题信息中的实体词语或实体词语的词语类型中的至少一项;通过大语言模型,将主题、实体词语或词语类型中的至少一项以及第二意图类型和问题类型,构成语义信息。

在本申请实施例中,语义信息包括第二意图类型和问题信息,还包括主题、实体词语或词语类型中的至少一项。大语言模型用于对对话信息进行不同维度的特征刻画,以输出意图类型、主题、问题类型、实体词语或实体词语类型,构成语义信息,丰富了语义信息包含的内容,使得语义信息能够更详细的指出对话信息的语义,保证了语义信息的准确性。

例如,问题信息为“今天天气如何”,该问题信息的语义信息中,第二意图类型为“天气类型”,问题信息的问题类型为“查询类型”,问题信息的主题为“天气查询”,问题信息中的实体词语为“今天”和“天气”,“今天”的词语类型为“时间”,“天气”的词语类型为“概念”。

再例如,问题信息为“画一个苹果”,该问题信息的语义信息中,第二意图类型为“文生图类型”,问题信息的问题类型为“创作类型”,问题信息的主题为“绘画”,问题信息中的实体词语为“苹果”,“苹果”的词语类型为“水果”。

需要说明的是,本申请实施例是以通过大语言模型,识别第二意图类型和问题类型等为例进行说明,而在另一实施例中,大语言模型还能够采取特征提取和解码的方式,输出语义信息,输出的语义信息包括第二意图类型、问题类型等。

在一种可能实现方式中,语义信息包括多个字符,获取对话信息的语义信息的过程包括:通过大语言模型,对对话信息中每个字符进行特征提取,得到对话特征,对话特征包括对话信息中每个字符的特征;对于对话信息中的第一字符,基于第一字符的特征及对话信息中第一字符之前的字符的特征,对第一字符的特征进行更新,得到第一字符更新后的特征,第一字符为对话信息中的任一字符;将对话信息中多个字符更新后的特征构成更新后的对话特征;通过大语言模型,对更新后的对话特征进行第1次解码,得到第1个字符;通过大语言模型,基于当前得到的字符,对更新后的对话特征进行第i次解码,得到第i个字符,i为大于0的整数,在解码次数达到次数阈值的情况下,或者,当前解码得到的终止字符的情况下,不再进行解码,将已得到的字符构成语义信息。

在本申请实施例中,通过对语义信息中多个字符的特征,对每个字符的特征进行更新,并基于更新的语义特征,采取解码的方式,逐渐解码出多个字符,进而得到语义信息,保证得到的语义信息的准确性。

可选地,大语言模型中配置有多个备选字符,解码过程包括:通过大语言模型,对更新后的对话特征进行第1次解码,得到多个备选字符的第1概率,将多个备选字符中第1概率最大的备选字符确定为第1个字符;通过大语言模型,基于当前得到的字符,对更新后的对话特征进行第i次解码,得到多个备选字符的第i概率,将多个备选字符中第i概率最大的备选字符确定为第i个字符,i为大于0的整数;通过大语言模型,基于当前得到的字符,对更新后的对话特征进行第j次解码,得到多个备选字符的第j概率,在多个备选字符的第j概率中最大概率小于概率阈值的情况下,不再执行解码过程,将当前得到的j-1个字符构成语义信息,j为大于i的整数;或者,在多个备选字符的第j概率中最大概率的备选字符为终止字符的情况下,不再执行解码过程,将当前得到的j-1个字符构成语义信息;或者,在解码次数j等于次数阈值的情况下,不再执行解码过程,将当前得到的j个字符构成语义信息。

其中,备选字符的第1概率是指备选字符作为语义信息中第1个字符可能性,备选字符的第i概率是指备选字符作为语义信息中第i个字符可能性。

在本申请实施例中,大语言模型包括多个备选字符,多个备选字符尽可能包含所有的字符,大语言模型在生成对话信息的语义信息的过程中,从多个备选字符中选择字符进而构成语义信息。在解码过程中,每次从多个备选字符中筛选出一个字符,采取这种逐步解码方式,能够解码出多个字符,进而将解码出的多个字符构成语义信息,能够保证得到的语义信息的准确性。在多次解码的过程中,在当前解码过程中,若解码得到的多个备选字符的第j概率中最大概率小于概率阈值,则表示语义信息已解码完成,则无需再从多个备选字符中选择字符作为语义信息中的字符,保证语义信息的准确性。

305、计算机设备基于语义信息,查询类型映射表,类型映射表包括多个意图类型中每个意图类型对应的问题类型。

在本申请实施例中,类型映射表中存储有多个意图类型及每个意图类型对应的问题类型,意图类型对应的问题类型表示该意图类型下的目标对话模型能够对属于该问题类型的对话信息进行回复。在通过大语言模型得到对话信息的语义信息的情况下,结合语义信息中的意图类型及问题类型,查询类型映射表,以判断对话信息的真实意图类型,以保证最终识别到的意图类型的准确性。

在一种可能实现方式中,类型映射表中存储有每个意图类型对应的主题、实体词语或词语类型中的至少一项以及问题类型。例如,类型映射表包括每个意图类型对应的主题、实体词语或词语类型以及问题类型。

306、计算机设备在查询到第二意图类型在类型映射表中对应的问题类型与语义信息中的问题类型相同的情况下,将第二意图类型确定为第一意图类型。

在本申请实施例中,语义信息包括第二意图类型及问题类型,且类型映射表存储有每个意图类型对应的问题类型,因此,查询类型表中第二意图类型对应的问题类型是否与语义信息相同,进而确定第二意图类型下的目标语义模型能否对对话信息进行回复,在查询到第二意图类型在类型映射表中对应的问题类型与语义信息中的问题类型相同的情况下,将第二意图类型确定为第一意图类型,以便通过第一意图类型下的目标语义模型能否对对话信息进行回复。

在本申请实施例中,在通过大语言模型得到对话信息的语义信息的情况下,结合语义信息中的意图类型及问题类型,查询类型映射表,以判断对话信息的真实意图类型,进一步对对话信息匹配的意图类型验证,以保证最终识别到的意图类型的准确性,进而保证后续使用与对话信息的对话需求匹配的对话模型进行回复,保证后续回复信息的准确性。

在一种可能实现方式中,类型映射表还包括每个意图类型对应的主题、实体词语或词语类型中的至少一项,以类型映射表还包括每个意图类型对应的主题、实体词语及词语类型为例,则该步骤306包括:在查询到第二意图类型在类型映射表中对应的主题、实体词语或词语类型以及问题类型与语义信息中的主题、实体词语或词语类型以及问题类型相同的情况下,将第二意图类型确定为第一意图类型。

例如,在类型映射表中,“天气类型”对应的主题为“天气查询”,如问题信息为“今天天气怎么样”,在该问题信息的语义信息中,问题信息的第二意图类型为“天气类型”,主题为“天气查询”,则确定“天气类型”为问题信息的真实意图类型;如问题信息为“天气的百科介绍”,在该问题信息的语义信息中,问题信息的第二意图类型为“天气类型”,主题为“气象知识”,则确定“天气类型”不是问题信息的真实意图类型。

需要说明的是,本申请实施例是通过类型映射表来确定第一意图类型,而在另一实施例中,无需执行上述步骤305-306,而是采取其他方式,基于对话信息的语义信息,从多个意图类型中,确定第一意图类型,第一意图类型与语义信息匹配。

307、计算机设备通过第一意图类型下的目标对话模型,对对话信息进行处理,得到第一回复信息。

在本申请实施例中,第一意图类型为对话信息所属的真实意图类型,则通过第一意图类型下的目标对话模型,对对话信息进行处理,得到第一回复信息,以保证得到的回复信息与对话信息相匹配,保证得到的第一回复信息的准确性。

例如,对话信息为“今天天气怎么样”,通过对对话信息进行分类,在确定对话信息的类别为第一类别的情况下,通过大语言模型,对对话信息进行语义分析,之后利用得到的语义信息进行后验校正,确定该对话信息的真实意图类型为“天气类型”,通过“天气类型”下的目标对话模型,对对话信息进行处理,得到的第一回复信息为“今天天气温度26度,晴天”。

308、计算机设备在多个意图类型与语义信息均不匹配的情况下,通过通用对话模型,对对话信息进行处理,得到第二回复信息。

在本申请实施例中,考虑到对对话信息进行分类得到的类别可能不准确,导致得到的语义信息与多个意图类型均不匹配,则为了保证能够对对话信息进行回复,则通过通用对话模型,对对话信息进行处理,以便后续能够及时基于第二回复信息进行回复,避免用户待时间过长,保证回复的实时性,也能够避免通过多个目标对话模型中的一个进行回复而导致回复不准确,进而保证回复信息的准确性。

309、计算机设备在对话信息的类别为第二类别的情况下,通过通用对话模型,对对话信息进行处理,得到第二回复信息。

在本申请实施例中,对话信息的类别为第二类别,表示对话信息与多个意图类型均不匹配,则无法再通过多个目标对话模型进行回复,则通过通用对话模型,对对话信息进行回复,以保证生成的第二回复信息的准确性。

本申请实施例提供的方案,预先设置了通用对话模型和多个目标对话模型,多个目标对话模型和通用对话模型属于不同的类别,获取到对话信息后,先对对话信息进行分类,以识别出利用哪类对话模型进行回复,而在确定对话信息的类别为第一类别的情况下,通过大语言模型分析出对话信息的语义信息,以便利用语义信息,从多种意图类型中确定出与语义信息匹配的第一意图类型,进而利用第一意图类型下的对话模型,生成相应的回复信息,这样,采取简单的二分类方式对对话信息进行粗筛,以确定出使用哪类的对话模型来进行回复,在确定出使用多个意图类型下的对话模型来进行回复的情况下,会利用大语言模型进行精准匹配,以确定出对话信息的对话需求与哪个意图类型匹配,进而使用所确定的意图类型下的对话模型进行回复,这样能够保证所使用的对话模型与对话信息的对话需求更匹配,进而保证了回复信息的准确性。

本申请实施例提出了一种基于文本通用理解后验的意图识别方法,在大语言模型问答场景下,首先基于二分类模型对对话信息进行粗筛,对于不属于多个意图类型的对话信息,通过通用对话模型输出回复信息,对于属于多个意图类型的对话信息,通过大语言模型,分析出对话信息的语义信息,进而能够确定出与对话信息的真实意图类型,通过真实意图类型下的目标对话模型,输出对话信息的回复信息,由此提高意图识别完整链路下发的效率和精度,保证回复信息的准确性。

在上述图3所示的实施例的基础上,通过分类模型、大语言模型、多个目标对话模型及通用对话模型,能够实现人机智能对话。如图5所示,对于任一用户输入的任一对话信息,通过分类模型,对对话信息进行分类,得到对话信息的类别。在对话信息的类别为第一类别的情况下,通过大语言模型,对对话信息进行语义分析,得到对话信息的语义信息,基于语义信息,从文生图意图类型、代码意图类型、天气意图类型、计算意图类型等多个意图类型中,确定对话信息与代码意图类型匹配;通过代码意图类型下的目标对话模型,对对话信息进行处理,得到第一回复信息。在对话信息的类别为第二类别的情况下,通过通用对话模型,对对话信息进行处理,得到第二回复信息。

需要说明的是,上述图3所示的实施例是以语义信息包括第二意图类型和问题类型为例进行说明,而在另一实施例中,无需执行上述步骤302-304,而是采取其他方式,在对话信息的类别为第一类别的情况下,通过大语言模型,对对话信息进行语义分析,得到对话信息的语义信息。

在一种可能实现方式中,大语言模型结合第一指示信息,来生成语义信息,也即是,生成语义信息的过程,包括:获取第一指示信息,第一指示信息指示大语言模型按照语义分析的示例,对输入信息进行语义分析,示例包括输入信息示例及输入信息示例的语义信息示例;在对话信息的类别为第一类别的情况下,通过大语言模型,基于第一指示信息,对对话信息进行语义分析,得到对话信息的语义信息。

在本申请实施例中,第一指示信息指示了语义信息的示例,并指示大语言模型按照语义信息的示例,对输入信息进行语义分析,由于大语言模型具有强大的推理能力,通过大语言模型,按照第一指示信息,能够学习第一指示信息中语义分析的示例,以按照语义分析的示例,对对话信息进行语义分析,保证了语义信息的准确性。

其中,第一指示信息能够以任意的形式表示,例如,第一指示信息为文本。输入信息示例和语义信息示例均能够以任意的形式表示,例如,输入信息示例和语义信息示例均为文本。

可选地,第一指示信息中语义分析的示例包括正例和负例,正例包括输入信息示例和语义信息示例,负例包括输入信息示例和语义信息示例,正例中的语义信息示例包括的意图类型指示通用对话模型。

例如,以大语言模型的输入信息为文本为例,第一指示信息为:基于指令完成以下文本理解任务:识别问题所属意图类型、识别问题所属主题、识别问题所属问题类型、识别问题的实体词语和词语类型,其中意图类型包括文生图类型、代码类型、计算类型、天气类型、日历类型、藏头诗类型、地图类型、网址类型、看图说话类型、翻译类型等。语义分析的示例:“输入:今天天气如何,气温多少;输出:意图类型:[天气类型],主题:[天气查询],问题类型:[查询类型],实体词语及词语类型:[今天:时间|天气:概念]”;“输入:写一段代码遍历文件夹;输出:意图类型:[代码类型],主题:[编程],类型:[编程类型],实体:[]”。

在上述图2至图3所示的实施例的基础上,在通过分类模型对对话信息进行分类之前,还会对分类模型进行训练,训练分类模型的过程包括:获取多个样本对话信息及每个样本对话信息对应的样本类别;通过分类模型,对每个样本对话信息进行分类,得到每个样本对话信息的预测类别;基于多个样本对话信息的样本类别及预测类别,对分类模型进行训练。

在本申请实施例中,分类模型为二分类模型,用于对输入信息进行分类,已确定输入信息属于第一类别或第二类别。样本对话信息对应的样本类别为第一类别或第二类别,通过分类模型,对样本对话信息进行分类,得到样本对话信息的预测类别,预测类别与样本类别之间的差异能够反映出分类模型的准确性,通过预测类型及样本类别,对分类模型进行训练,以提升分类模型的准确性。

其中,样本对话信息能够是任意的对话信息,例如,样本对话信息为“今天天气如何,气温多少”,或者,为“画一个苹果”等。

可选地,样本对话信息包括正样本对话信息或负样本对话信息,正样本对话信息对应的样本类别为第一类别,负样本对话信息对应的样本类别为第二类别。

在本申请实施例中,多个样本对话信息包括正样本对话信息和负样本对话信息,多个样本对话信息中正样本对话信息与负样本对话信息的比例能够是任意的比例,例如,正样本对话信息与负样本对话信息的比例6:4,如图6所示,在多个样本对话信息中,60%的样本对话信息为正样本对话信息,即60%的样本对话信息的类别为第一类别,40%的样本对话信息为负样本对话信息,即40%的样本对话信息的类别为第二类别。由于样本对话信息和样本类别的数据简单,能够快速高效的生成大规模数据,分类模型只需识别出输入信息属于第一类别或第二类别即可,无需识别输入信息属于第一类别对应的多个意图类型下的哪个意图类型,使得分类模型的结构简单,能够快速训练分类模型。

可选地,基于每个样本对话信息的预测类别及样本类别,确定损失值,基于损失值,对分类模型进行训练,其中,损失值表示样本对话信息的预测类别与样本类别之间的差异。在本申请实施例中,采取交叉熵损失,对分类模型进行训练,以提升分类模型的准确性。

在上述图2至图3所示的实施例的基础上,在通过大语言模型生成对话信息的语义信息之前,还会对大语言模型进行训练,训练过程由计算机设备执行,训练过程包括:

步骤1、计算机设备获取样本对话信息及第二指示信息,第二指示信息指示语义分析模型按照语义分析的示例,对输入信息进行语义分析。

在本申请实施例中,第二指示信息指示语义分析模型能够按照指示来完成语义分析任务,并指示了语义分析的示例,以便后续语义分析模型,按照指示信息来完成语义分析的任务。

其中,样本对话信息为任意的对话信息,例如,例如,样本对话信息为“今天天气如何,气温多少”,或者,为“画一个苹果”等。语义分析模型是已训练完成的一种大语言模型。

步骤2、计算机设备通过语义分析模型,基于第二指示信息,对样本对话信息进行语义分析,得到样本语义信息。

在本申请实施例中,语义分析模型具有强大的推理功能,能够基于输入的指示信息,对输入信息进行处理,以实现指示信息所指示的任务。第二指示信息指示语义分析模型完成语义分析任务,则语义分析模型能够按照第二指示信息,对样本对话信息进行语义分析,以便按照第二指示信息中语义分析的示例,得到该样本对话信息的样本语义信息。

在本申请实施例中,语义分析模型能够基于指示信息来执行任务,且语义分析模型是已训练的模型,则通过语义分析模型得到的样本语义信息足够准确。

步骤3、计算机设备通过大语言模型,对样本对话信息进行处理,得到预测语义信息。

该步骤3与上述步骤202同理,在此不再赘述。

步骤4、计算机设备基于预测语义信息及样本语义信息,对大语言模型进行训练。

在本申请实施例中,预测语义信息与样本语义信息之间的差异,能够反映出大语言模型的准确性,预测语义信息与样本语义信息之间的差异越小,表示大语言模型越准确,预测语义信息与样本语义信息之间的差异越大,表示大语言模型越不准确,因此,基于预测语义信息及样本语义信息,对大语言模型进行训练,提升大语言模型的准确性。

本申请实施例提供的方案中,语义分析模型是一个已训练完成的、且具有强大的推理功能的大语言模型,在获取到样本对话信息的情况下,利用语义分析模型能够获取到样本对话信息的样本语义信息,保证了样本语义信息的准确性,进而基于样本对话信息及样本语义信息,通过大语言模型预测样本对话信息的预测语义信息,基于预测语义信息与样本语义信息之间的差异,对大语言模型进行训练,能够保证对大语言模型的训练效果,能够提升大语言模型的准确性。

需要说明的是,上述实施例是基于大语言模型输出的预测语义信息与样本语义信息,对大语言模型进行训练,而在另一实施例中,通过大语言模型,对样本对话信息进行处理,得到与样本语义信息相同的预测语义信息及预测语义信息中每个字符的概率,基于预测语义信息中每个字符的概率,对大语言模型进行训练。

在本申请实施例中,大语言模型对样本对话信息进行处理时,会逐字符解码的方式,输出多个字符,并将输出的字符构成预测语义信息,由于样本语义信息为样本对话信息真实的语义信息,则通过大语言模型,对样本对话信息进行处理时,按照样本语义信息,控制大语言模型输出与样本语义信息相同的预测语义信息,并确定出预测语义信息中每个字符的概率,则预测语义信息中每个字符的概率能够反映出大语言模型的准确性,预测语义信息中每个字符的概率越大,表示大语言模型输出与样本语义信息相同的预测语义信息的可能性越大,预测语义信息中每个字符的概率越小,表示大语言模型输出与样本语义信息相同的预测语义信息的可能性越小,因此,基于预测语义信息中每个字符的概率,对大语言模型进行训练,以提升大语言模型的准确性。

可选地,通过大语言模型获取与样本语义信息相同的预测语义信息及预测语义信息中每个字符的概率的过程,包括:通过大语言模型,对样本对话信息中每个字符进行特征提取,得到样本对话特征,样本对话特征包括样本对话信息中每个字符的特征;对于样本对话信息中的第二字符,基于第二字符的特征及对话信息中第二字符之前的字符的特征,对第二字符的特征进行更新,得到第二字符更新后的特征,第二字符为样本对话信息中的任一字符;将样本对话信息中多个字符更新后的特征构成更新后的样本对话特征;通过大语言模型,对更新后的样本对话特征进行第1次解码,得到大语言模型中多个备选字符的第一概率,确定样本语义信息中第1个字符的第一概率;通过大语言模型,基于样本语义信息中第1个字符,对更新后的样本对话特征进行第2次解码,得到多个备选字符的第2概率,确定样本语义信息中第2个字符的第2概率;通过大语言模型,基于样本语义信息中前k个字符,对更新后的样本对话特征进行第k+1次解码,得到多个备选字符的第k+1概率,确定样本语义信息中第k+1个字符的第k+1概率;重复上述过程,直至确定样本语义信息中最后一个字符的概率,此时,得到与样本语义信息相同的预测语义信息及预测语义信息中每个字符的概率。其中,k为大于1的整数。

在一种可能实现方式中,预测语义信息与样本语义信息相同,则训练大语言模型的过程,包括:基于预测语义信息中每个字符的概率,确定损失值,基于损失值,对大语言模型进行训练。

可选地,采取大语言模型最小化极大似然函数,确定损失值,则损失值满足以下关系:

其中,L

在本申请实施例中,大语言模型是采用自回归方式,基于预训练的GPT进行SFT得到,且GPT使用Transformer解码器模块构建。Transformer解码器对对话信息进行处理时,会采取逐步解码方式输出多个字符,由输出的多个字符构成语义信息,在输出多个字符的过程中,会基于对话信息及当前得到的字符,输出下一个字符。在训练Transformer解码器的过程中,会对样本对话信息进行处理,会按照样本语义信息,逐字符输出与样本语义信息相同的预测语义信息,在输出预测语义信息的过程中,基于当前得到的字符来输出下一个字符,即通过当前Token(表示)及其之前Token来预测下一个Token,将当前得到的字符在样本语义信息中之后的字符Mask(隐藏)掉。

Transformer解码器能够更高效地捕捉序列数据的长距离依赖关系,Transformer解码器由多个自注意力(Masked Self-attention)层和位置前馈神经网络(Position-wiseFeed-forward Neural Networks)组成,并通过残差连接(Residual Connections)和层归一化(Layer Normalization)堆叠在一起。Self-Attention通过自注意力机制来捕捉序列中的上下文相关信息,自注意力的计算涉及到三个权重矩阵(查询矩阵Q、键矩阵K和值矩阵V),并通过点积、缩放、Softmax激活和加权求和计算最后的注意力权重。Masked Self-attention在自注意力机制中使用Mask来遮蔽当前Token之后的信息,保证预测仅基于之前的Token信息。Layer Normalization是为了加速模型收敛,在每一层输出之后采用层归一化对其进行规范化,减轻网络中的梯度消失/爆炸问题。

Transformer解码器的参数能够是任意的参数,例如,Transformer解码器的参数设置如下:MODEL_SIZE(模型规模)为7B(7Billion,70亿),NUM_LAYERS(网络层数)为32,HIDDEN_SIZE(隐藏层尺寸)为4096,NUM_ATTN_HEADS(多头自注意力头数)为32,FFN_HIDDEN_SIZE(前馈神经网络隐藏层尺寸)为16384,ATTN_HEAD_SIZE(自注意力层尺寸)为128。需要说明的是,大语言模型还能够采取采用更大规模参数的GPT模型进行SFT。

在上述实施例中,大语言模型的训练数据包括样本对话信息及样本语义信息,在构建大语言模型的训练数据时,基于ICL(In Context Learning,类比学习)方式,构建样本对话信息,并通过语义分析模型,获取样本对话信息的样本语义信息,进而将样本对话信息及样本语义信息能够构成大语言模型的训练数据。这种方式构建的训练数据,能够覆盖多种NLP任务,包括意图类型、主题、问题类型、实体识别等。

在构建大语言模型的训练数据的过程中,先构建语义分析模型的第二指示信息,第二指示信息指示了语义分析模型所需执行的任务以及语义分析的示例。

语义分析模型所需执行的任务指示语义分析模型基于指令完成以下文本理解任务:识别问题所属意图类型、识别问题所属主题、识别问题所属问题类型、识别问题的实体词语和词语类型,其中意图类型包括文生图类型、代码类型、计算类型、天气类型、日历类型、藏头诗类型、地图类型、网址类型、看图说话类型、翻译类型等。语义分析的示例:“输入:今天天气如何,气温多少;输出:意图类型:[天气类型],主题:[天气查询],问题类型:[查询类型],实体词语及词语类型:[今天:时间|天气:概念]”;“输入:写一段代码遍历文件夹;输出:意图类型:[代码类型],主题:[编程],类型:[编程类型],实体:[]”。

第二指示信息中语义分析的示例指示了语义分析模型的输入和输出。例如,语义分析模型的输入为“今天天气如何,气温多少”,语义分析模型的输出“”插件”属于“天气插件”,“主题”属于“天气查询”,“类型”属于“查询类”;“实体”采用“实体片段:实体类型”方式存储,多个实体用“|”分隔,包括“今天:时间”、“天气:概念”两个。第二指示信息中语义分析的示例包括多个意图类型的正负例,例如,以“天气意图类型”为例,正例为(“今天天气如何,气温多少”)和一个容易混淆的负例(“周五可以去参加露营音乐会吗?”),其他意图类型同理。语义分析模型输出的语义信息包括意图类型、主题、问题类型、实体词语及词语类型。本申请实施例仅是以语义信息包括意图类型、主题、问题类型、实体词语及词语类型为例进行说明,在多种NLP理解任务中,语义信息的内容能够灵活增减。

例如,第二指示信息中语义分析的示例如下:

“输入:今天天气如何,气温多少;输出:意图类型:[天气类型],主题:[天气查询],问题类型:[查询类型],实体:[今天:时间|天气:概念]”;“输入:周五可以去参加露营音乐会吗?;输出:意图类型:[通用对话模型],主题:[活动邀请],问题类型:[咨询类型],实体:[周五:时间|露营音乐会:活动]”;“输入:写一段代码遍历文件夹;输出:意图类型:[代码类型],主题:[编程],问题类型:[编程类型],实体:[]”;“输入:线性回归函数和编码函数有什么区别?输出:意图类型:[通用对话模型],主题:[编程],问题类型:[介绍类型],实体:[]”;“输入:画一个苹果;输出:意图类型:[文生图类型],主题:[绘画],问题类型:[创作类型],实体:[苹果:水果]”;“输入:描述一幅画:动物在衣柜里面睡觉,吹着风扇;输出:意图类型:[通用对话模型],主题:[画面描述],问题类型:[描述类型],实体:[动物:动漫形象|衣柜:物品|风扇:物品]”。

在上述第二指示信息的基础上,以样本对话信息为“描述一幅画:学生在打篮球”为例,通过语义分析模型,基于第二指示信息,对样本对话信息进行处理,得到的样本语义信息为“意图类型:[通用对话模型],主题:[画面描述],问题类型:[描述类型],实体:[学生:人物|打篮球:活动]”。

在上述通过语义分析模型得到训练数据后,能够对训练数据进行筛选,利用筛选后的训练数据,训练大语言模型。在本申请实施例中,通过本申请实施例提供的样本信息模板,将样本对话信息及对应的样本语义信息构成一条训练数据,样本信息模板和训练数据如下:“输入:{对话信息}输出:{回复信息}”。例如训练数据为“输入:1.1的7次方是多少;输出:意图类型:[计算类型],主题:[数学问题],问题类型:[计算类型],实体:[次方:数学概念]”。

在一种可能实现方式中,还构造了大语言模型的模板,模板包括大语言模型的输入和输出,以大语言模型的输入信息为文本,大语言模型对输入信息进行处理,得到回复信息,对话信息及回复信息能够构成如下模板:“输入:{对话信息}输出:{回复信息}”。

通过本申请实施例提供的方法,能够保证回复信息的准确性,在本申请实施例提供的方案中,对话模型包括通用对话模型和多个目标对话模型,通用对话模型和多个目标对话模型的训练数据构建简单,能够快速生成各个对话模型的训练数据,进而基于各个对话模型的训练数据,分别对各个对话模型进行训练,而识别对话信息所属的意图类型由大语言模型进行处理,训练大语言模型仅需小规模高质量的训练数据。由于分类模型对配置和显存要求低,大语言模型对配置和显存要求高,则通过二分类模型识别对话信息的类别,仅会将属于第一类别的对话信息分发到大语言模型进行意图识别,无需通过大语言模型对每个对话信息进行处理,这样能够节省设备的资源。

图7是本申请实施例提供的一种回复信息生成装置的结构示意图,如图7所示,该装置包括:

分类模块701,用于对对话信息进行分类,得到对话信息的类别,类别包括第一类别或第二类别,第一类别指示多个目标对话模型,每个目标对话模型用于对一种意图类型的对话信息进行回复,第二类别指示通用对话模型;

分析模块702,用于在对话信息的类别为第一类别的情况下,通过大语言模型,对对话信息进行语义分析,得到对话信息的语义信息;

确定模块703,用于基于语义信息,从多个意图类型中,确定第一意图类型,第一意图类型与语义信息匹配;

处理模块704,用于通过第一意图类型下的目标对话模型,对对话信息进行处理,得到第一回复信息。

在一种可能实现方式中,对话信息为问题信息;分析模块702,用于在对话信息的类别为第一类别的情况下,通过大语言模型,识别问题信息的问题类型;通过大语言模型,对问题信息进行分类,得到第二意图类型,第二意图类型为多个意图类型中与问题类型匹配的意图类型;通过大语言模型,将第二意图类型和问题类型,构成语义信息。

在另一种可能实现方式中,如图8所示,装置还包括:

识别模块705,用于通过大语言模型,识别问题信息的主题、问题信息中的实体词语或实体词语的词语类型中的至少一项;

分析模块702,用于通过大语言模型,将主题、实体词语或词语类型中的至少一项以及第二意图类型和问题类型,构成语义信息。

在另一种可能实现方式中,确定模块703,用于基于语义信息,查询类型映射表,类型映射表包括多个意图类型中每个意图类型对应的问题类型;在查询到第二意图类型在类型映射表中对应的问题类型与语义信息中的问题类型相同的情况下,将第二意图类型确定为第一意图类型。

在另一种可能实现方式中,如图8所示,装置还包括:

获取模块706,用于获取第一指示信息,第一指示信息指示大语言模型按照语义分析的示例,对输入信息进行语义分析,示例包括输入信息示例及输入信息示例的语义信息示例;

分析模块702,用于在对话信息的类别为第一类别的情况下,通过大语言模型,基于第一指示信息,对对话信息进行语义分析,得到对话信息的语义信息。

在另一种可能实现方式中,处理模块704,还用于在对话信息的类别为第二类别的情况下,通过通用对话模型,对对话信息进行处理,得到第二回复信息。

在另一种可能实现方式中,处理模块704,还用于在多个意图类型与语义信息均不匹配的情况下,通过通用对话模型,对对话信息进行处理,得到第二回复信息。

在另一种可能实现方式中,如图8所示,装置还包括:

获取模块706,用于获取样本对话信息及第二指示信息,第二指示信息指示语义分析模型按照语义分析的示例,对输入信息进行语义分析;

分析模块702,还用于通过语义分析模型,基于第二指示信息,对样本对话信息进行语义分析,得到样本语义信息;

处理模块704,还用于通过大语言模型,对样本对话信息进行处理,得到预测语义信息;

训练模块707,用于基于预测语义信息及样本语义信息,对大语言模型进行训练。

需要说明的是:上述实施例提供的回复信息生成装置,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将计算机设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的回复信息生成装置与回复信息生成方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。

本申请实施例还提供了一种计算机设备,该计算机设备包括处理器和存储器,存储器中存储有至少一条计算机程序,该至少一条计算机程序由处理器加载并执行以实现上述实施例的回复信息生成方法所执行的操作。

可选地,计算机设备提供为终端。图9示出了本申请一个示例性实施例提供的终端900的结构框图。终端900包括有:处理器901和存储器902。

处理器901可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器901可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器901也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器901可以集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器901还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。

存储器902可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器902还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器902中的非暂态的计算机可读存储介质用于存储至少一个计算机程序,该至少一个计算机程序用于被处理器901所执行以实现本申请中方法实施例提供的回复信息生成方法。

在一些实施例中,终端900还可选包括有:外围设备接口903和至少一个外围设备。处理器901、存储器902和外围设备接口903之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口903相连。具体地,外围设备包括:射频电路904、显示屏905、摄像头组件906、音频电路907和电源908中的至少一种。

外围设备接口903可被用于将I/O(Input/Output,输入/输出)相关的至少一个外围设备连接到处理器901和存储器902。在一些实施例中,处理器901、存储器902和外围设备接口903被集成在同一芯片或电路板上;在一些其他实施例中,处理器901、存储器902和外围设备接口903中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。

射频电路904用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路904通过电磁信号与通信网络以及其他通信设备进行通信。射频电路904将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路904包括:天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路904可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity,无线保真)网络。在一些实施例中,射频电路904还可以包括NFC(Near Field Communication,近距离无线通信)有关的电路,本申请对此不加以限定。

显示屏905用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏905是触摸显示屏时,显示屏905还具有采集在显示屏905的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器901进行处理。此时,显示屏905还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏905可以为一个,设置在终端900的前面板;在另一些实施例中,显示屏905可以为至少两个,分别设置在终端900的不同表面或呈折叠设计;在另一些实施例中,显示屏905可以是柔性显示屏,设置在终端900的弯曲表面上或折叠面上。甚至,显示屏905还可以设置成非矩形的不规则图形,也即异形屏。显示屏905可以采用LCD(Liquid Crystal Display,液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件906用于采集图像或视频。可选地,摄像头组件906包括前置摄像头和后置摄像头。前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件906还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。

音频电路907可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器901进行处理,或者输入至射频电路904以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在终端900的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器901或射频电路904的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路907还可以包括耳机插孔。

电源908用于为终端900中的各个组件进行供电。电源908可以是交流电、直流电、一次性电池或可充电电池。当电源908包括可充电电池时,该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池,无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

本领域技术人员可以理解,图9中示出的结构并不构成对终端900的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。

可选地,计算机设备提供为服务器。图10是本申请实施例提供的一种服务器的结构示意图,该服务器1000可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(Central Processing Units,CPU)1001和一个或一个以上的存储器1002,其中,存储器1002中存储有至少一条计算机程序,至少一条计算机程序由处理器1001加载并执行以实现上述各个方法实施例提供的方法。当然,该服务器还可以具有有线或无线网络接口、键盘及输入输出接口等部件,以便进行输入输出,该服务器还可以包括其他用于实现设备功能的部件,在此不做赘述。

本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有至少一条计算机程序,该至少一条计算机程序由处理器加载并执行以实现上述实施例的回复信息生成方法所执行的操作。

本申请实施例还提供了一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现上述实施例的回复信息生成方法所执行的操作。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。

以上所述仅为本申请实施例的可选实施例,并不用以限制本申请实施例,凡在本申请实施例的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

相关技术
  • 一种基于二元面的激光电视一体机光学系统
  • 一种基于可折叠光电薄膜的激光传声系统
  • 基于LED光源的激光电视光学引擎系统及其激光电视
技术分类

06120116525369