掌桥专利:专业的专利平台
掌桥专利
首页

信息处理方法、装置、设备及存储介质

文献发布时间:2024-04-18 19:58:30


信息处理方法、装置、设备及存储介质

技术领域

本申请涉及人工智能技术领域,尤其涉及一种信息处理方法、装置、设备及存储介质。

背景技术

信息资源提供了大量知识以及了解世界的途径,信息搜索可以帮助人们快速、准确地找到所需的信息,从而实现知识获取、决策、创新创作和文化交流等目标。通常,用户可以通过搜索引擎或者智能聊天机器人来搜索信息。

其中,搜索引擎可以对互联网上的信息进行索引和组织,使得人们可以通过关键词搜索快速找到所需的信息,提高了信息获取的便利性和效率,节省了时间和精力;智能聊天机器人是一种能够模拟人类对话的人工智能程序,通过自然语言处理和机器学习等技术,与人类用户进行交互,并提供有关信息、回答问题、执行任务等服务。

但是,搜索引擎只能给出较为笼统和宽泛的信息的链接,需要用户进行再处理才能获得想要的信息,信息的反馈不够系统和便捷;而大部分聊天机器人的应答内容仅限于训练语言模型时输入的数据内容,虽然可以反馈较为总结性的信息,但是聊天机器人无法实时获取信息,不能满足用户的实时需求,导致回答的准确性较低,影响用户体验。

发明内容

本申请实施例提供了一种信息处理方法、装置、设备及存储介质,可以解决如何给用户提供更全面更准确的信息的技术问题。

第一方面,本申请实施例提供了一种信息处理方法,包括以下内容:

根据用户的输入信息确定用户意图。

根据用户意图从至少一个备选的本地知识库的大语言模型或备选的接口中选择出目标本地知识库的大语言模型或目标接口。

调用目标本地知识库的大语言模型或目标接口输出与用户意图对应的反馈信息。

通过用户的输入信息进一步分析用户意图,并结合本地知识库的大语言模型以及调用外部的对应的接口这两种反馈方式来实现用户意图,不仅能够快速便捷地输出一些较为基本常规的信息,也能够输出更多的实时信息,提升了解决用户问题的全面性和准确性。

在一个实施例中,根据用户意图从至少一个备选的本地知识库的大语言模型或备选的接口中选择出目标本地知识库的大语言模型或目标接口,包括:

将用户意图输入工具形成者模型;

利用工具形成者模型从至少一个备选的本地知识库的大语言模型或备选的接口中选择出目标本地知识库的大语言模型或目标接口。

通过工具形成者模型可以自主判断什么时候调用什么接口或大语言模型,无需大量人工标注,减少了人力成本。

在一个实施例中,根据用户意图从至少一个备选的本地知识库的大语言模型或备选的接口中选择出目标本地知识库的大语言模型或目标接口,包括:

当用户意图属于目标本地知识库的大语言模型的训练数据的内容时,选择目标本地知识库的大语言模型输出反馈信息;或者,

当用户意图不属于目标本地知识库的大语言模型的训练数据的内容时,选择目标接口输出反馈信息。

通过以上两种解答方式相互配合,可以灵活选择如何实现用户意图,提高了模型的灵活性。

在一个实施例中,调用目标本地知识库的大语言模型或目标接口输出与用户意图对应的反馈信息,包括:

当用户意图是图像生成意图时,调用图像生成接口生成并输出图像信息,目标接口为图像生成接口,反馈信息为图像信息。

在一个实施例中,调用目标本地知识库的大语言模型或目标接口输出与用户意图对应的反馈信息,包括:

当用户意图是视频生成意图时,调用视频生成接口生成并输出视频信息,目标接口为视频生成接口,反馈信息为视频信息。

在一个实施例中,调用目标本地知识库的大语言模型或目标接口输出与用户意图对应的反馈信息,包括:

当用户意图是搜索意图时,调用搜索接口生成并输出搜索信息,目标接口为搜索接口,反馈信息为搜索信息。

在一个实施例中,根据用户的定制需求对本地知识库的大语言模型进行微调处理,得到微调后的大语言模型。

第二方面,本申请实施例提供了一种信息处理装置,该装置具有实现第一方面或其任意可能的实现方式中的方法的功能。具体地,该装置包括实现第一方面或其任意可能的实现方式中的方法的单元。

在一个实施例中,该装置包括:

获取单元,用于根据用户的输入信息确定用户意图。

选择单元,用于根据用户意图从至少一个备选的本地知识库的大语言模型或备选的接口中选择出目标本地知识库的大语言模型或目标接口。

处理单元,用于调用目标本地知识库的大语言模型或目标接口输出与用户意图对应的反馈信息。

第三方面,本申请实施例提供了一种计算机设备,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,该处理器执行计算机程序时,使得计算机设备实现上述第一方面任意一种实现方式的方法。

第四方面,本申请实施例提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被计算机设备执行时,使得计算机设备实现上述第一方面任意一种实现方式的方法。

第五方面,本申请实施例提供了一种计算机程序产品,当计算机程序产品在计算机设备上运行时,使得计算机设备实现上述第一方面任意一种实现方式的方法。

本申请实施例与现有技术相比存在的有益效果是:通过分析用户的输入信息来确定用户真正的意图,进而确定是通过本地知识库的大语言模型来解答用户的问题还是通过调用外部的接口来实现用户的意图,通过这两种反馈方式,既能够弥补本地知识库信息滞后的问题,也能够较为迅速便捷地为用户提供较为全面、准确的总结性信息,极大地提升了用户体验。

附图说明

图1是本申请实施例提供的获取信息的场景示意图。

图2是本申请实施例提供的一种信息处理方法的流程示意图。

图3是本申请实施例提供的另一种信息处理方法的流程示意图。

图4是本申请实施例提供的信息处理装置的结构示意图。

图5是本申请实施例提供的计算机设备的结构示意图。

具体实施方式

利用网络搜索信息是用户获取信息资源、解决问题的一种重要手段,随着互联网的发展,获取信息的方式越来越多样化。下面结合具体事例介绍两种可能的获取信息的情景。

图1是本申请实施例提供的获取信息的场景示意图。

假设,A城市共有10个旅游景区,其中有九个景区是2020年认证的,最后一个景区是2022年新增的。此时,某用户想要查询一个问题:“A城市有哪些旅游景区”。

在一种实现方式中,该用户可以在某搜索引擎上输入问题“A城市有哪些旅游景区”。该搜索引擎会按照一定的顺序(例如发表时间顺序)展示有关A城市旅游景区的所有内容。此时,用户可能需要自己去提取、总结、判断出最完整最全面的信息,有时候并不能一次性得出最终的最全面的答案。

如图1中的(A)部分所示,该搜索引擎展示的一条回答(发表时间为2021年)中提到了其中的9个景区,搜索引擎展示的另一条回答(发表时间为2023年)中提到了新增的1个景区,用户需要结合上述两条回答才能得到最全面的信息,如果只参考其中任意一条回答将难以保证信息的准确性和完整性。

在一种实现方式中,该用户也可以直接询问基于大语言模型(Large LanguageModel,LLM)的智能聊天机器人,例如,聊天生成预训练转换器(Chat Generative Pre-trained Transformer,ChatGPT)智能聊天机器人。但是智能聊天机器人只能依据训练模型时输入的数据来输出答案,答案不一定能包括最新的信息,具有一定的滞后性。

如图1中的(B)部分所示,用户在ChatGPT(训练模型时输入的数据包括2022年之前的A城市的所有景区信息)中输入问题“A城市有哪些旅游景区”。可以理解,ChatGPT的回答只包括2020年认证的9个景区,不会包括2022年新增的景区。由此可见,用户通过询问ChatGPT并不能得到最新的信息,与实时信息有一定的差距。

结合上述两种搜索情景可以看出,通过搜索引擎虽然可以获取到最新的消息,但是有时候需要用户自己去提炼总结,才能获得最完整最准确的信息;而通过ChatGPT等智能聊天机器人来进行搜索虽然不用自己去总结,但是又受限于训练模型时的输入数据的来源范围,智能聊天机器人通常难以给出实时的信息,不能给用户提供最新的信息。

针对上述问题,本申请提出了一种信息处理方法,通过结合本地知识库的大语言模型以及外部的接口来更全面地解答用户的问题。

为了进一步说明本申请的技术方案,下面通过具体实施例来说明。

图2是本申请实施例提供的一种信息处理方法的流程示意图。

如图2所示,上述方法包括以下步骤S201~S203。

S201、根据用户的输入信息确定用户意图。

用户的输入信息用于判断用户的意图是什么,从而使人工智能语言模型按照用户的意图反馈对应的信息。

该输入信息的输入形式包括文本输入、语音输入、图像输入等人工智能语言模型可以识别的输入方式,此处对于输入形式不做限定。

用户意图是指用户想要做的事,或者也可以理解为用户想要获取某种信息。

作为示例而非限定,用户意图可以按照用户期望的呈现方式分为图像生成意图、视频生成意图、搜索意图等形式。

图像生成意图是指用户意图为生成图像形式的数据,即用户希望利用人工智能语言模型来生成图像数据。

视频生成意图是指用户意图为生成视频形式的数据,即用户希望利用人工智能语言模型来生成视频数据。

搜索意图是指除了图像生成意图和视频生成意图之外的用户意图,可以理解为用户的意图是获得包括图像、视频、文本等多种形式的数据,即用户希望利用人工智能语言模型从各种信息资源种进行搜集、归纳、整理最终获取到想要的信息。值得注意的是,搜集意图中得出的图像数据和视频数据并非是人工智能语言模型重新生成的,而是直接输出现有的图像或视频,没有进行“创造”,不属于“生成”。

例如,如果用户的输入信息是“请画一张太阳的图片”,则可以确定用户意图是图像生成意图;如果用户的输入信息是“请制作一段跳舞的视频”,则可以确定用户意图是视频生成意图;如果用户的输入信息是“请问某省份的省会城市是哪个城市”,则可以确定用户意图是搜索意图;如果用户的输入信息是“请找一张海洋的风景图”,则可以确定用户意图是搜索意图,此时并非是图像生成意图,因为只需要找一张海洋的风景图即可,不需要重新绘制。具体的用户意图可以根据实际情况来确定,此处不再赘述。

在一种实现方式中,在判断用户的意图之前,对用户的输入信息进行规范性检测。

规范性检测是指检测用户的输入信息是否符合一定的社会规范。此处的社会规范是指某地区的法律法规等政策性规定或者良好的社会风俗习惯等等,具体的设置可以根据实际情况来进行选择,此处不作限定。

例如,可以分析用户的输入信息中的关键词、关键句、图像特征是否涉嫌违反法律的恐怖信息,如果用户的输入信息中包含前述恐怖信息,则可以提醒用户避免输入上述信息。

S202、根据用户意图从至少一个备选的本地知识库的大语言模型或备选的接口中选择出目标本地知识库的大语言模型或目标接口。

大语言模型(Large Language Model,LLM),也称大型语言模型,是一种人工智能语言模型,旨在理解和生成人类语言。它们在大量的文本数据上进行训练,可以执行广泛的任务,包括文本总结、翻译、情感分析等等。

本地知识库的大语言模型是指一个在本地设备上运行的大型语言模型,与在云端运行并通过网络进行访问的模型相对。本地知识库的大语言模型通过将模型和相关资源直接部署在本地设备上,用户可以在本地设备上直接运行和使用该模型,而无需依赖于云服务。

备选的本地知识库的大语言模型是指可供用户选择的大语言模型,也可以理解为此处的大语言模型是指某一类利用本地知识库的数据进行大模型训练的开源的大语言模型。下面介绍一种可供选择的大语言模型。

例如,使用本地知识库的数据来训练人工智能大语言模型(Large LanguageModel Meta AI,LLaMA)的开源模型,训练完成之后将该模型部署在本地设备上。

目标本地知识库的大语言模型是指与用户意图契合的大语言模型,也可以理解为能够更好地实现用户意图的大语言模型。例如,用户想要翻译文件可以使用具备翻译功能的大语言模型。具体选择哪种大语言模型为目标本地知识库的大语言模型需要根据用户的意图来实际选择,此处不作限定。

相比于传统的大语言模型,使用本地知识库的大语言模型的用户可以在本地设备上运行模型,不需要将敏感数据传送到云端,并且由于模型和相关资源在本地设备上运行,相比于通过网络远程访问的模型,响应时间可能更快,同时,本地知识库的大语言模型可以在无网络连接的情况下使用,不需要实时与云服务器通信,提供了更强的灵活性。

接口在此处是指应用程序编程接口(Application Programming Interface,API)。API是一组定义了软件组件之间如何互相通信的规则和协议,API可以理解为不同软件之间进行交互的桥梁,它定义了一套规范,使得不同的软件能够相互调用和使用对方提供的功能和数据。

备选的接口是指可供用户选择的API,API的种类和功能多种多样,可以根据实际情况来API的种类,此处不作限定。

目标接口是指与用户意图契合的接口,也可以理解为能够更好地实现用户意图的接口。例如,用户查询天气可以使用天气类API。具体选择哪种接口为目标接口需要根据用户的意图来实际选择,此处不作限定。

可以理解,每一种大语言模型的主要功能的侧重点不同,每一种接口的功能也不尽相同,为了更好地实现用户意图,可以从多个备选的大语言模型或者接口中选择出最适合用户意图或者能够更好地实现用户意图的大语言模型或者接口,也即确定出目标本地知识库的大语言模型或目标接口。

当人工智能语言模型确定了用户的意图之后,在输出反馈信息之前,会判断为了实现该用户意图是需要调用相应的接口还是调用本地知识库的大语言模型。如果认定通过本地知识库的大语言模型可以直接实现用户意图的话,则不选择调用外部的对应的接口;如果认定通过本地知识库的大语言模型不能实现用户的意图,则选择调用外部的对应的接口来反馈信息给用户。也就是说,当确定了选择本地知识库的大语言模型来实现用户意图,就可以从至少一个备选的本地知识库的大语言模型中选择出目标本地知识库的大语言模型,相对应的,当确定了选择外部的接口来实现用户意图,就可以从至少一个备选接口中选择出目标接口。

S203、调用目标本地知识库的大语言模型或目标接口输出与用户意图对应的反馈信息。

可以理解,反馈信息的形式可以分为图像信息、视频信息、搜索信息等等与用户意图对应的信息,此处不作限定。

当确定了调用目标本地知识库的大语言模型或者目标接口之后,就可以按照用户的意图输出对应的反馈信息。

作为示例而非限定,如果用户意图是翻译文件,则调用目标本地知识库的大语言模型生成译文。

通过上述方法,根据用户的输入信息来确定用户意图,进而确定选择本地知识库的大语言模型来解答用户的问题还是通过调用外部的接口来实现用户的意图,结合这两种解决问题的方式,既发挥了本地知识库大语言模型的灵活性,也能够弥补本地知识库信息滞后的问题,即利用外部的接口给用户提供实时的、最新的信息,最终给用户提供更为全面、准确的信息。

下面介绍一种如何选择出目标本地知识库的大语言模型或目标接口的情形。

在一种实现方式中,将用户意图输入工具形成者模型,利用工具形成者模型从至少一个备选本地知识库的大语言模型或备选接口中选择出目标本地知识库的大语言模型或目标接口。

工具形成者模型即Toolformer模型。Toolformer模型是一个开源的可以自学使用工具的人工智能语言模型,它使用自监督学习方法进行训练,即利用数据本身的信息来进行训练,而不是依赖于人工标注的标签。Toolformer能够自主确定使用哪个API,以及如何使用该API。同理,Toolformer也能够自主调用本地知识库的大语言模型。

简单来讲,Toolformer模型可以通过对输入的问题和API列表进行编码,学习问题与API之间的语义关系,该模型会利用上下文信息、语法和语义特征来生成候选解决方案,例如,将天气类问题与天气类API进行编码,进行多次迭代训练之后,当遇到天气类问题时,Toolformer模型就可以自动调用天气类API。因此,Toolformer模型可以自主选择使用外部工具API,以解决不同的任务和需求。它可以根据问题的特征和API的特性,智能地决策哪个API最适合用于特定的任务。相对应的,如何自主调用本地知识库的大语言模型的底层逻辑也类似。

结合上文可以理解,Toolformer模型获取到用户意图之后,可以自主地从至少一个备选本地知识库的大语言模型或备选接口中选择出目标本地知识库的大语言模型或目标接口。

通过这种自我学习的方式,语言模型可以逐渐学会使用工具来解决特定任务,而无需人工编写规则或提供标注数据。相比于传统的有监督学习需要大量人工标注的数据集来指导模型的学习,自监督学习则通过从数据中自动生成标签,使得模型可以在没有人工标注数据的情况下进行学习,可以节省大量人力和时间。

下面介绍什么情况下通过本地知识库的大语言模型来实现用户意图以及什么情况下选择调用对应的接口来实现用户意图。

在一种实现方式中,当用户意图属于目标本地知识库的大语言模型的训练数据的内容时,选择目标本地知识库的大语言模型输出反馈信息;或者,

当用户意图不属于目标本地知识库的大语言模型的训练数据的内容时,选择目标接口输出反馈信息。

此处是根据用户的输入信息中的关键词来判断用户意图是通过目标本地知识库的大语言模型来实现还是通过调用对应的接口来实现。就是说,如果人工智能语言模型判断出目标本地知识库的训练数据中包括上述关键词的内容,也可以理解为,通过目标本地知识库的大语言模型可以解决用户的需求,就调用目标本地知识库的大语言模型来输出反馈信息,反之,则调用与用户意图对应的接口来输出反馈信息。

下面介绍几种调用外部API解决用户问题的情形。

在一种实现方式中,调用目标本地知识库的大语言模型或目标接口输出与用户意图对应的反馈信息,包括:

当用户意图是图像生成意图时,调用图像生成接口生成并输出图像信息。

此时,图像生成接口是目标接口,图像信息是反馈信息。

图像生成接口可以包括:稳定扩散模型接口(Stable Diffusion ApplicationProgramming Interface,Stable Diffusion API)等支持绘制图像功能或者浏览下载图像功能的接口。

稳定扩散模型(Stable Diffusion)是一个开源的基于深度学习的图像生成模型,可以实现根据文本提示生成图像、根据提供的图像作为范本、结合文本提示生成图像、优化图像等功能。

例如,人工智能语言模型可以通过调用Stable Diffusion API来进行绘制图像。

假设用户的输入信息为:“绘制一朵红色的玫瑰花”,人工智能语言模型获取到该输入信息之后,分析确定出用户的意图为绘制一朵红色的玫瑰花之后,就调用StableDiffusion API来绘制出一朵红色的玫瑰花,并呈现给用户。

可以理解,上述调用图像生成接口来生成对应的图像这一行为的结果可以是生成一张图像也可以是生成多张图像,用户可以根据实际需求进行选择呈现的图像的数量,此处不作限定。

在一种实现方式中,调用目标本地知识库的大语言模型或目标接口输出与用户意图对应的反馈信息,包括:

当用户意图是视频生成意图时,调用视频生成接口生成并输出视频信息。

此时,视频生成接口是目标接口,视频信息是反馈信息。

视频生成接口可以包括:深度艺术人工智能绘画平台(DeepArt.io)的接口和跑道人工智能艺术设计工具(Runway ML)的接口。

DeepArt.io是一个在线艺术创作平台,它使用了深度学习技术和神经网络模型,提供了将图像转换为视频的功能,用户可以选择动画效果和转换速度,生成相应的艺术风格视频。DeepArt.io的接口是通过其网站提供的,用户可以在DeepArt.io的网站上传图像,并选择所需的艺术风格,然后通过网站提供的界面进行实时预览和调整。DeepArt.io会使用其后台的深度学习模型将图像与风格进行合成,并在网站上显示生成的结果。

Runway ML是一个人工智能创作工具,提供了一系列的模型和接口,包括图像和视频生成。通过Runway ML,用户可以使用预训练的模型和算法,进行各种创作任务,例如图像生成、图像转换、视频生成等。Runway ML支持多种流行的深度学习框架和模型。用户可以通过界面或编程接口调用相应的模型,实现根据文本生成视频的功能。Runway ML支持多种输入方式,包括图像、视频、文本等。

例如,人工智能语言模型可以通过调用DeepArt.io的API来生成视频。

假设,用户的输入信息为:“制作一段绘制一朵红色玫瑰花的视频”,人工智能语言模型获取到该输入信息之后,分析确定出用户的意图为制作一段绘制一朵红色的玫瑰花的视频之后,就可以调用DeepArt.io的API来生成一段绘制出一朵红色的玫瑰花的具体过程的视频,并呈现给用户。

例如,人工智能语言模型可以通过调用Runway ML的API来生成视频。

假设,用户的输入信息为:“制作一段绘制一朵红色玫瑰花的视频”并附上了绘制过程中的多张图片,人工智能语言模型获取到该输入信息之后,分析确定出用户的意图为制作一段绘制一朵红色的玫瑰花的视频之后,就可以调用Runway ML的API利用用户提供的多张图片生成一段绘制一朵红色的玫瑰花的视频,并呈现给用户。

可以理解,上述调用视频生成接口来生成对应的视频这一行为的结果可以是生成一段视频也可以是生成多段视频,用户可以根据实际需求进行选择呈现的视频的数量,此处不作限定。

在一种实现方式中,调用目标本地知识库的大语言模型或目标接口输出与用户意图对应的反馈信息,包括:

当用户意图是搜索意图时,调用搜索接口生成并输出搜索信息。

此时,搜索接口是目标接口,搜索信息是反馈信息。

可以理解,用户的搜索意图是多种多样的,因此可以利用Toolformer模型自主选择使用对应的接口来生成对应的信息。

此处的接口是根据用户的需求来确定的,例如:提供天气查询信息的天气类接口、提供计算功能的计算器接口、提供翻译功能的翻译接口、提供搜索查询功能的搜索接口等等,只要是能够满足用户需求的、可供使用的接口都可以包括在内。

例如,当用户的输入信息是“今天是星期几”,Toolformer模型可以自动调用日历类API,并输出对应的反馈信息“今天是星期一,XX年XX月XX日”。

再例如,当用户的输入信息是“今天天气如何”,Toolformer模型可以自动调用天气类API,并输出对应的反馈信息“X城市今天是晴天,气温为30℃”。

再例如,当用户的输入信息是“XX路会堵车吗”,Toolformer模型可以自动调用交通类API,并输出对应的反馈信息“XX路目前未发生拥堵”。

再例如,当用户的输入信息是“找一张森林风景图”,Toolformer模型可以自动调用图像类API,并输出对应的森林风景图。

作为示例而非限定,此处的图像类API可以是图像网站接口(Unsplash API)。

Unsplash API是Unsplash这一图片网站的接口,Toolformer模型可以通过调用Unsplash API,实现搜索、浏览和下载Unsplash平台上的图像,从而反馈给用户。

结合上述例子,当用户的输入信息为:“找一张森林风景图”,Toolformer模型获取到该输入信息之后,分析出用户的意图之后,就可以调用Unsplash API,从Unsplash平台中搜索出森林风景图的图片并下载,然后反馈给用户。

上面介绍了调用外部的API来解决用户问题的几种方式,下面介绍如何通过本地知识库的大语言模型来输出反馈信息。

在一种实现方式中,当确定通过本地知识库的大语言模型输出反馈信息时,利用Toolformer模型调用本地知识库的大语言模型来生成对应的信息。

例如,当用户的输入信息是“某省份的省会城市是哪一座城市”,假设本地知识库的大语言模型在训练时的数据中包括某省份的省会城市是A城市。此时,通过本地知识库的大语言模型就可以回答这个问题,Toolformer模型可以调用本地知识库的大语言模型并输出对应的反馈信息“某省份的省会城市是A城市”,而不用去调用外部的API来回答问题。

在一种实现方式中,根据用户的定制需求对所述本地知识库的大语言模型进行微调处理,得到微调后的大语言模型。

用户的定制需求是指某一用户或某一类用户特定的个性化的需求。

微调(Fine-tuning)是指在预训练模型的基础上,通过在特定任务上进行额外的训练来调整模型参数的过程。

可以理解,语言模型经过大规模的预训练阶段,使用海量的文本数据进行训练,以学习语言的统计特性和语义理解。然而,预训练的模型并不是针对特定任务进行优化的,因此需要进行微调来适应特定的应用场景或任务。微调将一个预训练的通用模型应用于特定任务,通过在特定任务的数据集上进行有监督的训练来进一步调整模型的参数。

作为示例而非限定,为了满足用户特定的翻译需求,可以在通用的翻译模型的基础上,输入某一类符合用户特定要求(如翻译成特定语序或者专有名词等)的翻译数据集(源语言句子以及目标语言句子),通过多次调整参数和迭代训练,最终的翻译模型的翻译结果更符合用户的个性化需求,给用户带来更好的翻译体验。具体的调整参数和训练数据集可以根据实际情况来进行设置,此处不再赘述。

通过微调,模型可以在特定任务上进行优化,并且可以更好地适应任务目标。微调充分利用了预训练模型的通用知识和特性,同时通过任务特定的训练数据进行参数的调整,来实现更好的性能和泛化能力。

下面结合上文整体性地介绍一种当用户输入问题时应该如何向用户反馈对应的信息的流程。

图3是本申请实施例提供的另一种信息处理方法的流程示意图。

如图3所示,图3包括以下步骤。

S301、用户输入问题。

结合上文可以理解,此处用户的输入方式可以是文本输入、语音输入以及图像输入等各种输入方式。

S302、用户意图过滤。

与上文中的对用户的输入信息进行规范性检测相对应,如果检测到用户的意图不符合规范之后,可以提醒用户避免输入违规信息,并进行过滤。也可以理解为,不会回答用户的违规问题。

S303、用户意图判断。

此处既可以根据用户输入信息中的关键词、关键句来判断用户的意图。如果用户输入的是图像的话,也可以提取图像中的关键信息,特征信息等来判断用户意图。例如,用户输入一张英文阅读理解的图片,图像上的信息有一段英语短文,并且说明需要翻译成中文,则可以提取该英文内容并翻译成中文。具体的判断方式需要结合实际情况来选择,此处不做限定。

S304A、图像生成意图。

结合上文,可知用户的意图是需要生成一张或多张图像。

S305A、调用图像生成接口。

结合上文,此处可以调用Stable DiffusionAPI等图像生成接口。

S306A、输出图像数据。

通过调用上述图像生成接口即可生成对应的图像,并反馈给用户。

S304B、视频生成意图。

结合上文,可知用户的意图是需要生成一段或多段视频。

S305B、调用视频生成接口。

结合上文,此处可以调用Runway ML的API等视频生成接口。

S306B、输出视频数据。

通过调用上述视频生成接口即可生成对应的视频,并反馈给用户。

S304C、其他意图。

结合上文可知,此处的用户意图是除了图像生成意图和视频生成意图以外的其他意图,具体的意图需要根据用户的实际情况来确定,此处不作限定。

S305C、使用Toolformer模型自主判断调用外部API工具。

结合上文,当确定需要调用外部的API来实现用户意图时,可以使用Toolformer模型自主判断调用哪个API。采用Toolformer可以增加模型的灵活性,满足用户的多样性需求。

S306C、输出对应的数据。

可以理解,输出的数据跟调用的API呈相关关系,调用哪种API就会得到对应的数据,例如,文本数据、图像数据、视频数据等等,此处不作限定。

作为示例而非限定,如果用户想要搜索某一城市的历史天气数据,通过Toolformer可以调用天气类API,并且可以对得到的天气数据进行归纳整理,形成更具逻辑性、条理性的答案,避免给用户发送大量杂乱信息,影响用户体验。

S305D、使用Toolformer模型调用本地知识库微调的大语言模型。

结合上文可以理解,如果判断出本地知识库微调的大语言模型可以解决用户的问题时,就使用Toolformer模型调用本地知识库微调的大语言模型。

S306D、输出对应的数据。

最后输出与用户的意图对应的数据。

上文主要结合附图对本申请实施例的一种信息处理方法进行了介绍。应理解,虽然如上所述的各实施例所涉及的流程图中的各个步骤依次显示,但是这些步骤并不是必然按照图中所示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。下面结合附图对本申请实施例的一种的装置进行介绍。为了简洁,在下文介绍装置时,会进行适当省略,相关内容可以参照上文的方法中的相关描述,不再重复介绍。

图4申请实施例提供的一种信息处理装置的结构示意图。

如图4所示,该装置1000包括以下单元。

获取单元1001,用于根据用户的输入信息确定用户意图。

选择单元1002,用于根据用户意图从至少一个备选的本地知识库的大语言模型或备选的接口中选择出目标本地知识库的大语言模型或目标接口。

处理单元1003,用于调用目标本地知识库的大语言模型或目标接口输出与用户意图对应的反馈信息。

在一种实现方式中,上述获取单元1001还可以用于执行上述步骤S301中的方法。

在一种实现方式中,上述选择单元1002还可以用于执行上述步骤S301、S302中的方法。

在一种实现方式中,上述处理单元1003还可以用于执行上述步骤S303、S304A~S306A、S304B~S306B、S304C~S306C、S305D~S306D中的方法。

在一种实现方式中,该装置1000还包括存储单元,该存储单元可以用于存储指令或数据,从而实现上述实施例中的方法。

需要说明的是,上述单元之间的信息交互、执行过程等内容,由于与本申请方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见方法实施例部分,此处不再赘述。

图5是本申请实施例提供的计算机设备的结构示意图。如图5所示,该实施例的计算机设备3000包括:至少一个处理器3100(图5仅示出一个)处理器、存储器3200以及存储在存储器3200中并可在至少一个处理器3100上运行的计算机程序3210,处理器3100执行计算机程序3210时,使得所述计算机设备实现上述实施例中的步骤。

处理器3100可以是中央处理单元(Central Processing Unit,CPU),该处理器3100还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器3200在一些实施例中可以是计算机设备3000的内部存储单元,例如计算机设备3000的硬盘或内存。存储器3200在另一些实施例中也可以是计算机设备3000的外部存储设备,例如计算机设备3000上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器3200还可以既包括计算机设备3000的内部存储单元也包括外部存储设备。存储器3200用于存储操作系统、应用程序、引导装载程序(Boot Loader)数据以及其他程序等,例如计算机程序的程序代码等。存储器3200还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

本申请实施例还提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被计算机设备执行时,使得计算机设备实现可实现上述各个方法实施例中的步骤。

本申请实施例提供了一种计算机程序产品,当计算机程序产品在计算机设备上运行时,使得计算机设备能够实现上述各个方法。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,使得计算机设备可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括:能够将计算机程序代码携带到拍照装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区,根据立法和专利实践,计算机可读介质不可以是电载波信号和电信信号。

应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。在描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。

应当理解,当在本申请说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件或其集合的存在或添加。

还应当理解,在本申请说明书和所附权利要求书中使用的术语“或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。

另外,在本申请说明书和所附权利要求书的描述中,术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。

在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中,应该理解到,所揭露的装置、计算机设备和方法,可以通过其它的方式实现。例如,以上所描述的装置、计算机设备实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。

以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。

相关技术
  • 日志信息处理方法、装置、电子设备及可读存储介质
  • 信息处理方法及装置、电子设备和存储介质
  • 贷款业务信息处理方法、装置、存储介质及计算机设备
  • 信息处理方法、装置、电子设备及可读存储介质
  • 用户信息处理方法、装置、计算机设备及存储介质
  • 信息处理系统、信息处理方法、信息处理设备、信息处理设备控制方法、信息处理终端、信息处理终端控制方法、信息存储介质以及程序
  • 信息处理系统、信息处理方法、信息处理设备、信息处理设备控制方法、信息处理终端、信息处理终端控制方法、信息存储介质以及程序
技术分类

06120116498727