一种基于多模态大模型的内容分发和交互方法及系统

文献发布时间：2024-04-18 19:57:31

技术领域

本发明涉及人工智能的多模态大模型技术领域，具体公开了一种基于多模态大模型的内容分发和交互方法及系统。

背景技术

互联网上内容包括新闻、文章、图文、视频等。互联网上内容的分发和交互方法，经历了多次变化。从最初的网页列表和邮件组，到搜索引擎的关键词搜索，之后博客订阅和微博订阅占据主流，随之出现基于算法的自动推荐等。移动互联网后，在聊天和社交App的对话框中分享内容以及公众号订阅，也成为了内容分发的重要渠道。

这些现有的分发方法，极大提高了内容的获取和传播速度。但所有这些方法都存在弱点，例如网页列表和邮件组依赖运营人员，搜索引擎存在语义模糊和答案不准确的问题，订阅方式需要手工订阅，算法推荐则可能被操控，聊天和社交App的分享具有随意性和被操控的危险。

用户在互联网上阅读内容，依然和传统的纸质阅读类似。虽然有超链接可在文本之间跳转，但跳转所到达的内容是固定的，未必是用户所想看到的。互联网的内容阅读在人机交互上，和纸质阅读的人书交互并无大的差异。

随着多模态大模型的出现，AI可与人顺畅对话，并且在语义理解和逻辑推理上，都呈现出跳跃性的进步。

为此，需要一种能够根据用户的请求，自动进行内容的整理、加工与推荐，向用户持续发送相关的内容的基于多模态大模型的内容分发和交互方法及系统。

发明内容

本发明的目的之一在于，提供一种基于多模态大模型的内容分发和交互方法，能够根据用户的请求，自动进行内容的整理、加工与推荐，向用户持续发送相关的内容。

为了解决上述技术问题，本申请提供如下技术方案：

一种基于多模态大模型的内容分发和交互方法，包括如下步骤：

S1、获取内容；

S2、将内容保存至内容管理服务器；

S3、将内容管理服务器中的内容传递至多模态大模型服务器；

S4、通过多模态大模型服务器中的多模态大模型对内容进行处理，并保存至内容管理服务器；处理包括为内容生成向量数据，并生成摘要、插图、深度注释，以及对应的语义特征标签集；还包括对用户针对内容的反馈和评论生成向量数据，以及对应的语义特征标签集；

S5、接收用户输入的内容请求指令，发送至多模态大模型服务器；

S6、多模态大模型服务器根据指令，生成用户内容请求的特征，交由内容管理服务器存储，与内容服务器上存储的内容语义特征集做匹配分析，获得应该发送的目标内容；判断目标内容是否需要经由多模态大模型处理，如果不需要，转跳至步骤S7，如果需要，转跳至步骤S9；

S7、内容服务器要求内容分发服务器发送内容；

S8、内容服务器发送内容至用户对话界面；

S9、内容服务器发送内容到多模态大模型；

S10、多模态大模型根据用户对话界面获取的用户对话的历史内容以及内容服务器发送的内容，生成此轮的对话回答，并发送至用户对话界面。

进一步，所述步骤S1中，获取的内容包括提供内容的用户在内容录入界面手工输入的内容，输入服务器的爬虫所抓取的内容，或者从外部的内容分发服务器所获取的内容。

进一步，所述步骤S1中，内容包括新闻、报道、论文和网文。

进一步，所述步骤S4具体包括：

S401、生成摘要；

S402、生成插图；

S403、生成词嵌入向量，并存储进预先创建的向量数据库；

S404、生成TF-IDF特征值；

S405、生成语义特征标签集；

S406、生成基本的深度注释；

S407、生成简报类批量内容，存储至内容管理服务器。

进一步，所述步骤S403中，对内容进行切割，分割成若干字的文本块，通过多模态大模型的语言模型为每一文本块生成词嵌入向量，存储进向量数据库；

步骤S404中，采用TF-IDF算法，在预先构建的语料库基础上，生成关键词TF-IDF值，生成基于TF-IDF词频的摘要，生成基于TF-IDF词频的内容向量。

进一步，所述步骤S406中，深度注释包括对内容中的段落、词句所构成的知识点，做背景介绍、名词解释和深度挖掘处理。

进一步，所述步骤S5中，内容请求指令包括自由文本对话的指令和结构化的指令；

当内容请求指令为自由文本对话的指令时，多模态大模型对其进行语义理解，并基于语义理解的特征做执行；

内容服务器存储内容请求指令。

进一步，所述步骤S6中，对于自由文本对话的指令，多模态大模型从中理解用户意图，对用户所需要的内容指令做特征的提取，特征的提取包括多模态大模型的词嵌入算法，TF-IDF算法或者标签生成算法所生成的标签集，所生成的结果交由内容管理服务器存储。

本发明的目的之二在于，提供一种基于多模态大模型的内容分发和交互系统，使用上述方法，包括：

内容输入和采集服务器，用于输入和采集内容；

多模态大模型服务器，预置有多模态大模型，用于运行多模态大模型，对内容进行分析和处理，与用户进行对话；

内容管理服务器，用于存储内容和用户的需求指令；

内容分发服务器，用于对外发送内容；

终端，包括用户对话界面，用于接收用户输入的内容或向用户展示内容。

本发明的有益效果：在多模态大模型的支持下，本方案能够为用户实现对话窗口式的内容分发和交互模式。可根据用户的自然语言对话请求，自动持续发送相关的内容，内容为新闻、报道、论文、网文等类的文本内容。内容提供服务的运营者，无需手工选择、标记和分发内容，而是依赖多模态大模型自动处理。内容分发更匹配用户的请求。内容的自动推荐和自动整理，完全基于中立的多模态大模型以及用户的要求，避免了算法操控的弊病。内容的阅读在对话交互方式下，可进行深入挖掘，改变了传统的简单阅读和交互方式。

附图说明

图1为实施例一种基于多模态大模型的内容分发和交互方法的流程示意图；

图2为实施例的方法中步骤S2获取内容的流程示意图；

图3为实施例的方法中步骤S4内容的处理的流程示意图；

图4为实施例的方法中步骤S8两种新闻简报呈现方式的示意图；

图5为实施例的方法中步骤S8新闻内容的呈现和交互方式示意图；

图6为实施例的方法中用户交互与内容推送的示意图。

具体实施方式

下面通过具体实施方式进一步详细说明：

实施例

本实施例还提供一种基于多模态大模型的内容分发和交互方法，如图1所示，包括以下内容：

S1.接收用户输入的内容(即提供内容的用户在内容录入界面手工输入的内容)，或者通过爬虫抓取内容，或者从外部的内容分发服务器获取内容，也就是从另一系统的内容分发服务器获取内容；

内容包括新闻、报道、论文和网文等类的文本内容，在本实施例中，内容为不同种类的行业新闻。新闻采集可通过终端的用户对话界面输入，输入包括标题、作者、时间、标签、正文等部分。也可以通过内容采集和输入服务器的爬虫在互联网上抓取。

在本实施例中，还采用了通过各个多模态大模型的内容分发和交互系统之间接口获取内容的方式。如图2所示，除了通过传统技术手段录入和抓取内容之外，多模态大模型的内容分发和交互系统A与多模态大模型的内容分发和交互系统B之间互相调用内容。

S2.将采集的内容保存至内容管理服务器；

例如，在互联网上抓取的内容，通过API写入内容管理服务器。

在本实施例中，内容管理服务器包括一系列服务：对新闻内容的存储，采用Solr存储和检索文本文件；采用mysql存储新闻的格式化数据，例如标题、作者、时间等；采用Langchain向量数据库存储经过多模态大模型分析或者其他算法所生成的词嵌入向量；存储每个用户的新闻请求指令。

S3.将内容传递至多模态大模型服务器；

本实施例的多模态大模型服务器中预置的多模态大模型，可以是OpenAI的chatGPT，通过API调用；也可以是自有的大模型，运行在自有的服务器上，例如采用LLAMA进行微调所获得的私有大模型。为达到内容处理和对话的要求，大模型的参数应为百亿级。

S4.通过多模态大模型服务器中的多模态大模型对内容进行处理，并保存至内容管理服务器；处理包括为内容生成向量数据，并生成摘要、插图、深度注释，以及对应的语义特征标签集；还包括对用户针对内容的反馈和评论生成向量数据，以及对应的语义特征标签集。

其中摘要是内容的概述，用于推送到用户对话界面时显示在封面，摘要的长度可根据需求对多模态大模型下达指令。插图则由多模态大模型的图生成功能，基于摘要中提取的关键词生成。深度注释，是对内容中需要注释和进一步探索的部分做内容的提前生成。例如可对人名、地名、术语进行解释，还例如，对新闻中出现的经济数据、生产数据，做深度解释，告知用户这些数据代表什么。本步骤所要生成的内容，可以根据系统运营者的需求进一步设置，至此，完成内容的采集和AI分析步骤；

在本实施例中，多模态大模型对内容的处理的步骤如图3所示，具体包括：

S401.生成摘要。设置生成摘要的主要参数为：

“prompt”:“请为文章生成摘要”,

“temperature”:0.5,

“max_tokens”:200,

“frequency_penalty”:0.5,

“presence_penalty”:0.0

S402.生成插图。调用多模态大模型的图生成模型，用S401步骤生成的摘要作为Prompt，生成插图。

S403.生成词嵌入向量。采用多模态大模型提供的词嵌入功能。首先对内容进行切割，按照句号作为分割依据，分割成小的文本块，如果一句超过1000字，则再次寻找中间的逗号分割。然后通过多模态大模型的语言模型为每一文本块生成词嵌入向量，存储进预先创建的向量数据库。

具体的，调用Openai的embeddingAPI，使用模型为“text-embedding-ada-002”，为所有的文字内容生成词嵌入向量，并存储进入向量数据库。本实施例中使用的向量数据库为faiss。

S404.生成TF-IDF特征值。采用TF-IDF算法，在预先构建的语料库基础上，生成关键词TF-IDF值，生成基于TF-IDF词频的摘要，生成基于TF-IDF词频的内容向量。

针对新闻的内容查询匹配上，TF-IDF算法在关键词匹配、文章语义匹配、摘要匹配上，在一些场景中效果更好。在本实施例中，综合采用两种向量匹配。

S405.生成语义特征标签集。语义特征标签集是基于对内容的理解，所做的内容分类标签。可预先设置多种标签，供多模态大模型使用，也可由多模态大模型自由生成标签。其目的是便于之后为根据用户的内容请求指令筛选内容。例如一篇科技新闻的语义特征标签集为：

[新闻，科技，AI，计算机，人工智能，大模型，语言模型，Openai，chatGPT，chatGPT3.5，Sam altman，AI新产品发布，2023年3月1日，重大新闻，…]

本实施例调用Openai的API，使用模型为“GPT-3.5”，为每篇新闻生成语义特征标签集。在传统的深度学习模型中，这是文本多分类任务和实体识别任务。这两类任务都可由多模态大模型生成。

在本实施例中，新闻分类的类别，指定的种类有：

政治、科技、财经、军事、体育、娱乐、学术、健康、自然、历史、文化、社会；

在本实施例中，需要分析的分类还有：新闻国别、新闻重大程度、新闻长短、新闻文笔；

在本实施例中，生成的标签种类包括：地名、人名、日期、时间、组织名、货币金额、品牌、术语等。

用Openai的embeddingAPI为所有标签生成词嵌入向量，存储进入向量数据库。

S406.生成基本的深度注释。深度注释是对内容中的段落、词句所构成的知识点，做必要的背景介绍、名词解释、深度挖掘等处理。这些深度注释，可帮助用户更好理解新闻。

在本实施例中，针对新闻所生成的标签集进行解释，例如解释地名、解释人名等，对于术语和数字的解释，包括对术语和数字的深入挖掘，例如一个经济指标意味着什么。

在本实施例中，设置一种特殊的深度注释，即新闻背景介绍，由chatGPT回答这样一个问题：为何此新闻具有报道价值，为何此新闻具有如此重大的意义。

S407.生成简报类批量内容，存储在内容管理服务器，以备统一调用。

在本实施例中，设置了大量的简报类批量内容，例如，为用户生成每天的科技新闻简报，或者为用户生成每天的财经新闻简报。此类任务，可随着新闻的获取进入到内容管理服务器，由多模态大模型滚动实时更新简报，并根据用户所要求的时间，发送至终端处。

S5.接收用户在用户对话界面输入的内容请求指令，发送至多模态大模型服务器；内容服务器存储内容请求指令；

用户所发内容请求指令，可以是对多模态模型下达内容分发方式的设置，也可以是对某篇内容的请求；

在本实施例中，用户可在用户对话界面输入内容请求指令，内容请求指令有两种格式，一种为自由文本对话的指令，另一种为结构化的指令。

对于自由的文本对话，多模态大模型要对其进行语义理解，并基于语义理解进行执行，其语义中可能含有较为复杂的逻辑，需要进行格式化分析并存储。内容请求指令的覆盖时间和范围，也由多模态大模型理解。例如，用户的文本对话可能是：请为我发送今天关于AI方面的新闻简报。这此条文本对话仅作一次性执行。用户的文本对话还可能是：请今后每日为我发送AI方面的新闻简报。则此条文本对话需要存储，并成为用户的内容请求规则。还可能是：请之后不要再发AI方面的新闻。则需要理解此条文本对话中的规则是否定的。

在本实施例中，结构化的指令采用斜杠作为命令解析符。在斜杠后输入可执行的命令。其基本格式为：

/command[r][expression7]

其中，r为Request命令的自定义参数，例如NOW，DAILY等。

一个示例是/request Now人工智能大模型的新闻

S6.多模态大模型服务器根据内容请求指令，生成用户内容请求的特征，并与内容服务器上存储的语义特征标签集做匹配分析，获得应该发送的目标内容；判断目标内容是否需要经由多模态大模型处理，如果不需要，转跳至步骤S7，如果需要，转跳至步骤S9。

对于自由文本对话的指令，多模态大模型从中理解用户意图，对用户所需要的内容做特征提取，这种提取可以是多模态大模型的词嵌入(embedding)算法，TF-IDF算法，也可以是标签生成算法所生成的标签集，所生成的结果交由内容管理服务器存储。对应的，与内容服务器上为内容预先生成的特征集做匹配比较。在其他实施例中，还可以做全文的词向量向量匹配检索。

在本实施例中，结合了关键词特征、TF-IDF算法特征、大模型的Embedding句向量三种特征匹配方法。

用户的内容请求指令和基于多模态大模型服务器所计算出的特征值，都交由内容服务器存储，即每位用户在内容服务器上都存储了相应的内容请求指令和这些指令的特征值，供匹配内容使用。

S7.内容管理服务器要求内容分发服务器发送内容；

在本实施例中，内容分发服务器的设计是为了降低内容管理服务器的压力。在用户压力不大的系统中，也可以合并两个服务器，由内容管理服务器实现内容分发服务器的功能。

S8.内容分发服务器发送内容到终端的用户对话界面，供用户阅读；

如果用户申请的是固定格式的新闻，则直接发送内容到用户对话界面，供用户阅读。

在本实施例中，发送的内容包括四种类型：

第一类，是简报类，即针对用户的内容需求，多模态大模型整理出的新闻简报。如图4所示，简报可以用两种方式呈现，一种是仅仅显示标题，另一种显示标题和摘要。

第二类，是单条新闻简报类，即针对用户的内容需求，多模态大模型发送一条新闻的简报，这种发送可以是持续的，随着新的新闻进入内容管理服务器，多模态大模型便随时发送至用户。单条新闻显示标题、摘要、示意图等信息。

第三类，是单条新闻全文类，即针对用户的内容申请，多模态大模型发送新闻全文至用户对话界面。此时，为了支持用户的深度阅读，发送至用户对话界面的，还有多模态大模型为新闻所生成的所有支持内容，例如背景介绍、数字解析、名词解释等，这些内容可随着用户的阅读，随时呈现在单独的显示框中。

本实施例中的用户对话界面是一种多框对话界面，包括用户与多模态大模型的对话主界面，以及用于显示注释释义的辅助窗口，辅助窗口可以有多个。

具体的显示格局如图5所示，该用户对话界面的元素解释如下：

内容浏览主窗口，可以是浏览器打开的页面，也可以是移动App的主页，包括：

模型对话窗口，多模态大模型与用户的对话在此显示。多模态大模型推送的新闻简报、新闻也在此自动滚动播出。例如一条内容的摘要显示，通常模型发送一条新闻，是以摘要形式显示，只显示插图图标和主题摘要。这一条记录，是带有超链接的，可以点击跳转至新闻详细页，详细页显示在图5右侧的界面中。

用户输入指令窗口。即用户在此可以录入对多模态大模型的对话。

具体内容的显示窗口，即新闻详细页，由摘要点击后跳转至此，包括：

具体内容的显示主窗口。新闻的内容在此窗口显示。

内容的注释和讲解窗口。关于内容的注释和讲解，例如对新闻中一个名词的名词解释，对新闻的背景介绍，对一个数字的综合判断，对一个人的百科信息检索，都在此辅助窗口展示。而且，这个窗口也是与用户的对话窗口。当用户在下方的用户指令输入窗口输入一句对话，多模态大模型在此辅助窗口做出回答。主窗口，不对用户的问题做出反应，静态显示新闻内容。

具体内容的显示窗口关闭，则退回至内容浏览主窗口。

第四类、是对话类，即用户针对某条新闻，与多模态大模型展开讨论。例如，用户在阅读了一篇“关于大模型训练所用算力巨大的新闻”，与多模态大模型探讨算力显卡的价格问题。这种内容，是一般的对话格式。

S9.内容服务器发送内容至多模态大模型服务器；

如果内容服务器的新闻无需加工，可直接传递至用户对话界面。如果需要加工，则由多模态大模型服务器中的多模态大模型处理后，发送至用户对话界面。

在本实施例中，多数情况，都需要经由多模态大模型处理。例如S8步骤中，第一类、第二类、第四类，都是由多模态大模型组织语言后发送到用户对话界面。只有第三类，是多模态大模型预先处理好的内容，直接发送即可。

S10.多模态大模型根据用户对话界面获取的用户对话的历史内容以及内容服务器发送的内容，生成此轮的对话回答，并发送至用户对话界面。例如，多模态大模型根据用户的内容请求指令，从内容服务器匹配所获得的内容，结合起来后，生成合适的回答，发送至用户对话界面。

在本实施例中，用户反馈和评论也是新闻分发和交互的重要环节。如图6所示，当用户对新闻作出评论后，评论内容发送至内容管理服务器，再由多模态大模型获取，对其进行语义理解，并生成各种特征数据集。之后的分发和传播中，用户的评论数据也将作为一个维度。但为了分发和传播机制免于恶意的操控，仅对同意的用户，评论数据才会被多模态大模型分析。即某些读者如果设置，接受评价语义的标签，则其接受的内容，收到评价的影响；读者不设置，则其接受的内容不受评价的影响。

在本实施例中，在用户同意实名情况下，A读者可以设置，优先接受B读者正面评价的内容，或者优先接受B读者负面评价的内容。

在本实施例中，在用户同意实名情况下，A读者可以评价“发送此文章至B读者”，在B读者设置接受“评价影响分发”的前提下，B读者可以收到A读者评价的这条内容。

在这种机制下，可实现传统纸质流程下的“抄送”、“圈阅”、“送阅”等功能，以及互联网内容和社交应用的“关注”、“好友圈”等功能，不同的是，在本实施例中，是多模态大模型对用户的自然语言评论理解后，自动做出的操作。

所以，用户评论作为一个维度，可以动态影响新闻的发送和传播。如果用户不想收到评论的影响，则可以设置不接受“评价影响分发”。

基于上述方法，本实施例还提供一种基于多模态大模型的内容分发和交互系统，包括：

内容输入和采集服务器，用于输入和采集内容；

多模态大模型服务器，预置有多模态大模型，用于运行多模态大模型，对内容进行分析和处理，与用户进行对话；

内容管理服务器，用于存储内容和内容相关的数据，以及用户的内容请求指令；

内容分发服务器，用于对外发送内容；

终端，包括用户对话界面，用于接收用户输入的内容和向用户展示内容；终端包括PC、智能手机、平板电脑等；例如用户对话界面运行在PC的浏览器上，或者智能手机的App上。

本实施例的方案，采用人工智能的多模态大模型对新闻之类的内容进行特征分析，为新闻建立丰富的语义特征，以备分发之用。用户通过对话的形式，告知多模态大模型对新闻的申请要求，多模态大模型基于对用户请求的语义理解，从新闻库中匹配到合适的内容。多模态大模型针对匹配到的内容进行整理、提取、摘要、深化挖掘等处理，提供给用户。这种基于多模态大模型的内容分发和交互方式，完全依赖可靠的多模态大模型算法，不同于传统的分发算法存在被操控的可能，第一次把自动筛选内容的权力交给了用户。同时，由于多模态大模型的处理能力，可以对新闻预先进行处理，为新闻提供背景知识、名词解释、深度分析等内容，还可以在用户阅读新闻的同时，随时解答用户的各种问题，这在以往的技术条件下，是无法自动完成的。在本方案下，人工智能成为人的新闻采编助手，为每个人提供针对性的新闻简报、新闻，以及针对新闻的深度解读。这是一种革命性的内容分发和传播方法。

以上的仅是本发明的实施例，该发明不限于此实施案例涉及的领域，方案中公知的具体结构及特性等常识在此未作过多描述，所属领域普通技术人员知晓申请日或者优先权日之前发明所属技术领域所有的普通技术知识，能够获知该领域中所有的现有技术，并且具有应用该日期之前常规实验手段的能力，所属领域普通技术人员可以在本申请给出的启示下，结合自身能力完善并实施本方案，一些典型的公知结构或者公知方法不应当成为所属领域普通技术人员实施本申请的障碍。应当指出，对于本领域的技术人员来说，在不脱离本发明结构的前提下，还可以作出若干变形和改进，这些也应该视为本发明的保护范围，这些都不会影响本发明实施的效果和专利的实用性。本申请要求的保护范围应当以其权利要求的内容为准，说明书中的具体实施方式等记载可以用于解释权利要求的内容。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：无知(北京)智慧科技有限公司;

上一篇：基于附加螺旋相位干涉的激光阵列相位控制方法及系统
下一篇：一种无线充电系统