AI虚拟主播的控制方法及系统

文献发布时间：2024-04-18 19:58:30

技术领域

本发明涉及计算机技术领域，具体涉及一种AI虚拟主播的控制方法、系统、电子设备及存储介质。

背景技术

当前AI虚拟主播需求旺盛，虚拟主播不但可以根据主播方需求介绍商品，实现带货，还能实时与观众互动，回答观众问题。但是，目前众多AI主播产品都存在一定局限性，例如：当前市面上的AI主播产品获得观众留言的方法是先破解直播平台的API，再通过自己模拟的websocket接口请求获得观众留言；但是，抖音微信等各大直播平台并未开放获取观众留言的接口，所以当前市面上的AI主播产品存在一定法律和运营风险。

亟需一种合法控制AI虚拟主播的方法。

发明内容

本发明实施例的目的在于提供一种AI虚拟主播的控制方法、系统、电子设备及存储介质，用以解决现有技术中控制AI虚拟主播的方法存在一定法律和运营风险的问题。

为实现上述目的，本发明实施例提供一种AI虚拟主播的控制方法，所述方法具体包括：

基于预设时间间隔对观众留言区进行内容截取得到留言截图；

通过OCR技术识别所述留言截图，得到观众留言文本；

对所述观众留言文本进行预处理得到预处理数据；

将所述预处理数据输入大语言模型进行分析，得到分析结果；

基于所述分析结果控制所述虚拟人模拟器。

在上述技术方案的基础上，本发明还可以做如下改进：

进一步地，所述对所述观众留言文本进行预处理得到预处理数据，包括：

对所述观众留言文本进行过滤和去重；

将经过过滤和去重的观众留言文本进行文本分割，得到多个独立的句子；

对分割后的所述句子进行排序，得到文本的上下文；

基于所述上下文进行句子合并。

进一步地，述将经过文本过滤和文本去重的观众留言文本进行文本分割，包括：

基于标点符合将所述观众留言文本分割成独立的句子。

进一步地，所述基于所述上下文进行句子合并，包括：

将相关的句子组合在一起形成一个完整的段落。

进一步地，所述基于上下文进行句子合并，将相关句子组合在一起形成一个完整的段落，包括：

获取每个直播平台的文字规则，基于所述文字规则对观众留言文本进行分类。

进一步地，所述将所述预处理数据输入大语言模型进行分析，得到分析结果，包括：

基于所述预处理数据构建训练集；

将所述训练集输入所述大语言模型进行训练，得到训练好的大语言模型；

将待分析的观众留言文本进行预处理后输入训练好的大语言模型，得到分析结果。

进一步地，所述将所述训练集输入所述大语言模型进行训练，得到训练好的大语言模型，包括：

将所述预处理数据划分为训练集、验证集和测试集；

基于所述训练集训练所述大语言模型；

基于所述验证集对训练后的所述大语言模型进行性能评估，得到满足性能条件的大语言模型；

基于所述测试集评估满足性能条件的所述大语言模型的分析结果，得到所述大语言模型所对应的评价指数。

一种AI虚拟主播的控制系统，包括：

虚拟人模拟器，通过websocket与AI服务器通讯；

AI服务器，用于基于预设时间间隔对观众留言区进行内容截取得到留言截图；

通过OCR技术识别所述留言截图，得到观众留言文本；

对所述观众留言文本进行预处理得到预处理数据；将所述预处理数据输入大语言模型进行分析，得到分析结果；

基于所述分析结果控制所述虚拟人模拟器。

一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如所述方法的步骤。

一种非暂态计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现所述方法的步骤。

本发明实施例具有如下优点：

本发明中A I虚拟主播的控制方法，基于预设时间间隔对观众留言区进行内容截取得到留言截图；通过OCR技术识别所述留言截图，得到观众留言文本；对所述观众留言文本进行预处理得到预处理数据；将所述预处理数据输入大语言模型进行分析，得到分析结果；基于所述分析结果控制所述虚拟人模拟器，解决了现有技术中控制AI虚拟主播的方法存在一定法律和运营风险的问题。

附图说明

为了更清楚地说明本发明的实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是示例性的，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图引申获得其它的实施附图。

本说明书所绘示的结构、比例、大小等，均仅用以配合说明书所揭示的内容，以供熟悉此技术的人士了解与阅读，并非用以限定本发明可实施的限定条件，故不具技术上的实质意义，任何结构的修饰、比例关系的改变或大小的调整，在不影响本发明所能产生的功效及所能达成的目的下，均应仍落在本发明所揭示的技术内容能涵盖的范围内。

图1为本发明A I虚拟主播的控制方法的流程图；

图2为本发明A I虚拟主播的控制系统的架构图；

图3为本发明提供的电子设备实体结构示意图。

其中附图标记为：

A I服务器10，虚拟人模拟器20，电子设备30，处理器301，存储器302，总线303。

具体实施方式

以下由特定的具体实施例说明本发明的实施方式，熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例

图1为本发明AI虚拟主播的控制方法实施例流程图，如图1所示，本发明实施例提供的一种AI虚拟主播的控制方法包括以下步骤：

S101，基于预设时间间隔对观众留言区进行内容截取得到留言截图；

具体的，程序启动后生成一个监视窗口，根据预设时间间隔去截取观众留言区的内容，这个流程和人眼看屏幕留言是一样的，优选的，预设时间间隔为5秒。

S102，通过OCR技术识别留言截图，得到观众留言文本；

具体的，光学字符识别(Optical Character Recognition,OCR)是指对文本资料的图像文件进行分析识别处理，获取文字及版面信息的过程。亦即将图像中的文字进行识别，并以文本的形式返回。

S103，对观众留言文本进行预处理得到预处理数据；

具体的，OCR技术只具有图形中文字识别的功能，但OCR不懂文字的逻辑，所以OCR通常返回它识别到的所有文字，但它无法根据文字的上下文进行分类，无法区分哪些文字属于用户A，哪些文字属于用户B。也无法很好的识别动画表情，特殊符号等。如果直接丢给大语言模型去处理，大语言模型通常是无法很好理解这些文字的。

因此指定一套程序去处理识别出来的文字，作为输入大语言模型的预处理程序。以下是程序的处理：

对所述观众留言文本进行过滤和去重；每个直播平台有一些特殊功能，比如可以发送一些emo表情等，这些东西会被ocr识别成特殊字符，第一步是去除这些无意义的字词。

将经过过滤和去重的观众留言文本进行文本分割，得到多个独立的句子；基于标点符合将所述观众留言文本分割成独立的句子；根据标点符号(如句号、逗号、分号，以及一些针对各直播平台的正则表达式)将文本分割成独立的句子。通常情况下，一个完整的段落由多个句子组成。

对分割后的所述句子进行排序，得到文本的上下文；

基于所述上下文进行句子合并，将相关的句子组合在一起形成一个完整的段落，获取每个直播平台的文字规则，基于所述文字规则对观众留言文本进行分类。这里结合每个直播平台用户互动窗口的一些规则去特殊处理，把文字先分类，包括进入直播间，离开直播间，送礼物，留言等一些规则去分类。分类结束后，再根据直播平台互动窗口规则，去做句子的归属。比如有的平台规则简单，可以直接通过分割符号”：”就可以判定是留言，并且前半部分属于用户名，后半部分属于发言内容。如果识别到”***礼物X”就能把这段文字归类为收礼。我们对每个平台的文字规则统计后，做成了配置文件，然后我们的ocr就能很好理解每个直播平台的文字内容。

S104，将预处理数据输入大语言模型进行分析，得到分析结果。

具体的，基于所述预处理数据构建训练集；

将所述训练集输入所述大语言模型进行训练，得到训练好的大语言模型；

将待分析的观众留言文本进行预处理后输入训练好的大语言模型，得到分析结果。

将所述预处理数据划分为训练集、验证集和测试集；

基于所述训练集训练所述大语言模型；

基于所述验证集对训练后的所述大语言模型进行性能评估，得到满足性能条件的大语言模型；

基于所述测试集评估满足性能条件的所述大语言模型的分析结果，得到所述大语言模型所对应的评价指数。

基于所述验证集对训练好的所述大语言模型进行性能评估，得到满足性能条件的大语言模型；基于所述测试集评估满足性能条件的所述大语言模型的分析结果，得到所述大语言模型所对应的评价指数。对大语言模型进行性能评估，得到是百分制分数(即最高分为100分，最低分为0分)，基于百分制分数确定打分大于设定数值的大语言模型，例如，打分大于90分的大语言模型为满足性能条件的大语言模型；

满足性能条件的大语言模型进行评价指数计算，得到大语言模型的评价指数，计算获得每个评价指数对应的评价值，所述评价值用于表示所述大语言模型在所述评价指数上的能力值。

S105，基于分析结果控制虚拟人模拟器；

具体的，虚拟人模拟器20，主要生成一个虚拟人窗口，作为直播推送窗口，这个程序通过websocket与AI服务器10通讯。所以AI服务器10可以根据用户留言，去回答，去控制虚拟人模拟器20播放动作，表情等变化。

该AI虚拟主播的控制方法，基于预设时间间隔对观众留言区进行内容截取得到留言截图；通过OCR技术识别所述留言截图，得到观众留言文本；对所述观众留言文本进行预处理得到预处理数据；将所述预处理数据输入大语言模型进行分析，得到分析结果；基于所述分析结果控制所述虚拟人模拟器20。解决了现有技术中控制AI虚拟主播的方法存在一定法律和运营风险的问题。

该AI虚拟主播的控制方法分为两个软件入口，AI服务器10入口和虚拟人模拟器20入口。AI服务器10的主要功能包括文字识别，大语言模型回答，语音生成等一切AI相关的服务，然后把分析结果发送到虚拟人模拟器20，让模拟器中的虚拟人，执行讲话，动作等一些列表现。

图2为本发明AI虚拟主播的控制系统实施例架构图；如图2所示，本发明实施例提供的一种AI虚拟主播的控制系统，包括以下步骤：

虚拟人模拟器20，通过websocket与AI服务器10通讯；

AI服务器10，用于基于预设时间间隔对观众留言区进行内容截取得到留言截图；

通过OCR技术识别所述留言截图，得到观众留言文本；

对所述观众留言文本进行预处理得到预处理数据；

其中，预处理包括：

对所述观众留言文本进行过滤和去重；

将经过过滤和去重的观众留言文本进行文本分割，得到多个独立的句子，基于标点符合将所述观众留言文本分割成独立的句子；

对分割后的所述句子进行排序，得到文本的上下文；

基于所述上下文进行句子合并，将相关的句子组合在一起形成一个完整的段落，获取每个直播平台的文字规则，基于所述文字规则对观众留言文本进行分类。

将所述预处理数据输入大语言模型进行分析，得到分析结果；

基于所述预处理数据构建训练集；

将所述训练集输入所述大语言模型进行训练，得到训练好的大语言模型；

将待分析的观众留言文本进行预处理后输入训练好的大语言模型，得到分析结果；

将所述预处理数据划分为训练集、验证集和测试集；

基于所述训练集训练所述大语言模型；

基于所述验证集对训练后的所述大语言模型进行性能评估，得到满足性能条件的大语言模型；

基于所述测试集评估满足性能条件的所述大语言模型的分析结果，得到所述大语言模型所对应的评价指数。

基于所述分析结果控制所述虚拟人模拟器20。

本发明的一种AI虚拟主播的控制系统，通过A I服务器10基于预设时间间隔对观众留言区进行内容截取得到留言截图；通过OCR技术识别所述留言截图，得到观众留言文本；对所述观众留言文本进行预处理得到预处理数据；将所述预处理数据输入大语言模型进行分析，得到分析结果；基于所述分析结果控制所述虚拟人模拟器20。该A I虚拟主播的控制方法解决现有技术中控制AI虚拟主播的方法存在一定法律和运营风险的问题。

图3为本发明实施例提供的电子设备实体结构示意图，如图3所示，电子设备30包括：处理器301(processor)、存储器302(memory)和总线303；

其中，处理器301、存储器302通过总线303完成相互间的通信；

处理器301用于调用存储器302中的程序指令，以执行上述各方法实施例所提供的方法，例如包括：基于预设时间间隔对观众留言区进行内容截取得到留言截图；通过OCR技术识别所述留言截图，得到观众留言文本；对所述观众留言文本进行预处理得到预处理数据；将所述预处理数据输入大语言模型进行分析，得到分析结果；基于所述分析结果控制所述虚拟人模拟器20。

本实施例提供一种非暂态计算机可读存储介质，非暂态计算机可读存储介质存储计算机指令，计算机指令使计算机执行上述各方法实施例所提供的方法，例如包括：基于预设时间间隔对观众留言区进行内容截取得到留言截图；通过OCR技术识别所述留言截图，得到观众留言文本；对所述观众留言文本进行预处理得到预处理数据；将所述预处理数据输入大语言模型进行分析，得到分析结果；基于所述分析结果控制所述虚拟人模拟器20。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的存储介质。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各实施例或者实施例的某些部分的方法。

虽然，上文中已经用一般性说明及具体实施例对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：尘海互动科技(苏州)有限公司;

上一篇：一种基于数据定义的图像半自动命名方法
下一篇：凉味剂WS-23生产过程中液氮尾气余冷回收利用装置