视频处理方法、装置、设备以及存储介质

文献发布时间：2023-06-19 11:32:36

技术领域

本申请实施例涉及计算机领域，具体涉及自然语言处理、计算机视觉、深度学习等人工智能领域，尤其涉及视频处理方法、装置、设备以及存储介质。

背景技术

随着网络技术的发展，各种各样的视频应用层出不穷。为了增强视频观看者之间的互动，视频应用允许视频观看者添加评论，并在视频播放时从视频屏幕上飘过。由于大量评论从视频屏幕飘过时的效果看上去像是飞行设计游戏里的弹幕，因此这些评论又叫做弹幕。然而，视频观看者发表的弹幕通常是在其点击发表按钮之后，才会从视频屏幕上飘过。

发明内容

本申请实施例提出了一种视频处理方法、装置、设备以及存储介质。

第一方面，本申请实施例提出了一种视频处理方法，包括：获取目标视频和目标视频的目标评论；对目标视频中的图片进行识别，得到图片的文本信息；确定与文本信息的内容匹配的目标评论；在目标视频中的图片的显示时刻，以弹幕形式插入内容匹配的目标评论。

第二方面，本申请实施例提出了一种视频处理装置，包括：获取模块，被配置成获取目标视频和目标视频的目标评论；识别模块，被配置成对目标视频中的图片进行识别，得到图片的文本信息；确定模块，被配置成确定与文本信息的内容匹配的目标评论；插入模块，被配置成在目标视频中的图片的显示时刻，以弹幕形式插入内容匹配的目标评论。

第三方面，本申请实施例提出了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行如第一方面中任一实现方式描述的方法。

第四方面，本申请实施例提出了一种存储有计算机指令的非瞬时计算机可读存储介质，计算机指令用于使计算机执行如第一方面中任一实现方式描述的方法。

第五方面，本申请实施例提出了一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现如第一方面中任一实现方式描述的方法。

本申请实施例提供的视频处理方法、装置、设备以及存储介质，首先获取目标视频和目标视频的目标评论；之后对目标视频中的图片进行识别，得到图片的文本信息；然后确定与文本信息的内容匹配的目标评论；最后在目标视频中的图片的显示时刻，以弹幕形式插入内容匹配的目标评论。根据视频中的图片的显示时刻插入内容匹配的评论，使得播放视频时，针对特定内容的评论可以对准特定内容的图片进行显示，从而便于用户理解评论，进一步有助于视频观看者基于评论进行互动。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显。附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是本申请可以应用于其中的示例性系统架构图；

图2是根据本申请的视频处理方法的一个实施例的流程图；

图3是根据本申请的视频获取方法的一个实施例的流程图；

图4是根据本申请的评论获取方法的一个实施例的流程图；

图5是根据本申请的视频处理方法的又一个实施例的流程图；

图6是根据本申请的视频处理装置的一个实施例的结构示意图；

图7是用来实现本申请实施例的视频处理方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1示出了可以应用本申请的视频处理方法或视频处理装置的实施例的示例性系统架构100。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送视频帧等。终端设备101、102、103上可以安装有各种客户端应用，例如新闻类应用、网页浏览器应用、搜索类应用等等。

终端设备101、102、103可以是硬件，也可以是软件。当终端设备101、102、103为硬件时，可以是各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时，可以安装在上述电子设备中。其可以实现成多个软件或软件模块，也可以实现成单个软件或软件模块。在此不做具体限定。

服务器105可以提供各种服务。例如，服务器105可以对终端设备101、102、103上显示的视频进行分析和处理，并生成处理结果(例如在适当时刻插入弹幕的视频)。

需要说明的是，服务器105可以是硬件，也可以是软件。当服务器105为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。当服务器105为软件时，可以实现成多个软件或软件模块(例如用来提供分布式服务)，也可以实现成单个软件或软件模块。在此不做具体限定。

需要说明的是，本申请实施例所提供的视频处理方法一般由服务器105执行，相应地，视频处理装置一般设置于服务器105中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

继续参考图2，其示出了根据本申请的视频处理方法的一个实施例的流程200。该视频处理方法包括以下步骤：

步骤201，获取目标视频和目标视频的目标评论。

在本实施例中，视频处理方法的执行主体(例如图1所示的服务器105)可以获取目标视频和目标视频的目标评论。其中，目标视频可以是记录特定内容的视频。目标评论可以是用户对特定内容的评论。

在本实施例的一些可选的实现方式中，目标视频可以是视频应用提供的视频。目标评论可以是在视频应用上观看目标视频的用户发表的评论。通常，用户在视频应用上播放目标视频时，视频应用可以在特定位置提供评论输入框。用户可以在评论输入框输入评论进行发表。其中，为了避免评论输入框遮挡目标视频，评论输入框通常设置在目标视频的下方。在一些情况下，为了避免评论遮挡目标视频，用户发表的评论可以显示在目标视频的下方。在一些情况下，为了实现观看目标视频的用户之间的互动，用户发表的评论可以以弹幕的形式显示在目标视频上。

在本实施例的一些可选的实现方式中，目标视频可以是针对新闻事件的视频。目标评论可以是用户对新闻事件的评论。例如，目标视频可以是基于新闻事件的原始新闻合成的视频。目标评论可以是浏览原始新闻的用户发表的评论。通常，用户在新闻应用上浏览原始新闻时，新闻应用可以在特定位置提供评论输入框。用户可以在评论输入框输入评论进行发表。其中，为了避免评论输入框和评论遮挡原始新闻，评论输入框通常设置在原始新闻的下方。用户发表的评论通常显示在原始新闻的下方。其中，原始新闻可以是各种形式的针对新闻事件的电子数据。新闻事件可以是以文本、图像、音频和视频等任何形式记录的任何类型的原始事件素材，包括但不限于社会事件、财经事件、娱乐事件、科技事件、军事事件、虚构故事等等。原始新闻可以包括以下至少一项：文本、图像、音频和视频。例如，原始新闻可以是网页。网页中可以包括以下至少一项：文本、图像、音频和视频。此外，原始新闻还可以仅仅是文本、图像或者视频。

这里，目标评论可以是用户对特定内容的全部评论或部分评论。通常，为了使目标评论与目标视频的内容匹配，可以对用户对特定内容的评论进行过滤，仅保留与目标视频的内容匹配的评论，作为目标评论。例如，若目标视频是基于新闻事件的原始新闻合成的视频，可以获取原始新闻的原始评论，选取与目标视频的内容匹配的原始评论，作为目标评论。其中，原始评论可以是用户在新闻应用上浏览原始新闻时发表的评论。

在本实施例的一些可选的实现方式中，上述执行主体可以首先对原始评论进行词法分析，将原始评论分解成单词；然后以单词为锚点对原始评论进行分析，选取与目标视频的内容匹配的原始评论。其中，原始评论通常是中文评论。与英文评论不同，中文评论中的中文单词没有用空格分隔。为了提高分词准确度，可以使用LAC(Lexical Analysis ofChinese，中文词法分析)将原始评论分解成单词。其中，LAC是一个联合的词法分析模型，能够整体性地完成中文分词、词性标注、专名识别等NLP(Natural Language Processing，自然语言处理)任务。LAC基于一个堆叠的双向GRU(Gated Recurrent Unit，门控循环单元)结构，在长文本上准确复刻了AI(Artificial Intelligence，人工智能)开放平台上的词法分析算法。

步骤202，对目标视频中的图片进行识别，得到图片的文本信息。

在本实施例中，上述执行主体可以对目标视频中的每帧图片进行识别，得到图片的文本信息。其中，图片的文本信息可以用于描述图片中的内容。在一些情况下，图片上会存在文字，可以识别图片上的文字，作为图片的文本信息。在一些情况下，图片上会存在人脸，可以识别图片上的人脸，将人脸对应的人物的信息作为图片的文本信息。

步骤203，确定与文本信息的内容匹配的目标评论。

在本实施例中，上述执行主体可以确定与文本信息的内容匹配的目标评论。具体地，对于每条目标评论，可以将该条目标评论的内容与图片的文本信息的内容进行匹配，根据比对结果确定是否内容匹配。例如，将匹配度高于预设阈值的目标评论确定为与图片的文本信息的内容匹配的目标评论。又例如，将匹配度最高的目标评论确定为与文本信息的内容匹配的目标评论。

步骤204，在目标视频中的图片的显示时刻，以弹幕形式插入内容匹配的目标评论。

在本实施例中，上述执行主体可以在目标视频中的图片的显示时刻，以弹幕形式插入内容匹配的目标评论。

具体地，在播放目标视频时，若图片在某时刻显示，上述执行主体可以该时刻插入内容匹配的目标评论，使得内容匹配的评论可以对准内容匹配的图片进行显示。此外，内容匹配的目标评论可以以弹幕形式显示在目标视频上，可实现与观看目标视频的用户之间的互动。例如，对于电影和影评，在电影中的段落插入与其内容匹配的影评。这样，就可以根据影评在电影播放时在适当的段落播放与其内容匹配的影评对应的弹幕。

本申请实施例提供的视频处理方法，首先获取目标视频和目标视频的目标评论；之后对目标视频中的图片进行识别，得到图片的文本信息；然后确定与文本信息的内容匹配的目标评论；最后在目标视频中的图片的显示时刻，以弹幕形式插入内容匹配的目标评论。根据视频中的图片的显示时刻插入内容匹配的评论，使得播放视频时，针对特定内容的评论可以对准特定内容的图片进行显示，从而便于用户理解评论，进一步有助于视频观看者基于评论进行互动。

进一步参考图3，图3示出了根据本申请的视频获取方法的一个实施例的流程300。该视频获取方法包括以下步骤：

步骤301，获取原始新闻。

在本实施例中，视频获取方法的执行主体(例如图1所示的服务器105)可以获取原始新闻。其中，原始新闻可以是新闻应用提供的新闻。原始新闻可以是各种形式的针对新闻事件的电子数据。新闻事件可以是以文本、图像、音频和视频等任何形式记录的任何类型的原始事件素材，包括但不限于社会事件、财经事件、娱乐事件、科技事件、军事事件、虚构故事等等。原始新闻可以包括以下至少一项：文本、图像、音频和视频。例如，原始新闻可以是网页。网页中可以包括以下至少一项：文本、图像、音频和视频。此外，原始新闻还可以仅仅是文本、图像或者视频。

步骤302，搜索与原始新闻相关的原始视频。

在本实施例中，上述执行主体可以搜索与原始新闻相关的原始视频。其中，原始视频与原始新闻直接或间接相关。

在本实施例的一些可选的实现方式中，上述执行主体可以首先获取原始新闻的原始评论；然后基于原始新闻和/或原始评论的内容，搜索原始视频。通常，基于原始新闻的内容搜索的原始视频与原始新闻直接相关。基于原始评论的内容搜索的原始视频与原始新闻直接或间接相关。例如，原始新闻是关于A人物的新闻。基于关于A人物的新闻搜索到的原始视频可以是关于A人物的视频。关于A人物的视频与关于A人物的新闻直接相关。原始评论可以是关于A人物的评论，基于关于A人物的评论搜索到的原始视频可以是关于A人物的视频。关于A人物的视频与关于A人物的新闻直接相关。原始评论也可以是关于与A人物存在关联的B人物的评论，基于关于与A人物存在关联的B人物的评论搜索到的原始视频可以是关于B人物的视频。关于B人物的视频与关于A人物的新闻间接相关。

步骤303，对原始新闻进行提取摘要，得到原始新闻的解说词。

在本实施例中，上述执行主体可以对原始新闻进行提取摘要，将摘要提取所得到的摘要文本确定为原始新闻的解说词。其中，解说词可以包括原始新闻的主要内容，且符合人类讲话习惯，适合解说。

在本实施例的一些可选的实现方式中，上述执行主体可以首先确定原始新闻中所包括的文本；之后删除文本中所包括的不适合解说文本；然后将文本中所包括的书面语替换为相同语义的口语；最后对文本进行提取摘要，得到原始新闻的解说词。删除不适合解说文本，可以减少文本中的无效信息，继而可以增加最后所生成的解说词的有效信息内容比例。将文本中的书面语替换为口语，可以使得文本更适合解说使用，继而更适合生成符合人类讲话习惯的解说词。

步骤304，基于解说词生成视频语音，以及基于原始新闻和原始视频，生成与视频语音对应的视频画面。

在本实施例中，上述执行主体可以基于解说词生成视频语音，以及基于原始新闻和原始视频，生成与视频语音对应的视频画面。具体地，上述执行主体首先可以利用语音合成技术，生成与解说词对应的视频语音；之后将视频语音划分成每句话对应的语音；然后基于原始新闻和原始视频，生成与每句话对应的语音匹配的视频画面片段；最后按顺序拼接与每句话对应的语音匹配的视频画面片段，生成与视频语音对应的视频画面。其中，与一句话对应的语音匹配的视频画面片段可以是呈现了该句话，或者呈现了该句话中所涉及的事物。

步骤305，合成视频画面和视频语音，得到目标视频。

在本实施例中，上述执行主体可以合成视频画面和视频语音，得到目标视频。其中，与一句话对应的语音作为目标视频中与该句话对应的音频部分，与该句话对应的语音匹配的视频画面片段作为目标视频中与该句话对应的视频画面部分。

本申请实施例提供的视频获取方法，首先获取原始新闻和与其相关的原始视频；之后对原始新闻进行提取摘要，得到原始新闻的解说词；然后基于解说词生成视频语音，以及基于原始新闻和原始视频，生成与视频语音对应的视频画面；最后合成视频画面和视频语音，得到目标视频。将原始新闻转换为目标视频进行呈现，目标视频记录原始新闻的主要内容，用户通过观看目标视频即可快速了解原始新闻所针对的新闻事件，无需用户全文阅读原始新闻，提高了用户获取新闻事件信息的效率。

进一步参考图4，图4示出了根据本申请的评论获取方法的一个实施例的流程400。该评论获取方法包括以下步骤：

步骤401，获取原始新闻的原始评论。

在本实施例中，评论获取方法的执行主体(例如图1所示的服务器105)可以获取原始新闻的原始评论。其中，原始评论可以是用户在新闻应用上浏览原始新闻时发表的评论。

步骤402，对原始评论进行词法分析，将原始评论分解成单词。

在本实施例中，上述执行主体可以对原始评论进行词法分析，将原始评论分解成单词。其中，原始评论通常是中文评论。与英文评论不同，中文评论中的中文单词没有用空格分隔。为了提高分词准确度，可以使用LAC将原始评论分解成单词。其中，LAC是一个联合的词法分析模型，能够整体性地完成中文分词、词性标注、专名识别等NLP任务。LAC基于一个堆叠的双向GRU结构，在长文本上准确复刻了AI开放平台上的词法分析算法。

步骤403，以单词为锚点对原始评论进行句法分析，得到原始评论的关键词和句子结构。

在本实施例中，上述执行主体可以以单词为锚点对原始评论进行句法分析，得到原始评论的关键词和句子结构。

通常，以单词为锚点对原始评论进行句法分析时，可以对原始评论中的单词进行词性标注，从而得到原始评论的关键词和句子结构。其中，原始评论的关键词可以是特定词性的单词。原始评论的句子结构可以包括但不限于主谓关系、动宾关系、介宾关系、方位关系等等，是通过分析原始评论中的单词之间的依存关系来确定的。依存句法分析是自然语言处理核心技术之一，旨在通过分析句子中的单词之间的依存关系来确定句子的句法结构。依存句法分析作为底层技术，可直接用于提升其他NLP任务的效果。这些效果可以包括但不限于语义角色标注、语义匹配、事件抽取等。基于深度学习和大规模标注数据研发的依存句法分析工具可以用于对原始评论进行句法分析，可以帮助用户直接获取原始评论中的关联词对、长距离依赖词对等。

步骤404，基于关键词和句子结构，选取与目标视频的内容匹配的原始评论。

在本实施例中，上述执行主体可以基于关键词和句子结构，选取与目标视频的内容匹配的原始评论。其中，特定句子结构，且关键词出现在目标视频中的原始评论是与目标视频的内容匹配的原始评论。

这里，基于关键词选取，可以过滤掉与目标视频的内容不匹配的原始评论，使选取出的原始评论与目标视频的内容更加匹配。基于句子结构选取，可以考虑掉不适合作为弹幕的原始评论，使选取出的原始评论更适合以弹幕的形式在播放目标视频时呈现。例如，对于主谓关系的原始评论，其关键词包括A人物。若目标视频中也出现A人物，那么该原始评论不仅与目标视频的内容匹配，还适合作为弹幕呈现。又例如，对于方位关系的原始评论，其不适合作为弹幕呈现。

步骤405，以单词为锚点对原始评论进行情感分析，得到原始评论的情感信息。

在本实施例中，上述执行主体可以以单词为锚点对原始评论进行情感分析，得到原始评论的情感信息。其中，原始评论可以是用户在新闻应用上浏览原始新闻时发表的评论。情感信息可以表达发表原始评论的用户的态度。

通常，用户在浏览原始新闻时发表的原始评论通常带有其针对原始新闻的主观描述。情感倾向分析针对带有主观描述的中文文本，可自动判断该文本的情感极性类别并给出相应的置信度。常用的情感分析模型可以包括但不限于情感分析-LSTM(Long Short-Term Memory，长短期记忆网络)、情感分析-GRU和对话情绪识别等。其中，情感分析-LSTM基于一个LSTM结构实现情感倾向分析，情感类型分为积极、消极。情感分析-GRU基于一个GRU结构实现情感倾向分析，情感类型分为积极、消极。对话情绪识别专注于识别智能对话场景中用户的情绪，针对智能对话场景中的用户文本，自动判断该文本的情绪类别并给出相应的置信度，情绪类型分为积极、消极、中性。该模型基于TextCNN(多卷积核CNN模型)，能够更好地捕捉句子局部相关性。

步骤406，基于情感信息，选取与目标视频的内容匹配的原始评论。

在本实施例中，上述执行主体可以基于情感信息，选取与目标视频的内容匹配的原始评论。其中，与目标视频情感类型相同的原始评论是与目标视频的内容匹配的原始评论。

这里，基于情感信息选取，可以过滤掉与目标视频的情感不符的原始评论，使选取出的原始评论与目标视频的情感更加匹配。例如，对于悼念A人物去世的原始新闻，可以选取表达悲伤、惋惜等情感信息的原始评论。

本申请实施例提供的评论获取方法，首先对原始新闻的原始评论进行词法分析，将原始评论分解成单词；之后以单词为锚点对原始评论进行句法分析，得到原始评论的关键词和句子结构，并基于关键词和句子结构，选取与目标视频的内容匹配的原始评论；同时以单词为锚点对原始评论进行情感分析，得到原始评论的情感信息，并基于情感信息，选取与目标视频的内容匹配的原始评论。使得选取出的原始评论不仅与目标视频的内容匹配，还适合作为弹幕呈现。同时，选取出的原始评论还与目标视频的情感更加匹配。

进一步参考图5，图5示出了根据本申请的视频处理方法的又一个实施例的流程500。该视频处理方法包括以下步骤：

步骤501，获取目标视频和目标视频的目标评论。

在本实施例中，步骤501具体操作已在图2所示的实施例中步骤201进行了详细的介绍，在此不再赘述。

步骤502，对目标视频中的图片进行光学字符识别，得到图片中的文字信息。

在本实施例中，视频处理方法的执行主体(例如图1所示的服务器105)可以利用OCR(Optical Character Recognition，光学字符识别)技术对目标视频中的图片进行识别，得到图片中的文字信息。

通常，目标视频中的图片上会存在文字，利用OCR技术可以识别图片中的文字信息。OCR技术已广泛用于各种应用场景中。为了提升计算效率，可以使用PP-OCR。PP-OCR是一个实用的超轻型OCR，主要由DB文本检测、检测框矫正和CRNN文本识别三部分组成。PP-OCR从骨干网络选择和调整、预测头部的设计、数据增强、学习率变换策略、正则化参数选择、预训练模型使用以及模型自动裁剪量化8个方面，采用19个有效策略，对各个模块的模型进行效果调优和瘦身，最终得到整体大小为3.5M的超轻量中英文OCR和2.8M的英文数字OCR。

步骤503，对目标视频中的图片进行人脸检测，得到图片中的人物信息。

在本实施例中，上述执行主体可以对目标视频中的图片进行人脸检测，得到图片中的人物信息。

通常，目标视频中的图片上会存在人脸，可以识别图片上的人脸，将人脸对应的人物的信息作为图片的文本信息。尤其是对于存在名人的人脸的图片，可以引入更多的人物信息。

步骤504，将文本信息和目标评论输入至预先训练的得分计算模型，得到文本信息与目标评论的得分。

在本实施例中，上述执行主体可以将文本信息和目标评论输入至预先训练的得分计算模型，得到文本信息与目标评论的得分。其中，得分计算模型可以用于表征图片文本信息和评论，以及两者之间的得分的对应关系，能够快速地、准确地为目标视频中的图片选取匹配的目标评论。

在本实施例的一些可选的实现方式中，上述执行主体可以预先按照以下步骤训练得分计算模型：

首先，可以获取训练样本集。

这里，训练样本可以包括图片的文本信息和评论，以及图片的文本信息与评论的标注得分。例如，可以通过人工针对图片的文本信息与评论的匹配度标注得分。

之后，可以确定初始得分计算模型的模型结构以及初始化初始得分计算模型的模型参数。

可选地，初始得分计算模型可以包括卷积神经网络。由于卷积神经网络是一个多层的神经网络，每层由多个二维平面组成，而每个平面由多个独立神经元组成，则这里需要确定卷积神经网络类型的初始得分计算模型包括哪些层(例如，卷积层，池化层，激励函数层等等)，层与层之间的连接顺序关系，以及每个层都包括哪些参数(例如，权重weight、偏置bias、卷积的步长)等等。其中，卷积层可以用于提取特征。针对每个卷积层可以确定有多少个卷积核，每个卷积核的大小，每个卷积核中的各个神经元的权重，每个卷积核对应的偏置项，相邻两次卷积之间的步长，是否需要填充，填充多少像素点和填充用的数值(一般是填充为0)等等。而池化层可以用于对输入的信息进行下采样(Down Sample)，以压缩数据和参数的量，减少过拟合。针对每个池化层可以确定该池化层的池化方法(例如，取区域平均值或者取区域最大值)。激励函数层用于对输入的信息进行非线性计算。针对每个激励函数层可以确定具体的激励函数。例如，激活函数可以是ReLU以及ReLU各种变种激活函数、Sigmoid函数、Tanh(双曲正切)函数、Maxout函数等等。

然后，可以初始化初始得分计算模型的模型参数。实践中，可以将初始得分计算模型的各个模型参数用一些不同的小随机数进行初始化。“小随机数”用来保证模型不会因权重过大而进入饱和状态，从而导致训练失败，“不同”用来保证模型可以正常地学习。

接着，可以将训练样本集中的训练样本中的图片的文本信息和评论作为初始得分计算模型的输入，将训练样本中的标注得分作为初始得分计算模型的输出，利用机器学习方法训练初始得分计算模型。

具体地，可以首先将训练样本集中的训练样本中的图片的文本信息和评论输入初始得分计算模型，得到图片的文本信息与评论的得分。然后，可以计算所得到的得分与该训练样本中的标注得分之间的差异。最后，可以基于计算所得的差异，调整初始得分计算模型的模型参数，并在满足预设的训练结束条件的情况下，结束训练。例如，这里预设的训练结束条件可以包括以下至少一项：训练时间超过预设时长，训练次数超过预设次数，计算所得的差异小于预设差异阈值。

这里，可以采用各种实现方式基于所得到的得分与该训练样本中的标注得分之间的差异调整初始得分计算模型的模型参数。例如，可以采用随机梯度下降(SGD，StochasticGradient Descent)、牛顿法(Newton's Method)、拟牛顿法(Quasi-Newton Methods)、共轭梯度法(Conjugate Gradient)、启发式优化方法以及其他现在已知或者未来开发的各种优化算法。

最后，可以将训练得到的初始得分计算模型确定为预先训练的得分计算模型。

步骤505，基于文本信息与目标评论的得分，确定文本信息与目标评论是否内容匹配。

在本实施例中，上述执行主体可以基于文本信息与目标评论的得分，确定文本信息与目标评论是否内容匹配。例如，将得分高于预设阈值的目标评论确定为与图片的文本信息的内容匹配的目标评论。又例如，将得分最高的目标评论确定为与文本信息的内容匹配的目标评论。

步骤506，在目标视频中的图片的显示时刻，以弹幕形式插入内容匹配的目标评论。

在本实施例中，步骤506具体操作已在图2所示的实施例中步骤204进行了详细的介绍，在此不再赘述。

从图5中可以看出，与图2对应的实施例相比，本实施例中的视频处理方法突出了目标视频中的图片与目标评论匹配的步骤。由此，本实施例描述的方案从目标视频的图片和目标评论中获取足够的信息，利用得分计算模型确定目标评论应在目标视频中的显示时刻，并在该时刻以弹幕形式插入目标评论，使得播放视频时，针对特定内容的评论可以对准特定内容的图片进行显示，从而便于用户理解评论，进一步有助于视频观看者基于评论进行互动。

进一步参考图6，作为对上述各图所示方法的实现，本申请提供了一种视频处理装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图6所示，本实施例的视频处理装置600可以包括：获取模块601、识别模块602、确定模块603和插入模块604。其中，获取模块601，被配置成获取目标视频和目标视频的目标评论；识别模块602，被配置成对目标视频中的图片进行识别，得到图片的文本信息；确定模块603，被配置成确定与文本信息的内容匹配的目标评论；插入模块604，被配置成在目标视频中的图片的显示时刻，以弹幕形式插入内容匹配的目标评论。

在本实施例中，视频处理装置600中：获取模块601、识别模块602、确定模块603和插入模块604的具体处理及其所带来的技术效果可分别参考图2对应实施例中的步骤201-204的相关说明，在此不再赘述。

在本实施例的一些可选的实现方式中，获取模块601包括：第一获取子模块，被配置成获取原始新闻；搜索子模块，被配置成搜索与原始新闻相关的原始视频；提取子模块，被配置成对原始新闻进行提取摘要，得到原始新闻的解说词；生成子模块，被配置成基于解说词生成视频语音，以及基于原始新闻和原始视频，生成与视频语音对应的视频画面；合成子模块，被配置成合成视频画面和视频语音，得到目标视频。

在本实施例的一些可选的实现方式中，搜索子模块进一步被配置成：获取原始新闻的原始评论；基于原始新闻和/或原始评论的内容，搜索原始视频。

在本实施例的一些可选的实现方式中，获取模块601包括：第二获取子模块，被配置成获取原始新闻的原始评论；选取子模块，被配置成选取与目标视频的内容匹配的原始评论，作为目标评论。

在本实施例的一些可选的实现方式中，选取子模块包括：分解单元，被配置成对原始评论进行词法分析，将原始评论分解成单词；选取单元，被配置成以单词为锚点对原始评论进行分析，选取与目标视频的内容匹配的原始评论。

在本实施例的一些可选的实现方式中，选取单元进一步被配置成：以单词为锚点对原始评论进行句法分析，得到原始评论的关键词和句子结构；基于关键词和句子结构，选取与目标视频的内容匹配的原始评论。

在本实施例的一些可选的实现方式中，选取单元进一步被配置成：以单词为锚点对原始评论进行情感分析，得到原始评论的情感信息；基于情感信息，选取与目标视频的内容匹配的原始评论。

在本实施例的一些可选的实现方式中，识别模块602进一步被配置成：对目标视频中的图片进行光学字符识别，得到图片中的文字信息。

在本实施例的一些可选的实现方式中，识别模块602进一步被配置成：对目标视频中的图片进行人脸检测，得到图片中的人物信息。

在本实施例的一些可选的实现方式中，确定模块603进一步被配置成：将文本信息和目标评论输入至预先训练的得分计算模型，得到文本信息与目标评论的得分；基于文本信息与目标评论的得分，确定文本信息与目标评论是否内容匹配。

根据本申请的实施例，本申请还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图7示出了可以用来实施本公开的实施例的示例电子设备700的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图7所示，设备700包括计算单元701，其可以根据存储在只读存储器(ROM)702中的计算机程序或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序，来执行各种适当的动作和处理。在RAM 703中，还可存储设备700操作所需的各种程序和数据。计算单元701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

设备700中的多个部件连接至I/O接口705，包括：输入单元706，例如键盘、鼠标等；输出单元707，例如各种类型的显示器、扬声器等；存储单元708，例如磁盘、光盘等；以及通信单元709，例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理，例如视频处理方法。例如，在一些实施例中，视频处理方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元708。在一些实施例中，计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到RAM 703并由计算单元701执行时，可以执行上文描述的视频处理方法的一个或多个步骤。备选地，在其他实施例中，计算单元701可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行视频处理方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：卢大明;呼一辰;陈曦;田浩;李幸;
专利申请人：北京百度网讯科技有限公司;百度(美国)有限责任公司;

上一篇：基于垂直腔半导体激光器的宽带微波信号产生装置及方法
下一篇：一种基于权重不平衡有向网络的分布式平均跟踪方法