导航：首页> 燃烧发动机；热气或燃烧生成物的发动机装置>视频数据处理方法、装置、计算机设备及存储介质

视频数据处理方法、装置、计算机设备及存储介质

文献发布时间：2024-04-18 20:01:23

技术领域

本发明涉及金融科技技术领域，尤其涉及一种视频数据处理方法、装置、计算机设备及存储介质。

背景技术

在金融领域中，优秀的业务员或者金牌讲师可以作为金融博主，在短视频平台(如快手、抖音等等)上发布短视频，来为金融行业的从业者们提供帮助，同时为自己积攒人气。

由于金融业务形势的不断更新，以及用户的对于短视频的需求点不断变化，导致金融博主们发布的短视频无法迎合用户需求，例如，短视频中的金融专业知识的缺失，或者，短视频中知识的输出过于教条化，这就导致用户无法从短视频中获取到想要的知识点，或者，用户从短视频中理解知识点的难度较大。因此，需要从用户的角度对短视频进行改版或者优化，以提高短视频的内容推荐度。

然后，金融博主们在制作短视频时，就已经耗费了太多精力，金融博主们要想对原来的短视频进行再创造，就需要重新进行是市场调研和知识材料收集。因此，存在短视频更新效率较低的问题。

发明内容

本发明实施例提供一种视频数据处理方法、装置、计算机设备及存储介质，以解决短视频更新效率较低的问题。

一种视频数据处理方法，所述方法包括：

对原视频数据进行文本提取，得到所述原视频数据中的视频文本数据；并对所述原视频数据进行图像理解，得到图像理解结果；

将所述原视频数据的评论数据输入到舆情分析模型进行舆情分析，得到舆情分析结果；

将所述舆情分析结果和所述图像理解结果输入到文本调整模型，对所述视频文本数据进行调整，得到调整文本数据；

将所述调整文本数据和所述原视频数据输入到视频重构模型进行视频重构，得到目标视频数据。

上述方法，可选的，所述对原视频数据进行文本提取得到所述原视频数据中的视频文本数据，包括：

从原视频数据中分离出音频数据和视频帧数据；

对所述音频数据进行语音识别，得到音频文本；

对每帧所述视频帧分别进行文本信息提取，得到视频帧文本；所述音频文本和所述视频文本共同组成所述视频文本数据。

上述方法，可选的，所述对所述原视频数据进行图像理解，得到图像理解结果，包括：

针对所述视频帧数据中的每相邻两帧视频帧进行如下步骤：

对第一视频帧进行目标检测，得到所述第一视频帧中的至少一个第一目标物体及对应的第一物体信息；所述第一物体信息至少包括所述第一目标物体在第一视频帧中的位置、大小、类别以及唯一ID；

通过目标跟踪算法，基于所述第一目标物体及每个目标物体对应的物体信息，对第二视频帧进行目标追踪，得到所述第一目标物体在第二视频帧中的第一追踪信息；所述第二视频帧与所述第一视频帧为相邻两帧视频帧；

对所述第二视频帧进行目标检测，得到所述第二视频帧中的至少一个第二目标物体及对应的第二物体信息；

根据所述第二目标物体的第二物体信息，与所述第一目标物体的第一追踪信息进行对比匹配；

当所述第二目标物体与所述第一目标物体相同时，将所述第一目标物体的唯一ID赋予所述第二目标物品；

当所述第二目标物体与所述第一目标物体不同时，赋予所述第二目标物体新的唯一ID；

通过目标追踪算法，基于对比匹配后的所述第二视频帧中的至少一个第二目标物体及对应的第二物体信息，对第三视频帧进行目标追踪；所述第三视频帧与所述第二视频帧为相邻两帧视频帧；

其中，在完成所述视频帧数据中所有的每相邻两帧所述视频帧之间的目标追踪后，完成所述原视频数据的图像理解，得到所述图像理解结果。

上述方法，可选的，所述将所述原视频数据的评论数据输入到舆情分析模型进行舆情分析，得到舆情分析结果，包括：

通过所述舆情分析模型对所述评论数据中的每条评论文本分别进行无效数据预测，得到所述评论文本为无效数据的置信度；

判断所述置信度是否高于预设的置信度阈值；

如果所述置信度高于所述置信度阈值，确定所述评论文本为无效数据；

如果所述置信度低于所述置信度阈值，对所述评论文本进行舆情分析，得到所述舆情分析结果。

上述方法，可选的，所述舆情分析结果至少包括用户需求；

其中，所述将所述舆情分析结果和所述图像理解结果输入到文本调整模型，对所述视频文本数据进行调整，得到调整文本数据，包括：

将所述用户需求和所述图像理解结果输入到所述文本调整模型，以根据所述用户需求从需求知识库中匹配对应的需求文本；

根据所述图像理解结果和所述需求文本对所述视频文本数据进行调整，得到调整文本数据。

一种视频数据处理装置，包括：

视频数据处理单元，用于对原视频数据进行文本提取得到所述原视频数据中的视频文本数据；并对所述原视频数据进行图像理解，得到图像理解结果；

评论数据分析单元，用于将所述原视频数据的评论数据输入到舆情分析模型进行舆情分析，得到舆情分析结果；

视频文本调整单元，用于将所述舆情分析结果和所述图像理解结果输入到文本调整模型，对所述视频文本数据进行调整，得到调整文本数据；

视频数据重构单元，用于将所述调整文本数据和所述原视频数据输入到视频重构模型进行视频重构，得到目标视频数据。

上述装置，可选的，所述视频数据处理单元用于：

从原视频数据中分离出音频数据和视频帧数据；

对所述音频数据进行语音识别，得到音频文本；

对每帧所述视频帧分别进行文本信息提取，得到视频帧文本；所述音频文本和所述视频文本共同组成所述视频文本数据。

上述装置，可选的，所述视频数据处理单元用于：

针对所述视频帧数据中的每相邻两帧视频帧进行如下步骤：

对所述第二视频帧进行目标检测，得到所述第二视频帧中的至少一个第二目标物体及对应的第二物体信息；

根据所述第二目标物体的第二物体信息，与所述第一目标物体的第一追踪信息进行对比匹配；

当所述第二目标物体与所述第一目标物体相同时，将所述第一目标物体的唯一ID赋予所述第二目标物品；

当所述第二目标物体与所述第一目标物体不同时，赋予所述第二目标物体新的唯一ID；

其中，在完成所述视频帧数据中所有的每相邻两帧所述视频帧之间的目标追踪后，完成所述原视频数据的图像理解，得到所述图像理解结果。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述视频数据处理方法。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上述视频数据处理方法。

上述视频数据处理方法、装置、计算机设备及存储介质，通过原视频数据的图像理解结果和原视频评论数据的舆情分析结果，来对原视频数据的视频文本数据进行调整，得到调整文本数据，进而基于调整文本数据和原视频数据进行视频重构，得到目标视频数据。可见，本发明的技术方案无需人工参与，只需要根据原视频数据以及原视频数据的品论数据，即可对原视频数据进行视频重构，以生成新的视频数据，即目标视频数据，可以达到提高视频更新效率的目的。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例公开的一种视频数据处理方法的实现流程图；

图2是本发明一实施例公开的一种视频数据处理方法的部分实现流程图；

图3是本发明一实施例公开的一种视频数据处理方法的部分实现流程图；

图4是本发明一实施例公开的一种视频数据处理方法的部分实现流程图；

图5是本发明一实施例公开的一种视频数据处理方法的部分实现流程图；

图6是本发明一实施例公开的一种视频数据处理装置的结构示意图；

图7是本发明一实施例公开的一种计算机设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本发明说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其他特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本发明说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

另外，在本发明说明书和所附权利要求书的描述中，术语“第一”“第二”“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在本发明说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本发明的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”“在一些实施例中”“在其他一些实施例中”“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”“包含”“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

本发明公开了一种视频数据处理方法、装置、计算机设备及存储介质，通过原视频数据的图像理解结果和原视频评论数据的舆情分析结果，来对原视频数据的视频文本数据进行调整，得到调整文本数据，进而基于调整文本数据和原视频数据进行视频重构，得到目标视频数据。可见，本发明的技术方案无需人工参与，只需要根据原视频数据以及原视频数据的品论数据，即可对原视频数据进行视频重构，以生成新的视频数据，即目标视频数据，可以达到提高视频更新效率的目的。下面通过具体的实施例进行说明。

如图1所示，为本发明实施例公开的一种视频处理方法的实现流程图，该方法适用于具备视频处理能力的电子设备，如手机、平板电脑、个人计算机或服务器等设备。本实施例中的方法具体可以包括如下步骤：

S101：对原视频数据进行文本提取得到原视频数据中的视频文本数据；并对原视频数据进行图像理解，得到图像理解结果。

其中，本实施例中的原视频数据可以是金融领域中优秀业务员或者金牌讲师发布在短视频中的短视频或者长视频，通过短视频平台中的下载功能下载短视频或者长视频作为原始视频数据。

原视频数据中的视频文本数据包括对原视频数据中的音频部分进行语音识别得到音频文本数据，以及对原视频数据的每一帧视频帧图像进行信息提取得到的图像文本数据，也就是说，音频文本数据和图像文本数据即为视频文本数据。

图像理解(image understanding,IU)是对图像的语义理解。通过对原视频数据进行图像理解，可以获取到原视频数据中有什么物体，各个物体之间在原视频图像中存在什么联系，等等。由此，根据得到的视频文本数据和图像理解结果执行视频处理的后续步骤。

S102：将原视频数据的评论数据输入到舆情分析模型进行舆情分析，得到舆情分析结果。

众所周知，短视频平台中的评论区是短视频作者和粉丝进行信息交互的重要渠道，评论区中会存在很多粉丝给短视频作者提出的宝贵建议以及粉丝对于短视频作者提出的问题，这些都是短视频作者进行后续视频更新或者优化的重要来源。通过将原视频数据的评论数据输入到舆情分析模型进行舆情分析，就可从评论数据中提取出粉丝给短视频作者提出的宝贵建议以及粉丝对于短视频作者提出的问题，即舆情分析结果。

例如，以发布的关于寿险购买必要性的短视频为例，评论区有粉丝留言自身家庭情况，并咨询自身是否可以购买寿险，那么，可以通过舆情分析模型分析对用户的留言进行舆情分析，发现用户实际想要咨询的问题是：购买寿险的个人及家庭条件要求，以此类推，对每个用户的留言进行舆情分析，得到每个分析提出的问题或建议，得到舆情分析结果。

在具体实现中，本实施例中舆情分析模型可以基于BERT模型训练得到，将评论数据中的每一条评论，分别输入到舆情分析模型，以对每条评论进行舆情分析，得到每条评论的舆情分析结果。其中，原视频数据的评论数据可以从短视频平台中提取得到，对原视频数据在短视频平台中的评论区进行长截图，在进行长截图之前，应该展开评论区所有的折叠评论，由此，在长截图时，可以得到评论区的所有评论，之后，对长截图进行OCR文本识别，得到长截图中的所有文本数据，即评论数据，或者，可以在原视频数据在短视频平台评论区的底层代码中直接提取到评论数据，本实施例中对获取到评论数据的方法不作限定。

S103：将舆情分析结果和图像理解结果输入到文本调整模型，对视频文本数据进行调整，得到调整文本数据。

具体的，本实施例中的文本调整模型基于GPT模型训练得到，将舆情分析结果和图像理解结果输入到文本调整模型，以使文本调整模型分别根据舆情分析结果和图像理解结果对视频文本数据进行调整，得到调整文本数据。本实施例中的文本调整模型可以根据舆情分析结果包含的建议或者文本，对视频文本数据进行针对性调整，另外，根据图像理解结果学习原视频数据的逻辑想法，并据此对视频文本数据进行再调整，最终，得到调整文本数据。

例如，以发布的关于寿险购买必要性的短视频为例，评论区有粉丝留言自身家庭情况，并咨询自身是否可以购买寿险，那么，通过GPT模型就可以根据问题：购买寿险的个人及家庭条件要求，来匹配对应的答案文本，并添加到视频文本数据中，得到调整文本数据，据此，可以实现对视频文本的调整，得到调整文本数据。

S104：将调整文本数据和原视频数据输入到视频重构模型进行视频重构，得到目标视频数据。

在具体实现中，本实施例中的视频重构模型可以基于CLIP模型训练得到，获取到原视频数据的视频帧数据，将视频帧数据和调整文本数据输入到视频重构模型，生成目标视频数据。在生成目标视频数据过程中，视频重构模型可以同时处理视频帧数据中的每一个视频帧与调整文本数据，利用对比学习思想来进行编码后相似的视频帧和调整文本数据在特征空间上也更加接近，最终生成与调整文本数据匹配的视频数据，即目标视频数据。

综上所述，本发明公开了一种视频数据处理方法，通过原视频数据的图像理解结果和原视频评论数据的舆情分析结果，来对原视频数据的视频文本数据进行调整，得到调整文本数据，进而基于调整文本数据和原视频数据进行视频重构，得到目标视频数据。可见，本发明的技术方案无需人工参与，只需要根据原视频数据以及原视频数据的品论数据，即可对原视频数据进行视频重构，以生成新的视频数据，即目标视频数据，可以达到提高视频更新效率的目的。

基于图1的具体实现中，视频文本数据可以通过如下步骤提取得到，如图2所示：

S201：从原视频数据中分离出音频数据和视频帧数据。

在具体实现中，本实施例中可以通过具备视频音频分离功能的软件来对原视频数据进行分离处理，得到从原视频数据中分离出的音频数据和视频帧数据。其中，具备视频音频分离功能的软件包括但不限AE、PR、Edius、Vegas等，本实施例中对实现视频音频分离的方法不作限定。

S202：对音频数据进行语音识别，得到音频文本。

在具体实现中，本实施例中可以通过自动语音识别技术(ASR)来对音频数据进行语音识别，得到音频文本。

S203：对每帧视频帧分别进行文本信息提取，得到视频帧文本，音频文本和视频文本共同组成视频文本数据。

在具体实现中，本实施例中可以通过OCR文字识别技术分别对每帧视频帧进行文本提取，得到每帧视频帧中的视频帧文本。

进一步的，在提取到每帧视频帧中的视频帧文本后，可以对相邻两帧视频帧中提取到的视频帧文本进行对比，当相邻两帧视频帧中提取到的视频帧文本相同时，去除其中一帧视频帧的视频帧文本，以此类推，可以去除得到的视频帧中的重复文本，由此，可以达到降低图像处理设备的资源占用，降低设备的计算压力。

基于图1的具体实现中，图像理解结果可以通过如下步骤得到，如图3所示：

分别针对视频帧数据中的每相邻两帧视频帧对原视频数据进行图像理解，其中，相邻两帧视频帧，指的是第一视频帧和第二视频帧为相邻视频帧，第二视频帧和第三视频帧为相邻视频帧，以此类推，针对每两帧相邻视频帧进行如下步骤：

S301：对第一视频帧进行目标检测，得到第一视频帧中的至少一个第一目标物体及对应的第一物体信息。

其中，第一物体信息至少包括第一目标物体在第一视频帧中的位置、大小、类别以及唯一ID。

在具体实现中，本实施例中可以通过YOLO模型对第一视频帧进行目标检测，得到第一视频帧中的至少一个第一目标物体及对应的第一物体信息。通过YOLO模型对第一视频帧依次进行预处理、回归预测以及后处理，得到目标检测的预测框，每个预测框对应一个第一目标物体，且赋予每个预测框一个唯一ID，即赋予了每个第一目标一个唯一ID，并基于检测框得到了每个第一目标物体的位置、大小，由此，得到了第一视频帧中的至少一个第一目标物体及对应的第一物体信息。据此，根据得到的第一目标物体及对应的第一物体信息执行后续步骤。

S302：通过目标跟踪算法，基于第一目标物体及每个目标物体对应的物体信息，对第二视频帧进行目标追踪，得到第一目标物体在第二视频帧中的第一追踪信息。

其中，第二视频帧与第一视频帧为相邻两帧视频帧。

在具体实现中，本实施例中的目标追踪算法可以为DEEPSORT算法，通过DEEPSORT算法，根据获取到第一视频帧中的第一目标物体及每个目标物体对应的物体信息，对第二视频帧进行目标追踪，得到每个第一目标物体在第二视频帧中的大小、位置，即第一追踪信息，据此，完整对第一视频帧到第二视频帧的图像理解。

S303：对第二视频帧进行目标检测，得到第二视频帧中的至少一个第二目标物体及对应的第二物体信息。

应当理解，在视频播放过程中，视频中的目标对象可能存在移动、大小变化，以及增加或减少目标对象。因此，通过目标追踪算法可以根据存在于第一视频帧中的第一目标问题对第二视频帧进行目标追踪，仅能追踪到第一目标物体，而第二视频帧中可能会出现新的目标物体。因此，需要也对第二视频帧进行目标检测，得到第二视频帧中的第二目标物体及对应的第二物体信息。

具体的，本实施例中可以通过YOLO模型对第二视频帧进行目标检测，得到第二视频帧中的至少一个第二目标物体及对应的第二物体信息。通过YOLO模型对第二视频帧依次进行预处理、回归预测以及后处理，得到目标检测的预测框，每个预测框对应一个第二目标物体，并得到每个第二目标物体的第二物体信息。据此，根据得到的第二目标物体及对应的第二物体信息执行后续步骤。

S304：根据第二目标物体的第二物体信息，与第一目标物体的第一追踪信息进行对比匹配。

根据每个第二目标物品的物品信息分别与每个第一目标物体的第一追踪信息进行匹配，来确定第二目标物体与第一目标物体是否相同，当第二目标物体与第一目标物体相同时，执行步骤S305，即将第一目标物体的唯一ID赋予第二目标物品，当第二目标物体与第一目标物体不同时，执行步骤S3056，即赋予第二目标物体新的唯一ID。

在具体实现中，本实施例中可以根据第二物体信息中包含的第二目标物体的大小和位置，来与第一追踪信息中第一目标物品的位置和大小进行对比匹配，当第二目标物体的位置和大小与第一目标物体的位置和大小相同时，确定第二目标物体与第一目标物体相同，执行步骤S305，当第二目标物体的位置和大小与第一目标物体的位置和大小不相同时，确定第二目标物体与第一目标物体不相同，执行步骤S305。据此，可以实现第二目标物体与第一目标物体的对比匹配。

S305：当第二目标物体与第一目标物体相同时，将第一目标物体的唯一ID赋予第二目标物品。

在具体实现中，对第二视频帧进行目标检测，得到的第二目标物品的第二物品信息中可以仅包含第二目标物品的大小和位置，在确定第二目标物体与第一目标物体相同时，将第一目标物体的唯一ID赋予第二目标物品，或者，对第二视频帧进行目标检测，得到的第二目标物品的第二物品信息中可以包含第二目标物品的大小、位置以及一个临时ID，在确定第二目标物体与第一目标物体相同时，将第二目标物品的临时ID替换为第一目标物体的唯一ID。

S306：当第二目标物体与第一目标物体不同时，赋予第二目标物体新的唯一ID。

在具体实现中，对第二视频帧进行目标检测，得到的第二目标物品的第二物品信息中可以仅包含第二目标物品的大小和位置，在确定第二目标物体与第一目标物体不相同时，重新赋予第二目标物品一个新的唯一ID，或者，对第二视频帧进行目标检测，得到的第二目标物品的第二物品信息中可以包含第二目标物品的大小、位置以及一个临时ID，在确定第二目标物体与第一目标物体不相同时，将第二目标物品的临时ID确定为第一目标物体的唯一ID。

S307：通过目标追踪算法，基于对比匹配后的第二视频帧中的至少一个第二目标物体及对应的第二物体信息，对第三视频帧进行目标追踪。

其中，第三视频帧与第二视频帧为相邻两帧视频帧，在完成视频帧数据中所有的每相邻两帧视频帧之间的目标追踪后，完成原视频数据的图像理解，得到图像理解结果。

需要注意的，本实施例中的步骤S301-S302是对第一视频帧和第二视频帧这两个相邻视频帧进行图像理解，步骤S303-S306是确定第二视频帧中所有第二目标物品及对应的第二物品信息，然后S307是开始对第二视频帧和第三视频帧这两个相邻视频帧进行图像理解，以此类推，完整每两个相邻视频帧之间的图像理解，得到原视频数据的图像理解结果。

基于图1的具体实现中，步骤S102可以通过如下步骤实现，具体如图4所示：

S401：通过舆情分析模型对评论数据中的每条评论文本分别进行无效数据预测，得到评论文本为无效数据的置信度。

众所周知，在金融领域中，对于比较火爆的金融视频的评论区会存在大量的评论数据，而这些评论数据中并不是每一条评论文本都是对优化或更新金融视频有所帮助的，例如，寿险金融视频下面出现的车险相关评论。再如，寿险金融视频下面出现的诋毁相关评论。因此，需要对评论数据进行筛选，去除其中的无效评论。

在具体实现中，本实施例中的舆情分析模型可以基于BERT模型训练得到，首先通过BERT模型对评论数据中的每条评论文本进行无效数据预测，得到每条评论文本的置信度，置信度越低，则说明该评论文本为无效数据的概率越高，置信度越高，则说明该评论文本为无效数据的概率越低。

S402：判断置信度是否高于预设的置信度阈值。

如果置信度高于预设的置信度阈值，执行步骤S403，即确定评论为本为无效文本，如果置信度低于预设的置信度阈值，执行步骤S404，即对评论文本进行舆情分析，得到舆情分析结果。

S403：确定评论文本为无效数据。

应当理解，确定为无效数据的评论文本，将不再进行舆情分析，也就是说，确定为无效数据的评论文本将会被丢弃，不再参与视频处理的后续步骤。

S404：对评论文本进行舆情分析，得到舆情分析结果。

对确定不是无效数据的评论文本进行舆情分析，得到舆情分析结果。

在具体实现中，对评论文本进行舆情分析可以理解为对评论文本进行问题提取，从评论文本提取到用户想要了解的文本，以及用户对原视频数据的改进建议，即舆情分析结果。

在一种实现方式中，本实施例中判断评论文本是否为无效文本的方法还可以包括：通过BERT模型对评论文本进行立场分析和态度分析，当评论文本表现出评论文本的立场为竞争对手立场或其他非业务受众立场时，则确定该评论文本为无效文本；当评论文本表现出的态度为消极、低沉，如无端辱骂、侮辱性质的评论，则确定该评论文本为无效文本。本实施例中对判断评论文本是否为无效文本的方法不作具体限定。

在图1的具体实现中，步骤S103可以通过如下步骤实现，具体如图5所示：

S501：将用户需求和图像理解结果输入到文本调整模型，以根据用户需求从需求知识库中匹配对应的需求文本。

S502：根据图像理解结果和需求文本对视频文本数据进行调整，得到调整文本数据。

在具体实现中，本实施例中的文本调整模型可以基于GPT模型训练得到，将用户需求和图像理解结果输入到GPT模型，以使GPT模型根据用户需求去匹配需求知识库中对应的需求文本。其中，需求知识库中保存有对应知识领域的专业知识，以供GPT模型根据用户需求进行查询。在GPT模型根据用户需求查询到对应的需求文本后，将需求文本插入到视频文本数据中，并根据视频理解结果对插入需求文本的视频文本数据进行逻辑性调整，得到调整文本数据。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

如图6所示，为本发明实施例公开的一种视频数据处理装置的结构示意图，该装置适用于具备视频处理能力的电子设备，如手机、平板电脑、个人计算机或服务器等设备。

具体的，本实施例中的装置可以包括如下单元：

视频数据处理单元601，用于对原视频数据进行文本提取得到原视频数据中的视频文本数据；并对原视频数据进行图像理解，得到图像理解结果；

评论数据分析单元602，用于将原视频数据的评论数据输入到舆情分析模型进行舆情分析，得到舆情分析结果；

视频文本调整单元603，用于将舆情分析结果和图像理解结果输入到文本调整模型，对视频文本数据进行调整，得到调整文本数据；

视频数据重构单元604，用于将调整文本数据和原视频数据输入到视频重构模型进行视频重构，得到目标视频数据。

综上所述，本发明公开了一种视频数据处理装置，通过原视频数据的图像理解结果和原视频评论数据的舆情分析结果，来对原视频数据的视频文本数据进行调整，得到调整文本数据，进而基于调整文本数据和原视频数据进行视频重构，得到目标视频数据。可见，本发明的技术方案无需人工参与，只需要根据原视频数据以及原视频数据的品论数据，即可对原视频数据进行视频重构，以生成新的视频数据，即目标视频数据，可以达到提高视频更新效率的目的。

在一种实现方式中，视频数据处理单元用于：

从原视频数据中分离出音频数据和视频帧数据；

对音频数据进行语音识别，得到音频文本；

对每帧视频帧分别进行文本信息提取，得到视频帧文本；音频文本和视频文本共同组成视频文本数据。

在一种实现方式中，视频数据处理单元用于：

针对视频帧数据中的每相邻两帧视频帧进行如下步骤：

对第一视频帧进行目标检测，得到第一视频帧中的至少一个第一目标物体及对应的第一物体信息；第一物体信息至少包括第一目标物体在第一视频帧中的位置、大小、类别以及唯一ID；

通过目标跟踪算法，基于第一目标物体及每个目标物体对应的物体信息，对第二视频帧进行目标追踪，得到第一目标物体在第二视频帧中的第一追踪信息；第二视频帧与第一视频帧为相邻两帧视频帧；

对第二视频帧进行目标检测，得到第二视频帧中的至少一个第二目标物体及对应的第二物体信息；

根据第二目标物体的第二物体信息，与第一目标物体的第一追踪信息进行对比匹配；

当第二目标物体与第一目标物体相同时，将第一目标物体的唯一ID赋予第二目标物品；

当第二目标物体与第一目标物体不同时，赋予第二目标物体新的唯一ID；

通过目标追踪算法，基于对比匹配后的第二视频帧中的至少一个第二目标物体及对应的第二物体信息，对第三视频帧进行目标追踪；第三视频帧与第二视频帧为相邻两帧视频帧；

其中，在完成视频帧数据中所有的每相邻两帧视频帧之间的目标追踪后，完成原视频数据的图像理解，得到图像理解结果。

在一种实现方式中，评论数据分析单元602可以用于：

通过舆情分析模型对评论数据中的每条评论文本分别进行无效数据预测，得到评论文本为无效数据的置信度；

判断置信度是否高于预设的置信度阈值；

如果置信度高于置信度阈值，确定评论文本为无效数据；

如果置信度低于置信度阈值，对评论文本进行舆情分析，得到舆情分析结果。

在一种实现方式中，舆情分析结果至少包括用户需求；

视频文本调整单元603可以用于：

将用户需求和图像理解结果输入到文本调整模型，以根据用户需求从需求知识库中匹配对应的需求文本；

根据图像理解结果和需求文本对视频文本数据进行调整，得到调整文本数据。

关于视频数据处理装置的具体限定，可以参见上文中对于视频数据处理方法的有关限定，在此不再赘述。上述视频数据处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，本申请实施例公开了一种计算机设备，该计算机设备可以是服务端，其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种视频数据处理方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现以下步骤：

对原视频数据进行文本提取，得到原视频数据中的视频文本数据；并对原视频数据进行图像理解，得到图像理解结果；

将原视频数据的评论数据输入到舆情分析模型进行舆情分析，得到舆情分析结果；

将舆情分析结果和图像理解结果输入到文本调整模型，对视频文本数据进行调整，得到调整文本数据；

将调整文本数据和原视频数据输入到视频重构模型进行视频重构，得到目标视频数据。

在一个实施例中，本申请实施例公开了一种计算机可读存储介质，当计算机可读存储介质中的指令由计算机设备中的处理器执行时，使得计算机设备能够执行如本发明公开的一种视频数据处理方法的任一实施例的各个步骤。计算机可读存储介质可以是非易失性，也可以是易失性。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

对原视频数据进行文本提取，得到原视频数据中的视频文本数据；并对原视频数据进行图像理解，得到图像理解结果；

将原视频数据的评论数据输入到舆情分析模型进行舆情分析，得到舆情分析结果；

将舆情分析结果和图像理解结果输入到文本调整模型，对视频文本数据进行调整，得到调整文本数据；

将调整文本数据和原视频数据输入到视频重构模型进行视频重构，得到目标视频数据。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其他介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)，以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：中国平安人寿保险股份有限公司;

上一篇：一种静音型柴油发电机组的箱体进气结构及其使用方法
下一篇：应用于屠宰线中牲畜白条进入预冷间的气动推进装置