掌桥专利:专业的专利平台
掌桥专利
首页

一种云合数据短视频数据抓取以及统计汇总分析算法

文献发布时间:2023-06-19 11:57:35


一种云合数据短视频数据抓取以及统计汇总分析算法

技术领域

本发明涉及一种云合数据短视频数据抓取以及统计汇总分析算法,特别涉及一种云合数据短视频数据抓取以及统计汇总分析算法。

背景技术

视频(Video)泛指将一系列静态影像以电信号的方式加以捕捉、记录、处理、储存、传送与重现的各种技术。

随着社会的发展,人们的娱乐方式也越来越多,而短视频经常会存在着很多相同的标题和内容,随着网红经济的出现,视频行业逐渐崛起一批优质UGC内容制作者,微博、秒拍、快手、今日头条纷纷入局短视频行业,募集一批优秀的内容制作团队入驻。到了2017年,短视频行业竞争进入白热化阶段,内容制作者也偏向PGC化专业运作。

现有技术中同一个栏目在不同短视频平台的账号命名经常会不一样,比如“二更”在西瓜视频叫“二更视频”,在秒拍则叫“二更短视频”。为了统计同一个栏目跨平台的整体表现,目前需要人工整理,成本高、覆盖面有限,因此需要一种云合数据短视频数据抓取以及统计汇总分析算法解决上述问题。

发明内容

本发明的目的在于提供一种云合数据短视频数据抓取以及统计汇总分析算法,以解决上述背景技术中提出的问题。

为实现上述目的,本发明提供如下技术方案:一种云合数据短视频数据抓取以及统计汇总分析算法,包括中央处理器,所述中央处理器电连接有分析模块、操作中心、展示模块、抓取模块以及统计汇总模块。

进一步的,其中中央处理器用于控制整个系统,所述分析模块用于分析其抓取模块抓取的数据,所述操作中心用于操作整个系统,所述展示模块用于展示其统计汇总模块统计的数据,所述统计汇总模块用于统计抓取模块抓取的数据,所述抓取模块用于抓取短视频。

进一步的,该系统的操作步骤如下:

S1:首先抓取模块会抓取相应的短视频,并发送至中央处理器;

S2:中央处理器在接收到抓取模块发来的数据后将其发送至分析模块进行分析;

S3:分析模块在分析完成后再次将其发送至中央处理器;

S4:中央处理器将其接收到的数据发送至统计汇总模块进行统计汇总;

S5:中央处理器在接收到统计汇总模块的数据后发送至展示模块展示;

进一步的,所述步骤S1-S5中均通过操作中心操作,其操作中心设置有对应的供其操作展示的显示屏。

一种云合数据短视频数据统计汇总分析算法,其特征在于,其步骤如下:

S1:统计汇总模块在接收到对应的短视频后,将其发送至中央处理器;

S2:中央处理器在接收到数据后,会根据短视频的性质将其分为平台A、平台B、名称A、名称B、粉丝A、粉丝B、视频标题相同数据、视频日期时长相同数量、栏目名相似度、前缀词频、后缀词频以及编辑状态;

S3:分析汇总完成后将其制成对应的表格。

进一步的,所述平台A、平台B、名称A、名称B、粉丝A、粉丝B、视频标题相同数据、视频日期时长相同数量、栏目名相似度、前缀词频、后缀词频以及编辑状态底板对应有若干个与之对应的数据及状态。

进一步的,在位于表格的最后端设有操作选项,其操作选项的底部设有合并和忽略。

本发明的有益效果为:本发明通过种云合数据短视频数据抓取以及统计汇总分析算法,自动识别并整合不同平台同一栏目的数据的方法,不仅实现全自动,而且覆盖面广(千万级栏目)。

附图说明

图1为本发明一种云合数据短视频数据抓取以及统计汇总分析算法的系统框图一;

图2为本发明一种云合数据短视频数据抓取以及统计汇总分析算法的实施例图。

附图标记说明无。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

为了便于理解本发明,下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的若干实施例。但是,本发明可以以许多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施例的目的是使对本发明的公开内容更加透彻全面。

需要说明的是,当元件被称为“固设于”另一个元件,它可以直接在另一个元件上或者也可以存在居中的元件。当一个元件被认为是“连接”另一个元件,它可以是直接连接到另一个元件或者可能同时存在居中元件。本文所使用的术语“垂直的”、“水平的”、“左”、“右”以及类似的表述只是为了说明的目的。

除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。

请参阅图1-2,本发明提供一种技术方案:

一种云合数据短视频数据抓取以及统计汇总分析算法,包括中央处理器,所述中央处理器电连接有分析模块、操作中心、展示模块、抓取模块以及统计汇总模块。

为了进一步提高一种云合数据短视频数据抓取以及统计汇总分析算法的使用功能,其中中央处理器用于控制整个系统,所述分析模块用于分析其抓取模块抓取的数据,所述操作中心用于操作整个系统,所述展示模块用于展示其统计汇总模块统计的数据,所述统计汇总模块用于统计抓取模块抓取的数据,所述抓取模块用于抓取短视频。

为了进一步提高一种云合数据短视频数据抓取以及统计汇总分析算法的使用功能,该系统的操作步骤如下:

S1:首先抓取模块会抓取相应的短视频,并发送至中央处理器;

S2:中央处理器在接收到抓取模块发来的数据后将其发送至分析模块进行分析;

S3:分析模块在分析完成后再次将其发送至中央处理器;

S4:中央处理器将其接收到的数据发送至统计汇总模块进行统计汇总;

S5:中央处理器在接收到统计汇总模块的数据后发送至展示模块展示;

为了进一步提高一种云合数据短视频数据抓取以及统计汇总分析算法的使用功能,所述步骤S1-S5中均通过操作中心操作,其操作中心设置有对应的供其操作展示的显示屏。

一种云合数据短视频数据统计汇总分析算法,其特征在于,其步骤如下:

S1:统计汇总模块在接收到对应的短视频后,将其发送至中央处理器;

S2:中央处理器在接收到数据后,会根据短视频的性质将其分为平台A、平台B、名称A、名称B、粉丝A、粉丝B、视频标题相同数据、视频日期时长相同数量、栏目名相似度、前缀词频、后缀词频以及编辑状态;

S3:分析汇总完成后将其制成对应的表格。

为了进一步提高一种云合数据短视频数据抓取以及统计汇总分析算法的使用功能,所述平台A、平台B、名称A、名称B、粉丝A、粉丝B、视频标题相同数据、视频日期时长相同数量、栏目名相似度、前缀词频、后缀词频以及编辑状态底板对应有若干个与之对应的数据及状态。

为了进一步提高一种云合数据短视频数据抓取以及统计汇总分析算法的使用功能,在位于表格的最后端设有操作选项,其操作选项的底部设有合并和忽略。

综上所述,本发明通过种云合数据短视频数据抓取以及统计汇总分析算法,自动识别并整合不同平台同一栏目的数据的方法,不仅实现全自动,而且覆盖面广(千万级栏目)。

实施例,请参照图2,跨平台同一栏目识别基于:

发布视频的标题的相似度例如两个栏目发布的某条视频标题都为“人生没有固定公式,你不必获得千篇一律”,

发布视频的日期及视频时长的相似度(例如两个栏目都在2020-12-20日发布了1条时长为89秒的视频,在2020-12-22日发布了两条时长为72秒和98秒的视频,

栏目名称相似度(例如“二更视频”和“二更短视频”就很相似,但“二更视频”和“十点读书”则差别很大)。

以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其效物界定。

相关技术
  • 一种云合数据短视频数据抓取以及统计汇总分析算法
  • 一种反向数据抓取实现云容灾备份的方法及系统
技术分类

06120113116915