一种视频数据获取方法、装置、电子设备及存储介质

文献发布时间：2023-06-19 13:26:15

技术领域

本公开涉及互联网技术领域，尤其涉及一种视频数据获取方法、装置、电子设备及存储介质。

背景技术

目前，各大门户网站可以为用户提供不同类型的新闻，并且随着内容推荐领域的快速发展，越来越多的新闻会通过短视频的形式传播。

但是，目前各大门户网站提供的新闻大部分是以图文的形式(即图片与文本相结合)呈现的，即各大门户网站能够提供的短视频较少，所以以短视频的形式，在某些应用程序(例如短视频APP)中传播新闻的效果比较差，影响用户期望以短视频形式浏览新闻内容的体验。

发明内容

本公开提供一种视频数据获取方法、装置、电子设备及存储介质，解决了现有技术中以短视频的形式传播新闻的效果较差，影响用户期望以短视频形式浏览新闻内容的体验的技术问题。

本公开实施例的技术方案如下：

根据本公开实施例的第一方面，提供一种视频数据获取方法。该方法可以包括：获取多个热点新闻的关键词；创建与获取到的关键词对应的抓取线程，并基于创建的抓取线程获取每一个关键词对应的热点视频的文本信息，该文本信息用于表征对应的热点视频；基于获取到的文本信息，获取热点视频的视频数据。

可选地，上述创建与获取到的关键词对应的抓取线程具体包括：对该多个热点新闻的关键词进行划分，得到N个关键词集合，其中，每个关键词集合包括至少一个关键词，N≥1；为该每个关键词集合创建一个抓取线程，得到N个抓取线程；上述基于创建的抓取线程获取每一个关键词对应的热点视频的文本信息具体包括：基于该N个抓取线程中的每个抓取线程，获取对应的关键词集合中每一关键词对应的热点视频的文本信息。

可选地，上述基于获取到的文本信息，获取热点视频的视频数据具体包括：基于该N个抓取线程和获取到的文本信息，得到该热点视频的视频数据。

可选地，目标抓取线程配置有守护线程，该目标抓取线程为该N个抓取线程中的任意一个。上述基于该N个抓取线程中的每个抓取线程，获取对应的关键词集合中每一关键词对应的热点视频的文本信息具体包括：调用该目标抓取线程获取目标关键词集合中每一关键词对应的热点视频的文本信息，该目标关键词集合与该目标抓取线程对应；在确定已成功获取到第一关键词对应的热点视频的文本信息之后，为该第一关键词添加标识，该标识用于表征已成功获取到对应的热点视频的文本信息，该第一关键词为该目标关键词集合包括的一个关键词；在未获取到该目标关键词集合中所有关键词对应的热点视频的文本信息、且该目标抓取线程中断运行的情况下，调用该守护线程，以重新启动该目标抓取线程，并基于该目标抓取线程获取未携带标识的关键词对应的热点视频的文本信息。

可选地，上述基于获取到的文本信息，获取热点视频的视频数据具体包括：基于获取到的文本信息，对该文本信息进行去重操作，以得到去重操作之后的文本信息；基于去重操作之后的文本信息，得到每一个热点视频的视频数据。

可选地，上述对该文本信息进行去重操作具体包括：当第一热点视频的时长与第二热点视频的时长之间的差值小于时长差阈值，或者当该第一热点视频的封面数据与该第二热点视频的封面数据之间的相似度大于相似度阈值时，删除该第一热点视频的文本信息或该第二热点视频的文本信息，该第一热点视频为每一个关键词对应的多个热点视频中的一个，该第二热点视频为该多个热点视频中除该第一热点视频以外的一个。

可选地，上述视频数据获取方法还包括：将该每一个关键词对应的热点视频的文本信息存入数据库。

根据本公开实施例的第二方面，提供一种视频数据获取装置。该装置可以包括获取模块和处理模块；该获取模块，被配置为获取多个热点新闻的关键词；该处理模块，被配置为创建与获取到的关键词对应的抓取线程；该获取模块，还被配置为基于创建的抓取线程获取每一个关键词对应的热点视频的文本信息，该文本信息用于表征对应的热点视频；该获取模块，还被配置为基于获取到的文本信息，获取热点视频的视频数据。

可选地，该处理模块，具体被配置为对该多个热点新闻的关键词进行划分，得到N个关键词集合，其中，每个关键词集合包括至少一个关键词，N≥1；该处理模块，具体还被配置为该每个关键词集合创建一个抓取线程，得到N个抓取线程；该获取模块，具体被配置为基于该N个抓取线程中的每个抓取线程，获取对应的关键词集合中每一关键词对应的热点视频的文本信息。

可选地，该获取模块，具体还被配置为基于该N个抓取线程和获取到的文本信息，得到该热点视频的视频数据。

可选地，目标抓取线程配置有守护线程，该目标抓取线程为该N个抓取线程中的任意一个；该获取模块，具体还被配置为调用该目标抓取线程获取目标关键词集合中每一关键词对应的热点视频的文本信息，该目标关键词集合与该目标抓取线程对应；该处理模块，具体还被配置为在确定已成功获取到第一关键词对应的热点视频的文本信息之后，为该第一关键词添加标识，该标识用于表征已成功获取到对应的热点视频的文本信息，该第一关键词为该目标关键词集合包括的一个关键词；该处理模块，具体还被配置为在未获取到该目标关键词集合中所有关键词对应的热点视频的文本信息、且该目标抓取线程中断运行的情况下，调用该守护线程，以重新启动该目标抓取线程；该获取模块，具体还被配置为基于该目标抓取线程获取未携带标识的关键词对应的热点视频的文本信息。

可选地，该处理模块，具体还被配置为基于获取到的文本信息，对该文本信息进行去重操作，以得到去重操作之后的文本信息；该获取模块，具体还被配置为基于去重操作之后的文本信息，得到每一个热点视频的视频数据。

可选地，上述视频数据获取装置还包括删除模块；该删除模块，被配置为当第一热点视频的时长与第二热点视频的时长之间的差值小于时长差阈值，或者当该第一热点视频的封面数据与该第二热点视频的封面数据之间的相似度大于相似度阈值时，删除该第一热点视频的文本信息或该第二热点视频的文本信息，该第一热点视频为每一个关键词对应的多个热点视频中的一个，该第二热点视频为该多个热点视频中除该第一热点视频以外的一个。

可选地，该处理模块，还被配置为将该每一个关键词对应的热点视频的文本信息存入数据库。

根据本公开实施例的第三方面，提供一种电子设备，可以包括：处理器和被配置为存储处理器可执行指令的存储器；其中，处理器被配置为执行所述指令，以实现上述第一方面中任一种可选地视频数据获取方法。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，计算机可读存储介质上存储有指令，当该计算机可读存储介质中的指令由电子设备执行时，使得该电子设备能够执行上述第一方面中任一种可选地视频数据获取方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，该计算机程序产品包括计算机指令，当该计算机指令在电子设备上运行时，使得该电子设备执行如第一方面中任一种可选地视频数据获取方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

基于上述任一方面，本公开中，电子设备可以获取多个热点新闻的关键词，然后创建与获取到的关键词对应的抓取线程，并基于创建的抓取线程获取每一个关键词对应的热点视频的文本信息；该电子设备基于获取到的文本信息，获取热点视频的视频数据。本公开实施例中，电子设备可以基于创建的抓取线程，获取大量的热点视频的文本信息，进而获取大量的热点视频的视频数据。能够提供大量的新闻热点视频，提高以视频的形式传播热点新闻的效果，提升用户体验。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1示出了本公开实施例提供的一种视频数据获取方法的流程示意图；

图2示出了本公开实施例提供的又一种视频数据获取方法的流程示意图；

图3示出了本公开实施例提供的又一种视频数据获取方法的流程示意图；

图4示出了本公开实施例提供的又一种视频数据获取方法的流程示意图；

图5示出了本公开实施例提供的又一种视频数据获取方法的流程示意图；

图6示出了本公开实施例提供的又一种视频数据获取方法的流程示意图；

图7示出了本公开实施例提供的又一种视频数据获取方法的流程示意图；

图8示出了本公开实施例提供的一种视频数据获取装置的结构示意图；

图9示出了本公开实施例提供的又一种视频数据获取装置的结构示意图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

还应当理解的是，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其他特征、整体、步骤、操作、元素和/或组件的存在或添加。

本公开所涉及的数据可以为经用户授权或者经过各方充分授权的数据。

下面对本公开实施例所涉及的一些概念做解释说明。

线程：是操作系统能够进行运算调度的最小单位，它被包含在进程之中，是进程中的实际运作单位。本公开实施例中，电子设备可以基于预设抓取线程，获取每一个关键词对应的热点视频的文本信息。

如背景技术中所描述，由于现有技术中，以短视频的形式传播新闻的效果较差，影响用户期望以短视频形式浏览新闻内容的体验。基于此，本公开实施例提供一种视频数据获取方法，电子设备可以获取到大量的热点视频的视频数据，能够提高以视频的形式传播热点新闻的效果，提升用户体验。

本公开实施例提供的视频数据获取方法、装置、电子设备及存储介质，应用于新闻浏览或新闻推荐场景中。当获取到多个热点新闻的关键词时，可以依据本公开实施例提供的方法，获取热点视频的视频数据。

以下结合附图对本公开实施例提供的视频数据获取方法进行示例性说明：

可以理解的是，执行本公开实施例提供的视频数据获取方法的电子设备可以是手机、平板电脑、桌面型、膝上型、手持计算机、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本，以及蜂窝电话、个人数字助理(personaldigital assistant，PDA)、增强现实(augmented reality，AR)\虚拟现实(virtualreality，VR)设备等可以安装并使用内容社区应用的设备，本公开对电子设备的具体形态不作特殊限制。其可以与用户通过键盘、触摸板、触摸屏、遥控器、语音交互或手写设备等一种或多种方式进行人机交互。

如图1所示，本公开实施例提供的视频数据获取方法可以包括S101-S103。

S101、电子设备获取多个热点新闻的关键词。

应理解，电子设备可以从全球各大网站(具体可以为各大网站的新闻热榜，例如Google Trends、Facebook热榜以及Twitter热榜等)中获取(多个国家或地区的)多个热点新闻，进而获取该多个热点新闻对应的至少一个关键词。该多个热点新闻的关键词可以是经由去重操作之后得到的关键词。

可选地，电子设备可以将该多个热点新闻的关键词存入数据库中。

S102、电子设备创建与获取到的关键词对应的抓取线程，并基于创建的抓取线程获取每一个关键词对应的热点视频的文本信息。

其中，该文本信息用于表征对应的热点视频。

应理解，该获取到的关键词可以对应一个抓取线程，也可以对应多个抓取线程。

可以理解的是，一个关键词可以对应至少一个热点视频，一个热点视频可以对应一个文本信息。本公开实施例中，电子设备可以基于该创建的抓取线程，对获取到的每一个关键词进行抓取，以获取到该每一个关键词对应的热点视频的文本信息。

在本公开实施例的一种实现方式中，一个热点视频的文本信息可以包括该热点视频的视频链接，即电子设备可以基于该视频链接，访问(或查询)该热点视频的视频数据。

可选地，电子设备可以从youtube、twitter以及Facebook等网站中获取该每一个关键词对应的热点视频的文本信息。

S103、电子设备基于获取到的文本信息，获取热点视频的视频数据。

在一种情况下，电子设备获取到的文本信息为上述每一个关键词对应的热点视频的文本信息中的全部文本信息(或全部热点视频的文本信息)，此时电子设备获取到的热点视频的视频数据，即为该每一个关键词对应的该全部热点视频的视频数据。

在另一种情况下，电子设备获取到的文本信息为上述每一个关键词对应的热点视频的文本信息中的部分文本信息(或部分热点视频的文本信息)，此时电子设备获取到的热点视频的视频为数据为该部分热点视频的视频数据。

结合上述实施例的描述，应理解，电子设备可以在基于一个热点视频的视频连接，访问到该热点视频的视频数据之后，获取(或下载)该热点视频的视频数据，该下载即为将该热点视频的视频数据对应的源电子设备中下载到该电子设备中。

上述实施例提供的技术方案至少能够带来以下有益效果：由S101-S103可知，电子设备可以获取多个热点新闻的关键词，然后创建与获取到的关键词对应的抓取线程，并基于创建的抓取线程获取每一个关键词对应的热点视频的文本信息；该电子设备基于获取到的文本信息，获取热点视频的视频数据。本公开实施例中，电子设备可以基于创建的抓取线程，获取大量的热点视频的文本信息，进而获取大量的热点视频的视频数据。能够提供大量的新闻热点视频，提高以视频的形式传播热点新闻的效果，提升用户体验。

结合图1，如图2所示，在本公开实施例的一种实现方式中，上述电子设备创建与获取到的关键词对应的抓取线程具体可以包括S1021-S1023。

S1021、电子设备对多个热点新闻的关键词进行划分，得到N个关键词集合。

其中，每个关键词集合包括至少一个关键词，N≥1

可选地，电子设备可以按照多个热点新闻的关键词(以下简称多个关键词)的获取顺序(即获取到该多个关键词的现有顺序)，对该多个关键词进行划分。例如，可以将前10个关键词划分到第一个关键词集合，第11个至第20个关键词划分到第二个关键词集合等。

S1022、电子设备为每个关键词集合创建一个抓取线程，得到N个抓取线程。

应理解，一个抓取线程对应一个关键词集合。电子设备可以基于一个抓取线程一次性抓取(或获取)一个关键词对应的热点视频的文本信息。

继续如图2所示，在本公开实施例的一种实现方式中，上述基于创建的抓取线程获取每一个关键词对应的热点视频的文本信息，具体可以包括S1023。

S1023、电子设备基于N个抓取线程中的每个抓取线程，获取对应的关键词集合中每一关键词对应的热点视频的文本信息。

结合上述实施例的描述，应理解，一个抓取线程对应一个关键词集合，一个关键词集合包括至少一个关键词。对于一个抓取线程，电子设备可以基于该抓取线程对应的关键词集合中的任意一个关键词，获取该关键词对应的热点视频的文本信息，进而获取到该关键词集合中包括的每一关键词对应的热点视频的文本信息。

可以理解的是，电子设备可以同时启动该N个抓取线程中的每个抓取线程，即该每个抓取线程同时运行，以获取该N个关键词集合中每个关键词集合包括的关键词对应的热点视频的文本信息，即可以同时(或者一次性)对更多的关键词进行抓取，并且可以同时获取到该更多的关键词对应的热点视频的文本信息。

上述实施例提供的技术方案至少能够带来以下有益效果：由S1021-S1023可知，电子设备可以对多个热点新闻的关键词进行划分，得到N个关键词集合，并且为每个关键词集合创建一个抓取线程，得到N个抓取线程，以及基于该N个抓取线程中的每个抓取线程，获取对应的关键词集合中每一关键词对应的热点视频的文本信息。本公开实施例中，电子设备可以同时启动该N个抓取线程中的每个抓取线程，可以同时(或者一次性)对更多的关键词进行抓取，并且可以同时获取到该更多的关键词对应的热点视频的文本信息。能够更加快捷地获取到更多的文本信息，进而快速地获取到热点视频的视频数据。

结合图1，如图3所示，在本公开实施例的一种实现方式中，上述电子设备基于获取到的文本信息，获取热点视频的视频数据，具体可以包括S1031。

S1031、电子设备基于N个抓取线程和获取到的文本信息，得到热点视频的视频数据。

结合上述实施例的描述，应理解，电子设备可以基于该N个抓取线程中的每个抓取线程，获取N个关键词集合中每个关键词集合中包括的关键词对应的热点视频的文本信息。即对于一个抓取线程，电子设备可以基于该抓取线程对应的关键词集合中的任意一个关键词，获取该关键词对应的热点视频的文本信息。

本公开实施例中，电子设备还可以基于该N个抓取线程中的每个抓取线程，获取该获取到的文本信息对应的热点视频的视频数据。具体的，对于一个抓取线程，电子设备可以基于该抓取线程对应的关键词集合中的任意一个关键词对应的热点视频的文本信息，获取该文本信息对应的热点视频的视频数据。可以理解为电子设备同时启动该N个抓取线程中的每个抓取线程，该每个抓取线程同时运行，以同时获取更多的热点视频的视频数据。

上述实施例提供的技术方案至少能够带来以下有益效果：由S1031可知，电子设备可以基于N个抓取线程和获取到的文本信息，得到热点视频的视频数据。本公开实施例中，电子设备可以同时启动该N个抓取线程中的每个抓取线程，可以同时(或者一次性)对更多的文本信息进行抓取，并且可以同时获取到该更多的文本信息对应的热点视频的视频数据。能够提升视频数据的获取效率。

结合图2，如图4所示，在本公开实施例的一种实现方式中，上述电子设备基于N个抓取线程中的每个抓取线程，获取对应的关键词集合中每一关键词对应的热点视频的文本信息，具体可以包括S1023a-S1023c。

S1023a、电子设备调用目标抓取线程获取目标关键词集合中每一关键词对应的热点视频的文本信息。

其中，该目标关键词集合与该目标抓取线程对应，该目标抓取线程为上述N个抓取线程中的任意一个。

应理解，电子设备可以调用该N个抓取线程中的任意一个抓取线程，以获取该抓取线程对应的关键词集合中每一关键词对应的热点视频的文本信息。

S1023b、在确定已成功获取到第一关键词对应的热点视频的文本信息之后，电子设备为第一关键词添加标识。

其中，该标识用于表征已成功获取到对应的热点视频的文本信息，该第一关键词为该目标关键词集合包括的一个关键词。

应理解，电子设备为该第一关键词添加标识之后，该第一关键词即为携带该标识。相应地，若某一关键词未被添加标识，即该关键词未携带标识，说明电子设备暂未成功获取到该关键词对应的热点视频的文本信息。

S1023c、在未获取到目标关键词集合中所有关键词对应的热点视频的文本信息、且目标抓取线程中断运行的情况下，电子设备调用守护线程，以重新启动目标抓取线程，并基于目标抓取线程获取未携带标识的关键词对应的热点视频的文本信息。

其中，该目标抓取线程配置有该守护线程。

可以理解的是，电子设备可以为目标抓取线程配置守护线程，该守护线程用于重新启动该目标抓取线程。

示例性的，假设目标关键词集合包括10个关键词，其中有8个关键词被电子设备添加上标识，2个关键词未携带标识(即电子设备未获取到该目标关键词集合中所有关键词对应的热点视频的文本信息)。若此时目标抓取线程中断，电子设备可以调用守护线程，重新启动目标抓取线程，并基于该目标抓取线程获取该2个关键词对应的热点视频的文本信息。

上述实施例提供的技术方案至少能够带来以下有益效果：由S1023a-S1023C可知，电子设备可以调用目标抓取线程获取目标关键词集合中每一关键词对应的热点视频的文本信息；在确定已成功获取到第一关键词对应的热点视频的文本信息之后，电子设备可以为该第一关键词添加标识(此时第一关键词携带该标识)；在未获取到该目标关键词集合中所有关键词对应的热点视频的文本信息、且该目标抓取线程中断运行的情况下，电子设备可以调用守护线程，以重新启动该目标抓取线程，并基于该目标抓取线程获取未携带标识的关键词对应的热点视频的文本信息。本公开实施例中，当目标抓取线程中断时，电子设备可以调用守护线程重新启动该目标抓取线程，并且继续抓取之前未获取过文本信息的关键词，进而获取到目标关键词集合中包括的所有关键词对应的热点视频的文本信息。能够准确、完整地抓取每一个关键词，进而获取每一个关键词对应的热点视频的文本信息，提升文本信息获取的有效性。

结合图1，如图5所示，在本公开实施例的一种实现方式中，上述电子设备基于获取到的文本信息，获取热点视频的视频数据，具体还可以包括S1032-S1033。

S1032、电子设备基于获取到的文本信息，对文本信息进行去重操作，以得到去重操作之后的文本信息。

应理解，每一个关键词(即上述多个关键词)对应的热点视频中可能存在相同(或重复)的热点视频。如此，电子设备基于创建的抓取线程获取到的文本信息中可能也存在相同(或重复)的文本信息。本公开实施例中，电子设备可以对获取到的文本信息进行去重操作，即去除相同(或重复)的两个文本信息中的一个。该去重操作之后得到的文本信息中不包括相同(或重复)的文本信息。

S1033、电子设备基于去重操作之后的文本信息，得到每一个热点视频的视频数据。

可以理解的是，该每一个热点视频为去重操作之后得到的每一个文本信息对应的热点视频。在一种实现方式中，电子设备可以访问去重之后得到的每一个热点视频的视频连接，以获取该每一个热点视频的视频数据。

上述实施例提供的技术方案至少能够带来以下有益效果：由S1032-S1033可知，电子设备可以基于获取到的文本信息，对该文本信息进行去重操作，以得到去重操作之后的文本信息，并且基于该去重操作之后得到的文本信息，得到每一个热点视频的视频数据。可以对获取到的文本信息中包括的相同或重复的文本信息进行筛选，减少电子设备能耗的同时，保证视频数据的质量。

结合图5，如图6所示，在本公开实施例的一种实现方式中，上述对文本信息进行去重操作，具体可以包括S1032a。

S1032a、当第一热点视频的时长与第二热点视频的时长之间的差值小于时长差阈值，或者当第一热点视频的封面数据与第二热点视频的封面数据之间的相似度大于相似度阈值时，电子设备删除第一热点视频的文本信息或第二热点视频的文本信息。

其中，该第一热点视频为上述每一个关键词对应的多个热点视频中的一个，该第二热点视频为该多个热点视频中除该第一热点视频以外的一个。

可以理解的是，一个热点视频的视频数据中可以包括该热点视频的时长。

结合上述实施例的描述，应理解对于第一热点视频(或第二热点视频)而言，该第一热点视频的文本信息中可以包括该第一热点视频的视频链接，电子设备可以基于该第一热点视频的视频链接，访问并获取该第一热点视频的视频数据，进而获取到该第一热点视频的时长。

在本公开实施例的一种实现方式中，一个热点视频的文本信息中还可以包括该热点视频的封面链接。具体的，对于上述第一热点视频(或第二热点视频)而言，电子设备可以基于该第一热点视频的封面连接，访问并获取该第一热点视频的封面数据(可以理解为该第一热点视频的封面图片)，进而确定该第一热点视频的封面数据与该第二热点视频的封面数据之间的相似度。

可选地，电子设备可以将第一热点视频的封面数据和第二热点视频的封面数据输入resnet网络，以得到第一热点视频的封面向量和第二热点视频的封面向量，并且确定该两个封面向量之间的cos相似度，以及将该cos相似度确定为该第一热点视频的封面数据与该第二热点视频的封面数据之间的相似度。

应理解，第一热点视频的时长与第二热点视频的时长之间的差值小于时长差值，说明该第一热点视频的时长与该第二热点视频的时长相差较小，也可以理解为时长相近；第一热点视频的封面数据与第二热点视频的封面数据之间的相似度大于相似度阈值说明该第一热点视频的封面数据(或封面图片)与该第二热点视频的封面数据(或封面图片)之间的相似度较高，或较为相似。

本公开实施例中，在第一热点视频的时长与第二热点视频的时长相差较小，或者该第一热点视频的封面数据(或封面图片)与该第二热点视频的封面数据(或封面图片)较为相似的情况下，电子设备可以确定第一热点视频和第二热点视频为相同或重复的热点视频，并且第一热点视频对应的文本信息和第二热点视频对应的文本信息为相同或重复的文本信息，如此，电子设备可以删除该第一热点视频的文本信息或该第二热点视频的文本信息。即对于两个相同或重复的文本信息而言，只保留其中一个文本信息。

上述实施例提供的技术方案至少能够带来以下有益效果：由S1032a可知，当第一热点视频的时长与第二热点视频的时长之间的差值小于时长差阈值，或者当第一热点视频的封面数据与第二热点视频的封面数据之间的相似度大于相似度阈值时，电子设备可以删除第一热点视频的文本信息或第二热点视频的文本信息。本公开实施例中，对于两个相同或重复的文本信息而言，电子设备可以只保留其中一个文本信息。能够保证最终的文本信息中不包含相同或重复的文本信息，提升视频数据的获取质量。

结合图1，如图7所示，在一种实现方式中，本公开实施例提供的视频数据获取方法还可以包括S104。

S104、电子设备将每一个关键词对应的热点视频的文本信息存入数据库。

应理解，电子设备将每一个关键词对应的热点视频的文本信息存入数据库中，以使得电子设备可以从该数据库中获取全部(或部分)热点视频的文本信息。

可选地，该数据库可以为MongoDB数据库，也可以为MySQL数据库。

上述实施例提供的技术方案至少能够带来以下有益效果：由S104可知，电子设备可以将每一个关键词对应的热点视频的文本信息存入数据库中，以使得电子设备可以从该数据库中获取全部(或部分)热点视频的文本信息，能够提升文本信息的获取效率，进而提升视频数据的获取效率。

可以理解的，在实际实施时，本公开实施例所述的电子设备可以包含有用于实现前述对应视频数据获取方法的一个或多个硬件结构和/或软件模块，这些执行硬件结构和/或软件模块可以构成一个电子设备。本领域技术人员应该很容易意识到，结合本文中所公开的实施例描述的各示例的算法步骤，本公开能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本公开的范围。

基于这样的理解，本公开实施例还对应提供一种视频数据获取装置，图8示出了本公开实施例提供的视频数据获取装置的结构示意图。如图8所示，该视频数据获取装置10可以包括：获取模块101和处理模块102。

获取模块101，被配置为获取多个热点新闻的关键词；该处理模块，被配置为创建与获取到的关键词对应的抓取线程。

获取模块101，还被配置为基于创建的抓取线程获取每一个关键词对应的热点视频的文本信息，该文本信息用于表征对应的热点视频。

获取模块101，还被配置为基于获取到的文本信息，获取热点视频的视频数据。

可选地，处理模块102，具体被配置为对该多个热点新闻的关键词进行划分，得到N个关键词集合，其中，每个关键词集合包括至少一个关键词，N≥1。

处理模块102，具体还被配置为该每个关键词集合创建一个抓取线程，得到N个抓取线程。

获取模块101，具体被配置为基于该N个抓取线程中的每个抓取线程，获取对应的关键词集合中每一关键词对应的热点视频的文本信息。

可选地，获取模块101，具体还被配置为基于该N个抓取线程和获取到的文本信息，得到该热点视频的视频数据。

可选地，目标抓取线程配置有守护线程，该目标抓取线程为该N个抓取线程中的任意一个。

获取模块101，具体还被配置为调用该目标抓取线程获取目标关键词集合中每一关键词对应的热点视频的文本信息，该目标关键词集合与该目标抓取线程对应。

处理模块102，具体还被配置为在确定已成功获取到第一关键词对应的热点视频的文本信息之后，为该第一关键词添加标识，该标识用于表征已成功获取到对应的热点视频的文本信息，该第一关键词为该目标关键词集合包括的一个关键词。

处理模块102，具体还被配置为在未获取到该目标关键词集合中所有关键词对应的热点视频的文本信息、且该目标抓取线程中断运行的情况下，调用该守护线程，以重新启动该目标抓取线程。

获取模块101，具体还被配置为基于该目标抓取线程获取未携带标识的关键词对应的热点视频的文本信息。

可选地，处理模块102，具体还被配置为基于获取到的文本信息，对该文本信息进行去重操作，以得到去重操作之后的文本信息。

获取模块101，具体还被配置为基于去重操作之后的文本信息，得到每一个热点视频的视频数据。

可选地，上述视频数据获取装置10还包括删除模块103。

删除模块103，被配置为当第一热点视频的时长与第二热点视频的时长之间的差值小于时长差阈值，或者当该第一热点视频的封面数据与该第二热点视频的封面数据之间的相似度大于相似度阈值时，删除该第一热点视频的文本信息或该第二热点视频的文本信息，该第一热点视频为每一个关键词对应的多个热点视频中的一个，该第二热点视频为该多个热点视频中除该第一热点视频以外的一个。

可选地，处理模块102，还被配置为将该每一个关键词对应的热点视频的文本信息存入数据库。

如上所述，本公开实施例可以根据上述方法示例对视频数据获取装置进行功能模块的划分。其中，上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。另外，还需要说明的是，本公开实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。

关于上述实施例中的视频数据获取装置，其中各个模块执行操作的具体方式、以及具备的有益效果，均已经在前述方法实施例中进行了详细描述，此处不再赘述。

图9是本公开提供的另一种视频数据获取装置的结构示意图。如图9，该视频数据获取装置20可以包括至少一个处理器201以及用于存储处理器可执行指令的存储器203。其中，处理器201被配置为执行存储器203中的指令，以实现上述实施例中的视频数据获取方法。

另外，视频数据获取装置20还可以包括通信总线202以及至少一个通信接口204。

处理器201可以是一个处理器(central processing units，CPU)，微处理单元，ASIC，或一个或多个用于控制本公开方案程序执行的集成电路。

通信总线202可包括一通路，在上述组件之间传送信息。

通信接口204，使用任何收发器一类的装置，用于与其他设备或通信网络通信，如以太网，无线接入网(radio access network，RAN)，无线局域网(wireless local areanetworks，WLAN)等。

存储器203可以是只读存储器(read-only memory，ROM)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器(random access memory，RAM)或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器(electricallyerasable programmable read-only memory，EEPROM)、只读光盘(compact disc read-only memory，CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器可以是独立存在，通过总线与处理单元相连接。存储器也可以和处理单元集成在一起。

其中，存储器203用于存储执行本公开方案的指令，并由处理器201来控制执行。处理器201用于执行存储器203中存储的指令，从而实现本公开方法中的功能。

在具体实现中，作为一种实施例，处理器201可以包括一个或多个CPU，例如图9中的CPU0和CPU1。

在具体实现中，作为一种实施例，视频数据获取装置20可以包括多个处理器，例如图9中的处理器201和处理器207。这些处理器中的每一个可以是一个单核(single-CPU)处理器，也可以是一个多核(multi-CPU)处理器。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。

在具体实现中，作为一种实施例，视频数据获取装置20还可以包括输出设备205和输入设备206。输出设备205和处理器201通信，可以以多种方式来显示信息。例如，输出设备205可以是液晶显示器(liquid crystal display，LCD)，发光二级管(light emittingdiode，LED)显示设备，阴极射线管(cathode ray tube，CRT)显示设备，或投影仪(projector)等。输入设备206和处理器201通信，可以以多种方式接受用户的输入。例如，输入设备206可以是鼠标、键盘、触摸屏设备或传感设备等。

本领域技术人员可以理解，图9中示出的结构并不构成对视频数据获取装置20的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

另外，本公开还提供一种计算机可读存储介质，包括指令，当指令由电子设备执行时，使得电子设备执行如上述实施例所提供的视频数据获取方法。

另外，本公开还提供一种计算机程序产品，包括指令，当指令由电子设备执行时，使得电子设备执行如上述实施例所提供的视频数据获取方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：余家骏;张德兵;郭晓锋;
专利申请人：北京达佳互联信息技术有限公司;

上一篇：感性负载对整车EMC性能影响的测试电路及测试方法
下一篇：一种基于WiFi的无线脚踏控制装置及系统