用于电子商务应用程序的依据图像的自动视频生成

文献发布时间：2023-06-29 06:30:04

相关申请

本申请要求于2021年12月8日递交的题为“AUTOMATED VIDEO GENERATION FROMIMAGE S FOR E-COMMERCE APPLICATIONS”的美国专利申请No.17/545,627的优先权，其全部公开内容通过引用并入本文。

技术领域

本公开总体上涉及计算机技术领域，具体地，涉及用于电子商务应用程序的依据图像的自动视频生成。

背景技术

电子商务市场系统为卖家提供工具，以通过使用货物的图像、视频和文本描述向买家展示货物。手动编辑视频数据通常给卖家带来掌握视频编辑工具的负担。在实践中，卖家需要熟练地使用视频编辑工具，以通过在特定视频帧中指定字体、大小和颜色来手动定位和调整文本，将文本插入到特定视频帧中。在实践中，需要卖家手动调整的自动视频生成会增加操作成本。因此，期望的是开发一种能够在最小化折衷的同时更好地满足需求的技术。

正是关于这些和其他总体考虑，才做出了本文所公开的各方面。尽管可以讨论相对特定问题，但应当理解，示例不应限于解决在本公开的背景或其他地方所认识的特定问题。

发明内容

根据本公开，通过基于机器学习模型自动生成与物品列表中的物品相关联的视频来解决上述和其他问题。本公开涉及使用一个或多个机器学习模型在电子商务购物市场中自动生成货物(例如，一个或多个待售物品)的视频数据。图像接收器接收与一个物品列表和/或多个物品列表的物品相关联的图像。图像提取器通过计算机视觉分析来生成与每个图像相关联的视觉描述符，并通过去除冗余/重复图像来提取唯一图像集。图像分类器使用机器学习模型对图像进行分类并生成图像的序列，该图像的序列对应于视频的视频段的序列。文本放置器使用另一机器学习模型来自动识别视频帧和/或图像中的区域，并将文本数据插入到视频帧和/或图像中。视频数据优化器基于由用户手动进行的对其他视频数据的先前调整和细化的模式来优化视频。所公开的技术存储并公开了自动生成的视频数据以供线上购物市场中的观看者(例如，买家)观看。

所公开的技术包括：被称为视觉描述模型的第一机器学习模型，用于预测并生成图像的视觉描述符。附加地或备选地，所公开的技术包括：被称为视觉转换模型的第二机器学习模型，用于基于物品的类别和/或卖家的属性来预测与视频数据中的物品相关联的图像的序列。附加地或备选地，所公开的技术包括：被称为区域模型的第三机器学习模型，用于预测视频帧内的用于放置文本数据的区域。第三机器学习模型进一步预测用于插入到视频数据中的文本的文本属性。附加地或备选地，被称为视频数据模型的第四机器学习模型基于由视频编辑者先前手动进行的示例性调整来自动优化视频数据。

本公开涉及用于至少根据以下部分中提供的示例来自动生成视频数据的系统和方法。具体地，本公开涉及一种用于在电子商务系统中自动生成针对物品列表的视频的计算机实现的方法。该方法包括：接收图像集，其中，图像集包括作为物品列表的部分接收的多个图像；生成针对图像集的视觉描述符集，其中，生成视觉描述符集包括：使用第一机器学习模型来计算针对图像集中的每个图像的视觉描述符；比较来自视觉描述符集中的视觉描述符，以识别图像集中的一个或多个冗余图像；通过从图像集中去除一个或多个冗余图像，来基于所比较的视觉描述符生成唯一图像集(unique set of images)；基于唯一图像集来确定有序图像集，其中，至少基于物品列表的类别对有序图像集进行排序；使用来自物品列表的附加数据，自动确定与有序图像集中的一个或多个图像相关联的文本，其中，与一个或多个图像相关联的文本被自动添加到一个或多个图像；基于有序图像集来自动生成视频，其中，该视频包括有序图像集；以及将所述视频提供为所述物品列表的一部分。

该系统包括：处理器；以及存储计算机可执行指令的存储器，该计算机可执行指令当由处理器执行时，使系统接收图像集，其中，图像集包括作为物品列表的一部分接收的多个图像；生成针对图像集的视觉描述符集，其中，生成视觉描述符集包括：使用第一机器学习模型来计算针对图像集中的每个图像的视觉描述符；比较来自视觉描述符集中的视觉描述符，以识别图像集中的一个或多个冗余图像；通过从图像集中去除一个或多个冗余图像，来基于所比较的视觉描述符生成唯一图像集；基于唯一图像集来确定有序图像集，其中，至少基于物品列表的类别对有序图像集进行排序；使用来自物品列表的附加数据，自动确定与有序图像集中的一个或多个图像相关联的文本，其中，与一个或多个图像相关联的文本被自动添加到一个或多个图像；基于有序图像集来自动生成视频，其中，该视频包括有序图像集；以及将所述视频提供为所述物品列表的一部分。

该方法包括：接收图像集，其中，图像集中的每个图像部分地描述线上购物市场中用于交易的物品，其中，图像集包括第一图像和第二图像，并且其中，第一图像包括描绘物品的第一区域；使用机器学习模型来基于物品的类别确定图像集的序列，其中，该序列包括在第二图像之前的第一图像；自动生成视频，其中，该视频包括在第二视频段之前的第一视频段，所述第一视频段具有第一图像，所述第二视频段具有所述第二图像；确定第一视频段中的第二区域，其中，第二区域与第一区域没有交叠；将文本数据插入第二区域中；以及在线上购物市场中发布视频以供观看。

提供本发明内容以用简化形式介绍构思选集，其中下面在具体实施方式中进一步描述本构思。发明内容不意在标识所请求保护主题的关键特征或基本特征，也不意在用于限制所请求保护主题的范围。示例的附加方面、特征和/或优点将在以下描述中部分地阐述，并且部分地根据该描述变得显而易见，或者可以通过实践本公开而得以学习。

附图说明

参考以下附图来描述非限制性和非穷尽性示例。

图1示出了根据本公开的各方面的用于自动生成视频的示例系统的概览。

图2示出了根据公开的各方面的图像分类器的示例。

图3示出了根据公开的各方面的文本放置器的示例。

图4A示出了根据公开的各方面的对图像进行提取并分类的示例。

图4B示出了根据公开的各方面的放置文本的示例。

图5示出了根据本公开的各方面的用于自动生成视频的方法的示例。

图6是示出了可以用于实践本公开的各方面的计算设备的示例物理组件的框图。

具体实施方式

下面参考附图更全面地描述本公开的各个方面，附图来自本公开的一部分并且示出了具体的示例方面。然而，本公开的不同方面可以以许多不同的方式实现并且不应被解释为限于本文所阐述的方面；相反，提供这些方面使得本公开将全面和完整，并且将这些方面的范围充分传达给本领域技术人员。各方面可以作为方法、系统或设备来实践。因此，各方面可以采取硬件实现、全软件实现、或结合软件和硬件方面的实现的形式。因此，以下详细描述不应被视为限制性的。

包括电子商务购物市场系统在内的线上购物系统向买家呈现与物品相关联的信息。与物品相关联的信息可以包括物品的图像数据、视频数据和文本描述。例如，物品可以是待售的一双鞋子。在各方面，与该双鞋子相关联的网页可以包括该双鞋子的名称和文本描述、该双鞋子的一个或多个图像、以及关于该双鞋子的一个或多个视频。线上购物系统提供了工具集以供卖家上传与该双鞋子相关联的信息。

在一些情况下，线上购物系统依赖卖家来上传与待售物品相关联的信息。备选地或附加地，一些线上购物系统为用户提供库存图像(stock image)以与他们的列表相关联。此外，线上购物系统可以提供工具集以供卖家通过互联网将信息上传到服务器(例如，云)。虽然通过拍摄物品的照片来准备与物品相关联的图像数据对于卖家来说可能相对容易，但准备视频数据通常给卖家带来负担，因为创建视频需要一定的技能水平。一些传统的线上购物系统提供了用于基于由卖家上传到服务器的图像集和文本数据来自动生成视频的工具。一些自动化工具在不进行自动分类的情况下按照上传到服务器的图像数据的顺序以视频数据的预定时间间隔对图像数据进行拼接。因此，传统系统中自动生成的视频可能对观看者(例如买家)来说显得杂乱无章且违反直觉。并非所有图像都适合于包括在视频中。例如，一些卖家可能上传物品外观相同但图像数据像素分辨率不同的多个图像数据。一些系统将决定图像数据的选集和图像数据的序列的步骤留给卖家作为手动操作。

一些工具自动在视频数据的视频帧内的随机位置或预定义位置处插入文本(例如，“70％折扣加免运费”)。这种工具可以以预定义的字体、大小、取向和颜色插入文本。因此，文本可能通过覆盖在物品上而阻挡物品的图像。由于融入了图像数据的文本颜色，文本在视频中可能难以辨认。与出现在视频中的物品相比，字体和大小可能在直觉上对买家来说显得别扭。一些系统将向视频数据中插入文本的步骤留给卖家作为手动操作。通过掌握视频编辑工具来编辑视频数据给卖家带来的负担可能过大。

因此，在线上市场中，在生成对买家来说显得合乎逻辑且有说服力的视频与这样做的成本之间存在权衡。本申请通过提供一种系统来解决该权衡问题，该系统使用具有上下文分析的第一机器学习模型来对图像数据进行自动分类，生成视频数据，并使用具有加权图像分析的第二机器学习模型将文本数据插入到视频数据中。本申请通过使用自动视频生成器能够平衡市场的有效性和效率的竞争需求。

如以下更详细讨论的，本公开涉及用于在线上购物市场中自动生成描述物品的视频的机器学习模型。具体地，模型包括预测视频帧中的图像数据的序列、预测用于将文本数据插入到视频帧中的区域、以及优化视频数据。

图1示出了用于自动生成视频的示例系统100的概览。系统100表示用于使用机器学习模型(例如，人工智能)对与物品相关联的图像数据进行分类以生成视频数据的视频帧、将文本数据插入到视频数据的视频帧中、以及优化视频数据的系统。系统100包括客户端设备102、应用程序服务器110、线上购物服务器120和网络150。客户端设备102与应用程序服务器110进行通信，应用程序服务器110包括在客户端设备102上执行作为应用程序的一个或多个指令集。应用程序服务器110包括线上购物应用程序112(例如，买家应用程序)和店面维护应用程序114(例如，卖家应用程序)。应用程序服务器110中的一个或多个指令集可以通过交互界面104提供交互用户界面(未示出)。在备选实施例中，单个应用程序可以执行线上购物应用程序112的购买功能和店面维护应用程序114的销售功能。

线上购物服务器120包括店面服务器122、物品数据库124和视频生成器130。网络150提供客户端设备102、应用程序服务器110和线上购物服务器120之间的网络连接。附加地或备选地，视频生成器130可以跨网络150在线上购物服务器120的外部，由此网络150提供客户端设备102、应用程序服务器110、线上购物服务器120和视频生成器130之间的网络连接。

客户端设备102经由网络150与应用程序服务器110连接，以通过交互界面104执行包括用户交互的应用程序。应用程序服务器110经由网络150与客户端设备102和线上购物服务器120进行交互，以作为物品的卖家或买家执行线上购物。

客户端设备102是提供用户输入能力(例如，经由用于通过网络150进行线上购物的交互界面104)的通用计算机设备。在一些方面，客户端设备102可选地接收来自物品的卖家的用户输入。卖家上传关于线上购物市场中用于销售交易的物品的信息。关于物品的信息包括物品的图像数据、物品的简要描述、价格信息、数量信息等。例如，交互式界面104可以呈现与网页浏览器相关联的图形用户界面。在一些方面，客户端设备102可以通过网络150与应用程序服务器110进行通信。

应用程序服务器110是使卖家(其可以发布待售物品)和买家(其购买物品)能够交互地访问并在客户端设备102上使用系统100的服务器。应用程序服务器110可以包括应用程序，该应用程序包括线上购物应用程序112和店面维护应用程序114。线上购物应用程序112可以提供物品的呈现以供作为买家的用户购买。店面维护应用程序114可以提供一个或多个工具以供卖家上传与物品相关联的信息(即，物品信息)以用于在电子商务购物市场中发布待售物品。在各方面，物品信息包括物品的名称和文本描述、与物品相关联的图像数据、可用于销售的物品的价格和数量。在各方面，店面维护应用程序114可以与线上购物服务器120的店面服务器122连接以在线上购物站点(未示出)上发布关于待售物品的信息。在一些方面，店面维护应用程序114还可以与线上购物服务器120的视频生成器130连接以上传与物品相关联的图像数据。视频生成器130可以自动生成描述物品的视频数据以供店面服务器122使用。在一些其他方面，在卖家自己准备视频数据时，店面维护应用程序114可以提供用于上传描述该物品的视频数据的工具。当线上购物服务器120成功地接收到关于物品的信息时，店面维护应用程序114可以从线上购物服务器120接收确认。

在一些方面，关于物品的信息可以包括名称、物品的简要描述、数量、价格、以及描绘物品的一个或多个图像数据。附加地或备选地，关于物品的信息包括物品的类别信息。例如，物品可以是一双鞋子。一个或多个图像数据可以包括该双鞋子在具有多个背景使用场景的不同视图中的照片。一个或多个图像数据还可以包括具有产品代码的产品信息标签的特写、该双鞋子的序列号、以及该双鞋子的特征列表。

线上购物服务器120表示用于自动生成与待售物品相关联的视频数据的应用/系统。线上购物服务器120还提供用于在线上购物站点(未示出)上销售物品的店面。视频生成器130自动生成针对与待售物品相关联的给定图像数据集的视频数据。视频生成器130使用一个或多个人工智能模型、机器学习模型等来提高自动操作的准确性。视频生成器130包括图像接收器132、图像提取器134、图像分类器136、视觉转换模型138、文本放置器140、区域模型142、视频数据优化器144、视频数据模型146和视频数据存储设备148。

图像接收器132通过客户端设备102上的交互界面104从由卖家使用的店面维护应用程序114接收与物品相关联的图像数据。其中，关于物品的图像数据包括产品徽标的照片、简要描述、以及物品的图像数据。图像接收器132还可以接收与物品相关联的信息。与物品相关联的信息可以包括但不限于物品的类别。例如，图像接收器132可以从应用程序服务器110的店面维护应用程序114接收与一双鞋子相关联的图像数据集以及作为鞋子的物品的类别。在一些方面，所接收到的图像数据可以包括作为物品列表的一部分接收的图像。

图像提取器134通过使用图像分析从所接收到的图像数据中提取一个或多个图像数据。图像提取器134分析所接收到的图像数据并识别相同或非常相似的图像数据。在各方面，图像提取器134通过去除冗余图像数据来选择图像数据集。在一些方面，图像提取器134选择唯一图像数据集，使得图像数据的数量与图像数据的预定数量相匹配，以用于生成具有预定持续时间的视频数据。提取标准可以包括按照冗余的图像数据和/或图像数据的清晰度水平。在各方面，图像提取器134输出唯一图像数据集。

例如，卖家可以上传与一双待售鞋子相关联的图像数据。图像数据可以包括该双鞋子的来自不同视图的且具有不同像素分辨率的三十张照片。这些照片中的一些可能看起来彼此相同或非常相似。图像数据还可以包括该双鞋子的特征(例如，名称、颜色、可供尺码、使用的材料等)的列表的图像。视频的预定持续时间可以是六十秒，六十秒可以转化为包括十条图像数据，作为要提取的预定数量的图像数据。因此，图像提取器134可以通过选择多个唯一照片来提取唯一图像数据集，且提取足以满足视频所需的图像数据的数量的图像数据。

图像分类器136对从所接收到的图像数据中提取的图像数据集进行分类，以用于自动生成视频数据。具体地，图像分类器136使用视觉转换模型138来自动确定图像数据的序列。在各方面，视觉转换模型138在被训练时基于待售物品的给定类别来预测图像数据的序列(例如，排序)。在各方面，视觉转换模型138还可以在物品的给定类别下指定具有相应上下文(例如，概览照片、特写、物品特征等)的图像数据的相应视频段的持续时间。在各方面，序列的条件(例如，顺序标准)可以包括待售物品的类别。

在各方面，视频包括视频数据。视频数据包括多个视频段，每个视频段的持续时间不同。每个视频帧的持续时间在整个视频数据中可以是恒定的。图像数据作为视频帧内容的一部分出现。图像数据序列可以对应于包括相应图像数据的视频段序列。

例如，图像分类器136可以在物品类别为“鞋子”下对与一双鞋子相关联的图像数据集进行分类。可以训练视觉转换模型138，以预测用于生成视频的视频帧序列的图像数据序列。该视频描述了一双鞋子。图像数据的序列可以从鸟瞰该双鞋子的照片开始，随后是从各个角度观看的特写，然后是对该双鞋子的描述，最后是物品的鸟瞰图。图像分类器136将所提取的该双鞋子的图像数据分类为与鞋子的产品类别相关联的序列。

在各方面，图像分类器136使用视频数据的视频帧序列中的图像数据序列来生成视频数据。图像分类器236可以通过根据如视觉转换模型138所指定的持续时间生成相应的视频帧来生成具有预定持续时间的视频数据。在各方面，视觉转换模型138可以基于存储在视频数据存储设备148中的视频数据来训练。存储在视频数据存储设备148中的视频数据可以对应于各种类别下的其他物品。

文本放置器140将文本放置到视频数据的视频帧中。具体地，文本放置器140确定一个或多个视频帧以及一个或多个视频帧内的区域，并将给定的文本插入到这些区域中。在各方面，文本放置器140接收文本数据，并确定视频帧集和该视频帧集内的用于插入文本数据的区域。文本放置器140可以使用视觉转换模型138来确定视频帧集。文本放置器140还可以使用区域模型142来确定视频帧集内的用于插入文本数据的区域。在各方面，视觉转换模型138可以预测用于插入与文本数据相关联的特定上下文的视频帧集。例如，当文本数据表示销售交易的促销方面的上下文时(例如，“70％折扣加免运费”)，视觉转换模型138可以预测将文本数据插入到朝向视频末尾的具有物品的鸟瞰图的视频帧集中。

在各方面，区域模型142可以通过防止文本数据阻挡物品的图像，来预测用于将文本数据插入到视频帧中的区域。区域模型142进一步预测用于插入文本数据的文本属性(例如，字体、大小、颜色等)。例如，使用所预测的文本属性可以防止文本数据变得难以辨认，因为通过预测与区域的背景颜色不同的颜色。文本放置器140输出在视频帧中包括文本数据的视频数据。

例如，在用于插入到该双鞋子的视频数据中的给定文本数据“70％折扣加免运费”中，文本放置器140选择朝向视频数据的尾部的具有该双鞋子的鸟瞰图的视频帧集。文本放置器140选择由视觉转换模型138预测的视频帧集。文本放置器140然后确定在相应视频帧中用于插入文本数据的区域。区域模型142可以预测视频帧集中的不与该双鞋子的图像交叠的区域，并指定用于呈现文本数据的字体、颜色和大小。

视频数据优化器144优化具有文本的视频数据。在各方面，视频数据优化器144使用视频数据模型146来预测用于优化视频数据的方式。视频数据模型146可以是基于视频数据存储设备148中存储的视频数据而训练的模型，该模型包括由卖家对自动生成的视频数据执行的调整和定制的示例。在一些其他方面，视频数据模型146可以基于线上购物站点上视频数据的观看者(包括买家和卖家)对相应视频数据的评论数据来训练。例如，对视频数据的调整可以包括亮度、视频宽高比、分辨率、文件大小等的变化。视频数据优化器144优化视频数据，并将视频数据存储在视频数据存储设备148中。

如将理解的，图1描述的各种方法、设备、应用程序、特征等并不旨在将系统100限制为由所描述的特定应用和特征来执行。因此，附加控制器配置可以用于实践本文中的方法和系统以及/或者所描述的特征和应用程序可以被排除而不背离本文所公开的方法和系统。

图2示出了根据公开的各方面的用于提取和分类图像数据的系统的示例。例如，图像提取器可以包括如图1所示的图像提取器134。图像分类器可以包括如图1所示的图像分类器136。系统200包括图像提取器202和图像分类器204。图像提取器202接收图像数据集220作为输入，并通过去除冗余图像数据从图像数据集220中选择一个或多个图像数据来生成选择图像数据(即，所提取的图像数据)集。在各方面，图像分类器204使用视觉转换模型218以便基于物品类别数据216将所提取的图像数据分类为视频帧序列(即，有序集)。图像分类器204基于选择图像数据的分类序列来产生视频帧的有序集作为视频数据。例如，图像数据集220包括作为待售物品的一双鞋子的图像数据集。物品类别数据216可以包括“鞋子”作为物品的类别。

图像提取器202可以包括视觉描述符生成器206、描述符距离确定器208和图像选择器210。视觉描述符生成器206识别和/或生成与图像数据集220中的相应图像数据相关联的视觉描述符207。视觉描述符207可以指示图像数据的视觉特性。在各方面，视觉描述符207可以包括但不限于视觉内容的类型、形状、外观、颜色、视点等。在各方面，视觉描述符生成器206可以使用视觉描述模型222来生成与每个图像数据相关联的视觉描述符。在一些方面，视觉描述模型222表示用于基于图像的模式匹配来预测给定图像的视觉描述符的机器学习模型。视觉描述模型222可以基于图像的示例和图像描述符的真实示例来训练。在各方面，视觉描述符生成器206可以采用与计算机视觉分析相关的技术，从而识别图像的视觉描述符。

描述符距离确定器208确定所提取的图像数据中的一对或多对图像数据之间的距离。在各方面，描述符距离确定器208确定所提取的图像数据对的组合中的每对之间的距离。该距离可以基于所提取的图像数据的视觉描述符207的相似度。例如，描述符距离确定器208可以将该双鞋子的两张鸟瞰图的照片确定为在距离上较短，因为两张照片在相同视点描绘了该双鞋子。在各方面，描述符距离确定器208确定图像数据集，该图像数据集包括视觉描述符相似的图像数据。

图像选择器210通过将所确定的距离与预定义的阈值距离进行比较来去除图像冗余数据，从而生成选择图像数据集。在一些方面，图像选择器210可以去除低于预定视觉质量水平的图像数据。例如，视觉质量水平可以指示图像数据中噪声的严重程度。

图像分类器204使用选择图像数据集、物品类别数据216和视觉转换模型218的组合来对图像数据进行分类。图像分类器204包括序列确定器212和图像定序器214。序列确定器212基于至少以下三个方面的组合来确定所提取的图像数据的序列。第一方面是在视觉描述符中具有相似距离的图像数据集。第二方面是所接收到的物品类别数据216。第三方面是基于由视觉转换模型218预测的图像数据的视频帧序列。例如，序列确定器212至少基于以下项的组合来确定用于描述该双鞋子的视频帧序列：具有关于该双鞋子的不同视觉描述符的照片和图像、鞋子的物品类别、以及关于鞋子视频的视觉转换的预测序列。

视觉转换模型218基于在线上购物站点中销售物品的给定属性来预测用于生成视频帧的图像数据序列。销售物品的属性可以包括但不限于待售物品的类别、观看者的类型(例如，使用该物品的买家的专业水平)等。例如，视觉转换模型21 8预测用于描述一双鞋子的视频的视频帧序列。该序列可以对应于具有六十秒持续时间的视频。该序列可以包括具有该双鞋子的概览的第一场景、具有特写(例如，以右侧视图、左侧视图、顶视图、底视图等的顺序)的第二场景、具有该双鞋子的概览的第三场景。该序列还可以包括与将文本数据插入相应视频帧中相关联的信息。例如，该信息可以包括将第三场景标记为适合于插入与物品的促销相关联的文本数据。在各方面，视频转换模型预测具有与相应视频帧相关联的视觉描述符的视频帧序列。视觉转换模型218的使用使序列确定器212能够确定具有对观看者来说平滑且上下文有意义的视觉转换的视频帧序列。

图像定序器214用由视觉转换模型218指定的具有图像数据的视频帧序列生成视频数据。在各方面，视觉转换模型218指定视频数据的相应视频段的持续时间。例如，图像定序器214基于该双鞋子的所提取的图像数据和由视觉转换模型218预测的视频帧序列来生成视频帧序列230作为针对该双鞋子的视频数据。

图3示出了根据本公开的各方面的具有文本放置器的系统的示例。例如，文本放置器可以包括如图1所示的文本放置器140。系统300包括文本放置器302。文本放置器302可以接收视频帧集320和文本数据310作为输入，识别视频段的视频帧和视频帧内的区域，以及将文本数据310插入视频段的视频帧内的区域中。文本放置器302可以使用背景预测模型314来确定用于插入文本数据310的区域。在各方面，所公开的技术可以基于与物品列表相关联的信息来自动确定用于插入视频帧320中的文本数据310。例如，与物品列表相关联的信息可以包括物品的名称、与物品相关联的广告词、促销的描述等。在各方面，文本放置器302可以从物品数据库124获得文本数据310。

文本放置器302包括视频帧提取器304、放置确定器306和文本插入器308。视频帧提取器304从视频帧集320中提取相应视频帧以用于分析相应视频帧的内容。在各方面，视频帧提取器304生成对应于相应视频帧的特征图(312)(例如，如图4B所示的特征图(462))。特征图包括视频帧的特征点的位置。特征点可以指示视频帧内的位置，其描述物品的图像的特征(例如，边缘)。特征点可以在边缘、角落上或在指示特征的任何位置处。例如，所公开的技术可以使用SIFT(尺度不变特征变换)特征点，并基于这些特征点计算和/或确定特征图。附加地或备选地，所公开的技术可以使用用于确定最佳文本属性而无需检测特征点的模型。

也许单个模型将生成定义了优选文本框将在哪里的图。文本放置器302通过避免文本数据覆盖在该图中的特征点上来确定用于插入文本数据310的位置。

放置确定器306确定用于将文本数据310插入视频帧的区域和文本属性。在各方面，放置确定器306基于特征图(312)和背景预测模型314来确定用于插入文本数据310的区域。在各方面，背景预测模型314基于相应视频帧的特征图(312)来预测用于将文本数据插入视频帧中的区域和颜色。该区域可以不交叠或不包括特征图(312)中的特征点。放置确定器306还确定文本数据的字体和大小，以将文本数据拟合到该区域中。例如，放置确定器306确定视频帧中的不与该双鞋子的图像交叠的区域，并进一步确定能够将文本数据“70％加免运费”拟合在该区域中的字体和字体大小。在各方面，所公开的技术可以使用存储在视频数据存储设备(例如，如图1所示的视频数据存储设备148)中的视频数据来基于示例性数据训练背景预测模型314。

文本插入器308使用由放置确定器306指定的字体、大小和颜色将文本数据310插入视频帧内的区域中。在各方面，文本插入器308生成具有文本330的视频帧集。例如，文本插入器308可以将文本字符串“70％折扣加免运费”插入与朝向视频数据的末尾的视频段相对应的帧数据集中。文本插入器308可以将促销信息插入视频帧中的不与该双鞋子的图像交叠的区域中。

图4A示出了根据本公开的各方面的图像数据的示例。示例400A包括未分类图像数据402和已分类图像数据408。未分类图像数据402包括由卖家上传的相应图像数据的序列中的与作为待售物品的一双鞋子相关联的图像数据。图像数据可以按照鞋底410、具有布景的概览412、上视图(414)、物品描述数据416和竖直取向概览418的顺序。

在各方面，图像分类器(例如，如图1所示的图像分类器136)可以基于鞋子的物品类别404和视觉转换模型406(例如，如图2所示的视觉转换模型218)来将未分类图像数据402分类成已分类图像数据408。视觉转换模型406可以预测用于基于物品类别404生成视频的视频帧序列。在示例400A中，视觉转换模型406指定未分类图像数据402中的每个图像数据的具有特定视觉描述符的帧数据序列，用于生成关于该双鞋子的视频。在各方面，已分类图像数据408反映视频帧的预测序列。例如，预测序列可以是上视图(414)、竖直取向概览418、鞋底410、物品描述数据416、以及具有布景的概览412。在一些方面，已分类图像数据408包括时间450，其描述当在预定时间发生视觉转换时相应视频段的持续时间。

图4B示出了根据公开的各方面的将文本数据插入视频帧中的示例。示例400B包括在文本插入之前的视频帧460、与视频帧460相关联的特征图(462)、以及具有文本插入的视频帧474。在各方面，文本放置器(例如，如图1所示的文本放置器140)从视频帧集中提取视频帧460，生成特征图(462)，确定用于插入文本数据的区域，以及将文本数据插入视频帧的内容中。

在各方面，特征图(462)包括点的集合。每个点指示视频帧内容的特征。该特征可以基于该内容的颜色和/或图像纹理的变化来表示该内容内的图像的边缘。例如，特征点470对应于视频帧460中所示的鞋尖。文本464表示用于插入到视频帧460中的文本数据(“70％折扣加免运费”)。背景预测模型472可以基于视频帧460的内容(例如，具有布景的鞋子的图像)、特征图(462)和文本464的组合来预测用于文本插入的区域468和文本属性。

附加地或替代地，所公开的技术可以包括训练模型以基于用于训练的注释数据或收集数据以直接方式估计优选文本框的位置。例如，训练数据可以是具有指示对应优选文本位置的注释的图像。该模型可以使用预定的特征或纹理图作为输入。该模型可以接收图像作为用于确定位置的输入。

在各方面，背景预测模型472将区域468识别为用于插入文本数据的优选位置和大小。例如，区域468不与鞋子的图像和背景布景交叠。背景预测模型472还可以基于视频帧的内容中具有曲线的图像纹理、文本464中的字符数量来预测用于插入文本464的文本属性。背景预测模型472还可以指定用于文本464的字母的字母大小写。因此，文本放置器插入文本464，并使用具有与图像纹理相匹配的曲线的字体、拟合到区域468中的大小、以及优化文本的表述的字母大小写来生成视频帧474，作为物品的促销公告。

图5是根据本公开各方面的用于自动生成视频的方法的示例。方法500的操作的一般顺序在图5中示出。通常，方法500以开始操作502开始并以结束操作518结束。方法500可以包括更多或更少的步骤，或者可以以与图5中所示的不同的方式布置步骤的顺序。方法500可以作为由计算机系统执行并编码或存储在计算机可读介质上的计算机可执行指令集来执行。此外，方法500可以由与处理器、ASIC、FPGA、SOC或其他硬件设备相关联的门或电路来执行。在下文中，将参考结合图1、图2、图3、图4A至图4B、以及图6描述的系统、组件、设备、模块、软件、数据结构、数据特性表示、信令图、方法等来说明方法500。

在开始操作502之后，方法500以接收操作504开始，接收操作504接收图像集。图像集可以包括从店面维护应用程序(例如，如图1所示的应用程序服务器110的店面维护应用程序114)上传的多个图像。

生成视觉描述符操作506生成与相应图像数据相关联的视觉描述符。视觉描述符表示图像数据的视觉特征，包括但不限于颜色、外观、纹理等。

生成选择图像集操作508生成没有冗余图像数据的选择图像数据集。在各方面，生成选择图像集操作508可以通过基于视觉描述符去除重复和/或非常相似的那些图像数据来选择图像数据。在各方面，相似度基于视频帧的视觉描述符之间的距离。

生成视频数据操作510基于选择图像数据集来生成视频数据，该选择图像数据集基于视觉转换模型来分类。在各方面，视觉转换模型基于给定的物品类别数据来预测视频帧序列。例如，视觉转换模型可以指定与作为物品类别的鞋子相关联的视频段的特定顺序(即，图像数据的顺序)。

插入操作512将文本数据插入视频数据中。具体地，插入操作512可以包括：从视频数据中提取视频帧，生成与视频帧相关联的特征图，以及使用背景预测模型(例如，如图3所示的背景预测模型314)来确定视频帧中的用于插入与物品相关联的文本数据的区域。附加地或备选地，所公开的技术可以在将文本数据插入图像数据中之后生成视频数据。在各方面，插入操作512可以先于生成视频数据操作510。

优化操作514使用视频数据模型来自动优化具有文本插入的视频数据。例如，视频数据模型(例如，如图1所示的视频数据模型146)可以基于用户手动调整与视频数据相关联的各种参数的过去发生情况来预测要对视频数据进行的调整。在各方面，各种参数可以包括视频帧的内容的亮度和对比度、颜色、像素分辨率等。

存储操作516将优化的视频数据存储在视频数据存储设备中(例如，如图1所示的视频数据存储设备148)。在各方面，店面服务器(例如，如图1所示的店面服务器122)可以在线上购物站点的物品列表页面上发布视频数据以供观看者和买家观看和下载。方法500以结束操作518结束。

图6示出了根据本公开的各方面的可以用于实践本公开的各方面的设备的简化框图。本实施例中的一个或多个可以在操作环境600中实现。这只是适当的计算环境的一个示例，并且不意在暗示功能或使用的范围的任何限制。其他可能适合使用的众所周知的计算系统、环境和/或配置包括但不限于个人计算机、服务器计算机、手持或膝上型设备、多处理器系统、基于微处理器的系统、诸如智能电话的可编程消费者电子设备、网络PC、小型计算机、大型计算机、包括任何上述系统或设备的分布式计算环境等。

在其最基本的配置中，操作环境600通常包括至少一个处理单元602和存储器604。取决于计算设备的确切配置和类型，存储器604(如本文所描述的用于执行生成与物品列表中的物品相关联的视频的指令)可以是易失性的(例如，RAM)、非易失性的(例如，ROM、闪存等)、或两者的某种组合。该最基本的配置在图6中由虚线606示出。此外，操作环境600还可以包括存储设备(可移动的存储设备608，和/或不可移动的存储设备610)，该存储设备包括但不限于磁盘或光盘或磁带。类似地，操作环境600也可以具有诸如键盘、鼠标、笔、语音输入、板载传感器等的输入设备614，以及/或者诸如显示器、扬声器、打印机、电机等的输出设备616。环境中还可以包括一个或多个通信连接612，例如LAN、WAN、近场通信网络、点对点等。

操作环境600通常包括至少某种形式的计算机可读介质。计算机可读介质可以是可由至少一个处理单元602或包括操作环境的其他设备访问的任何可用介质。作为示例而非限制，计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以任何方法或技术实现的易失性和非易失性的、可去除和不可去除介质，用于存储信息，如计算机可读指令、数据结构、程序模块或其他数据。计算机存储介质包括但不限于：RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字通用光盘(DVD)或其他光盘存储设备、磁带盒、磁带、磁盘存储设备或其他磁存储设备、或可以用于存储期望信息的任何其他有形、非暂时性介质。计算机存储介质不包括通信介质。计算机存储介质不包括载波或其他传播或调制的数据信号。

通信介质以调制数据信号(如载波或其他传输机制)体现计算机可读指令、数据结构、程序模块或其他数据，并且包括任何信息传送介质。术语“调制数据信号”是指其特性中的一个或多个特性以对信号中的信息进行编码的方式设置或改变的信号。作为示例而非限制，通信介质包括诸如有线网络或直接有线连接的有线介质、以及诸如声学、RF、红外线和其他无线介质的无线介质。

操作环境600可以是使用与一个或多个远程计算机的逻辑连接在网络环境中操作的单个计算机。远程计算机可以是个人计算机、服务器、路由器、网络PC、对等设备或其他公共网络节点，并且通常包括许多或所有上述元件以及其他未提及的元件。逻辑连接可以包括由可用通信媒体支持的任何方法。这种网络环境在办公室、企业范围的计算机网络、内部网和互联网中很常见。

本申请中提供的一个或多个方面的描述和说明并不旨在以任何方式局限或限制本公开的所要求保护的范围。本申请中提供的方面、示例和细节被认为足以传达所有权并使其他人能够做出和使用所要求保护的公开的最佳模式。所要求保护的公开不应被解释为限于任何方面，例如，或在本申请中提供的细节。无论是组合地还是单独地示出和描述，各种特征(结构上的和方法上的)旨在选择性地被包括或省略以产生具有特定特征集的实施例。已经提供了本申请的描述和说明，本领域技术人员可以设想落入本申请中体现的总发明构思的更广泛方面的精神内的不脱离本公开的所要求保护的广义范围的变型、修改和备选方面。

本公开涉及用于至少根据以下部分中提供的示例来自动生成视频数据的系统和方法。具体地，本公开涉及一种用于在电子商务系统中自动生成针对物品列表的视频的计算机实现的方法。该方法包括：接收图像集，其中，图像集包括作为物品列表的部分接收的多个图像；生成针对图像集的视觉描述符集，其中，生成所述视觉描述符集包括：针对所述图像集中的每个图像，使用第一机器学习模型来计算视觉描述符；比较来自所述视觉描述符集中的视觉描述符，以识别所述图像集中的一个或多个冗余图像；通过从图像集中去除所述一个或多个冗余图像，来基于所比较的视觉描述符生成唯一图像集；基于所述唯一图像集来确定有序图像集，其中，所述有序图像集至少基于所述物品列表的类别进行排序的；使用来自所述物品列表的附加数据，自动确定与所述有序图像集中的一个或多个图像相关联的文本，其中，与所述一个或多个图像相关联的文本被自动添加到所述一个或多个图像；基于所述有序图像集来自动生成所述视频，其中，所述视频包括所述有序图像集；以及将所述视频提供为所述物品列表的一部分。视觉描述符包括以下中的至少一项：视觉内容的类型、形状、外观、颜色或视点。物品列表的类别包括：用于在线上购物市场中交易的物品的类型。该方法还包括：使用第二机器学习模型来确定所述有序图像集，其中，所述第二机器学习模型在视觉转换方面进行训练，以基于顺序标准来预测所述视频的视频段序列，并且其中，所述顺序标准包括所述物品列表的类别。该方法还包括：从所述视频数据中提取视频帧，其中，所述视频帧包括所述图像；生成针对所述视频帧的特征图，其中，所述特征图包括对所述图像中描绘的物品的至少边缘的位置加以指示的多个特征点；使用第三机器学习模型来基于所述特征图确定所述视频帧中的区域；使用所述第三机器学习模型，基于所述区域的一个或多个属性来确定文本属性，其中所述文本属性至少包括文本的颜色或大小，并且其中所述区域的一个或多个属性包括出现在所述区域中的一种或多种颜色；以及使用所述文本属性将所述文本插入所述区域中。该方法还包括：接收与所述有序图像数据集中的一个或多个图像相关联的文本；至少基于所述有序图像集中的所述一个或多个图像的背景颜色，自动确定与所述一个或多个图像相关联的文本的颜色；以及至少基于所述有序图像集中的所述一个或多个图像的背景纹理，自动确定一个或多个字符在所述文本中的位置。该方法还包括：使用第四机器学习模型自动生成所述视频，其中所述第四机器学习模型是用于预测要对所述视频进行的一个或多个调整的经训练模型，并且其中所述第四机器学习模型是基于由用户手动对视频进行的一个或多个调整来训练的。所述文本的颜色与出现在所述区域中的一种或多种颜色不同。

该技术的另一方面涉及用于一种在电子商务市场中自动生成描述物品的视频的系统。该系统包括：处理器；以及存储计算机可执行指令的存储器，该计算机可执行指令当由处理器执行时，使系统接收图像集，其中，图像集包括作为物品列表的一部分接收的多个图像；生成针对图像集的视觉描述符集，其中，生成所述视觉描述符集包括：针对所述图像集中的每个图像，使用第一机器学习模型来计算视觉描述符；比较来自所述视觉描述符集中的视觉描述符，以识别所述图像集中的一个或多个冗余图像；通过从图像集中去除所述一个或多个冗余图像，来基于所比较的视觉描述符生成唯一图像集；基于唯一图像集来确定有序图像集，其中，至少基于物品列表的类别对有序图像集进行排序；使用来自所述物品列表的附加数据，自动确定与所述有序图像集中的一个或多个图像相关联的文本，其中，与所述一个或多个图像相关联的文本被自动添加到所述一个或多个图像；基于所述有序图像集来自动生成所述视频，其中，所述视频包括所述有序图像集；以及将所述视频提供为所述物品列表的一部分。视觉描述符包括以下中的至少一项：视觉内容的类型、形状、外观、颜色或视点。物品列表的类别包括：用于在线上购物市场中交易的物品的类型。计算机可执行指令在被执行时还使系统：使用第二机器学习模型来确定所述有序图像集，其中，所述第二机器学习模型在视觉转换方面进行训练，以基于顺序标准来预测所述视频的视频段序列，并且其中，所述顺序标准包括所述物品列表的类别。计算机可执行指令在被执行时还使系统：从所述视频数据中提取视频帧，其中，所述视频帧包括所述图像；生成针对所述视频帧的特征图，其中，所述特征图包括对所述图像中描绘的物品的至少边缘的位置加以指示的多个特征点；使用第三机器学习模型来基于所述特征图确定所述视频帧中的区域；使用所述第三机器学习模型，基于所述区域的一个或多个属性来确定文本属性，其中所述文本属性至少包括文本的颜色或大小，并且其中所述区域的一个或多个属性包括出现在所述区域中的一种或多种颜色；以及使用所述文本属性将所述文本插入所述区域中。计算机可执行指令在被执行时还使系统：接收与有序图像数据集中的一个或多个图像相关联的文本；至少基于所述有序图像集中的所述一个或多个图像的背景颜色，自动确定与所述一个或多个图像相关联的文本的颜色；以及至少基于所述有序图像集中的所述一个或多个图像的背景纹理，自动确定一个或多个字符在所述文本中的位置。计算机可执行指令在被执行时还使系统：使用第四机器学习模型自动生成所述视频，其中所述第四机器学习模型是用于预测要对所述视频进行的一个或多个调整的经训练模型，并且其中所述第四机器学习模型是基于由用户手动对视频进行的一个或多个调整来训练的。所述文本的颜色与出现在所述区域中的一种或多种颜色不同。

在另一些方面，该技术涉及一种用于在电子商务系统中自动生成视频的计算机实现的方法。该方法包括：接收图像集，其中，图像集中的每个图像部分地描述线上购物市场中用于交易的物品，其中，图像集包括第一图像和第二图像，并且其中，第一图像包括描绘物品的第一区域；使用机器学习模型来基于所述物品的类别确定所述图像集的序列，其中，所述序列包括在所述第二图像之前的所述第一图像；自动生成视频，其中，所述视频包括在第二视频段之前的第一视频段，所述第一视频段具有第一图像，所述第二视频段具有所述第二图像；确定所述第一视频段中的第二区域，其中，所述第二区域与所述第一区域没有交叠；将文本数据插入第二区域中；以及在所述线上购物市场中发布所述视频以供观看。文本数据对应于与在所述线上购物市场中促销所述物品相关联的消息。机器学习模型被训练用于基于物品的类别来预测描述物品的视频中的一个或多个视觉转换。确定所述第一视频段中的第二区域使用另一机器学习模型以基于所述第一视频段中的图像的特征和所述文本数据的组合来预测第二区域和所述文本数据的文本属性以进行插入。

一个或多个上述方面中的任何一个与所述一个或多个方面中的任何其他方面相结合。如本文所描述的一个或多个方面中的任何一个。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：贝尔坎·索尔马兹;
专利申请人：电子湾有限公司;

上一篇：一种量子点光扩散板
下一篇：一种高度集成的高带外抑制型声波滤波器及其制备方法