导航：首页> 摄影术；电影术；利用了光波以外其他波的类似技术；电记录术；全息摄影术〔4〕>用于电影、电视节目和多媒体内容的内容结构感知多媒体流服务

用于电影、电视节目和多媒体内容的内容结构感知多媒体流服务

文献发布时间：2024-01-17 01:23:17

相关申请的交叉引用

本专利申请要求2020年8月27日提交的美国专利申请第17/004,383号的优先权。前述专利申请的全部内容作为本申请公开内容的一部分通过引用并入本文。

技术领域

本专利文档涉及运动图片、视频、电影或其他多媒体产品的封装和分发，包括移动图像和相关联的在线分发或流传输服务。

背景技术

多媒体流传输提供了内容的线性观看体验，这为观看者提供了有限的观看选项。即使在制作期间已经探索了多个故事情节，观看者也只能在特定的电影或电视节目中获得单一的故事情节。在电影和电视制作和分发中的各种过程和云技术进步日益数字化的时代，线性观看体验成为向消费者交互地提供许多内容的障碍。

发明内容

本文描述了用于多媒体内容的封装和分发的技术、子系统和系统。

在一个示例方面中，一种用于处理多媒体内容的计算机实施的方法包括接收包括在制作阶段捕获的视频或音频数据的媒体文件，以及基于多媒体内容的制作阶段信息来确定多媒体内容的分层结构。分层结构指示多媒体内容包括多个场景，每个场景包括用对应的设备和演员制作的多个镜头。该方法还包括基于制作阶段信息识别与单独场景相关联的特性，以不同的压缩级别生成多媒体内容的多个副本，以及基于分层结构将多媒体内容的多个副本中的每一个划分为片段。基于与单独场景相关联的特性来自适应地调整片段的长度和压缩级别。

在另一个示例方面中，一种用于编辑多媒体内容的系统包括一个或多个处理器和包括处理器可运行代码的一个或多个存储器。在由一个或多个处理器运行时，处理器可运行代码将一个或多个处理器配置为接收包括在制作多媒体内容的制作阶段捕获的视频或音频数据的一个或多个媒体文件，以及基于多媒体内容的制作阶段信息来确定多媒体内容的分层结构。分层结构指示多媒体内容包括多个场景，每个场景包括用对应的设备和演员制作的多个镜头。一个或多个处理器被配置为，对于多媒体内容的单独场景，基于对于该场景捕获的视频或音频数据生成一个或多个经编辑媒体文件，以及根据多媒体内容的分层结构，与对于该单独场景捕获的视频或音频数据分离地存储一个或多个经编辑媒体文件。

在另一个示例方面中，一种用于观看多媒体内容的系统包括一个或多个处理器和包括处理器可运行代码的一个或多个存储器。在由一个或多个处理器运行时，处理器可运行代码将一个或多个处理器配置为，通过网络由媒体播放器向用户显示多媒体内容的副本的第一媒体文件，以及经由媒体播放器的用户界面接收第一用户输入，该第一用户输入触发关于多媒体内容的分层结构的信息的显示。分层结构指示多媒体内容包括多个场景，每个场景包括用对应的设备和演员制作的多个镜头。一个或多个处理器被配置为经由用户界面接收指示从第一媒体文件到第二媒体文件的观看变化的第二用户输入，其中第一和第二媒体文件与多媒体内容中的相同镜头或相同场景相关联。一个或多个处理器还被配置为由媒体播放器向用户显示第二媒体文件。

在又一示例方面中，一种搜索一个或多个多媒体内容的系统包括一个或多个处理器和包括处理器可运行代码的一个或多个存储器。在由一个或多个处理器运行时，处理器可运行代码将一个或多个处理器配置为经由媒体播放器的用户界面接收来自用户的搜索关键词，以及根据搜索关键词从多个多媒体内容中选择一个或多个媒体文件。多个多媒体内容中的每一个包括具有多个场景的分层结构，每个场景包括用对应的设备和演员制作的多个镜头。基于与多个多媒体内容中的每一个的单独场景相关联的特性来选择一个或多个媒体文件，该特性是根据多媒体内容的制作阶段信息来确定的。一个或多个处理器还被配置为经由媒体播放器的用户界面向用户提供一个或多个媒体文件的列表。

导演、编辑或内容提供商可以使用所公开的技术来基于在制作阶段捕获的相同的原始视频和/或音频数据制作内容的多个版本。对应地，可以向观看者呈现多媒体内容的结构，以便具有选择适合他们兴趣的内容的适当版本的灵活性。所公开的技术实现了传统多媒体内容所不能提供的更具交互性的观看体验。还可以实施所公开的技术来实现对视频片段(例如，整个电影或电视节目中的特定镜头和/或场景)的快速搜索，从而实现对多媒体内容的精细控制，用于诸如父母(parental)控制的目的。

附图说明

图1图示了在电影、电视节目或其他多媒体内容的制作完成之后可以执行的用于封装和分发这些内容的示例操作。

图2图示了为不同的观看者生成具有不同的压缩级别和/或比特率的内容的示例自适应流传输过程。

图3图示了根据本技术的示例结构化数据格式。

图4图示了根据本技术的片段化镜头的示例。

图5是根据本技术的用于处理多媒体内容的方法的流程图表示。

图6图示了根据本技术的一个或多个实施例的使用导航列表来观看不同镜头序列的示例情景。

图7是图示了可以被用于实施当前公开的技术的各个部分的计算机系统或其他控制设备的架构的示例的框图。

具体实施方式

电影、电视节目和其他多媒体内容的数字素材的后期制作可能是一个复杂的过程，涉及许多组件和操作。由于网络技术的进步促进了音频和视频内容向用户家中和其他地方的用户的流传输，多媒体内容的分发也要求复杂的处理操作来确保观看者满意的观看体验。图1图示了三个示例阶段102、104和106的示例操作，可以执行这三个示例操作来对内容进行数字化处理和封装，以在电影、电视节目或其他多媒体内容的后期制作完成之后分发这些内容。例如，在一些实施方式中，可以在多媒体内容从制片人交付给诸如视频流传输服务公司的内容提供商之后对其执行这些操作。

操作102是经由数字编辑操作的内容编辑，其要么由机器自动地进行，要么由人工操作者手动操作软件进行。电影、电视节目或其他多媒体内容的故事情节通常包括多个场景，每个场景具有多个镜头。制作场景的一个镜头涉及多个相机和演员成员。在一些实施例中，多媒体内容的制作可以根据基于故事情节生成的机器可读脚本集来执行，如于2020年6月11日提交的题为“Product-As-a-Service Systems for Making Movies,TV Shows andMultimedia Contents(用于制作电影、电视节目和多媒体内容的产品即服务系统)”的国际专利申请第PCT/CN2019/090722号和于2020年7月21日发布的美国专利第10,721,377号中所公开的，这些专利通过引用整体并入本文。在制作完成之后，为每个场景和差异场景制作的原始视频/音频数据可以被转移到一个或多个后续处理模块或子系统，以执行后续编辑操作。在一些实施例中，通过对机器可读脚本进行数字化处理，可以由编辑软件自动地编辑原始素材，而无需人工操作者的手动控制编辑，如于2020年5月8日提交的题为“FullyAutomated Post-Production Editing for Movies,TV Shows,and Multimedia Contents(电影、电视节目和多媒体内容的全自动后期制作编辑)”的国际专利申请第PCT/US2020/032217号中所公开的，该专利通过引用整体并入本文。可替换地或附加地，可以执行由一个或多个人工操作者进行的手动编辑，以结合编辑或导演所期望的艺术特征。

图1中的过程中的下一个操作104是多压缩级别转码。多媒体内容的经编辑的版本可以被编码成不同的格式，诸如Flash(.f4v)、运动图片专家组(MPEG)4(mp4)或QuickTime(.mov)。经编码视频可以具有大的大小(例如，数千兆字节)，因此这种大的经编码视频数据的在线传输速度可能受到可用于传输的带宽的限制，并且这种限制可能导致不利地影响观看体验的不期望的延迟。为了允许观看者在各种流传输平台上无缝地观看内容，操作104包括视频压缩过程，以减少要传输的视频数据量，从而确保及时地传输经编码视频数据，以获得满意的用户观看体验。这种压缩过程的一个示例是自适应流传输，其根据网络条件以不同的压缩级别压缩多媒体内容，并经由通信网络流传输这种经压缩的多媒体内容数据，以减少在用户设备处接收视频数据的延迟。图2图示了作为图1中的操作104的一部分的示例自适应流传输过程200，以为不同的观看者生成具有不同的压缩级别和/或比特率的内容。自适应流传输过程200的输入流202是多媒体内容的经编辑的版本，其通常具有相对较高的比特率。输入流202经过编码器204，编码器204被配置为使用不同的压缩级别来处理输入流202并生成具有不同比特率的多个输出流。例如，输出流206a具有对应于低压缩级别的高比特率，输出流206b具有对应于中压缩级别的中比特率，输出流206c具有对应于高压缩级别的低比特率。基于观看者的网络条件和/或设备能力，控制服务器208可以向不同的观看者提供适当的输出流。

返回参考图1，操作106是通过处理来自操作104的输出的自适应流传输转码复用(transmuxing)。转码复用过程是将经压缩编码的媒体流封装到容器中用于在线流传输。在实施方式中可以是XML格式的元数据在操作106中被创建，以提供关于经编码数据的信息，诸如编码信息、比特率、内容的组块或片段的播放列表以及在媒体流开始被服务器发送和被客户端接收之前客户端侧播放器需要的其他信息。为了提供流畅的观看体验，自适应转码复用过程使观看者能够在整个内容在客户端侧变得可用之前开始观看部分内容。在实现这一点时，转码复用操作被设计为将内容划分为更小的片段，使得一些片段变得对观看者可见，而剩余的片段正在通过网络传输。自适应流传输转码复用将每个经编码文件(例如，具有单独的比特率)划分为多个相等的传输单元(也称为组块)。可以基于比特率和/或压缩级别来配置组块的长度，以适应网络条件的变化。在一些实施例中，多媒体内容中的所有组块都以特定格式被封装在自适应流传输容器中，诸如超文本传输协议(HTTP)直播流传输(HLS)、基于HTTP的动态自适应流传输(DASH)等。基于网络条件，客户端侧播放器基于网络条件请求具有不同比特率和/或压缩级别的内容，并且对应的组块可以通过网络进行传输。

在一些现有的实施方式中，多媒体内容的编码和分发与制作和后期制作阶段不相关联。在这样的设计下，分发系统的转码和转码复用过程与内容是如何制作的不相关(例如，整个内容是简单的连续/不间断的视频捕获还是复杂的结构化媒体产品，诸如具有故事情节中定义的许多场景的电视剧集的电影、每个场景中有多少镜头等)。对应地，当在图1中所图示的过程中使用时，这样的转码和转码复用操作仅考虑网络条件和/或设备容量的变化来被执行。然而，多媒体内容的场景和/或镜头的变化可能会对内容的转码和转码复用操作带来显著影响。例如，压缩效率严重依赖于场景中或场景之间的运动检测。如果编码器感知到场景变化和/或镜头变化，压缩效率会高得多。如果压缩系统具有关于它是哪种场景的信息(例如，如电影脚本中所定义的)，则该信息可以被处理以确定它应该使用哪种压缩来实现最高效率。此外，图1中的过程的各种实施方式中的组块大小确定完全不知道多媒体内容的场景/镜头结构。当网络条件变化时，比特率变化可能会发生在镜头的中间，从而导致次优的观看体验。在一些情况下，内容提供商可能需要在多媒体内容的组块之间插入商业广告。商业广告可能会插入到镜头的中间，导致可能对观看者的观看体验产生负面影响的中断。

本专利文档公开了可以在各种实施例中实施的技术，以基于制作阶段信息提供多媒体内容的有效封装和分发。可以在制作阶段期间或制作阶段之后确定制作阶段信息，诸如故事情节中的场景/镜头的结构或每个场景或镜头所涉及的设备/人员，并将其作为元数据包括在自适应流传输容器中，从而允许自适应转码和转码复用以适应多媒体内容中的场景/镜头变化。具有这种制作阶段信息的这种经编码流传输视频数据可以被流传输到观看者设备，以通过允许观看者基于某些参数的选择来选择观看多媒体内容的方式来增强观看体验，这些参数是基于制作阶段信息来提供的，包括例如电影中的不同故事情节(例如，不同结尾)或电影中场景的不同镜头。

关于制作阶段信息的元数据可以在制作阶段期间或制作阶段之后生成(例如，在图1中所示的操作102中)。元数据可以用诸如可扩展标记语言(XML)格式的结构化数据格式来表示。图3图示了根据本技术的示例结构化数据格式300。结构化数据格式300描述了多媒体内容的分层结构。例如，根元素301可以包括制作阶段信息，诸如标题、内容的体裁、制片人和整体演员信息。中间元素311、313可以包括对应场景/镜头的场景/镜头级别信息。例如，信息可以被包括在中间元素311、313中，以指示对应场景/镜头中的运动级别或动作量。每个场景/镜头级别元素对应于包括每个相机信息的多个叶元素322、324、326、328、330(每个对应于一个相机捕获)。例如，叶元素322、324、326、328、330中的每一个可以包括对应相机捕获的标识符、关于镜头的设备的信息(例如，相机角度、变焦等)、关于镜头所涉及的演员的信息、以及视频捕获的其他特性(例如，捕获是大部分静态的还是充满动作)。叶元素还可以包括指示多媒体内容中的视频捕获位置的链接或位置指示符，使得视频剪辑(clip)可以容易地在内容中定位。

在一些实施例中，机器可读脚本被用于制作阶段和/或后期制作编辑中，如国际专利申请第PCT/CN2019/09072号、美国专利第10,721,377号和国际专利申请第PCT/US2020/032217号中所公开的。包括在机器可读脚本中的信息可以作为元数据导出到结构化数据格式，以用于转码和转码复用。例如，机器可读脚本可以提供诸如场景/镜头的类型、男演员/女演员信息、位置、时间、场景中每个镜头中使用的对象等信息。

在一些实施例中，可以基于在内容编辑操作中执行的操作来生成用于转码和转码复用的元数据。例如，当导演浏览所捕获的场景和镜头的原始视频数据时，可以标记关于单独场景/镜头的信息和对应的分层结构。然后，标记的元数据被组织成结构化数据格式，诸如XML文件。元数据可以使用具有某些扩展的工业标准MPEG-7格式来实施。元数据也可以使用(一个或多个)专有格式来实施。表1示出了根据本技术的专有结构化数据格式的示例。

表1结构化数据格式的元数据示例

在一些实施例中，原始多媒体视频和/或音频数据可以根据结构化数据格式所指示的分层结构来组织。例如，如表1中所示，多个相机被用于场景中的特定镜头。由不同设备为该镜头(例如，从不同角度)捕获的原始视频/音频剪辑可以被保存到分离的文件容器中。镜头/场景的最终经编辑视频可以保存到附加的文件容器中。不同镜头和/或场景的分离文件容器被组织成对应于元数据的分层结构。来自不同相机的原始视频/音频数据的可用性使得能够对多媒体内容进行定制编辑。可以基于添加或改变多媒体内容的元数据来创建附加的和/或可替代的故事情节。

给定多媒体内容的分层结构和元数据中的制作阶段信息，可以根据镜头和/或场景的特性在镜头级别或场景级别自适应地执行转码操作。例如，对于静态镜头或没有太多运动的场景，可以增加压缩级别以创建具有不同比特率的视频数据的副本。另一方面，如果场景或镜头包括许多运动或动作，则可以调整压缩级别以考虑视频压缩的复杂性。也就是说，不同场景/镜头的文件容器可以具有对应于场景/镜头的内容的不同比特率级别，而不是对整个多媒体内容具有统一的比特率级别。

在一些实施例中，可以在镜头级别执行转码复用操作，使得根据镜头的边界生成组块。图4图示了根据本技术的片段化镜头的示例。镜头401在时域中具有T1的长度。镜头401在时间上被片段化为五个组块411-415。组块415具有较短的长度，使得它不会跨越两个镜头进行扩展。下一个镜头402然后被片段化为附加的组块，包括组块416。在一些实施例中，可以根据镜头的特性来调整组块的大小。例如，对于静态镜头，较大的组块大小可以被用于高效的视频压缩。对于包括大量动作的镜头，较小的组块大小可以被用于考虑压缩复杂性。

图5是根据本技术的用于处理多媒体内容的方法500的示例的流程图表示。方法500包括，在操作510处，接收多媒体内容的一个或多个媒体文件和元数据信息。一个或多个媒体文件中的每一个包括在用于制作多媒体内容的制作阶段捕获的视频或音频数据(例如，视频/音频剪辑)。元数据信息指示多媒体内容的制作阶段信息。元数据信息可以在用于制作多媒体内容的制作阶段期间被确定(例如，如在国际专利申请第PCT/CN2019/09072号、美国专利第10,721,377号和国际专利申请第PCT/US2020/032217号中公开的机器可读脚本所表示的)。也就是说，制作阶段信息(例如，元数据信息)也可以在制作阶段之后生成(例如，基于在内容编辑操作中执行的操作)。制作阶段信息至少包括多媒体内容的体裁、关于镜头的设备和演员的信息、或者对应于镜头的视频或音频数据的内容。

方法500包括，在操作520处，基于制作阶段信息确定多媒体内容的分层结构。分层结构指示多媒体内容包括多个场景，并且多个场景中的每一个包括用对应的设备和演员制作的多个镜头。在一些实施例中，分层结构可以与机器可读脚本或机器可读脚本的简化版本相同。在一些实施例中，根据分层结构来组织一个或多个媒体文件，并且存在标识媒体文件在多媒体内容中的位置的信息。例如，由不同设备从不同角度捕获的视频剪辑可以被组织为分层结构中对应镜头的叶元素。

方法500包括，在操作530处，基于制作阶段信息为多媒体内容的分层结构中的单独场景识别与单独场景相关联的特性。如上所述，制作阶段信息可以包括多媒体内容的体裁、关于镜头的设备和演员的信息、或者对应于镜头的视频或音频数据的内容。在一些实施例中，与单独场景相关联的特性指示单独场景中的运动量。例如，在分层结构(例如，XML文件)中提供的信息可以指示场景或镜头是包括许多动作或是大部分是静态的。如表1中所示，镜头类型(例如，特写镜头)和动作标识符(例如，Forrest和Jenny向前走)可以被用于确定对应的镜头主要是具有对话的静态镜头。作为另一个示例，标识角色之间的打斗的动作标识符可以被用于确定对应的镜头包括许多动作和变化。与单独场景相关联的特性可以被用于后续的转码和转码复用。

方法500包括，在操作540处，以不同的压缩级别生成多媒体内容的多个副本。基于与单独场景相关联的特性，为单独场景自适应地调整不同的压缩级别。例如，为了实现相同的比特率，与具有大量运动和变化的(一个或多个)场景/(一个或多个)镜头相比，可以对大部分静态的(一个或多个)场景/(一个或多个)镜头应用更高的压缩级别。方法600还包括，在操作650处，基于分层结构将多媒体内容的多个副本中的每一个划分为片段，其中基于与单独场景相关联的特性来自适应地调整片段的长度。也就是说，组块大小可以根据(一个或多个)镜头/(一个或多个)场景的边界自适应地变化而不是使用统一的组块大小，以确保观看者的无缝观看体验。

所公开的技术可以以多种方式实施，以提供具有有用特征的各种独特服务，诸如后期制作定制化编辑、定制化观看、快速视频搜索等。例如，可以实施所公开的技术，以使得制片人、导演或内容提供商/分发者能够制作适合不同观看者群的电影/电视节目的不同定制版本。在一些实施方式中，所公开的技术可以用于允许制片人、导演或内容提供者/分发者基于在拍摄场景期间捕获的视频或音频数据，为多媒体内容中的一个或多个单独场景生成和存储不同的经编辑媒体文件。为场景中的每个镜头生成多个不同的经编辑媒体文件。基于多媒体内容的分层结构，一个或多个经编辑媒体文件可以与为单独场景捕获的视频或音频数据分离地存储。在一些实施例中，所公开的技术可以用于基于在制作阶段捕获的相同视频或音频数据来生成对应于相同电影或电视节目的不同故事情节的多媒体内容的多个版本。用于选择多媒体内容的不同版本之一的选项是经由具有导航列表或菜单的用户界面提供的，该导航列表或菜单包含不同版本并表示每个版本的多媒体内容的分层结构。

在定制编辑过程期间，所公开的技术使得商业广告和其他数字材料能够基于镜头/场景的边界和/或镜头/场景的内容被插入到内容中，以便最小化由插入的商业广告或广告导致的观看中断的级别或程度，并且向观看者提供无缝的观看体验。例如，商业广告插入的一些实施方式允许基于商业广告媒体文件的内容和两个邻接片段的内容，在多媒体内容的两个邻接片段之间插入商业广告媒体文件。导航列表包括关于商业媒体文件和两个邻接片段之间的过渡类型的信息。

除了为制片人、导演或内容提供商/分发者提供编辑和修改选项之外，所公开的技术还可以被实施来提供与由制片人、导演或内容提供商/分发者生成的电影或电视节目的不同版本相关的观看者选项。例如，所公开的技术可以被实施为在媒体播放器中为观看者提供用户界面，以选择和观看内容的不同现有版本和/或在观看时即时创建定制内容。一些实施方式可以包括用户界面，用于在经由媒体播放器的用户界面示出的一个或多个导航列表中显示基于在制作阶段捕获的相同视频或音频数据生成的、对应于不同故事情节的多媒体内容的多个版本。具体而言，当不同故事情节包括至少第一故事情节和第二不同故事情节时，所公开的技术可以被用于在观看者媒体播放器中提供观看者用户界面用于接收指示第一故事情节和第二故事情节之间的切换(例如，当观看者先前选择第一故事情节时从第一故事情节切换到第二故事情节)的用户输入，并向用户显示对应于第二故事情节的多媒体内容的版本。在一些实施例中，观看者用户界面可以被构造用于经由网络向用户显示多媒体内容的第一媒体文件，在经由媒体播放器的用户界面示出的导航列表中向用户显示关于多媒体内容的分层结构的信息，以及经由媒体播放器的用户界面接收用户输入。用户输入指示从第一媒体文件到第二媒体文件的观看变化，其中第一和第二媒体文件与多媒体内容中的相同场景、相同镜头或相同设备相关联。该方法还包括切换到向用户显示第二媒体文件。在一些实施例中，第一媒体文件和第二媒体文件由相同设备在不同角度或不同设备捕获。在一些实施例中，第二媒体文件包括为镜头或场景捕获的视频或音频数据，并且第一媒体文件包括所捕获的视频或音频数据的经编辑的版本。在一些实施例中，该方法包括在包括多个子区域的观看区域中同时显示对于一个或多个镜头在不同角度捕获的多个媒体文件。媒体文件之一被显示在第一子区域中，该第一子区域具有比其他子区域更大的尺寸。在一些实施例中，多媒体内容的副本的每个片段都在镜头的边界内。

作为又一示例，所公开的技术可以用于在镜头/场景级别上执行快速视频搜索。在一些实施例中，快速搜索可以包括观看者搜索过程，该过程经由媒体播放器的用户界面接收来自用户的搜索关键词，基于与单独场景相关联的特性确定对应于搜索关键词的媒体文件的子集，以及经由媒体播放器的用户界面提供媒体文件的子集的列表。在一些实施例中，可以基于用户输入对媒体文件的子集的列表施加限制(例如，用于父母控制、观看组控制或其他控制目的)。

在以下示例实施例中进一步描述了所公开技术的一些示例。

通常，(一个或多个)导演/(一个或多个)编辑可以制作最终经编辑内容的单个版本。也就是说，无论在制作阶段期间捕获了多少镜头和/或场景，最终都会生成有限数量的经编辑故事情节(通常，只有一个或两个故事情节可用)。本文公开的技术不仅允许(一个或多个)导演/(一个或多个)制片人制作内容的多个版本，而且使得(一个或多个)内容提供商/(一个或多个)分发者能够对内容执行期望的编辑。提供给(一个或多个)导演/(一个或多个)制片人或(一个或多个)内容提供者/(一个或多个)分发者中的任一者的定制编辑服务利用了对应于故事情节的分层结构的原始视频/音频数据的可用性，从而可以为不同的观看者或观看者群创建经编辑内容的多个定制版本。为经编辑内容的每个新版本创建新的导航列表。当观看者选择观看内容的特定版本时，对应的导航列表可以被发送给观看者以实现观看体验。

如上所述，由不同设备为镜头捕获的原始视频/音频剪辑可以与元数据一起保存到分离的文件容器中。例如，在镜头级别，可以创建经编辑镜头的多个版本并将其存储为附加文件容器。类似地，在场景级别，经编辑场景的多个版本可以与原始视频/音频内容分离地保存。以结构化数据格式(例如，XML文件)存储的元数据可以被更新，以指示经编辑文件容器的不同或可替代分层结构，使得多媒体内容的不同最终版本可以被提供给观看者。

在一个示例方面中，定制编辑服务可以由用于编辑多媒体内容的系统来提供，该系统包括一个或多个处理器和包括处理器可运行代码的一个或多个存储器。在由一个或多个处理器运行时，处理器可运行代码将一个或多个处理器配置为接收包括在制作多媒体内容的制作阶段捕获的视频或音频数据的一个或多个媒体文件，以及基于多媒体内容的制作阶段信息来确定多媒体内容的分层结构。分层结构指示多媒体内容包括多个场景，每个场景包括用对应的设备和演员制作的多个镜头。一个或多个处理器被配置为，对于多媒体内容的单独场景，基于对于该场景捕获的视频或音频数据生成一个或多个经编辑媒体文件，以及根据多媒体内容的分层结构，与对于该单独场景捕获的视频或音频数据分离地存储一个或多个经编辑媒体文件。

在一些实施例中，一个或多个处理器被配置为基于在制作阶段捕获的相同视频或音频数据来生成对应于不同故事情节的多媒体内容的多个版本。在一些实施例中，一个或多个处理器还可以被配置为在多媒体内容的两个片段之间插入商业广告媒体文件。

(一个或多个)编辑或(一个或多个)导演可以使用定制编辑服务来最小化创建内容的不同版本(例如，创建不同的故事情节、满足不同的分级要求等)所需要的工作量。定制编辑服务也可以被内容提供商用作实时服务，在镜头/场景的边界处插入不同的商业广告。流传输服务提供商可以基于场景/镜头的内容以及商业广告的投标价格来执行实时定制编辑，以最优化商业广告在多媒体内容中的放置。

在一些实施例中，知道场景/镜头边界允许定制编辑服务以定义视频过渡效果(例如，淡入、溶解、擦除等)。具体地，在场景之间插入商业广告的情况下，期望使用适合于过渡中涉及的多媒体内容和商业广告内容的视频过渡类型，以实现流畅的观看体验。过渡类型也可以在导航列表中定义。

在一些实施例中，可以实施本文公开的技术来提供定制观看服务。传统地，向观看者提供单个版本的经编辑内容。然而，因为使用所公开的技术可以更容易地创作经编辑内容的多个版本，所以观看者可以基于他们的兴趣和/或口味自由地选择(一个或多个)期望的故事情节。例如，给定经编辑内容的多个版本的可用性(例如，如实施例1中所讨论的)，观看者可以挑选和选择他们想要观看的故事情节。观看者可以根据默认故事情节开始观看多媒体内容，并且在观看时间期间暂停该内容以做出选择。

在一些实施例中，媒体播放器可以被实施为经由用户界面来显示导航列表，以示出对应于不同故事情节的不同场景/镜头序列。导航列表可以是基于如表1中所示的结构化数据格式生成的内容的分层结构的简化版本。图6图示了根据本技术的一个或多个实施例的使用导航列表来观看不同镜头序列的示例场景600。在该示例中，导航列表650包括播放内容的不同序列641、643。默认序列641指示两个镜头的经编辑的剪辑626、630将在观看时间被播放。可替代地，观看者可以选择定制序列643，其首先播放镜头1的来自相机1的原始视频剪辑(622)，随后播放镜头2的来自相机1的原始视频剪辑(628)。在一些实施例中，定制序列中的视频剪辑在设备级别(例如，如在定制序列643中)、在镜头级别(例如，序列可以包括由相同或不同设备对于相同镜头捕获的视频剪辑622、624)、或在场景级别(例如，序列可以包括由相同/不同设备对于相同/不同镜头捕获的相同场景中的视频剪辑)彼此相关联。如在实施例1中所讨论的，可以由编辑、导演或内容提供商使用定制编辑服务来创建定制序列。可替代地，观看者可以基于多媒体内容的分层结构创建定制序列643。例如，媒体播放器可以显示辅助信息来帮助用户识别哪个故事情节或序列适合观看者的口味。用户界面允许观看者选择故事情节的哪个序列/场景/镜头/相机来继续观看体验。附加的视频过渡效果(例如，淡化、溶解、擦除等)可以被自动地添加或者可以基于观看者的选择来添加(如果观看者决定切换播放序列)。

在一些实施例中，给定来自不同相机和/或角度的原始视频剪辑的可用性，媒体播放器的观看者界面可以被设计为允许观看者可以同时观看来自相同镜头的不同相机和/或相机角度的多个视频捕获。当观看者选择观看来自多个相机的剪辑时，流传输服务器可以向媒体播放器发送多个视频剪辑(例如，具有不同的分辨率和/或压缩级别)。媒体播放器可以将观看屏幕划分为多个矩形子屏幕，每个子屏幕显示来自对应相机的视频剪辑。例如，观看屏幕可以被划分为具有较大尺寸的主要子区域和若干小的子区域。主要子区域显示制作人的经编辑的版本，较小的子区域显示来自不同拍摄角度的相机的视频剪辑。

在一些实施例中，给定导航列表，观看者可以根据场景和/或镜头更精确地快进或倒退媒体内容。例如，媒体播放器可以将内容快进或倒退至不同镜头或不同场景的时域边界(例如，开始或结束)，而不是基于相等大小的时间单位(例如，1秒为1×速度，5秒为2×速度等)来快进或倒退多媒体内容。相应地，当观看者试图移动到目标场景或镜头时，他们不需要经过不相关的场景或镜头。此外，观看者不会由于时间单位太大(例如，快进或倒退速度太快)而错过目标场景或镜头。

在一个示例方面中，定制观看服务可以由用于观看多媒体内容的系统来提供，该系统包括一个或多个处理器和包括处理器可运行代码的一个或多个存储器。在由一个或多个处理器运行时，处理器可运行代码将一个或多个处理器配置为，通过网络由媒体播放器向用户显示多媒体内容的副本的第一媒体文件，以及经由媒体播放器的用户界面接收第一用户输入，该第一用户输入触发关于多媒体内容的分层结构的信息的显示。分层结构指示多媒体内容包括多个场景，每个场景包括用对应的设备和演员制作的多个镜头。一个或多个处理器被配置为经由用户界面接收指示从第一媒体文件到第二媒体文件的观看变化的第二用户输入。第一和第二媒体文件与多媒体内容中的相同镜头或相同场景相关联。一个或多个处理器还被配置为由媒体播放器向用户显示第二媒体文件。

在一些实施例中，第一媒体文件和第二媒体文件是对应于不同故事情节、基于在制作阶段捕获的相同视频或音频数据来生成的。在一些实施例中，第一媒体文件和第二媒体文件由不同相机在不同角度为相同镜头捕获。在一些实施例中，第二媒体文件包括为镜头或场景捕获的视频或音频数据，并且第一媒体文件包括捕获的视频或音频数据的经编辑的版本(也就是说，用户选择观看原始捕获的视频/音频数据)。

使用所公开的技术，观看体验现在变得更加交互式，并且观看者被给予探索内容的不同可能结局的自由。

因为原始音频/视频数据以及经编辑的内容是根据具有每个场景/镜头/相机捕获的信息的元数据来组织的，所以在元数据信息的帮助下，视频搜索效率可以大大改善。此外，所公开的技术使得观看者能够在庞大的多媒体内容数据库中定位内容的较小片段(例如，几个镜头或场景，甚至是来自特定相机角度的镜头)，而不是基于搜索关键词来定位整个多媒体内容。

在一些实施例中，分层结构化元数据可以被转换为平面结构格式，并存储在数据库中用于搜索和分析目的。场景/镜头的某些关键词可以被索引，以允许观看者快速搜索可用的多媒体内容并定位期望的镜头。例如，观看者可以由媒体播放器的用户界面输入关键字“亲吻”来查询所有的亲吻镜头。观察者可以添加附加的过滤选项来限制返回结果的量。在一些实施例中，观看者可以对搜索结果施加限制，使得相关视频片段被限制或不可观看(例如，出于父母控制的目的)。

在一个示例方面中，视频搜索服务可以由用于搜索一个或多个多媒体内容的系统来提供，该系统包括一个或多个处理器和包括处理器可运行代码的一个或多个存储器。在由一个或多个处理器运行时，处理器可运行代码将一个或多个处理器配置为经由媒体播放器的用户界面接收来自用户的搜索关键词，以及根据搜索关键词从多个多媒体内容中选择一个或多个媒体文件。多个多媒体内容中的每一个包括具有多个场景的分层结构，每个场景包括用对应的设备和演员制作的多个镜头。基于与多个多媒体内容中的每一个的单独场景相关联的特性来选择一个或多个媒体文件，这些特性是根据多媒体内容的制作阶段信息来确定的。一个或多个处理器还被配置为经由媒体播放器的用户界面向用户提供一个或多个媒体文件的列表。在一些实施例中，一个或多个处理器还被配置为经由媒体播放器的用户界面接收来自用户的用户输入，以及基于用户输入对一个或多个媒体文件的列表施加限制(例如，防止儿童观看暴力视频片段)。

图7是图示了可以被用于实施当前公开的技术的各个部分(例如，执行转码或转码复用的(一个或多个)处理器)的计算机系统或其他控制设备700的架构的示例的框图。计算机系统700包括经由互连725连接的一个或多个处理器705和存储器710。互连725可以标识由适当的桥、适配器或控制器连接的任何一个或多个分离的物理总线、点对点连接或两者。因此，互连725可以包括例如系统总线、外围组件互连(PCI)总线、超传输或工业标准架构(ISA)总线、小型计算机系统接口(SCSI)总线、通用串行总线(USB)、IIC(I2C)总线或电气和电子工程师协会(IEEE)标准674总线，有时被称为“火线”

(一个或多个)处理器705可以包括中央处理单元(CPU)以控制例如主计算机的整体操作。在某些实施例中，(一个或多个)处理器705通过运行存储在存储器710中的软件或固件来实现这一点。(一个或多个)处理器705可以是一个或多个可编程通用或专用微处理器、数字信号处理器(DSP)、可编程控制器、专用集成电路(ASIC)、可编程逻辑器件(PLD)等或者这些设备的组合，或者可以包括这些设备。

存储器710可以是计算机系统的主存储器，或者可以包括计算机系统的主存储器。存储器610表示任何合适形式的随机存取存储器(RAM)、只读存储器(ROM)、闪存等，或者这些设备的组合。在使用中，存储器710可以包含机器指令集等，当由处理器705运行时，机器指令集使得处理器705执行操作以实施当前公开的技术的实施例。

(可选的)网络适配器715也通过互连725连接到(一个或多个)处理器705。网络适配器715为计算机系统700提供了与诸如存储客户端和/或其他存储服务器的远程设备通信的能力，并且可以是例如以太网适配器或光纤信道适配器。

在制作阶段信息的帮助下，本文公开的技术允许观看者对电影、电视节目或视频有完全不同的观看体验。使用所公开的技术，不仅导演/制片人可以基于在制作阶段捕获的相同原始数据来制作不同版本的内容，内容提供商还享有创建适合于各种观看者群的电影、电视节目或其他内容的定制版本的灵活性(例如，基于观看者订阅计划)。此外，内容提供商可以更好地控制电影、电视节目或其他内容中的商业广告放置，以向观看者提供无缝的观看体验。相同内容(诸如戏剧或电影)的不同版本的实时流传输成为可能。

此外，观看者可以灵活地在观看时即时创建定制内容。观看者还可以具有基于制作阶段捕获的原始数据、从不同角度观看相同镜头/场景的选项。给定嵌入在元数据中的丰富制作阶段信息，可以使用所公开的技术使得观看者能够从网络上的大量可用内容中定位感兴趣的内容。

上述示例表明，本专利文档中公开的用于电影、电视节目和其他多媒体的封装和分发的技术和系统可以用于增强电影和电视制作公司采用的现有技术，以提供各种传统电影或电视节目中不可用的灵活性和特征。此外，所公开的技术使得实时内容分发和观看更加用户友好。

本专利文档中描述的主题和功能操作的实施方式可以在各种系统、数字电子电路或计算机软件、固件或硬件中实施，包括本说明书中公开的结构及其结构等同物，或者它们中的一个或多个的组合。本说明书中描述的主题的实施方式可以被实施为一个或多个计算机程序产品，例如编码在有形的和非暂时性的计算机可读介质上的计算机程序指令的一个或多个模块，用于由数据处理装置运行或控制数据处理装置的操作。计算机可读介质可以是机器可读存储设备、机器可读存储基底、存储设备、影响机器可读传播信号的物质的组合物，或者它们中的一个或多个的组合。术语“数据处理单元”或“数据处理装置”包含用于处理数据的所有装置、设备和机器，包括例如可编程处理器、计算机或多个处理器或计算机。除了硬件之外，该装置可以包括为所讨论的计算机程序创建运行环境的代码，例如，构成处理器固件、协议栈、数据库管理系统、操作系统或它们中的一个或多个的组合的代码。

计算机程序(也称为程序、软件、软件应用程序、机器可读脚本或代码)可以以任何形式的编程语言编写，包括经编译或经解释语言，并且它可以以任何形式部署，包括作为独立程序或作为模块、组件、子例程或适用于计算环境中使用的其他单元。计算机程序不一定对应于文件系统中的文件。程序可以存储在保存其他程序或数据的文件的一部分中(例如，存储在标记语言文档中的一个或多个脚本)，存储在专用于所讨论的程序的单个文件中，或者存储在多个协作文件中(例如，存储一个或多个模块、子程序或代码部分的文件)。计算机程序可以被部署为在一台计算机或位于一个站点或分布在多个站点并通过通信网络互连的多台计算机上运行。

本说明书中描述的过程和逻辑流程可以由运行一个或多个计算机程序的一个或多个可编程处理器来执行，以通过对输入数据进行操作并生成输出来执行功能。过程和逻辑流也可以由专用逻辑电路来执行，并且装置也可以被实施为专用逻辑电路，例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)。

例如，适合于运行计算机程序的处理器包括通用和专用微处理器，以及任何种类的数字计算机的任何一个或多个处理器。通常，处理器将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的基本元件是用于执行指令的处理器和用于存储指令和数据的一个或多个存储设备。通常，计算机还将包括或可操作地耦合到一个或多个用于存储数据的大容量存储设备，例如磁盘、磁光盘或光盘，以从该大容量存储设备接收数据或向其转移数据，或两者兼有。然而，计算机不需要有这样的设备。适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储设备，包括例如半导体存储设备，例如EPROM、EEPROM和闪存设备。处理器和存储器可以由专用逻辑电路来补充或并入其中。

本说明书连同附图仅被认为是示例性的，其中示例性意味着示例。

尽管本专利文档包含许多细节，但这些细节不应被解释为对任何发明的范围或可能要求保护的内容的范围的限制，而应被解释为对特定发明的特定实施例可能特定的特征的描述。在本专利文档中在分离实施例的上下文中描述的某些特征也可以在单个实施例中组合实施。相反，在单个实施例的上下文中描述的各种特征也可以在多个实施例中分离地或以任何合适的子组合来实施。此外，尽管特征可能在上文被描述为在某些组合中起作用，甚至最初也如此要求被保护，但在某些情况下，可以从组合中删除所要求保护的组合中的一个或多个特征，并且所要求保护的组合可以针对子组合或子组合的变体。

类似地，虽然在附图中以具体顺序描绘了操作，但这不应理解为要求以所示出的具体顺序或先后顺序执行这些操作，或要求执行所有图示出的操作，以实现期望的结果。此外，在本专利文档中描述的实施例中的各种系统组件的分离不应被理解为在所有实施例中都要求这种分离。

仅描述了一些实施方式和示例，并且可以基于本专利文档中描述和图示出的内容进行其他实施、增强和变化。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：吴熙东;吴秀波;
专利申请人：唯众挚美影视技术公司;

上一篇：一种可解释重症儿童死亡风险评估模型、装置及建立方法
下一篇：用于计算机生成全息术合成的系统和方法