掌桥专利:专业的专利平台
掌桥专利
首页

源设备、接收设备、方法和计算机程序

文献发布时间:2023-06-19 12:14:58


源设备、接收设备、方法和计算机程序

技术领域

本发明的实施例涉及一种用于在一个或多个数字媒体接口上提供音频数据和视频数据的源设备。

本发明的进一步实施例涉及一种接收设备,特别是视频接收设备。

本发明的进一步实施例涉及另一种接收设备,特别是音频接收设备。

本发明的进一步实施例涉及一种用于在一个或多个数字媒体接口上提供音频数据和视频数据的方法。

本发明的进一步实施例涉及一种计算机程序。

根据本发明的实施例提供了在经由HDMI、HDMI ARC和S/PDIF连接的音频/视频设备中实现唇音同步的手段。

背景技术

音频/视频内容的回放通常涉及许多设备,这些设备使用例如HDMI,HDMI ARC和S/PDIF链路相互连接。HDMI承载例如音频和视频,HDMI ARC和S/PDIF承载例如仅音频。以HDMI或HDMI ARC连接的所有设备相互之间以HDMI CEC总线连接。S/PDIF(电的或光学的TOSLINK)是纯单向连接。

为了回放,源设备(例如STB,机顶盒)将音频和视频流发送到接收设备,例如TV(电视机)。对于视频和音频使用不同的接收设备也很常见,例如TV用于视频和AVR或条形音箱(soundbar)用于音频。此外,HDMI网络中可能还有其他设备,例如中继器或开关或附加源或接收器(sink)。例如,视频总是以原始格式传输,对于音频,各种格式都是可能的,包括未压缩(例如PCM)和压缩(例如MPEG-H)的格式。

为了实现唇音同步,HDMI规范(HDMI 1.4、HDMI2.0)建议音频和视频由源设备同步播出。然后,对视频路径和音频路径应用相同时延以便视频和音频的渲染将在恰好相同时间发生被视为所有下游设备的责任。

这在简单的情况下运行得很好,例如当使用PCM音频从STB播出到TV时。TV知道用于视频的渲染时间,并将此时间用作音频的延迟,然后再将其发送到扬声器。

如果音频处理(解码和渲染)所需的时间大于视频渲染所需的时间,就会出现问题。由于视频以原始格式在HDMI上传输,因此无法通过合理的努力在接收设备中延迟视频。因此,HDMI规范要求音频时延不大于视频时延+20毫秒(请参阅HDMI 2.0a 10.6.1.1)。

但是,当今功能强大的音频编解码器通常具有比典型视频渲染时间更长的解码时间。此外,接收设备可能需要大量时间用于音频渲染算法(例如在条形音箱中)或扬声器的无线连接。因此,需要一种解决方案,当音频时延大于视频时延时可以实现唇音同步。

如果音频接收器(audio sink)和视频接收器(video sink)不是相同的设备,则会出现另外的问题。在这种情况下,音频接收器应该知道(或需要知道)视频接收器的时延以根据当前计划调整其时延。

HDMI限定一种可选机制,以便接收设备在EDID(从接收器发送到源的信息)中报告其视频和音频时延,但这几乎从未实现,并且因此无法在实践中使用。而且即使实现了,它也是静态和平均的信息,不会随着视频时延的变化而变化。当处理不同的视频分辨率或在TV上选择不同的视频选项(例如快速游戏模式)时,视频时延可能会改变。

HDMI 2.0还限定可选CEC命令来报告变化的视频时延时间(请参阅HDMI2.0a10.7.1)。但同样,这几乎从未实施,并且因此无法在实践中使用。

应当注意,可选地,可以在根据本发明的实施例中应用或可以存在一些或全部特征、功能和细节(至少在这与下面描述的概念不冲突的情况下)。

因此,需要改进连接的音频和视频设备中的音频和视频回放的同步。

发明内容

根据本发明的实施例提供了一种源设备,用于在一个或多个数字视频接口上提供音频数据和视频数据,数字视频接口例如为HDMI端口(例如根据规范HDMI 1.4或稍后版本)。源设备被配置为基于关于音频路径的时延的信息和基于关于视频路径的时延的信息自动调整例如以音频流的形式的音频数据的提供和例如以视频流的形式的视频数据的提供之间的时间对准。音频路径的时延是例如从源设备提供音频数据直到例如音频接收设备提供可听音频信息(即音频数据的回放)的时延。视频路径的时延例如是从源设备提供视频数据或音频数据直到例如视频接收设备或视频源设备提供可见视频数据的时延。

源设备基于以下思想:音频数据的回放和视频数据的回放的同步可以通过调整由源设备进行的音频数据的提供和视频数据的提供之间的时间对准来改进。由于源设备例如被配置为可以利用关于音频路径的时延的信息和关于视频路径的时延的信息,源设备能够考虑音频路径的时延和视频路径的时延二者以用于调整音频数据的提供和视频数据的提供之间的时间对准。由于源设备提供音频数据和视频数据二者,源设备可以有效地调整音频数据和视频数据之间的时间对准(例如,这可能比在接收设备处添加延迟更有效)。

例如,源设备可以相对于视频数据的提供延迟音频数据的提供,或者源设备可以相对于音频数据的提供延迟视频数据的提供。因此,源设备能够相对于彼此延迟音频数据的提供和视频数据的提供二者。因此,例如,在音频路径的时延大于视频路径的时延的情况下以及在视频路径的时延大于音频路径的时延的情况下,或者在音频路径的时延等于视频路径的时延的情况下,源设备能够改进音频数据的回放和视频数据的回放的同步。

例如,调整音频数据的提供和视频数据的提供之间的时间对准可以导致音频数据的回放和视频数据的回放的完美唇音同步。

例如,音频路径的时延可能比视频路径的时延大20毫秒以上。源设备可以调整音频数据的提供和视频数据的提供之间的时间对准,从而可以实现针对这些情况的唇音同步。

例如,如果源设备提供的音频数据被确定由音频接收器或音频回放设备通过使用MPEG-H编解码器解码,则由于音频数据的解码而导致的时延可能较大,例如超过20毫秒。

由于音频数据的提供和视频数据的提供之间的时间对准由源设备调整,所以可以改进不同设备集合内的音频数据的回放和视频数据的回放之间的同步,即使设备集合的子集无法相互通信。例如,即使音频路径内的设备或视频路径内的设备不兼容通信,例如向另一个设备(例如源设备或音频路径或视频路径中的另一个设备)传达关于时延的信息,也可以改进音频数据的回放和视频数据的回放的同步。

源设备被配置为自动调整音频数据的提供和视频数据的提供之间的时间对准。例如,源设备可以能够与接收设备(例如音频接收设备或视频接收设备或音频回放设备或视频回放设备)通信,以便源设备可以对音频路径的时延和/或视频路径的时延的变化做出反应,使得源设备可以被配置为根据这些变化来调整音频数据的提供和视频数据的提供之间的时间对准。因此,源设备可以以非常可靠的方式改进视频数据的回放和音频数据的回放的同步。

例如,在音频时延比视频时延大20毫秒以上的情况下,源设备可以能够实现唇音同步。

例如,源设备可以与规范HDMI1.4和/或HDMI2.0兼容。

例如,源设备可以优于现有唇音同步管理算法(其仅针对音频时延比视频时延小20毫秒以上的情况限定)的速度和可靠性。

根据实施例,源设备被配置为从数据载体获取或接收或读取或生成编码的视频表示,以对编码的视频表示进行解码,以获得解码的视频表示,并提供视频数据,使得视频数据表示解码的视频表示,例如以原始数据格式,表示各个像素。例如,如果音频路径的时延大于视频路径的时延,源设备进一步被配置为基于关于音频路径的时延的信息和关于视频路径的时延的信息,选择性地延迟编码的视频表示的解码,例如,通过延迟或缓冲编码的视频表示。例如与延迟解码的视频表示相比,延迟编码的视频表示的解码(例如,从包括帧间相关性和/或两帧之间运动的描述的表示解码为各个帧的像素值的独立表示)是延迟视频数据的提供的非常有效的方式。由于源设备将解码编码的视频表示的功能与提供视频数据和音频数据二者的功能相结合,因此它可以非常有效地调整时间对准,并且能够实现音频数据的回放和视频数据的回放之间的非常准确的同步。

例如,源设备可以被配置为获得编码的音频表示并提供音频数据,使得音频数据表示编码的音频表示。因此,在音频接收设备可以基于音频数据提供可听音频信息之前,音频数据可能需要由音频接收设备或音频回放设备解码。在音频路径的时延大于视频路径的时延的情况下,例如由于由音频接收设备或音频回放设备解码音频数据而导致较大的音频时延,可能需要延迟由源设备进行的视频数据的提供以实现唇音同步或至少改善音频回放和视频回放的同步。源设备被配置为通过延迟编码的视频表示的解码来有效地延迟视频数据的提供。

根据本发明的实施例,源设备被配置为使用经由一个或多个数字接口之一从音频回放设备例如音频解码设备例如条形音箱获得的音频延迟信息来获得关于音频路径的时延的信息。源设备进一步被配置为使用经由一个或多个数字接口之一从视频渲染设备例如TV获得的视频延迟信息来获得关于视频路径的时延的信息。通过从获得自音频回放设备的音频延迟信息中获得关于音频路径的时延的信息,源设备能够提高关于音频路径的时延的信息的准确性。例如,源设备可以将从音频回放设备获得的音频延迟信息与从音频路径内的其他设备获得的更多音频延迟信息进行组合,从而获得关于音频路径的时延的信息。通过从获得自视频渲染设备的视频延迟信息中获得关于视频路径的时延的信息,可以提高关于视频路径的时延的信息的准确性。通过获得更准确的关于音频路径的时延的信息和/或关于视频路径的时延的信息,源设备可以通过非常准确地调整音频数据的提供和视频数据的提供之间的时间对准来实现音频回放和视频回放的更好的同步。

根据本发明的实施例,源设备被配置为与音频回放设备(例如被配置为对音频数据进行解码的音频回放设备)协商解码时延,并且根据协商的解码时延调整时间对准。例如,解码时延可以是被配置为解码音频数据的音频回放设备的音频解码时延。音频解码时延可以是音频回放设备需要或用于解码音频数据的时间。例如,源设备可以基于用于对编码的视频表示进行解码的视频解码时延来协商解码时延。例如,源设备可以协商解码时延,以使解码时延适应视频解码时延。通过与音频回放设备协商解码时延,源设备能够最小化音频数据的提供和/或视频数据的提供的延迟,这是实现唇音同步所必需的。例如,源设备可以发起对音频回放设备的解码时延的调整,以减小音频路径的时延和视频路径的时延之间的差,从而由源设备进行的音频数据的提供和视频数据的提供之间的时间对准的调整可以最小化。因此,源设备和音频回放设备之间的解码时延的协商可以减少获取视频数据和音频数据与回放视频数据和音频数据之间的时间段。

例如,源设备可以被配置为在源设备和音频解码设备之间执行时延协商(例如由DaNoL限定),从而可以将时延调整到最合适的值。

根据实施例,源设备被配置为,例如通过向音频回放设备发送请求时延信息消息,例如使用报告时延跨度消息从音频回放设备获得或请求描述可能时延值的跨度的时延跨度信息,或例如使用报告可能时延值消息从音频回放设备获得描述一个或多个可能时延值的时延列表信息。源设备进一步被配置为基于时延跨度信息或时延列表信息来选择期望时延值,例如使得期望时延值与关于视频路径的时延的信息相符。源设备进一步被配置为,例如,使用设置时延消息指示音频回放设备使用期望时延值。源设备进一步被配置为独立于所选的期望音频回放时延值来调整时间对准。通过获得时延跨度信息或时延列表信息,源设备能够从用于音频回放设备的可能时延值的跨度或一个或多个可能时延值中选中或选择与音频回放设备兼容的解码时延或时延值。由于源设备被配置为指示音频回放设备使用源设备选择的时延值,源设备能够基于关于视频路径的时延的信息以及关于音频路径的时延的信息和/或源设备的视频解码时延来调整音频设备的时延值或解码时延。因此,源设备能够避免音频路径和视频路径的不必要的长时延。

根据实施例,源设备被配置为验证音频回放设备是否如所指示地使用所选的期望时延值,并且源设备被配置为如果音频回放设备未能使用所选的期望时延值,考虑默认时延值。由于源设备被配置为验证音频回放设备是否如所指示地使用所选的期望时延值,因此源设备可以避免基于音频回放设备的错误假设时延值(或换句话说,关于音频路径的时延的错误信息)来调整音频数据的提供和视频数据的提供之间的时间对准。由于源设备被配置为在音频回放设备未能使用所选的期望时延值的情况下考虑默认时延值,因此如果与音频回放设备的解码时延协商失败,源设备可以仍然能够正确地调整音频数据的提供和视频数据的提供之间的时间对准。

根据实施例,源设备被配置为接收时延协商请求,时延协商请求包括例如使用报告时延跨度消息来自音频回放设备的描述可能时延值的跨度的时延跨度信息,或包括例如使用报告可能时延值消息来自音频回放设备的描述一个或多个可能时延值的时延列表信息。源设备进一步被配置为基于时延跨度信息或时延列表信息选择期望时延值,例如使得期望时延值与关于视频路径的时延的信息相符。由于源设备被配置为接收时延协商请求,因此源设备能够基于来自另一设备的请求来调整或检查音频数据的提供和视频数据的提供之间的时间对准,使得源设备可以对音频路径的时延的变化做出反应。

根据本发明的实施例,源设备被配置为发现源设备和音频回放设备之间的连接以及源设备和视频渲染设备之间的连接的拓扑,以获得拓扑信息。源设备进一步被配置为根据拓扑信息调整时间对准。通过发现源设备和视频渲染设备之间的连接的拓扑,源设备能够获得关于视频路径的时延的更准确信息。通过发现源设备和音频回放设备之间的连接的拓扑,源设备能够获得关于音频路径的时延的更准确信息。例如,源设备可以通过考虑在源设备和音频回放设备之间的连接中包括的一个或多个设备的一个或多个时延值来获得关于音频路径的时延的信息。例如,源设备可以通过考虑在源设备和视频渲染设备之间的连接的拓扑中包括的一个或多个设备的一个或多个时延值来获得关于视频路径的时延的信息。

根据实施例,源设备被配置为,例如,通过接收表示总音频时延信息的消息获得总音频时延信息,例如EDID音频时延,例如AL

根据实施例,源设备被配置为查询多个单独的设备(例如源设备和音频回放设备之间的链中的设备,或者源设备和视频渲染设备之间的链中的设备)以获得设备独特(音频和/或视频)时延信息(例如,使用(<请求时延信息>)消息,或可选地,通过使用(<请求EDID时延信息>)消息),其中设备独特(音频)时延信息例如,可以包括与使用第一音频模式的回放相关联的时延信息,AL

根据实施例,源设备被配置为,如果对于视频渲染设备以及例如源设备和视频渲染设备之间的视频路径中的所有设备,设备独特当前视频时延信息对源设备可用,则使用设备独特当前视频时延信息的总和,确定例如选择性地确定,关于视频路径的时延的信息。替代地或附加地,源设备被配置为,如果总视频时延信息、描述视频渲染设备对总视频时延信息的贡献的时延信息、以及视频渲染设备的当前视频时延信息对源设备可用,而某些设备独特当前视频时延信息对源设备不可用,则使用描述用于第一视频模式(例如,传统视频模式或非MPEG-H视频模式)的视频路径的总时延或描述视频路径在多个视频模式上的平均总时延的总视频时延信息,进一步使用描述视频渲染设备对总视频时延信息的贡献的时延信息,例如VL

换句话说,如果关于视频路径的时延的一些信息不可用,则源设备可以使用优雅降级,其中时间对准可被逐渐降低准确度但是仍可被调整。

根据实施例,源设备被配置为,如果对于例如源设备和音频回放设备之间的音频路径中的所有设备,设备独特转移时延信息是可用的,则使用与用于第二音频模式(例如,MPEG-H)的音频信息的转移相关联的设备独特(音频)转移时延信息(例如AL

根据实施例,源设备被配置为,使用与使用第一音频模式的回放相关联的时延信息(例如AL

根据实施例,源设备被配置为根据对源设备可用的信息量,例如根据所有设备(例如源设备和音频回放设备之间的音频路径中的设备)的设备独特转移时延信息的可用性,和/或根据总音频时延信息(例如EDID音频时延,例如AL

换句话说,源设备可以被配置为为每个(或一些)获得的信息限定优先级并且仅(或主要)使用最可靠的信息,而时间对准的调整可以逐步达到估计值的级别。

根据实施例,源设备被配置为根据关于视频路径的时延的信息和根据音频路径的时延的信息,确定待在音频数据的提供中应用的延迟和/或待在视频数据的提供中应用的延迟,例如从而调整时间对准。通过确定待在音频数据的提供和/或视频数据的提供中应用的延迟,可以非常有效地调整时间对准。

换言之,源设备可以例如被配置为针对每个(或至少多个)音频编解码器并且甚至针对音频编解码器的子风格独立地调整音频时延和视频时延。

根据实施例,源设备被配置为还允许使用用户接口例如使用滑块来调整时间对准。通过允许用户调整时间对准,即使对源设备可用的关于视频路径和音频路径的时延的信息量不足或不准确,或者关于视频路径和音频路径的时延的部分或信息是错误的,也可以手动实现唇音同步。

根据实施例,源设备被配置为使用与一个或多个数字媒体接口分开的附加链路(例如WLAN或以太网或蓝牙或其他网络连接)与音频回放设备和/或视频渲染设备和/或一个或多个设备(例如诸如源设备与音频回放设备之间的例如音频路径的信号路径中的设备,和/或例如诸如源设备和视频渲染设备之间的例如视频路径的信号路径中的一个或多个设备)进行通信,以从一个或多个设备获得时延信息。通过经由附加链路进行通信,可以改进视频回放和音频回放的同步,而不管音频回放设备和/或视频渲染设备和/或一个或多个设备经由一个或多个数字媒体接口传达时延信息的能力。

根据实施例,源设备被配置为执行CEC发现和/或时延协商,如在章D.1“CEC发现和时延协商(CEC DaNoL)”中所述。

根据实施例,源设备,例如,如前所述,被配置为执行章C.1“MPEG_H调整源延迟算法(MASDA)”中描述的一个或多个功能或步骤。

根据本发明的进一步实施例提供了一种接收设备,例如音频回放设备,其中接收设备被配置为经由数字媒体接口接收音频数据,数字媒体接口例如为1.4版本或向下兼容版本的HDMI接口或“高清多媒体接口”,其中接收设备被配置为对接收的音频数据进行解码,以获得解码的音频数据,并且其中接收设备被配置为输出解码的输出数据,例如使用一个或多个扬声器,或使用模拟接口,如模拟音频端口或耳机插孔。接收设备进一步被配置为响应于来自源设备的请求,例如使用HDMI CEC消息,例如使用由接收设备响应于从源设备接收到的消息而输出的(<时延信息>)消息,报告设备独特时延信息,设备独特时延信息包括与使用第一音频模式的回放(例如,低时延回放模式或使用第一输入数据格式的回放模式)相关联的时延信息,例如,AL

根据实施例,接收设备被配置为与源设备协商与第二音频模式相关联的解码时延或回放时延。通过协商解码时延,可以将解码时延调整为短的,例如尽可能短,以实现解码的音频数据的输出和相关视频数据的回放之间的唇音同步。

根据实施例,接收设备被配置为例如经由数字媒体接口,例如,使用(<上报时延跨度>)消息或(<报告时延跨度>)消息,向源设备提供描述可能解码时延值或回放时延值的跨度的时延跨度信息。可替代地,接收设备被配置为,例如使用(<报告可能时延值>)消息,向源设备提供描述一个或多个可能解码时延值或回放时延值的时延列表信息。例如,接收设备可以被配置为响应于从源设备接收到消息而提供时延跨度信息或时延列表信息。接收设备进一步被配置为从源设备接收时延选择消息,例如使用HDMI CEC机制的(<设置时延>)消息,并响应于时延选择消息设置解码时延或回放时延。能够提供时延跨度信息或时延列表信息的接收设备确保了解码时延的有效协商。

根据实施例,接收设备被配置为,例如,通过接收表示总音频时延信息的消息,提供对总音频时延信息(例如EDID音频时延,例如,AL

根据实施例,由接收设备提供的对总音频时延信息的贡献等于与使用第一音频模式的回放相关联的时延信息。

根据实施例,接收设备被配置为执行在章D.1“CEC发现和时延协商(CEC DaNoL)”中描述的一个或多个功能或步骤。

接收设备依赖于与上述源设备相同的思想。例如,接收设备可以与源设备结合使用。因此,接收设备可以与在源设备的上下文中描述的与接收设备或回放设备有关的任何特征组合。此外,源设备的上述优点同样适用于接收设备,特别是当将接收设备与上述源设备结合使用时。

根据本发明的进一步实施例提供了一种接收设备,例如视频回放设备,其中接收设备被配置为经由数字媒体接口接收视频数据,数字媒体接口为例如1.4版本或向下兼容版本的HDMI接口或“高清多媒体接口”,其中接收设备被配置为渲染接收的视频数据。接收设备还被配置为,例如通过提供表示总视频时延信息的消息,报告设备独特时延信息,设备独特时延信息包括表示对总视频时延信息(例如EDID视频时延,例如VL

根据实施例,接收设备被配置为,例如通过提供表示总视频时延信息的消息,提供对总视频时延信息(例如EDID视频时延,例如,VL

根据实施例,由接收设备报告的设备独特时延信息还包括与使用第一音频模式(例如低时延音频模式)的音频回放相关联的时延信息,AL

根据实施例,接收设备被配置为例如,通过接收表示总音频时延信息的消息,提供对总音频时延信息(例如EDID音频时延,例如,AL

根据实施例,接收设备被配置为提供设备独特时延信息,使得由接收设备报告的设备独特时延信息包括与从第一数字媒体接口到第二数字媒体接口的音频数据的转发相关联的时延信息,其中例如,第二数字媒体接口可以是与第一数字媒体接口相同的类型,或者,其中例如,第一数字媒体接口和第二数字媒体接口可以是不同的类型,或者其中例如第一数字媒体接口和第二数字媒体接口可以使用不同的协议,或者其中第一数字媒体接口是HDMI端口而第二数字媒体接口是S/PDIF接口。通过提供与从第一数字媒体接口到第二数字媒体接口的音频数据的转发相关联的时延信息,在音频回放设备(直接或间接)连接到接收设备的情况下,接收设备可以使源设备能够改进由接收设备渲染的视频数据的回放和音频数据的回放的同步,使得接收设备可以例如用作描述音频数据的信号和描述视频数据的信号的分离器。

根据实施例,接收设备被配置为执行在章D.1“CEC发现和时延协商(CEC DaNoL)”中描述的一个或多个功能或步骤。

根据本发明的进一步实施例提供一种用于在一个或多个数字媒体接口例如HDMI端口(例如根据规范HDMI 1.4或稍后版本)上提供音频数据和视频数据的方法,其中方法包括基于关于音频路径的时延的信息并且基于关于视频路径的时延的信息,自动调整音频数据的提供和视频数据的提供之间的时间对准,音频数据例如以音频流的形式,视频数据例如以视频流的形式,音频路径例如从源设备提供音频数据直到提供可听音频信息,视频路径例如从源设备提供音频数据直到提供提供可见视频数据。

根据本发明的进一步实施例提供了一种用于操作接收设备例如音频回放设备的方法,其中方法包括经由数字媒体接口接收音频数据,数字媒体接口例如为版本1.4或向下兼容版本的HDMI接口或“高清多媒体接口”,其中方法包括对接收的音频数据进行解码以获得解码的音频数据,并且其中方法包括输出解码的输出数据,例如使用一个或多个扬声器,或使用模拟接口,如模拟音频端口或耳机插孔。方法进一步包括响应于来自源设备的请求,例如使用HDMI CEC消息,例如使用由接收设备响应于从源设备接收到的消息而输出的消息,报告设备独特时延信息,设备独特时延信息包括与使用第一音频模式(例如低时延回放模式或使用第一输入数据格式的回放模式)的回放相关联的时延信息,例如,AL

根据本发明的进一步实施例提供了一种用于操作接收设备例如视频回放设备的方法,其中方法包括经由数字媒体接口接收视频数据,数字媒体接口例如为1.4版本或向下兼容版本的HDMI接口或“高清多媒体接口”,其中方法包括渲染接收的视频数据;其中,方法包括报告设备独特时延信息,设备独特时延信息包括表示对总视频时延信息(例如EDID视频时延,例如VL

所描述的方法依赖于与上述设备相同的思想,提供相同或等效的功能和优点。方法可以可选地结合(或补充以)本文关于相应设备,即,源设备或接收设备描述的任何特征、功能和细节。这些方法可以任选地与所提及的特征、功能和细节单独地或以它们的任何组合方式组合。

根据本发明的进一步实施例提供了一种计算机程序,当计算机程序在计算机上运行时,计算机程序用于执行上述方法中的至少一个。

附图说明

下面结合附图对本公开的实施例进行更详细的描述,其中:

图1示出了根据实施例的源设备的示意性表示,

图2示出了根据进一步实施例的源设备的示意性表示,

图3示出了根据实施例的用于调整时间对准的调整器的框图,

图4示出了根据实施例的时延协商块的示意性流程图,

图5A-I示出了根据实施例的源设备、音频回放设备和视频渲染设备的各种布置的示意性表示,

图6示出了根据实施例的接收设备例如音频回放设备的示意性表示。

图7示出了根据进一步实施例的接收设备例如音频回放设备的示意性表示。

图8示出了根据实施例的接收设备例如视频渲染设备的示意性表示。

图9示出了根据进一步实施例的接收设备例如视频渲染设备的示意性表示,

图10示出了根据实施例的用于提供音频数据和视频数据的方法的框图,

图11示出了根据实施例的用于操作接收设备例如音频回放设备的方法的框图,

图12示出了根据实施例的用于操作接收设备例如视频渲染设备的方法的框图,

表1列出了根据实施例的用于时延协商的通信的值,

表2列出了根据实施例的用于时延发现和时延协商的消息,

表3列出了根据可选实施例的用于时延发现和时延协商的消息,

表4列出了根据可选实施例的用于时延协商的通信的值。

具体实施方式

在下文中,将描述不同的发明实施例和方面。参考附图描述了一些实施例。在章D.1“CEC发现和时延协商(CEC DaNoL)”和章C.1“MPEG-H调整源延迟算法(MASDA)”中描述了进一步的实施例。此外,进一步的实施例将由所附权利要求限定。

应当注意,由权利要求限定的任何实施例可以由本文描述的细节(特征和功能)中的任何一个来补充。此外,本文描述的实施例可以单独使用,并且还可以可选地由权利要求中包括的任何细节(特征和功能)来补充。此外,应当注意,本文描述的各个方面可以单独使用或组合使用。因此,可以将细节添加到所述各个方面中的每个,而无需将细节添加到所述方面中的另一个。还应注意,本公开明确或隐含地描述了可在音频和/或视频设备中使用的特征。因此,本文描述的任何特征都可以在音频和/或视频设备的上下文中使用。

此外,本文公开的与方法相关的特征和功能也可以用在装置中(被配置为执行这样的功能)。此外,本文公开的关于装置的任何特征和功能也可以用于相应的方法中。换句话说,本文公开的方法可以由关于装置描述的任何特征和功能来补充。

从下面给出的详细描述和本发明实施例的附图,可以更全面地理解本发明,然而,下面给出的详细描述和本发明实施例的附图不应被理解为将本发明限制于所描述的具体实施例,而仅用于解释和理解。

在下文中,三位数附图标记的第一位数字对应于附图标记所指的图的编号。

图1示出了用于在一个或多个数字媒体接口170上提供音频数据160和视频数据165的源设备100的示意性表示。源设备100被配置为基于关于音频路径180的时延的信息110和基于关于视频路径190的时延的信息120,自动调整音频数据160的提供和视频数据165的提供之间的时间对准150。

例如,音频路径180连接到一个或多个数字媒体接口170中的第一个并且视频路径190连接到一个或多个数字媒体接口170中的第二个或者也连接到一个或多个数字媒体接口170中的第一个。也就是说,音频路径180和视频路径190可以是分开的或者可以至少部分地重叠。

音频路径180可以是表示如在一个或多个数字媒体接口之一处提供的音频数据160的信号的贯穿一个或多个数字媒体接口之一以将信号转换成可听信号或声学信号的信号路径。音频路径包括时延,时延可以是从在一个或多个数字媒体接口之一处提供信号直到例如通过音频路径180中的设备输出可听信号或声学信号的时间跨度。也就是说,音频路径的时延可以是时间跨度,信号需要完成音频路径180。

视频路径190可以是表示视频数据165的信号的信号路径,信号在一个或多个数字媒体接口之一处提供,信号路径贯穿一个或多个数字媒体接口之一以将信号转换为可见信号。视频路径包括时延,时延可以是从在一个或多个数字媒体接口之一处提供信号直到例如由视频路径190中的设备输出可见信号的时间跨度。也就是说,视频路径的时延可以是时间跨度,信号需要完成视频路径190。

源设备100包括调整器102,调整器102被配置为获得关于音频路径180的时延的信息110和关于视频路径190的时延的信息120。调整器102被配置为自动获得时间对准150。调整器102包括计算器130,计算器130被配置为基于关于音频路径180的时延的信息110和关于视频路径190的时延的信息120来调整或计算时间对准130。

需要指出的是,根据图1的源设备100可以可选地由本文中相对于其他源设备描述的所有特征、功能和细节来补充。相应的特征、功能和细节可以可选地以单独或任意组合方式添加到源设备100。

图2示出了根据实施例的源设备200的示意性表示。源设备200可以例如对应于源设备100。

源设备200被配置为向音频路径280提供音频数据260,例如以音频数据260的编码的表示。音频路径280可以对应于音频路径180。

音频路径280包括音频回放设备282,例如音频接收设备或音频解码设备,被配置为重放音频数据260,即基于音频数据260提供可听音频信息。例如,音频回放设备282被配置为对音频数据260进行解码。

音频回放设备282被配置为例如在第一音频模式或第二音频模式下操作。第一音频模式可以与解码音频数据的类型或重放音频数据的类型有关,例如传统模式或非MPEG-H模式。MPEG-H模式可以指根据MPEG-H编解码器对音频数据进行解码。第二音频模式可以与高质量音频模式或与解码音频数据的耗时类型有关。例如,第二音频模式可以指包括超过20毫秒的解码时延的解码类型,或者指MPEG-H模式。

音频路径280可以可选地包括其它设备,例如视频回放设备或连接设备或中继器或不活跃的音频和/或视频设备。其它设备可以被配置为转移音频数据260。其它设备可以被配置为操作或支持第一音频模式和/或第二音频模式。

源设备200被配置为向视频路径290提供视频数据265,例如以视频数据265的解码的表示。视频路径290可以对应于视频路径190。

视频路径290包括视频回放设备292,例如视频接收设备或视频渲染设备,被配置为重放视频数据265,即,基于视频数据265提供可见视频信息。

视频回放设备292可以被配置为渲染视频数据265,例如使用第一或第二视频模式,例如游戏模式或电影模式。视频回放设备292可以是音频路径280的部分。

视频路径290可以可选地包括其它设备,例如音频回放设备或连接设备或中继器或不活跃的音频和/或视频设备,例如音频设备282。其它设备可以被配置为转移视频数据265。

源设备200包括调整器202,调整器202被配置为自动调整可以对应于时间对准150的时间对准250。调整器202包括计算器230,计算器230被配置为基于关于音频路径280的时延的信息210并基于关于视频路径290的时延的信息220计算时间对准250。

关于音频路径的时延的信息210可以包括关于源设备200和音频回放设备282之间的路径的时延和音频回放设备282的解码时延的信息。

源设备200包括解码器266。解码器266被配置为对视频数据的编码的表示267进行解码以获得以解码的视频表示的视频数据265。源设备200被配置为在一个或多个数字媒体接口270上提供视频数据265的解码的视频表示。

源设备200可以被配置为基于时间对准250延迟音频数据260的提供。例如,如果视频路径290的时延大于音频路径280的时延,源设备200可以被配置为延迟音频数据260的提供。如果音频路径280的时延大于视频路径290的时延,则源设备200可以被配置为延迟视频数据267的解码。

换言之,源设备200被配置为获得编码的视频表示267。源设备200进一步被配置为对编码的视频表示267进行解码,以获得解码的视频表示。源设备200被配置为提供视频数据265,使得视频数据265表示解码的视频表示。源设备200进一步被配置为基于关于音频路径280的时延的信息210和关于视频路径290的时延的信息220选择性地延迟编码的视频表示的解码。

换言之,源设备200被配置为基于时间对准250延迟解码器266对视频数据267的解码。

源设备200被配置为使用经由一个或多个数字接口270之一从音频回放设备获得的音频延迟信息212来获得关于音频路径280的时延的信息210。例如,源设备200从音频路径280中的设备获得音频延迟信息212。另外或替代地,源设备200被配置为使用经由一个或多个数字接口270之一从视频渲染设备获得的视频延迟信息222来获得关于视频路径290的时延的信息220。例如,源设备200被配置为从视频路径290中的设备获得视频延迟信息222。

音频延迟信息212可以包括总音频时延信息214。总音频时延信息214可以包括沿着音频路径280的至少部分的设备的音频时延的总和。总音频时延信息214可以包括涉及第一音频模式的时延。例如,总音频时延信息214可以包括关联于或涉及用于第一音频模式的转移时延或回放时延或解码时延的时延。总音频时延信息214可以例如是在EDID信息中报告的音频时延,例如AL

音频延迟信息212可以进一步包括设备独特音频时延信息216。例如,设备独特音频时延信息216可以包括设备独特音频时延贡献217,设备独特音频时延贡献217可以是设备对总音频时延信息214的贡献。设备独特音频时延贡献217可以例如是与音频数据例如在第一音频模式(例如在非MPEG-H模式)下的回放相关联的时延,例如AL

设备独特音频时延信息216还可以包括音频解码信息218,音频解码信息218可以是关于与音频数据例如在第二音频模式(例如MPEG-H模式)下的回放例如可听音频数据的解码和/或输出相关联的时延的信息。音频解码信息218可以指代为AL

设备独特音频时延信息216可以进一步包括设备独特转移时延信息219,设备独特转移时延信息219可以指关于与第二音频模式下的音频数据的转移(例如用于为音频路径中的另一个设备提供音频数据,另一个设备在第二音频模式下操作)相关联的时延的信息。例如,设备独特转移时延信息219可以指AL

视频延迟信息222可以包括总视频时延信息224。总视频时延信息224可以包括设备独特视频时延的总和,例如视频路径290内的设备的视频时延的总和。总视频时延信息224例如,可以在EDID信息中报告。总视频时延信息224可以指代为VL

视频延迟信息222可以进一步包括设备独特视频时延信息226。设备独特视频时延信息226可以包括设备独特视频时延贡献227,例如视频路径290中的设备对总视频时延信息222的设备独特贡献。设备独特视频时延贡献227可以包括关于与视频数据的回放或视频数据的转移相关联的时延(例如回放时延或转移时延)的信息。设备独特视频时延贡献227可以指代为VL

设备独特视频时延信息226可以进一步包括当前视频时延信息228。当前视频时延信息228可以包括关于与视频数据的回放或渲染相关联的时延的信息,该时延例如为在信号输入到设备(例如视频回放设备)和设备输出信号作为可见信号之间的时间跨度,信号例如为表示视频数据的信号。

换言之,源设备200被配置为获得总音频时延信息214,总音频时延信息214描述用于第一音频模式的音频路径280的总时延。附加地或替代地,源设备200可以被配置为获得总视频时延信息224,总视频时延信息224描述用于第一视频模式或视频模式的视频路径290的总时延。

调整器202可以包括通信器240,通信器240可以被配置为接收视频延迟信息222和音频延迟信息212。

通信器240被配置为经由数字媒体接口270与音频回放设备282和/或视频渲染设备292或视频和/或音频路径中的另一设备通信。即,源设备400被配置向音频回放设备282和/或视频渲染设备292或视频和/或音频路径中的另一设备发送消息和从其接收消息。

例如,源设备400和音频回放设备482之间的通信可以由通信协议指定,例如由通信协议CEC(“消费电子控制”)指定,其例如在HDMI 1.4b-CEC中描述。

例如,源设备400和音频回放设备482之间的通信可以如章D.1中所述和/或根据如表2或者可替代地和可选地表3中所述的消息和规则来执行。

例如,源设备400可以被配置为将表2或者可替代地和可选地表3中所示的一个或多个消息传输到一个或多个接收设备(例如使用接收设备的单独直接寻址或广播)和(如果适用)从一个或多个接收设备(例如在接收设备的链中)接收相应应答消息,并使用包括在相应应答消息中的信息(例如,用于调整时间对准)。

可替代地,例如,源设备400可以被配置为从一个或多个接收设备接收表2或者可替代地和可选地表3中所示的一个或多个消息,并且(如果适用)向包括关于设备独特时延的信息的一个或多个接收设备(例如在接收设备的链中)传输(例如使用接收设备的单独直接寻址或广播)相应应答消息。

通信器240可以进一步被配置为请求设备独特音频时延信息216和/或设备独特视频时延信息226。因此,通信器240被配置为与音频路径280和/或视频路径290内的设备通信。例如,通信器240可以请求设备传达其设备独特音频时延信息216和/或其设备独特视频时延信息226。

换句话说,源设备200被配置为向多个单独的设备查询它们的设备独特时延信息,即它们的设备独特音频时延信息216和/或它们的设备独特视频时延信息226。

通信器240可以进一步被配置为与音频回放设备,例如在第二音频模式(例如MPEG-H模式)下操作的音频回放设备,协商设备独特音频回放时延280。

源设备200可以可选地包括用户接口205。用户接口205被配置为接收用户调整206。用户接口205进一步被配置为根据用户调整206调整时间对准250。用户接口205可以被配置为接收包括用户调整206的信号。替代地或附加地,用户接口205可以允许用户直接与源设备200交互。

如果音频路径280和/或视频路径290中的一个或多个设备不兼容与源设备200的通信或者未能通信或未能传达关于它们的时延的正确信息,则调整器202可能不能胜任调整时间对准250。例如除了由调整器202自动调整时间对准250之外,用户接口205还向用户提供手动调整时间对准250的手段。

换言之,源设备200被配置为还允许使用用户接口205调整206时间对准250。

源设备可以可选地包括附加链路207,例如被配置为交换数据或与设备通信的通信接口。附加链路207被配置为与音频路径280和/或视频路径290中的设备(例如音频回放设备282、视频渲染设备290或另一设备)通信。例如,附加链路207可以经由WLAN、以太网、蓝牙或其他有线或无线连接进行通信。源设备200可以被配置为经由附加链路207请求和/或接收和/或协商时延信息,例如音频延迟信息212和/或视频延迟信息222。源设备200被配置为从音频回放设备282和/或视频渲染设备292和/或其他设备获得时延信息。例如,调整器202可以经由附加链路207获得信息或使用附加链路207进行通信,例如通过通信器240进行通信。

换言之,源设备200被配置为使用附加链路207与音频回放设备282和/或视频渲染设备292和/或源设备200和音频回放设备282之间的一个或多个设备和/或源设备200和视频渲染设备292之间的一个或多个设备进行通信,以获得来自一个或多个设备的时延信息,附加链路207与一个或多个数字媒体接口270分开。

在图3中描述的调整器302的上下文中描述了关于调整器202的更多细节,其特征可以单独地或彼此组合地体现在调整器302中。

图3示出了根据实施例的用于调整时间对准350的调整器302的框图。调整器302可对应于调整器102或调整器202。时间对准350可对应于时间对准150或时间对准250,其可用于延迟音频数据160、260或视频数据165、265,如A和B部分中所述。图3利用示意性框图描述了调整器302的工作原理。

为了调整音频数据(例如音频数据160、260)的提供和视频数据(例如视频数据165、265)的提供之间的时间对准350,调整器302包括通信器340,例如通信器240,通信器340被配置为获得关于音频路径(例如音频路径180、280)的时延的信息310,以及获得关于视频路径(例如视频路径190、290)的时延的信息320。

通信器340包括发现器341,发现器341被配置为获得拓扑信息395,拓扑信息395包括音频路径的拓扑和/或视频路径的拓扑。基于拓扑信息395,通信器340可以请求设备独特时延信息或者可以决定如何处理音频延迟信息(例如,音频延迟信息212)和/或视频延迟信息(例如,视频延迟信息222)。

例如,发现器341可以被配置为使用CEC命令(例如在章D.1中描述的命令)进行通信,和/或根据如表2(或者可替代地或可选地表3)中描述的消息和规则进行通信。

例如,发现器341可以被配置为传输表2或者可替代地或可选地表3中所示的一个或多个消息到一个或多个接收设备(例如使用接收设备的单独直接寻址或广播)和(如果适用)从一个或多个接收设备(例如在接收设备的链中)接收相应应答消息,并且使用包括在相应应答消息中的信息(例如用于获得拓扑信息395)。

音频路径的拓扑例如可以描述一个或多个数字媒体接口之一与用于重放音频数据的音频回放设备之间的连接,数字媒体接口例如为数字媒体接口170、270,音频回放设备例如为音频回放设备282。例如,音频路径的拓扑可以包括关于音频路径内的设备的至少部分的信息。例如,音频路径的拓扑可以包括音频路径内的多个设备。音频路径的拓扑可以进一步包括关于音频路径内的设备的信息,例如音频路径内的设备的类型和/或音频路径内的设备的特性,例如关于设备经由数字媒体接口传达其属性的能力的信息。

视频路径的拓扑例如可以描述一个或多个数字媒体接口之一与用于重放视频数据的视频回放设备之间的连接,数字媒体接口例如为数字媒体接口170、270,视频回放设备例如为视频回放设备292。例如,视频路径的拓扑可以包括关于视频路径内的设备的至少部分的信息。例如,视频路径的拓扑可以包括视频路径内的多个设备。视频路径的拓扑可以进一步包括关于视频路径内的设备的信息,例如视频路径内的设备的类型和/或视频路径内的设备的特性,例如关于设备经由数字媒体接口传达其属性的能力的信息。

换言之,源装置300被配置为发现源设备300和音频回放设备之间的连接以及源设备300和视频渲染设备之间的连接的拓扑,以获得拓扑信息395,并且其中源设备300被配置为根据拓扑信息395调整时间对准350。

通信器340进一步包括总时延读取器342,总时延读取器342被配置为获得或接收总音频时延信息314(例如总音频时延信息214)/或总视频时延信息324(例如总视频时延信息224)。例如,总时延读取器342可以被配置为分别从音频路径和/或视频路径中的设备(例如从在源设备与音频回放设备和/或视频回放设备之间的连接内最靠近源设备的设备)接收总音频时延信息314和/或总视频时延信息324。例如,总时延读取器342可以被配置为读取音频路径内和/或视频路径内的设备的EDID信息。EDID信息可以包括总音频时延信息314,例如EDID音频时延AL

通信器进一步包括时延协商器343,时延协商器343被配置为与音频回放设备例如与音频回放设备282协商解码时延,例如音频解码时延。即,例如,时延协商器343可以被配置为选择待被音频回放设备用于解码音频数据的解码时延。其中,时延协商器343可以被配置为选择与音频回放设备兼容的解码时延。例如,时延协商器343可以被配置为基于时间对准350的当前值或者基于关于音频路径的时延的信息310的至少部分和/或关于视频路径320的时延的信息的至少部分来选择解码时延。作为与音频回放设备协商解码时延的结果,时延协商器343可以获得或可以知道音频解码时延信息318,例如音频解码时延信息218,音频解码时延信息318可以对应于例如可以在第二音频模式下操作的音频回放设备的协商的解码时延。图4中描述了关于协商器343的细节。

通信器340进一步包括收集器344。收集器344被配置为收集或获得设备独特时延信息,例如设备独特音频时延信息316(例如设备独特音频时延信息216)和/或设备独特视频时延信息326(例如设备独特视频时延信息316。设备独特音频时延信息316可以包括设备独特音频时延贡献317(例如设备独特音频时延贡献217)、音频解码时延318(例如音频解码时延218)和设备独特转移时延信息319(例如设备独特转移时延信息219)中的至少一个。设备独特视频时延信息326可以包括设备独特视频时延贡献327(例如设备独特视频时延贡献227)和当前视频时延信息328(例如当前视频时延信息228)中的至少一个。

例如,收集器344可以被配置为使用CEC命令(例如在章D.1中描述的命令)进行通信,和/或根据如表2或者可替代地或可选地表3中描述的消息和规则进行通信。

例如,收集器344可以被配置为传输表2或者可替代地或可选地表3中所示的一个或多个消息到一个或多个接收设备(例如使用接收设备的单独直接寻址或广播)以及(如果适用)从一个或多个接收设备(例如在接收设备的链中)接收相应应答消息,并且使用包括在相应应答消息中的信息(例如,用于获得设备独特音频时延信息316和/或设备独特时延信息326)。

例如,收集器344被配置为请求设备独特时延信息和/或接收设备独特时延信息。收集器344可以被配置为例如经由数字媒体接口,例如数字媒体接口170、270,经由通信协议与音频路径和/或视频路径中的设备进行通信。通信协议可以,例如,与数字媒体接口有关。例如,可以为HDMI指定通信协议。例如,通信协议可以是消费电子控制(CEC)协议。

例如,收集器344可以被配置为从设备请求设备独特时延信息,此设备是包含在拓扑信息395中的音频路径的拓扑的部分和/或视频路径的拓扑的部分。例如,收集器344可以被配置为向拓扑信息395所描述的设备发送消息。收集器344可以被配置为根据请求从设备接收设备独特时延信息。

调整器302进一步包括绝对视频时延计算器331。绝对视频时延计算器331被配置为基于视频延迟信息,例如视频延迟信息222,获得关于视频路径的时延的信息320,视频延迟信息可以包括总视频时延信息324和/或设备独特视频时延信息326。绝对视频时延计算器331被配置为根据视频延迟信息(即根据包含在视频延迟信息中的信息的量和类型)计算关于视频路径的时延的信息320的至少部分。

例如,视频延迟信息可以包括如拓扑信息395的视频路径的拓扑所描述的视频路径中的每个设备的当前视频时延信息328。在这种情况下,绝对视频时延计算器331可以通过加总视频路径中的所有设备的当前视频时延信息328,计算关于视频路径的时延的信息320。例如,绝对视频时延计算器331可以将源设备和视频渲染设备之间的所有设备的当前视频时延信息328与视频渲染设备的当前视频时延信息328相加。基于视频路径中的所有设备的当前视频时延信息228计算关于视频路径的时延的信息320可能是计算关于视频路径的时延的信息320的最可靠的方式。

如果视频时延信息包括总视频时延信息324和至少视频渲染设备的设备独特视频时延贡献327和当前视频时延信息328,则绝对视频时延计算器331可以通过使用第二视频时延计算333获得关于视频路径的时延的信息320。第二视频时延计算333可以例如被配置为通过修正视频渲染设备对总视频时延信息324的贡献来校正总视频时延信息324。例如,第二视频时延计算333可以用视频渲染设备的当前视频时延信息328代替视频渲染设备的设备独特视频时延贡献327对总视频时延信息324的贡献。因此,在视频渲染设备的设备独特视频时延贡献327不表示视频渲染设备的真实的当前视频时延的情况下,第二视频时延计算333可以校正总视频时延信息324。

如果视频延迟信息包括总视频时延信息324,则绝对视频时延计算器331可以替代地或附加地通过使用第三视频时延计算334获得关于视频路径的时延的信息320。第三视频时延计算334被配置为使用总视频时延信息324。例如,第三视频时延计算334可以被配置为使用总视频时延信息324的值作为关于视频路径的时延的信息320的值。

替代地或附加地,绝对视频时延计算器331可以使用第四视频时延计算335来获得关于视频路径的时延的信息320。第四视频时延计算335例如可以被配置为使用视频路径中的所有已知设备的当前视频时延信息328,即拓扑信息395中包含的视频路径的拓扑中描述的所有设备的当前视频时延信息328。此外,第四视频时延计算335可以使用视频渲染设备的估计的视频时延信息。视频渲染设备的估计的视频时延信息可以例如是视频渲染设备的当前视频时延信息328或通过附加协议或默认值获得的视频时延信息,附加协议例如为动态音频唇音同步(DALS)。

绝对视频时延计算器331可以被配置为基于信息的可用性,例如基于视频延迟信息的内容,在第一视频时延计算332、第二视频时延计算333、第三视频时延计算334和第四视频时延计算335之间进行选择。

换言之,源设备被配置为根据对源设备可用的信息量来选择用于确定关于视频路径的时延的信息320的确定规则。

换言之,源设备被配置为如果对于视频渲染设备以及源设备和视频渲染设备之间的所有设备,设备独特当前视频时延信息328对源设备可用,通过使用设备独特当前视频时延信息328的总和来确定关于视频路径的时延的信息320。附加地或替代地,源设备被配置为,如果总视频时延信息324、描述视频渲染设备对总视频时延信息324的贡献的时延信息327、以及视频渲染设备的当前视频时延信息328对源设备可用,而某些设备独特当前视频时延信息328对源设备不可用,通过使用总视频时延信息324、描述视频渲染设备对总视频时延信息324的贡献的时延信息327(例如,设备独特视频时延贡献327),以及视频渲染设备的当前视频时延信息328来确定关于视频路径320的时延的信息320,总视频时延信息324描述用于第一视频模式的视频路径的总时延或描述视频路径在多个视频模式上的平均总时延。附加地或替代地,源设备被配置为,如果总视频时延信息224对源设备可用,而视频渲染设备的当前视频时延信息328对源设备不可用,通过使用总视频时延信息324来确定关于视频路径的时延的信息320。

调整器302进一步包括绝对音频路径时延计算器336。绝对音频路径时延计算器336被配置为基于音频延迟信息,例如,音频延迟信息212,获得关于音频路径的时延的信息310。音频延迟信息可以包括由总时延读取器342获得的总音频时延信息314。音频延迟信息进一步可以包括由收集器344获得的设备独特音频时延信息316。如果音频延迟信息包括音频路径中的每个设备(即拓扑信息395中包含的音频路径的拓扑所描述的所有设备)的设备独特音频时延信息316,绝对音频路径时延计算器336可以被配置为通过使用第一音频路径时延计算337,获得关于音频路径的时延的信息310。第一音频路径时延计算337可以使用音频路径中的所有设备(例如,源设备和音频回放设备之间的所有设备,例如,不包括音频回放设备)的设备独特转移时延信息219。

如果音频延迟信息包括总音频时延信息314,则绝对音频路径时延计算器336进一步可以被配置为使用第二音频路径时延计算338计算关于音频路径的时延的信息310。第二音频路径时延计算338被配置为使用总音频时延信息314以及可选地音频回放设备的设备独特音频时延贡献317来获得源设备和音频回放设备之间的音频路径的时延,例如,不包括回放设备的时延。例如,如果音频回放设备在音频路径内,即总音频时延信息314包括音频回放设备的贡献,则第二音频路径时延计算338可以被配置为通过从总音频时延信息314中消除音频回放设备对总音频时延信息314的贡献来获得关于音频路径的时延的信息310。

另外地或可替代地,绝对音频路径时延计算器336可以被配置为使用第三音频路径时延计算339,第三音频路径时延计算339被配置为使用设备独特转移时延信息319来获得关于音频路径的时延的信息310。第三音频路径时延计算339可以使用音频路径中已知设备的设备独特音频转移时延信息319,对于这些已知设备,设备独特转移时延信息319是可用的。音频路径中的已知设备可以是由拓扑信息395的音频路径的拓扑描述的设备。第三音频路径时延计算339可以进一步使用默认时延值,例如零,附加地或可替代地作为对关于音频路径的时延的信息310的贡献。

例如,第一音频路径时延计算337、音频路径时延计算338和音频路径时延计算339可以被配置为获得对关于音频路径的时延的信息310的第一贡献,第一贡献包括源设备和音频回放设备之间的音频路径的时延。关于音频路径的时延的信息310可以包括第二贡献,第二贡献包括音频回放设备的时延,例如音频解码时延318。

绝对音频路径时延计算器336可以被配置为基于信息的可用性,例如基于音频延迟信息的内容,在第一音频路径时延计算337、第二音频路径时延计算338和第三音频路径时延计算339之间进行选择。如果必要的信息可用,绝对音频路径时延计算器336可以最优选地选择第一音频路径时延计算337。如果必要的信息可用,则绝对音频路径时延计算器336可以第二最优选地选择音频路径时延计算338。

换言之,源设备被配置为如果对于源设备和音频回放设备之间的所有设备,设备独特转移时延信息319是可用的,使用与用于第二音频模式的音频信息的转移相关联的设备独特转移时延信息319的总和来确定关于音频路径310的时延的信息。附加地或替代地,源设备被配置为使用总音频时延信息314来确定关于音频路径的时延的信息310,总音频时延信息314描述用于第一音频模式的音频路径的总时延或描述音频路径在多个音频模式的平均总时延。附加地或替代地,源设备被配置为使用源设备和音频回放设备之间的音频路径中的设备的任何已知或估计的音频时延信息的总和来确定关于音频路径的时延的信息310。

可选地,绝对音频路径时延计算器336包括校正器329。校正器329被配置为校正通过音频路径时延计算338获得的对关于音频路径的时延的信息310的贡献。校正器329被配置为如果音频路径中的设备被配置为在第二音频模式下操作,则修正源设备和音频回放设备之间的音频路径中的设备对关于音频路径的时延的信息的贡献。校正器329被配置为通过使用音频路径内的第二音频模式下的设备的设备独特音频时延贡献317和设备独特音频回放时延信息318来校正对关于音频路径的时延的信息310的贡献。

换言之,源设备被配置为,例如通过使用第二音频路径时延计算338,使用与使用第一音频模式的回放相关联的时延信息(例如设备独特音频回放时延贡献217),并且使用关于与用于第二音频模式的音频信息的转移相关联的时延的时延信息(例如设备独特音频转移时延信息219),校正使用总音频时延信息214获得的关于音频路径的时延的信息。

调整器302进一步包括计算器330,例如计算器130、230。计算器330被配置为基于关于音频路径的时延的信息310和关于视频路径的时延的信息320计算时间对准350。

例如,计算器330可以通过比较对关于音频路径的时延的信息310的至少一个贡献与对关于视频路径的时延的信息320的至少一个贡献来计算时间对准350。

如关于图1和图2所述,时间对准350可以用作待被应用于音频数据的提供和/或视频数据的提供的延迟。

换句话说,源设备被配置为根据关于视频路径的时延的信息320和根据关于音频路径的时延的信息310,确定待在音频数据的提供中应用的延迟和/或待在视频数据的提供中应用的延迟。

在图3中,调整器302的工作原理以由调整器302的部件执行的示例性顺序的工作步骤示出。然而,这些步骤也可以以替代的顺序执行。例如,总时延读取器342和时延协商器343可以独立工作,使得它们的工作步骤可以并行或以任意顺序执行。此外,例如,绝对时延计算器331和绝对音频路径时延计算器336可以彼此独立地工作。

以下C.1节描述了调整器302的详细实施例。C.1节中描述的特征、功能和细节可以单独并以任何组合方式可选地引入本文描述的任何实施例中,特别是引入到调整器202;302中。C.1.1和C.1.2节的描述参见图3。在图3中,节参考标记形式为(x.x.x),其中x为数字,参考下面C.1节,括号中的数字(x)参考C.1节中的方程式。

应当注意,在以下描述中,参考了其他实施例,例如图1至图4和图6至图9的实施例,应视为示例。此类引用并非旨在暗示图1至图4和图6至图9中所示的任何或所有特征必须存在于以下实施例中。

为了在音频160;260和视频165;265之间实现完美的唇音同步,源应该(或在某些情况下,必须)延迟音频160;260或视频165;265。例如,这是通过附加视频时延VL

VL

音频160;260还是视频165;265应该被延迟,例如由(1)的符号确定,因为延迟总是正的,并且两者中只有一个可以是正的。

例如,音频路径的音频时延AL

例如,计算器330可以被配置为执行根据(1)的计算。关于音频路径的时延的信息310可以包括例如MPEG-H音频解码时延AL

以下九个步骤限定MPEG-H调整源延迟算法(MASDA)。图3中给出了MASDA的视觉概述。在本章中,使用了数学XOR算子

发现(例如)音频和视频信号路径中的所有设备(或至少某些设备)。音频信号路径例如在源和音频解码设备之间。视频信号路径190;290例如在源100;200;400和视频渲染设备292(通常是TV)之间。包括视频渲染设备292的视频信号路径190;290也被称为EDID链。由于EDID由视频渲染设备292编写并通过视频路径190;290传输到源292。整个EDID链的视频时延被称为总视频时延。例如,应该根据“8.7.3发现算法”(HDMI 1.4b)或“10.9发现算法”(HDMI 2.1x)进行发现。

例如,对于具有TV和能够渲染音频的设备的设置,使用CEC系统音频控制特征(例如,HDMI 1.4b CEC表23)来确定谁在渲染音频。例如,如果条形音箱或AVR正在渲染音频,则(<系统音频模式状态>)为开(On),如果TV正在渲染音频,则为关(Off)。

例如,此步骤可由发现器341执行。

EDID可以包含HDMI供应商特定数据块(HDMIVSDB)中的两条有用的信息。第一,EDID音频时延

例如,此步骤可以由总时延读取器342执行,以获得例如总音频时延信息214;314和总视频时延信息224;324。

在此步骤中,源和音频解码设备可以协商MPEG-H音频解码时延,例如在D.1节“CEC发现和时延协商(CEC DaNoL)”中描述的。“CEC”代表消费电子控制,例如在HDMI1.4b-CEC中进行了描述。MPEG-H音频解码时延AL

例如,使用直接寻址的CEC DaNoL消息(如表2中所述)从音频和视频路径中的每个设备n(或者可替代地,从某些设备)以及(可选地)相应的接收器来询问有用信息。例如,支持CEC DaNoL消息的设备将发送以下值作为响应:用于非MPEG-H基本音频编解码器的音频时延217;317,

[AL

替代地和可选地,源设备可以使用多个消息,例如直接寻址的CEC DaNoL消息(如表3中所述)来从音频和视频路径(或者可替代地,从某些设备)中每个设备n以及(可选)相应的接收器询问有用信息。支持根据表3的CEC DaNoL消息的设备例如将发送以下值作为响应:用于非MPEG-H基本音频编解码器的音频时延217;317,

→[AL

→[AL

例如,收集器344可以被配置为根据上述示例之一执行此步骤,以从兼容与通信器340通信的设备中获取设备独特时延信息的至少部分:

AL

在此步骤中,计算总视频时延VL

原则上,总视频时延应与源经由EDID读取的视频时延值相同。但是,如果TV更改为特殊电影或游戏模式,它不会更改其EDID,但它应该(或在某些情况下,必须)更改经由CECDaNoL报告的VL

例如,根据使用的设备的设置和功能,有四种不同的计算总视频时延的方法:

a)如果视频路径中的所有设备和TV理解CEC DaNoL消息并报告有效的VL

这是计算路径的视频时延的最可靠方法。

例如,第一视频时延计算器332可以被配置为根据(3)来计算关于视频路径的时延的信息310。

b)如果获得了EDID信息和关于视频接收器的CEC信息,则总视频时延是源在EDID中读取的视频时延,但已利用TV(视频接收器)的当前视频时延进行了调整:

例如,第二视频时延计算器333可以被配置为根据(4)计算关于视频路径的时延的信息310。

c)如果有EDID值但没有从TV获得DaNoL值,则EDID中的视频时延用作总视频时延。

例如,第三视频时延计算器334可以被配置为根据(5)计算关于视频路径的时延的信息310。

d)如果没有获得EDID信息,并且不是所有设备或路径中没有设备支持CEC DaNoL消息,则例如利用(6)计算总视频时延。在HDMI 2.0a 10.7中,引入了动态自动唇音同步(DALS)。利用此协议可以(在某些情况下)获得当前视频时延。

例如,第四视频时延计算器335可以被配置为根据(3)计算关于视频路径的时延的信息310。

在此步骤中,计算音频路径时延AL

a)如果音频路径中的所有设备都理解CEC DaNoL消息,则路径的音频时延是音频路径中的所有MPEG-H转移时延的总和

这是计算路径的音频时延的最可靠方法。

例如,第一音频路径时延计算器337可以被配置为根据(7)计算对关于视频路径的时延(例如AL

b)如果得到EDID信息和关于接收器的CEC信息,路径的音频时延是EDID中的音频时延减去用于接收器的非MPEG-H内容的音频时延

音频时延

例如,第一音频路径时延计算器338可以被配置为根据(8)计算对关于视频路径的时延(例如AL

c)如果没有得到EDID信息,并且路径中不是所有设备或没有设备支持CEC DaNoL消息,则路径的音频时延设置为零加上路径的所有已知MPEG-H转移时延:

例如,第一音频路径时延计算器338可以被配置为根据(8)计算对关于视频路径的时延(例如AL

如果MPEG-H设备在音频路径中,它们会将其音频时延写入EDID。但这可能不同于适用于MPEG-H比特流转移的MPEG-H转移时延。此差可选地通过以下公式进行校正(其中,例如,可以考虑对其相应信息是可用的那些设备):

路径的音频时延是前面讨论的选项中最合适的:

此时,所有可用于计算(1)的信息都已收集(或估计),相关值标有下划线。计算出的调整应用于将源中的视频与音频对准。

可选地,为用户提供附加滑块以在例如最小[-250,250ms]的范围内以例如至少5ms的步长调整音频/视频对准。这是有帮助的(或在某些情况下,需要的),因为音频解码设备之后的视频渲染设备可能既不支持EDID也不支持CEC DaNoL。这不会得出关于总视频时延的信息,这会导致音频和视频不同步。解决这个问题的唯一方法是手动滑块。

(细节可以可选地包括在实施例中,单独和组合的方式;具体的值、标识符、消息名称被认为是可选的)

图5A-I示出了根据实施例的源设备(例如STB)、音频回放设备(例如条形音箱)、视频渲染设备(例如TV)和其他设备的布置的示意性表示。此节所参考的图5A-I包括框,其象征通过显示为黑色箭头的HDMI连接而连接的设备。设备的物理地址写在设备的顶部。TV的物理地址始终为0.0.0.0。此符号在HDMI 1.4b 8.7中有解释。框下方列出了设备将报告给下一个设备的EDID。

例如,图5A-I中的表示可以包括由框表示的设备。例如,框内的值可以指设备独特时延信息。AL可以可选地指设备独特音频时延贡献,例如设备独特音频时延贡献217;317。AL

例如,源设备500A-I可以可选地获得相应的总音频时延信息514A-I,例如总音频时延信息214;314,以及相应的总视频时延信息524A-I,例如来自最靠近相应的源设备500A-I的设备的总视频时延信息224;324。

图5A示出了包括STB 500A(例如源设备100;200;400)、条形音箱582A(例如音频回放设备282;482;682;782),TV 592A(例如视频渲染设备292;892;992)和视频路径中的另一个设备591A的给定设置的示意性表示。

1)发现拓扑后,源500A具有关于音视频路径的所有信息。这包括未定义设备591A在视频路径中的事实。此设备591A通常会将视频和音频延迟到相同程度,但音频已经在路径外,从而如果音频和视频同时播出,则此设备591A将干扰唇音同步。此外,MPEG-H音频解码时延AL

2)STB 500A在EDID(514A和524A)中读取:

条形音箱582A和TV 592A是音频接收器。但是条形音箱582A是音频的期望输出,因此它会覆写TV 592A的EDID值。总视频时延包括设备的所有视频时延相加。

3)STB经由CEC协商条形音箱582A具有

4)尝试经由CEC DaNoL与TV 592A进行通信将失败,因为它无法进行通信。这意味着无法获得

[AL

可选地,条形音箱提供的信息可以在一个或多个消息中发送,例如在表2或表3中之一限定的消息中发送,例如在表3中限定的CECDaNoL消息中发送。在这种情况下,条形音箱提供的信息具有以下结构:

→[AL

→[AL

5)由于只获得了EDID值,所以总视频时延是利用(5)计算的

6,7)自从第一步,可以知道音频路径中没有设备:

8)STB按照(1)利用先前步骤的信息计算附加视频时延:

VL

源配置其输出,使视频落后于音频60毫秒。系统实现了完美的唇音同步。

例如,示例1表明,源设备500A可以处理音频解码时延大于视频时延或大于视频路径的总视频时延的情况,即使音频解码时延大了超过20毫秒。示例1可以进一步表明,源设备500A可以处理其中未知设备591A是视频路径的部分而不是音频路径的部分的情况,即在音频路径和视频路径之间存在未知但不对称的相对延迟。示例1可以进一步表明,源设备500A可以处理其中设备(例如,视频渲染设备592A)不兼容传达设备独特时延信息的情况。

图5B示出了包括STB 500B(例如源设备100;200;400)、条形音箱582B(例如音频回放设备282;482;682;782)、TV 592B(例如视频渲染设备292;892;992)、音频路径中的另一个设备581B,以及视频路径中的另一个设备591B的给定设置的示意性表示。

1)发现拓扑后,源500B具有关于音视频路径的所有信息。

2)EDID声明:

3)经由CEC DaNoL,

注意:如果STB和条形音箱之间的时延协商失败,则两个设备都必须使用默认MPEG-H音频时延

4)条形音箱582B经由CEC DaNoL消息报告五个值,但在这种特定情况下仅使用AL

[AL

可选地,由条形音箱提供的信息可以在一个或多个消息中发送,例如在表2或3中之一限定的消息中发送,例如在表3中限定的CECDaNoL消息中发送。在这种情况下,由条形音箱提供的信息具有以下结构:

→[AL

→[AL

5)总视频时延通过(5)计算为

6)由于条形音箱582B经由CEC报告

7)音频路径中的设备不具备DaNoL通信能力。因此,调整音频路径时延是不可能且不必要的。

8)STB按照(1)利用前几步骤的信息计算附加视频延迟:

源配置其输出,使视频落后于音频40毫秒。系统实现了完美的唇音同步。

例如,示例2表明,除了示例1中描述的情况之外,源设备500B还可以处理以下情况:在音频路径存在未知设备581B以及视频路径中存在未知设备,设备581B不兼容传达设备独特时延信息。例如,由于未知设备581B可以将其时延值添加到总音频时延信息514B和其总视频时延信息524B,源设备500B不需要知道关于设备581B的设备独特时延信息。

图5C示出了包括STB 500C(例如源设备100;200;400)、条形音箱582C(例如音频回放设备282;482;682;782)、TV 592C(例如视频渲染设备292;892;992)、音频路径中的另一个设备581C和视频路径中的另一个设备591C的给定设置的示意性表示。

TV 592C不支持EDID中的AL和VL。不过,这些值在实际中应用,这就是为什么在图中将数字划掉的原因。TV 592C的EDID中没有AL、VL值是可能的,因为对于没有MPEG-H支持的TV是不需要的。设备581C、591C也不支持EDID时延值。

1)发现拓扑后,源具有关于音视频路径的所有路由信息。

2)EDID没有声明AL或VL的值,这将导致之后的默认值。

3)经由利用CEC DaNoL的时延协商,

4)条形音箱582C经由CEC DaNoL消息报告五个值,但在这种特定情况下仅使用粗体值:

[AL

可选地,由条形音箱提供的信息可以在一个或多个消息中发送,例如在表2或表3中之一限定的消息中发送,例如在表3中限定的CEC DaNoL消息中发送。在这种情况下,由条形音箱提供的信息具有以下结构:

→[AL

→[AL

5)由于条形音箱当前视频时延是已知的,因此总视频时延经由(6)更新为

6、7)如在步骤一中所认识到的,在音频路径中存在设备581C。由于此设备不支持EDID或CEC DaNoL,因此无法计算音频路径时延。利用(9)获得的默认值是

8)STB按照(1)利用前几步骤的信息计算附加视频延迟:

源配置其输出,使视频落后于音频60毫秒。由于未知参数,系统无法实现完美的唇音同步。

9)为了实现完美的唇音同步,用户手动将STB中的音频时延滑块设置为-20毫秒。

注意:总音频时延为170毫秒,总视频时延为130毫秒,因此60毫秒的原始附加视频时延减去20毫秒得出实现唇音同步所需的40毫秒。

例如,示例3表明,源设备500C可以处理其中音频路径和/或视频路径中的设备和/或视频渲染设备不兼容传达设备独特时延信息或总时延值的情况,因为它提供了手动调整时间对准的可能性。即使没有手动调整,源设备500C也被配置为在所示情况下调整时间对准,从而改善音频数据和视频数据的同步。

图5D示出了包括STB 500D(例如源设备100;200;400)、条形音箱582D(例如音频回放设备282;482;682;782)、TV 592D(例如视频渲染设备292;892;992)以及音频路径和视频路径中的另一个设备581D的给定设置的示意性表示。

1)发现拓扑后,源具有关于音视频路径的所有信息。

2)EDID声明:

3)经由利用CEC DaNoL的时延协商,

4)TV和条形音箱经由CEC DaNoL报告各自五个值,但在这种特定情况下仅使用粗体值:

[AL

VL

[AL

5)由于并非所有设备都经由DaNoL报告信息,但TV 592D报告且EDID 524D可用,因此经由(4)获得总视频时延为

6)由于并非所有设备都经由DaNoL报告信息并且EDID 514D可用,因此经由(8)获得音频路径时延。条形音箱582D不在EDID链中,这意味着公式(8)的第二项被忽略:

7)EDID中报告的音频时延514D需要调整。原因是TV 592D将其自身音频输出的音频时延而不是MPEG-H转移时延写入EDID。调整是利用(10)完成的,其中TV是EDID链中唯一的MPEG-H设备:

8)STB 500D按照(1)利用前几步骤的信息计算附加视频延迟:

源配置其输出,使视频落后于音频80毫秒。系统实现了完美的唇音同步。

图5G示出了包括STB 500G(例如源设备100;200;400)、条形音箱582G(例如音频回放设备282;482;682;782)、TV 592G(例如视频渲染设备292;892;992)以及音频路径和视频路径中的另一个设备581G的给定设置的示意性表示。

在备选方案B中,与备选方案A的TV 592D的转移时延AL

1)发现拓扑后,源具有关于音视频路径的所有信息。

2)EDID声明:

3)经由利用CEC DaNoL的时延协商,

4)TV和条形音箱经由CEC DaNoL报告各自五个值,但在这种特定情况下仅使用粗体值:

→[AL

→[AL

→[AL

5)由于并非所有设备都经由DaNoL报告信息,但TV报告并且EDID可用,因此经由(4)获得总视频时延为

6)由于并非所有设备都经由DaNoL报告信息,并且EDID可用,因此经由(8)获得音频路径时延。条形音箱不在EDID链中,这意味着公式(8)的第二项被忽略:

7)EDID中报告的音频时延需要调整。原因是TV将其自身音频输出的音频时延而不是MPEG-H转移时延写入EDID。调整是利用(10)完成的,其中TV是EDID链中唯一的MPEG-H设备:

8)STB按照(1)利用前几步骤的信息计算附加视频延迟:

源配置其输出,使视频落后于音频110毫秒。系统实现了完美的唇音同步。

例如,示例4(A和B)表明,源设备500D(或500G)可以处理第二音频模式下的设备,例如MPEG-H模式下的TV 592D(或592G)处于音频路径中从而可能需要调整总音频时延信息514D(或514G)以实现完美的唇音同步的情况。

备选方案A:

图5E示出了包括STB 500E(例如源设备100;200;400)、条形音箱582E(例如音频回放设备282;482;682;782)、TV 592E(例如视频渲染设备292;892;992)以及音频路径和视频路径中的另一个设备581E的给定设置的示意性表示。

1)发现拓扑后,源500E具有关于音视频路径的所有信息。但源500E将TV 592E视为音频接收器。

2)EDID声明:

这意味着设备581E不会将其时延添加到EDID信息中。在这种情况下,它是不相关的,因为设备581E的AL和VL相等。

3)经由CEC,AL

根据设置,TV将报告不同的MPEG-H音频解码时延。如果条形音箱经由ARC连接,或者即使TV本身正在播放MPEG-H,TV会报告AL

在条形音箱经由例如S/PDIF或不利用HDMI的其他技术连接的情况下,TV将其值更改为AL

4)TV经由CEC DaNoL报告五个值,但在这种特定情况下仅使用粗体值:

[AL

=20ms VL

5)总视频时延经由(4)获得:

6,7)由于设备581E没有出现在EDID信息中,所以路径的音频时延(8)为:

8)STB 500E按照(1)利用前几步骤的信息计算附加视频延迟:

源配置其输出,使视频落后于音频205毫秒。系统实现了完美的唇音同步。

图5H示出了包括STB 500H(例如源设备100;200;400)、条形音箱582H(例如音频回放设备282;482;682;782)、TV 592H(例如视频渲染设备292;892;992)以及音频路径和视频路径中的另一个设备581H的给定设置的示意性表示。

在备选方案B中,与备选方案A的TV 592E的转移时延AL

1)发现拓扑后,源具有关于音视频路径的所有信息。但源将TV视为音频接收器。

2)EDID声明:

这意味着设备不会将其时延添加到EDID信息中。在这种情况下,它是不相关的,因为设备的AL和VL相等。

3)经由CEC,AL

根据设置,TV将报告不同的MPEG-H音频解码时延。如果条形音箱经由ARC连接,或者即使TV本身正在播放MPEG-H,TV会报告AL

在条形音箱经由例如S/PDIF或不利用HDMI的其他技术连接的情况下TV将其值更改为AL

4)TV经由CEC DaNoL报告五个值,但在这种特定情况下仅使用粗体值:

→[AL

→[AL

5)总视频时延经由(4)获得:

6,7)由于设备没有出现在EDID信息中,路径的音频时延(8)为:

8)STB按照(1)利用前几步骤的信息计算附加视频延迟:

源配置其输出,使视频落后于音频230毫秒。系统实现了完美的唇音同步。

例如,示例5(A和B)表明,视频渲染设备592E(或592H)可以被配置为将音频数据从源设备500E(或500H)转移到音频回放设备582E(或582H)并向源设备500E(或500H)提供音频回放设备582E(或582H)的设备独特音频解码时延,并基于音频回放设备582E(或582H)的音频解码时延与源设备500E(或500H)协商音频解码时延,即向源设备500E(或500H)提供可能时延值。因此,即使音频回放设备,甚至是第二音频模式下的音频回放设备,不能与源设备通信,也可以实现完美的唇音同步。

备选方案A:

图5F示出了包括STB 500F(例如源设备100;200;400)、条形音箱582F(例如音频回放设备282;482;682;782)、TV 592F(例如视频渲染设备292;892;992)以及音频路径和视频路径中的另一个设备581F的给定设置的示意性表示。

1)发现拓扑后,源500F具有关于音视频路径的所有信息,但源将TV 592F视为音频接收器。

2)EDID声明:

3)TV经由CEC将

4)TV 592F和设备581F经由CEC DaNoL报告五个值,但在这种特定情况下仅使用粗体值:

[AL

[AL

VL

5)总视频时延经由(3)计算为

6)音频路径时延经由(7)计算为

7)如果仅使用具有DaNoL能力的设备,则第七步不适用。

8)STB按照(1)利用前几步骤的信息计算附加视频延迟:

源配置其输出,使视频落后于音频195毫秒。系统实现了完美的唇音同步。

图5I示出了包括STB 500I(例如源设备100;200;400)、条形音箱582I(例如音频回放设备282;482;682;782)、TV 592I(例如视频渲染设备292;892;992)以及音频路径和视频路径中的另一个设备581I的给定设置的示意性表示。

在替代方案B中,与替代方案A的TV 592F的转移时延AL

1)在发现拓扑后,源具有关于音视频路径的所有信息,但源将TV视为音频接收器。

2)EDID声明:

3)TV经由CEC将

4)TV和设备经由CEC DaNoL报告五个值,但在这种特定情况下只使用粗体值:

→[AL

→[AL

→[AL

→[AL

5)总视频时延经由(3)计算为

6)音频路径时延经由(7)计算为

7)如果仅使用具有DaNoL能力的设备,则第七步不适用。

8)STB按照(1)利用前几步骤的信息计算附加视频延迟:

源配置其输出,使视频落后于音频220毫秒。系统实现了完美的唇音同步。

例如,示例6(A和B)表明,源设备500F(或500I)可以处理这样的情况,其中音频路径中和视频路径中的设备581F(或581I)传达其设备独特时延信息。在这种情况下,源设备500F(或500I)可以能够独立于总音频时延信息514F(或514I)和总视频时延信息524F(或524I)调整时间对准。

图4示出了根据实施例的由源设备400执行的解码时延的时延协商的流程图。源设备400可以对应于源设备100;200。例如,时延协商可以由源设备300的时延协商器343执行。图4示出了在源设备400和可选音频回放设备482(例如音频回放设备282)之间的音频回放设备482的解码时延418的时延协商。解码时延418可以对应于音频解码时延218;318。音频回放设备482被配置为解码音频数据,例如音频数据160;260。音频回放设备482经由音频路径(例如音频路径180、280)连接到源设备400的数字媒体接口。音频回放设备482被配置为基于由源设备400提供的音频数据(例如,音频数据160、260)来提供可听音频信息。

例如,源设备400可以被配置为基于源设备400的视频解码时延与音频回放设备482协商解码时延218。视频解码时延可以例如是与视频数据的编码的表示的解码相关联的时延。例如,视频解码时延可以与解码器266对编码的视频表示267的解码相关联以获得被表示为解码的视频表示的视频数据265。

作为源设备400与音频回放设备482的时延协商的结果,音频回放设备482的音频解码时延418可以被调节。源设备400被配置为根据音频回放设备482的音频解码时延418的变化来调整时间对准,例如时间对准150、250、350。

换言之,源设备400被配置为与音频回放设备482协商解码时延418,并且根据协商的解码时延调整时间对准。

音频解码时延的协商可以由源设备400发起,例如通过向音频回放设备482发送协商音频解码时延的请求。例如,源设备400可以在源设备400启动之后请求时延协商。

替代地或附加地,时延协商可以由音频回放设备482发起。例如,音频回放设备482可以通过向源设备400发送消息来请求与源设备400的时延协商。例如,由于音频回放设备482的音频解码时延418的变化,音频回放设备482可以请求时延协商。

例如,音频回放设备482可以通过将可能时延值447传达到源设备400来发起时延协商。音频回放设备482还可以应请求或应源设备400发起的时延协商将可能时延值传达到源设备400。

源设备400可以被配置为从音频回放设备482传达的可能时延值447中选择期望时延值448。例如,源设备400可以基于源设备400的视频解码时延从由音频回放设备482传达的可能时延值中选择期望时延值448。例如,源设备400可以选择期望时延值448,以使得期望时延值448对应于视频解码时延。

音频回放设备482可以被配置为将可能时延值447作为包括一组时延值的时延列表信息来传达或者可以被配置为将可能时延值447作为包括可能时延值的跨度的时延跨度信息来传达。

源设备400被配置为将期望时延值448传达到音频回放设备482。

换言之,源设备400被配置为从音频回放设备482获得描述可能时延值447的跨度的时延跨度信息,或者从音频回放设备482获得描述一个或多个可能时延值447的时延列表信息。源设备400进一步被配置为基于时延跨度信息或时延列表信息选择期望时延值448。源设备400进一步被配置为指示音频回放设备482使用期望时延值482。源设备400进一步被配置为根据选择的期望音频回放时延值448来调整时间对准。

源设备400被配置为检查时延协商的成功。即,源设备400被配置为假设,在时延协商之后,音频回放设备482根据期望时延值448调节了其音频解码时延418,或者音频回放设备482保持音频解码时延418的原始值。源设备400被配置为根据其关于时延协商的成功的假设,基于期望时延值448或基于接收设备482的音频解码时延418的原始值来调整时间对准。例如,源设备400被配置为从音频回放设备482接收包括音频解码时延418的消息。

可选地,源设备400可以被配置为在完成时延协商之后重新协商音频解码时延418,例如通过请求时延协商或通过接收时延协商的请求,例如关于可能时延值447的信息。

换句话说,源设备400被配置为验证音频回放设备482是否按照指示使用所选择的期望时延值448。源设备400进一步被配置为如果音频回放设备482未能使用所选择的期望时延值448,则考虑默认时延值。

源设备400被配置为接收时延协商请求,时延协商请求包括描述来自音频回放设备482的可能时延值的跨度的时延跨度信息447,或者包括描述来自音频回放设备482的一个或多个可能时延值的时延列表信息。源设备400进一步被配置为基于时延跨度信息或时延列表信息选择期望时延值448。

例如,时延协商器343可以被配置为使用CEC命令,例如在章D.1中描述的命令,和/或根据如在表2或者可替代地和可选地如表3中描述的消息和规则来通信(或者可以执行时延协商)。

例如,时延协商器343可以被配置为将表2或者可替代地和可选地如表3中所示的一个或多个消息传输到一个或多个接收设备(例如使用接收设备的单独直接寻址或广播)以及(如果适用)从一个或多个接收设备(例如在接收设备的链中)接收相应应答消息,并使用包括在相应应答消息中的信息(例如,用于协商音频解码时延318)。

以下D.1节描述了时延协商器的实施例。在D.1节中描述的特征、功能和细节可以可选地单独地和以任何组合方式被引入到本文中描述的任何实施例中,特别是引入到时延协商器343中。D.1.1节和1.2节的描述参见图4。

应当注意,在以下描述中,参考了其他实施例,例如到图1至图9的实施例,应被视为示例。此类参考并非旨在暗示图1至图9中所示的任何或所有特征在下面的实施例中必须存在。

本章中描述的特征、功能和细节可以可选地单独地和已组合方式引入本文中(也在权利要求集中)描述的任何实施例中。

本章中描述的消息和其他特征和细节可以例如单独实现或以它们的任意组合实现在源设备100、200、400中,特别是在发现器341、时延协商器343和/或收集器344,和/或接收设备中。

例如,本章中描述的消息和其他特征和细节可用于发现视频路径和/或音频路径中的设备(例如第D.1.2.1.节),以传达设备独特(音频和/或视频)时延信息,和/或协商解码时延(例如第D.1.2.2.节)。

以下消息(或可选地,其子集)用于时延发现和协商特征:

(<请求时延协商>)、(<报告时延>)、(<请求报告时延>)、(<时延不支持>)、(<不支持的音频编解码器>)

所有这些消息都是(具有ID的供应商命令)(HDMI1.4b、CEC15、CEC表16)的扩展,其中供应商ID是Fraunhofer IIS的MA-L:'12:34:56'(这是一个虚拟变量。真正的MA-L将被限定)。

对于在一些实施例中哪些消息是强制性的详细信息,见表2。其他实施例可以可选地使用这些消息和/或附加消息的子集。

例如,可替代地,以下消息(或者,可选地,其子集)可以可选地用于时延发现和协商特征:

所有这些消息都是(HDMI 1.4b、CEC15、CEC表16)的扩展,其中供应商ID是Fraunhofer IIS的CID:BA-C4-85(十六进制);BAC485(16进制)。

对于在一些可选实施例中哪些消息是强制性的详细信息,见表3。

例如,此特征允许HDMI设置中的所有设备传达时延值。对于音频比特流解码设备(接收器),例如音频回放设备282;482;682;782,以及作为活跃源(源)的视频解码设备,例如源设备100;200;400,这是尤其令人关注的。例如,此特征使源能够经由CEC消息从音频和视频路径中的设备以及接收器中获取所有相关信息来确保唇音同步。此特征在某些情况下因为如MPEG-H这样的现代音频编解码器落入HDMI中被标记为禁止情况(视频时延+20毫秒<音频时延)的情况而是必要的,例如,参见HDMI 2.0a 10.6.1.1表10-26情况四。

在某些情况下,需要此机制以在复杂的HDMI路径中实现唇音同步。但它也可用于协商除特定编解码器的默认音频时延之外的另一个音频时延。例如,经由HDMI 1.4b、CEC13.9中描述的CEC供应商特定命令完成通信。在按照本节中指定的程序成功完成两个设备之间的协商和确认后,两个设备应仅使用非默认时延值。

例如,本文件中描述的所有CEC消息都具有操作码以及对应值“0xA0”。在此给出命令的概述:

[logical address Tx] [logical address Rx] [opcode 0xA0] [Vendor ID][Vendor Specific data]

([逻辑地址Tx][逻辑地址Rx][操作码0xA0][供应商ID][供应商特定数据])

例如,逻辑地址在HDMI 1.4b、CEC 10.2中限定。例如,供应商ID始终是FraunhoferIIS的MA-L:“12:34:56”。可替代或可选的,供应商ID可以始终是Fraunhofer IIS的CID:BAC485。供应商特定数据例如被其后为例如三字节长的短音频描述符(SAD)的1字节的供应商操作码占用。之后是,例如,与供应商操作码对应的最多七个一字节参数:

[Vendor Specific Data]=[Vendor Opcode][SAD][parameter 1] [parameter2]…[parameter 7]

([供应商特定数据]=[供应商操作码][SAD][参数1][参数2]…[参数7])

在某些情况下不允许使用超过7个参数,因为一个[Vendor Specific Data]块的数据例如被限制为11个字节,请参见HDMI 1.4b CEC 17表29,“目的”列中“名称”为[VendorSpecific Data]。

例如,在参考CTA-861-G 7.5.2和7.5.3的HDMI 1.4b中解释了短音频描述符(SAD)。例如,一个SAD包含明确限定的音频编码和相关参数。在某些情况下,这是必要的,因为对于变化的音频编解码器甚至其不同风格,唇音同步问题可能不同。

音频解码设备和源的SAD应该(或在某些情况下,必须)包含相同的“音频格式代码”和相同的“音频编码扩展类型代码”。所有其他比特的一致性可以取决于编解码器。例如,源设备应仅利用一种特定编解码器风格如在EDID中不同地编写SAD。例如:源设备支持编解码器的风格A和B的音频转移。EDID-SAD将声明A和B的能力。但是对于CEC唇音同步发现,源将分别与一个只包含A的SAD和一个只包含B的SAD协商。每个编解码器都可以提供(或者,在某些情况下,必须提供)用于每种风格的处理信息或所有风格具有相同的唇音同步调整。通常,源的SAD应该是解码设备的SAD的子集。

例如,如果消息涉及当前播放的音频流的SAD,或者上一次播放的音频流的SAD,则SAD的每一比特都应可选地设置为零。例如,涉及当前或最新SAD的3字节看起来像这样:00:00:00。

例如,为了传输时延,经由这样的公式将其转换为一个字节,这与HDMI 2.0a10.7.1表10-28或HDMI 1.4b 8.3.2“音频时延”中的相同:

时延

可协商的时延例如在[0ms,500ms]或转换后的[0x01,0xFB]的区域内。如果设备不支持消息中声明的特定时延,则它应报告例如0xff。例如,保留所有其他值。

在某些情况下,本文的所有特征只能在已经激活供应商功能后才能使用(请参见HDMI1.4b CEC 13.9.2)。

如果源想要计算多个设备的链的时延,则它应向所有相关设备发送直接寻址的消息。注意:用以在音频编解码器MPEG-H的情况下在源设备中设置延迟的算法包含在另一章中,称为:MPEG-H调整源延迟算法(MASDA)。

消息应以例如消息应答,例如寻址到广播,消息例如由五个参数组成。例如,这些参数按以下顺序:在EDID中添加的针对无编解码器情况的音频时延(渐进值)、在EDID中添加的视频时延(渐进值)、编解码器转移时延、编解码器解码时延和当前视频时延。例如,前两个参数与设备在其EDID供应商特定数据块(HDMI VSDB)中添加的相同。编解码器可以限定两个附加值,并且然后添加它们。

可选地,如果设备改变了内部参数,并且因此改变了消息的数据,它应该发送这个带有新参数的消息来通知源。例如,如果TV改变其视频模式导致不同的当前视频时延,就会发生这种情况。

可替代地,根据可选示例,消息应以寻址到广播的消息来应答,消息由三个参数组成。这些参数例如可以按以下顺序:编解码器解码时延,编解码器转移时延和当前视频时延。编解码器可以限定四个附加值,并且然后添加它们。

根据此可选示例,如果在诸如TV的设备中,例如由于视频模式之间的切换,消息的第三个参数[Current video latency]([当前视频时延])改变,并且如果对于所有音频模式,当前视频时延是相等的,可以允许发送寻址到广播的消息,其中SAD为0xffffff,时延参数1和2也设置为0xff。

根据此可选示例,消息应以例如寻址到广播的消息来应答,消息例如由四个参数组成。例如,这些参数按以下顺序:在EDID中添加的(针对无编解码器情况)的音频时延(渐进值)、在EDID中添加的视频时延(渐进值)、在EDID中添加的(针对无编解码器情况)的音频时延(交错值)、在EDID中添加的视频时延(交错值)。例如,这些参数与设备可以添加到其EDID供应商特定数据块(HDMI VSDB)中的相同。如果渐进和交错情况具有相同的时延,则例如只需要传输前两个参数。

在源设备想要发起时延协商的情况下,它应该发送例如直接寻址的消息到音频解码设备。然后音频解码设备应开始发起时延协商。

在时延协商发起的情况下,例如,音频解码设备应向源发送直接寻址的(或)消息。例如,如Follower(跟随器)在例如在HDMI1.4b、CEC 9.2中指定的所需最大响应时间(例如=1s)内发送['Unrecognized opcode'](<特征中止>['未识别的操作码'])消息或不发送相关消息,则例如,MPEG-H解码设备假定视频解码设备不支持时延协商。

如果跟随器以例如直接寻址的消息进行响应,则音频解码设备知道跟随器是能够进行时延协商的设备,但不支持用于所请求编解码器类型的所请求时延。例如,如果跟随器以直接寻址的消息进行响应,则音频解码设备的SAD包含对于源的未知音频编解码器。

如果跟随器从所报告跨度或所报告值中挑选一个时延,则它将例如激活此时延并经由直接寻址的消息传输此时延。

如果消息的时延参数在音频解码设备的时延跨度内,例如,它应使用此时延并向源发送直接寻址的消息,或者,根据可选示例,广播消息或向源发送消息。

如果消息的时延参数不在音频解码设备的时延跨度内,例如,它应使用默认时延并向源发送直接寻址的消息。

例如,源在消息之后在例如在HDMI 1.4b、CEC 9.2中指定的所需最大响应时间内等待消息。如果没有消息,条形音箱或源将不会使用协商的时延。

根据可选示例,源在消息之后在例如在HDMI 1.4b、CEC 9.2中指定的所需最大响应时间内等待消息。如果没有消息,则源将不会使用协商的时延。

通过这种方式,例如,在使用之前在两侧检查时延。消息可以用另一个消息来应答。

正常协商过程如图4中呈现。

可选地,在视频解码设备想要重新协商的情况下,它向音频解码设备发送例如直接寻址的消息。

可选地,在音频解码设备想要重新协商的情况下,它向视频解码设备发送例如直接寻址的消息。跨度应包含新的时延值。

每个例如在消息中报告动态值的设备,都必须在值改变后广播此消息。例如:如果TV将其视频模式从电影改变为游戏,则它需要发送以更新此消息的[current video latency]值,例如,在每个监听设备中,或至少在某些监听设备中。

(实施例中可以可选地,单独地和组合的方式包括细节;具体的值、标识符、消息名称被认为是可选的)

在此节中,所传输数据被显示为十六进制值。逻辑部分之间用“:”符号分隔。

在此节中,描述了示例性实施例。例如,TV可以用作源设备和视频渲染设备,源设备例如为源设备100;200;400,视频渲染设备例如为视频渲染设备292;892;992,以及连接到TV的条形音箱可以用作音频回放设备,例如音频回放设备282;482;692;792。

逻辑地址为0x5(音频系统)的MPEG-H条形音箱经由ARC连接到逻辑地址为0x0(TV)的TV。MPEG-H TV正在延迟其视频信号,使其与条形音箱的音频处于唇音同步,MPEG-HTV被假定为具有默认MPEG-H解码时延为250毫秒。条形音箱具有将时延值降低到100毫秒的能力。TV处于特定图像增强模式,这需要150毫秒或最大150毫秒的视频时延。这两个设备之间的协商在此示出:

Soundbar_Tx:50:A0:654321:01:SAD_MPEG-H:33:7E

TV_Tx:05:A0:654321:03:SAD_MPEG-H:4C

Soundbar_TX:50:A0:654321:05:SAD_MPEG-H:4C

表1更详细地解释了这种通信。

可替代地,根据可选实施例,供应商ID具有值BAC485,和/或根据表3中所示的消息的集合,条形音箱以消息响应消息。根据此可选示例,这两个设备之间的协商可以描述如在此所示:

Soundbar_Tx:50:A0:BAC485:01:SAD_MPEG-H:33:7E

TV_Tx:05:A0:BAC485:03:SAD_MPEG-H:4C

Soundbar_TX:50:A0:BAC485:05:SAD_MPEG-H:4C:0C:00

表4中更详细地解释了这种通信。

在上面显示的两个示例中,如果没有时延协商,TV必须将其视频(以解码的形式)延迟100毫秒以确保唇音同步。成功的协商导致TV中没有附加视频延迟。

条形音箱尝试发起时延协商,但TV以消息作出反应,因为它不支持SAD_A中声明的音频编解码器风格。

Soundbar_Tx:50:A0:654321:01:SAD_A:33:7E

TV_Tx:05:A0:654321:0A:SAD_B

可替代地,根据可选实施例,供应商ID具有值BAC485,使得这两个设备之间的协商可以被描述如在此所示:

Soundbar_Tx:50:A0:BAC485:01:SAD_A:33:7E

TV_Tx:0 5:A0:BAC485:0A:SAD_B

条形音箱尝试发起时延协商,并利用直接寻址的消息发送3个可能时延值。这些时延中没有一个适合TV。这就是为什么它以直接寻址的消息进行响应的原因。

Soundbar_Tx:50:A0:654321:02:SAD_MPEG-H:4C:59:6F

(150ms,176ms,220ms)

TV_Tx:05:A0:654321:09:SAD_MPEG-H

可替代地,根据可选实施例,供应商ID的值是BAC485,使得这两个设备之间的协商可以被描述如在此所示:

Soundbar_Tx:50:A0:BAC485:02:SAD_MPEG-H:4C:59:6F

(150ms,176ms,220ms)

TV_Tx:05:A0:BAC485:09:SAD_MPEG-H

条形音箱现在知道,TV能够经由CEC进行协商。因此条形音箱可以利用不同的时延值进行另一次尝试。

播出设备(逻辑地址0x1)向条形音箱(逻辑地址0x5)请求其时延值。条形音箱以其在EDID中添加的用于非MPEG-H的音频时延(渐进值)、在EDID中添加的视频时延(渐进值)、MPEG-H转移时延、MPEG-H音频解码时延和当前视频时延进行响应。此信息对于源设备确保唇音同步是有用的。

Playout_Tx:15:A0:654321:07:SAD_MPEG-H

Soundbar_Tx:5F:A0:654321:08:SAD_MPEG-H:29:29:0C:4C:FF

(80ms,80ms,22ms,150ms,不可获得)

可替代地,根据可选实施例,供应商ID具有值BAC485,并且通信可以遵循在表3中描述的消息的可选集合,使得这两个设备之间的信息交换可以被描述如在此所示:

播出设备(逻辑地址0x1)向条形音箱(逻辑地址0x5)请求其时延值。条形音箱以其MPEG-H音频解码时延、MPEG-H转移时延和当前视频时延进行响应。此信息对于源设备确保唇音同步是有用的。

Playout_Tx:15:A0:BAC485:06:SAD_MPEG-H

Soundbar_Tx:5F:A0:BAC485:05:SAD_MPEG-H:4C:0C:FF

(150ms,22ms,不可获得)

此外,播出设备请求存储在EDID中的静态音频和视频时延值。

Playout_Tx:15:A0:BAC485:08:SAD_MPEG-H

Soundbar_Tx:5F:A0:BAC485:07:SAD_MPEG-H:29:29

(80ms,80ms)

例如,如果交错和渐进音频/视频时延相等,则仅需要传输一对。这就是上面示例中发生的情况,其中条形音箱报告渐进(和交错)音频时延和渐进(和交错)视频时延。

强烈推荐(并在MPEG-H调整源延迟算法中建议)在时延信息交换之前完成时延协商。通过这种方式,可以再次检查协商的时延。

图6示出了根据实施例的接收设备682的示意性表示。接收设备682可以是音频回放设备,例如音频回放设备282。

接收设备682被配置为经由数字媒体接口670接收音频数据660。接收设备682包括被配置为对接收的音频数据660进行解码以获得解码的音频数据662的解码器661。接收器进一步包括被配置为输出解码的输出数据662的输出684。接收设备包括通信器640,通信器640被配置为响应于来自源设备的请求报告设备独特时延信息616,设备独特时延信息616包括与使用第一音频模式的回放相关联的时延信息(例如设备独特音频时延贡献617),与使用第二音频模式的回放相关联的时延信息(例如音频解码时延618)。

接收设备被配置为接收以编码的表示的音频数据660。接收设备682的任务是从编码的音频数据660获得解码的音频数据662并提供解码的音频数据662,例如作为模拟信号或可听信号。接收设备可以被配置为使用各种音频模式来解码和/或提供解码的音频数据682。

例如,接收设备682可以被配置为在第一音频模式(例如关于源设备100;200;400描述的第一音频模式)下操作,或者在第二音频模式(例如关于源设备100;200;400描述的第二音频模式)下操作。音频模式可以参考解码器661的设置,此设置确定由解码器661对音频数据660的解码。输出684可以被配置输出可听音频数据或提供音频数据660的解码的表示662,例如,解码的音频数据662或解码的输出数据662。

需要指出的是,根据图6的接收设备682可以可选地由本文中关于其他源设备描述的所有特征、功能和细节来补充。各个特征、功能和细节可以可选地单独地或以它们的任何组合被添加到接收设备682。

图7示出了根据实施例的接收设备782的示意性表示。接收设备782可以对应于接收设备682。

接收设备782被配置为经由数字媒体接口770接收以编码的表示的音频数据760(例如,音频数据660)作为输入。数字媒体接口770可以对应于数字媒体接口670。数字媒体接口可以是与数字媒体接口170;270相同或相似的类型,或者至少可以是被配置为促进与数字媒体接口170;270的通信。

接收设备782包括解码器,解码器被配置为例如通过使用第一音频模式或第二音频模式对音频数据760进行解码以获得解码的音频数据762。第一音频模式和第二音频模式可以对应于章A、B、C、D中描述的相应的第一和第二音频模式。接收设备782包括被配置为提供解码的音频数据762的输出784。

音频数据的解码可能涉及时延,即表示编码的音频数据的信号的接收和表示解码的音频数据的信号的提供之间的时间偏移。

由于接收设备782可以使用各种音频模式来解码音频数据760,用于解码音频数据760的时延可以相应地改变。因此,音频模式可以包括用于解码和/或提供(例如,重放)音频数据的时延,其是特定于音频模式的。

接收设备包括通信器740,通信器740被配置为例如经由数字媒体接口770或经由另一有线或无线连接进行通信。即,通信器740可以被配置为发送和/或接收消息。通信器740可以被配置为与源设备(例如,源设备100;200;400)进行通信,或与连接到数字媒体接口770的另一个接收设备或另一个设备进行通信。

通信器740被配置为通过提供设备独特时延信息716来传达接收设备782的时延,设备独特时延信息716可以对应于设备独特时延信息216;316;616。

设备独特时延信息716包括特定于接收设备的音频模式的时延信息。第一音频模式的时延被称为设备独特音频时延贡献717并且可以对应于设备独特音频时延贡献217;317;616。第二音频模式的时延被称为音频解码时延718,并且可以对应于音频解码时延218;318;718。设备独特时延信息716包括设备独特音频时延贡献717和/或音频解码时延718。

设备独特音频解码时延717可以与解码的音频数据762的回放相关联,即,接收音频数据760到回放解码的音频数据762作为可听音频信息之间的时延。

换言之,由接收设备提供的对总音频时延信息的贡献等于与使用第一音频模式的回放相关联的时延信息。

由于第二音频模式可以提供更高质量的解码的音频数据762,因此第二音频模式的时延可能大于第一音频模式的时延。因此,音频解码时延718可以不同于设备独特音频时延贡献717。

与第二音频模式相关联的音频解码时延718可以是可变的,使得接收设备782可以在可能时延值747的范围或集合内调节音频解码时延718。

换言之,接收设备782被配置为提供对总音频时延信息(例如,总音频时延信息214;314;614)的贡献717,总音频时延信息描述了用于第一音频模式的音频路径的总时延或描述了音频路径在多个音频模式上的平均总时延,其中对总音频时延信息的贡献717不同于与使用第二音频模式的回放相关联的时延信息718。

接收设备782可以被配置为与另一设备,例如源设备(例如源设备100;200;400)协商音频解码时延718。接收设备782可以被配置为作为协商音频解码时延718的结果,调节音频解码时延718。

换言之,接收设备782被配置为与源设备协商与第二音频模式相关联的解码时延718或回放时延。

接收设备782被配置为发送包括可能时延值747的消息,例如以描述可能时延值747为跨度的时延跨度信息的形式,或者以包括可能时延值747的作为列表的时延列表信息的形式。

接收设备782进一步被配置为接收时延选择消息749,时延选择消息749可以包括由另一设备(例如源设备)建议或请求的期望时延值,例如期望时延值448。接收设备782被配置为如果可能时延值747包括期望时延值,则根据期望时延值调节音频解码时延418。

接收设备782可以被配置为在接收到时延选择消息749之后提供包括音频延迟信息718的信息,例如设备独特时延信息,使得此信息包括音频延迟信息718的当前值,音频延迟信息718的当前值对应于在接收设备782决定是否根据时延选择消息749调节音频延迟信息718的值之后的音频延迟信息718的值。

换言之,接收设备782被配置为向源设备提供描述可能解码时延747值或回放时延值的跨度的时延跨度信息,或者向源设备提供描述一个或多个可能解码时延值747或回放时延值的时延列表信息。接收设备782进一步被配置为从源设备接收时延选择消息749并响应于时延选择消息749设置解码时延718或回放时延。

例如,接收设备782可以被配置为从源设备(例如,从源设备100;200;400)接收表2或者可替代地以及可选地表3中所示的一个或多个消息,并提供相应应答消息(例如,包括表2或者可替代地以及可选地表3中所示的信息,例如提供设备独特时延信息716,或可能时延值747)。

图8示出了根据实施例的接收设备892的示意性表示。接收设备892可以是视频渲染设备,例如视频渲染设备292。

接收设备892被配置为经由数字媒体接口870接收视频数据865。接收设备包括渲染器866,渲染器866被配置为渲染所接收的视频数据865。接收设备892进一步包括通信器840,通信器840被配置为报告设备独特时延信息909,设备独特时延信息909包括表示对总视频时延信息的贡献的时延信息827以及表示视频数据的渲染的实际时延的时延信息828,总视频时延信息描述视频路径的总时延或描述视频路径在多个视频模式上的平均总时延。

例如,接收设备被配置为接收以解码的表示的视频数据265,例如视频数据165;265。接收设备的任务是渲染视频数据265以获得渲染的视频数据。渲染的视频数据可以例如被提供给输出,例如屏幕或提供给提供模拟信号的输出。视频接收设备能够使用各种视频模式来渲染视频数据265。通过报告设备独特时延信息,接收设备能够支持在提供渲染的视频数据到例如通过音频回放设备输出和回放相关音频数据之间的时间对准的准确调整。

要指出的是,根据图8的接收设备892可以可选地由本文中关于其他源设备描述的所有特征、功能和细节来补充。各个特征,功能和细节可以可选地单独地或以它们的任何组合被添加到接收设备892。

图9示出了根据实施例的接收设备992的示意性表示。接收设备992可以对应于接收设备982。

接收设备992被配置为经由数字媒体接口970接收例以解码的表示的视频数据965(例如,视频数据965)作为输入。数字媒体接口970可以对应于数字媒体接口870。数字媒体接口可以是与数字媒体接口170;270;670;770等同或类似的类型,或者至少可以被配置为促进与数字媒体接口170;270;670;770的通信。

接收设备992包括渲染器,渲染器被配置为例如通过使用特定视频模式,诸如电影模式或游戏模式来渲染视频数据965。

视频数据的渲染可能涉及时延,即表示视频数据965的信号的接收和渲染的视频数据的提供之间的时间偏移。

由于接收设备992可以被配置为使用各种视频模式中的特定视频模式来对视频数据965进行解码,因此用于渲染视频数据965的时延可以相应地改变。因此,视频模式可以包括用于渲染和/或提供(例如,重放)视频数据的时延,其特定于视频模式。

接收设备包括通信器940,通信器940被配置为例如经由数字媒体接口970或经由另一有线或无线连接进行通信。即,通信器940可以被配置为发送和/或接收消息。通信器940可以被配置为与源设备(例如,源设备100;200;400)或连接到数字媒体接口970的另一个接收设备或另一个设备通信。

通信器940被配置为通过提供设备独特时延信息909来传达接收设备992的时延,设备独特时延信息909可以包括设备独特视频时延信息226;326;626并且可选地还包括设备独特音频时延信息216;316;616。

设备独特时延信息909包括特定于接收设备的视频模式的时延信息。接收设备可以包括标准视频模式。标准视频模式的时延可以被称为设备独特视频时延贡献927并且可以对应于设备独特视频时延贡献227;327;827。渲染器966可以能够使用不同于标准视频模式的不同视频模式。不同视频模式可以涉及不同于作为设备独特视频时延贡献927的时延。在接收设备992的操作期间当前使用的视频模式的时延可以由当前视频时延信息928(例如,当前视频时延信息228;328;828)描述,当前视频时延信息可以是设备独特时延信息909的部分。

换言之,接收设备992被配置为提供接收设备对总视频时延信息(例如总视频时延信息227;327)的贡献927,总视频时延信息描述视频路径的总时延或描述视频路径在多个视频模式上的平均总时延,其中对总音频时延信息或总视频时延信息的贡献927不同于表示视频数据的渲染的实际时延的时延信息928。

视频渲染设备992进一步可以被配置为例如经由数字媒体接口970(称为第一数字媒体接口970)接收音频数据960。视频渲染设备992可以包括第二数字媒体接口975。视频渲染设备992可以被配置为在第二数字媒体接口975上提供或输出音频数据960,例如未改变的。即,视频渲染设备992可以被配置为转移或转发音频数据960。

例如,视频渲染设备992可以被配置为经由第一数字媒体接口970同时接收视频数据965和音频数据960,例如从在一个数字媒体接口上提供音频数据960和视频数据965的源设备。视频渲染设备可以被配置为渲染视频数据965并转移音频数据960,使得音频数据960可以被音频回放设备(例如,音频回放设备282;682;782)接收和重放。即,视频渲染设备992能够分开音频路径和视频路径。

在视频渲染设备992被配置为转移音频数据的情况下,视频渲染设备992可以是音频路径(例如音频路径180;280)的部分。因此,视频渲染设备992可以对音频路径的时延有贡献。视频渲染设备992可以被配置为报告关于音频路径的设备独特时延,例如以设备独特音频时延贡献917的形式,设备独特音频时延贡献917是视频渲染设备992对总音频时延信息(例如总音频时延信息214)的贡献。例如,设备独特时延信息909可以包括设备独特音频时延贡献917,设备独特音频时延贡献917可以对应于设备独特音频时延贡献217。设备独特音频时延贡献917可以例如指与例如通过连接到第二数字媒体接口975的音频回放设备在第一音频模式下回放音频数据960相关联的时延。设备独特音频时延贡献917例如还可以指与多个音频回放模式相关联的多个时延值的平均值。

换言之,接收设备992被配置为提供设备独特时延信息909,使得由接收设备报告的设备独特时延信息909包括与音频数据960的转发相关联的时延信息,此转发是从第一数字媒体接口970到第二数字媒体接口975。

例如,视频渲染设备992可以被配置为支持第二音频模式。例如,视频渲染设备可以被配置为转移音频数据960,使得可以使用第二音频模式重放音频数据960。描述在第一数字媒体接口970上接收音频数据960和在第二数字媒体接口975上提供音频数据960用于第二音频模式之间的时延的时延值由设备独特转移时延信息919(例如设备独特转移时延信息219)描述,设备独特转移时延信息919可以是设备独特时延信息909的部分。

换言之,由接收设备992报告的设备独特时延信息909还可以包括与使用第一音频模式的音频回放相关联的时延信息917;和/或与使用多个不同模式的音频回放相关联的平均时延信息917;和/或与用于第二音频模式的音频信息的转移相关联的时延信息919。

由于设备独特转移时延信息919涉及是用于第二音频模式的音频数据的转移,因此它可以不同于设备独特音频时延贡献917,设备独特音频时延贡献917可以例如与第一音频模式下的回放和/或用于第一音频模式的音频数据的转移有关。

换言之,接收设备992可以被配置为提供对总音频时延信息的贡献917,总音频时延信息描述用于第一音频模式的音频路径的总时延或描述音频路径在多个音频模式上的平均总时延,其中对总音频时延信息的贡献917不同于与用于第二音频模式的音频信息的转移相关联的时延信息。

例如,接收设备992可以被配置为从源设备(例如,从源设备100;200;400)接收表2或者可替代地以及可选地表3中所示的一个或多个消息,并提供相应应答消息(例如,包括表2或者可替代地以及可选地表3中所示的信息,例如提供设备独特时延信息909)。

图10示出了根据实施例的用于提供音频数据和视频数据的方法1000的框图。

用于在一个或多个数字媒体接口(例如一个或多个数字媒体接口170:270)上提供音频数据和视频数据的方法1000,音频数据例如为音频数据160;260;660;760;960,视频数据例如为视频数据165;265;865;965,方法包括步骤1010,基于关于音频路径的时延的信息(例如信息110;210;310),并且基于关于视频路径的时延的信息(例如信息120;220;320)自动调整时间对准,例如,音频数据的提供和视频数据的提供之间的时间对准150;250;350,音频数据例如为音频数据160;260;660;760;960,以及视频数据例如为视频数据165;265;865;965。

图11示出了根据实施例的用于操作接收设备(例如,音频回放设备282;482;682;782)的方法1100的框图。

方法1100包括经由数字媒体接口(例如一个或多个数字媒体接口170:270)接收音频数据(例如音频数据160;260;660;760;960)的步骤1110。方法1100包括进一步的步骤1120,对接收的音频数据进行解码以获得解码的音频数据,例如解码的音频数据662;762。方法1100包括输出解码的输出数据的进一步步骤1230。方法1100包括响应于来自源设备的请求报告设备独特时延信息(例如,设备独特时延信息616;716)的进一步步骤1240,设备独特时延信息包括与使用第一音频模式的回放相关联的时延信息和与使用第二音频模式的回放相关联的时延信息。

需要指出的是,如图11中所呈现的方法1100的步骤顺序不是强制性的,而是可以以任何其他顺序或并行执行这些步骤。特别地,步骤1140可以独立地执行,即,在时间上在其他步骤之前、之后或与其它步骤重叠。

图12示出了根据实施例的用于操作接收设备(例如视频渲染设备292;892;992)的方法1200的框图。

方法1200包括经由数字媒体接口(例如数字媒体接口870;970)接收视频数据(例如视频数据165;265;865;965)的步骤1210。方法1200包括渲染接收的视频数据的进一步步骤1220。方法1200包括报告设备独特时延信息(例如,设备独特时延信息809;909)的进一步步骤1230,设备独特时延信息包括例如设备独特视频时延贡献227;327;827;927的时延信息以及例如当前视频时延信息228;328;828;929的时延信息,设备独特视频时延贡献表示对总视频时延信息的贡献,总视频时延信息描述视频路径的总时延或描述视频路径在多个视频模式上的平均总时延,当前视频时延信息表示视频数据的渲染的实际时延。

需要指出的是,如图12所呈现的方法1200的步骤顺序不是强制性的,而是可以以任何其他顺序或并行执行这些步骤。特别地,步骤1230可以独立地执行,即,在时间上在其他步骤之前、之后或与其它步骤重叠。

本发明的其它实施例通过以下附加实施例进行描述:

1)一种在根据HDMI1.4及稍后规范的HDMI端口播出音视频数据的源设备,源设备包括:

基于关于音频路径(从HDMI源输出到可听音频)的时延和视频路径(从HDMI源输出到可视视频)的时延的信息,对播出的音频流和视频流之间的时间对准的自动调整。

2)根据附加实施例1的源设备,其中如果音频路径的时延大于视频路径的时延,则可以在压缩域中延迟视频流。

3)根据附加实施例1或2之一的源设备,其中源设备实现在“CEC发现和时延协商(CEC DaNoL)”中限定的CEC DaNoL协议。

4)根据附加实施例1至3之一的源设备,其中源设备执行文档“MPEG-H调整源延迟算法(MASDA)”中限定的步骤以获取尽可能多的可用于计算音频路径和视频路径的时延的参数:

a)执行“8.7.3发现算法”(HDMI 1.4b)或“10.9发现算法”(HDMI 2.1x)以发现从源设备到视频接收器以及从源设备到音频接收器的所连接的设备的拓扑。

b)读取EDID并提取关于音频时延和视频时延的信息(如果可获得)。

c)(可选地)使用CEC DaNoL协商音频接收器的MPEG-H音频解码时延。

d)利用CEC DaNoL协议从支持CEC DaNoL的音频路径和视频路径中的所有设备收集时延信息。

5)根据附加实施例1至3之一的源设备,其中源设备可以使用WLAN或以太网或蓝牙或其他网络连接与其他设备通信,并且源设备使用此通信来收集其他设备的时延信息,否则将使用CEC DaNoL进行收集。

6)根据附加实施例1至5之一的源设备,其中源设备

a)计算MASDA中限定的视频时延的最佳可用估计。

b)计算MASDA中限定的音频时延的最佳可用估计。

7)根据附加实施例1至6之一的源设备,其中源设备使用收集的时延信息来调整如MASDA中限定的音频和视频之间的对准。

8)根据附加实施例1至7之一的源设备,其中源设备向用户提供接口以手动微调音频到视频对准。

9)具有根据HDMI 1.4或稍后版本的HDMI输入的视频接收设备,此设备使用CECDaNoL实现时延信息的交换。

10)具有HDMI或HDMI ARC输入的音频接收设备,此设备使用CEC DaNoL实现时延信息的交换。

11)根据权利要求10的音频接收设备,其另外具有S/PDIF(电学的或光学的)音频输入。

(本文中讨论的细节可以可选地引入到实施例中)

改进音频回放和视频回放之间同步的传统方法遵循以下限制:

1)HDMI 1.4和2.0预期源设备同步播出音频和视频。

2)接收设备预期将音频延迟视频渲染所需的相同量。

3)此方案禁止大于视频时延+20ms的音频时延。

4)视频时延的发现(通过视频接收器以外的设备)基于可选机制,这些机制通常不会在现在的设备中实现。实际上,音频接收设备因此通常无法发现视频时延。

(根据本发明的实施例可以实现以下提到的一个或多个或所有方面)

本发明实施例可以体现以下几个方面来解决问题:

1)限定一组新的供应商特定CEC命令(与HDMI1.3以来的所有HDMI版本兼容),使源设备和接收设备能够直接相互传达各种音频和/或视频时延。请参阅“CEC发现和时延协商(CEC DaNoL)”一章。在所述章中描述的特征、功能和细节中的一个或多个或全部可以可选地单独或组合使用。

2)使用来自现有资源的所有信息(或至少一些信息,或至少相关信息)来发现设置的拓扑(从源到接收器的路径)并发现音频和视频时延。将此与来自应用CEC DaNoL的信息相结合并对其加以增强。可替代地,通常将经由CEC DaNoL交换的信息可以使用设备之间的其他通信路径来交换。

3)使用所有已知信息(或所有相关信息)在源设备中的音视频之间进行时间调整。由于视频将在源设备中以压缩格式可用,因此只能通过合理的努力在源设备中延迟视频。

步骤2)和3)在C.1章“MPEG-H调整源延迟算法(MASDA)”中详细描述,也考虑到信息可能仅部分可用的事实。在所述章中描述的特征、功能和细节中的一个或多个或全部可以可选地单独或组合使用。

(本发明的实施例可包括以下益处中的一项或多项或全部)

1)在音频时延大于视频时延+20ms的情况下,可以实现唇音同步。

2)提出的方法兼容规范HDMI1.4和HDMI2.0。

3)提出的方法可以用于支持或不支持CEC DaNoL的设备的组合。

4)如果不是所有信息都可用,提出的方法使用优雅降级,其中它的准确度会逐渐降低,但它仍然可用。

5)如果源和接收器支持CEC DaNoL并且路径内支持来自EDID的时延信息,则提出的方法可以发现源和接收器之间的路径的音频时延。

6)提出的方法可以针对每个音频编解码器甚至是它的子风格独立地调整音频和视频时延。

7)提出的方法优于现有唇音同步管理算法(仅针对以下情况限定:音频时延<视频时延+20毫秒)的速度和可靠性。

8)提出的方法DaNoL限定了源设备和音频解码设备之间的时延协商,从而可以将时延调整为最合适的值。

9)提出的方法为每个获得的信息限定优先级并且只使用最可靠的信息,但逐步达到估计值的级别。

一些或所有方法步骤可以通过(或使用)硬件装置(例如微处理器、可编程计算机或电子电路)来执行。在一些实施例中,一个或多个最重要的方法步骤可以由这样的装置执行。

根据某些实施要求,本发明的实施例可以以硬件或以软件或至少部分以硬件或至少部分以软件来实施。此实施可以使用数字存储介质来执行,数字存储介质例如为软盘、DVD、蓝光、CD、ROM、PROM、EPROM、EEPROM或闪存,具有存储在其上的电子可读控制信号,电子可读控制信号与可编程计算机系统协作(或能够协作)从而执行相应的方法。因此,数字存储介质可以是计算机可读的。

根据本发明的一些实施例包括具有电子可读控制信号的数据载体,电子可读控制信号能够与可编程计算机系统协作,使得执行本文描述的方法之一。

通常,本发明的实施例可以实现为具有程序代码的计算机程序产品,当计算机程序产品在计算机上运行时,此程序代码可操作用于执行方法之一。程序代码可以例如存储在机器可读载体上。

其他实施例包括存储在机器可读载体上的用于执行本文描述的方法之一的计算机程序。

换句话说,本发明方法的实施例因此是具有程序代码的计算机程序,当该计算机程序在计算机上运行时,该程序代码用于执行本文描述的方法之一。

因此,本发明方法的进一步实施例是一种数据载体(或数字存储介质,或计算机可读介质),其包括记录在其上的用于执行本文所述方法之一的计算机程序。数据载体、数字存储介质或记录介质通常是有形的和/或非暂时性的。

因此,本发明方法的进一步实施例是数据流或信号序列,其表示用于执行本文描述的方法之一的计算机程序。数据流或信号序列可以例如被配置为经由数据通信连接、例如经由因特网来传送。

进一步实施例包括处理装置,例如计算机或可编程逻辑设备,其被配置为或适合于执行本文描述的方法之一。

进一步实施例包括其上安装有用于执行本文所述方法之一的计算机程序的计算机。

根据本发明的进一步实施例包括被配置为向接收器传送(例如,电学地或光学地)用于执行本文描述的方法之一的计算机程序的装置或系统。例如,接收器可以是计算机、移动设备、存储设备等。例如,此装置或系统可以包括用于将计算机程序传送到接收器的文件服务器。

在一些实施例中,可编程逻辑器件(例如现场可编程门阵列)可用于执行本文所述方法的一些或全部功能。在一些实施例中,现场可编程门阵列可与微处理器协作以执行本文所述的方法之一。通常,这些方法优选地由任何硬件装置执行。

本文描述的装置可以使用硬件装置实现,或使用计算机实现,或使用硬件装置和计算机的组合实现。

可以使用硬件装置,或使用计算机,或使用硬件装置和计算机的组合来执行本文描述的方法。

上述实施例仅用于说明本发明的原理。应当理解,对本领域技术人员而言,本文描述的布置和细节的修正和变化将是显而易见的。因此,其意图是仅受限于即将到来的专利权利要求的范围限制,而不是由通过本文实施例的描述和解释呈现的具体细节限制。

在下文中,示例性地描述了在前述描述中使用的缩写。所有细节都是可选的。用于解释缩写的细节可以可选地单独地和以任何组合引入本文所述的任何实施例中。

相关技术
  • 源设备、接收设备、方法和计算机程序
  • 流接收设备和方法、流发送设备和方法、和计算机程序
技术分类

06120113224087