用于调节焦点的方法、设备、装置、监控系统和存储介质

文献发布时间：2023-06-19 18:35:48

技术领域

本公开内容涉及全景视频领域，更具体地，涉及全景视频领域中用于调节焦点的方法、设备、装置、监控系统和存储介质。

背景技术

随着技术的发展，全景视频应运而生。在全景视频中，具有较大区域的场景被展现在一个画面上，通过观察画面上的全景影像能够查看该场景。为了得到全景影像，需要在与场景对应的地理区域中布置多个监控设备，每个监控设备指向该区域中的一定范围，由此可以使每个监控设备拍摄一定范围的视频，并将拍摄的视频传输到后台，以在一个大屏幕上进行拼接而形成该地理区域的全景影像。

当观察者面对一个全景影像时，尽管观察者能够对全景影像的全局有一定掌控，但他/她的视线往往集中在画面的中央，有可能会忽略其它区域中正在发生的事件。并且，由于全景影像通常使用筒形展开，这使得中央部分透视变形较小，而边缘部分透视变形相对明显。当观察者需要观察边缘部分的影像时，可能存在观察误差或不准确的情况。当在全景影像对应的场景中发生某些异常事件(例如车辆碰撞、人员纠纷等)时，往往希望能够让展示全景影像的画面的中央对准发生事件的方向，由此能够将全景影像的焦点设置在与事件匹配的位置，以便于更清楚地查看事件。但是，目前存在的技术仅允许观察者手动调整全景影像的焦点，这为观察者带来了负担，并且不利于对事件的全面监控。

因此，希望能够提供一种方式，使得能够自动调整全景影像的焦点，从而能够减轻观察者的负担并便于事件监控。

发明内容

本公开内容提供了一种用于调节焦点的方法、设备、装置、监控系统和存储介质，使得能够自动调整全景影像的焦点。

根据本公开的一方面，提供了一种用于调节焦点的方法，包括：根据多个监控设备中的每个中包括的音频采集设备采集的音频输入，识别每个监控设备处的音频输入中包含的多种声音信号；通过使用与所述多个监控设备监控的场景对应的加权系数，对每个监控设备处的所述多种声音信号进行加权求和，得到每个监控设备处的加权结果；以及根据每个监控设备处的加权结果，设置由所述多个监控设备形成的全景影像的焦点。

根据本公开的另一方面，提供了一种用于调节焦点的设备，包括：存储器，所述存储器存储有计算机可执行指令；以及处理器，所述处理器与所述存储器耦接，所述计算机可执行指令当被所述处理器执行时使所述处理器执行上述方法。

根据本公开的再一方面，提供了一种监控系统，包括多个监控设备和控制设备。每个监控设备包括用于采集音频输入的音频采集设备，并且被配置为向控制设备发送所采集的音频输入。控制设备被配置为根据从每个监控设备接收的音频输入，识别每个监控设备处的音频输入中包含的多种声音信号；通过使用与所述多个监控设备监控的场景对应的加权系数，对每个监控设备处的所述多种声音信号进行加权求和，得到每个监控设备处的加权结果；以及根据每个监控设备处的加权结果，设置由所述多个监控设备形成的全景影像的焦点。

根据本公开的又一方面，提供了一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令当被处理器执行时使所述处理器执行上述方法。

根据本公开的又一方面，提供了一种用于调节焦点的装置，包括：用于执行上述方法的步骤的部件。

根据上述技术方案，通过识别监控设备处采集的音频输入中包含的多种声音信号，并通过利用对应的加权系数进行加权求和处理，可以根据加权结果确定某个或某些监控设备更加重要，从而可以将全景影像的焦点自动设置为与这个或这些监控设备相匹配，有助于焦点自动对准到场景中发生的事件，从而可以减轻观察者的负担，便利于对事件的全面监控。

通过以下参照附图对本公开的示例性实施例的详细描述，本公开的其它特征及其优点将会变得清楚。

附图说明

构成说明书的一部分的附图描述了本公开的实施例，并且连同说明书一起用于解释本公开的原理。

图1示出了根据本公开实施例的包含多个监控设备和控制设备以展现被监控区域的全景影像的网络的示意图。

图2示出了根据本公开实施例的用于调节焦点的方法的流程图。

图3示出了根据本公开实施例的在控制设备处执行的处理的框图。

图4示出了根据本公开实施例的用于调节焦点的设备的结构框图。

图5示出了根据本公开实施例的监控系统的结构框图。

具体实施方式

现在将参照附图来详细描述本公开的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。在这里示出和讨论的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它示例可以具有不同的值。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

首先参考图1，描述根据本公开实施例的包含多个监控设备和控制设备以展现被监控区域的全景影像的网络100的示意图。

如图1所示，网络100包括监控设备110-1至110-N(N为大于等于2的整数)，还包括与这些监控设备通信的控制设备120。监控设备和控制设备之间的连接方式可以是有线方式，也可以是无线方式。

监控设备110-1至110-N分别指向同一被监控区域的不同部分。监控设备分别指向的部分可以存在重叠，这些部分共同构成该被监控区域。每个监控设备可以具有摄像头，通过摄像头可以将拍摄的视频影像传输到控制设备120，由控制设备120将其拼接在一块大的屏幕上，由此形成被监控区域的完整画面(也被成为全景影像)。每个监控设备还可以具有用于采集音频输入的音频采集设备，例如麦克风(MIC)。这些音频采集设备均具有一定的指向性和区域性，能够对所指向的被监控区域的某一部分中存在的声音进行采集。所采集的声音被监控设备发送到控制设备120。

控制设备120可以是诸如服务器之类的计算机设备，不仅可以将监控设备拍摄的影像进行拼接，还可以对监控设备传输来的音频输入进行处理。尽管在图1中仅示出了一个控制设备120，但是本领域技术人员可以理解，影像拼接和音频输入可以由多个设备以分布式的方式实施，在这种情况下，控制设备120对应着这多个设备的集合。

在相关技术中，监控设备110-1至110-N仅会向控制设备120传输视频影像，控制设备120也仅执行视频的拼接。当需要改变全景影像的焦点时，只能由观察者手动改变焦点位置，从而手动聚焦到被监控区域的不同部分，这为观察者带来了较大的负担，使得观察者难以灵活快速地跟踪在被监控区域中发生的事件。

本公开实施例提供了一种用于自动调节全景影像的焦点的方法，使得控制设备能够根据每个监控设备处采集并传输来的音频输入自动设置焦点，有助于对被监控区域中发生的事件进行更准确的查看。在图2中示出了用于自动调节焦点的方法200的流程图。该方法200可以由图1所示的控制设备120执行。

在S210中，根据多个监控设备中的每个中包括的音频采集设备采集的音频输入，识别每个监控设备处的音频输入中包含的多种声音信号。

由于每个监控设备中具有诸如麦克风之类的音频采集设备，因此每个监控设备可以采集音频采集设备所指向的方向和区域中的声音，并将采集得到的音频输入传输到控制设备。

控制设备根据来自每个监控设备的音频输入，可以识别出其中包括的多种声音信号。这多种声音信号可以包括语音信号、鸣笛信号和异常声音信号中的至少一种。在本公开的实施例中，需要考虑声音的类别和信号幅度来进行加权处理。

为了识别每个监控设备处的声音信号，控制设备可以首先去除音频输入中的环境噪声信号。例如，控制设备可以利用现有的自适应滤波器，根据噪声模板去除环境噪声信号。

接着，针对去除了环境噪声信号的音频输入，控制设备可以识别其中包含的语音信号和/或鸣笛信号。语音信号和鸣笛信号的识别可以并行进行，也可以顺序进行。例如，可以通过sphinx算法等对语音进行检测，以识别出语音信号。具体而言，可以通过sphinx算法中与分类器有关的算法检测语音。鸣笛信号是按压车辆喇叭等发出的声音，通常具有特定的频率范围，例如在4600Hz频点附近。可以在包含4600Hz的频谱范围内进行滤波，以识别其中是否包含信号幅度较大且持续数秒的鸣笛信号。例如，可以在4550Hz至4650Hz、4500Hz至4700Hz、4400Hz至4800Hz等频谱范围内进行滤波以识别鸣笛信号。也可以根据对各种型号车辆鸣笛的频率进行测量来设置更恰当的频谱范围，从而在其中进行滤波。

识别出鸣笛信号之后，为了避免具有较大信号幅度的鸣笛信号与同样具有较大信号幅度的异常声音信号相混淆，可以在从去除了环境噪声信号的音频输入中过滤掉鸣笛信号之后，根据预定阈值识别异常声音信号。异常声音信号是指发生异常事件时所产生的声音信号，往往伴随着较大的声响，具有较大的振幅，例如车辆碰撞、轮胎爆炸、玻璃破碎、人员纠纷等。通过将过滤掉鸣笛信号之后的音频输入与预定阈值进行比较，可以将幅度超过该阈值的信号识别为异常声音信号。该阈值可以通过在被监控区域中进行测量来确定。例如，可以将比被监控区域通常出现的声音的幅度平均值大3dB、5dB等的值设置为阈值，也可以将比被监控区域在一段时间内出现的声音幅度最大值大1dB、2dB等的值设置为阈值。

在S220中，通过使用与所述多个监控设备监控的场景对应的加权系数，对每个监控设备处的所述多种声音信号进行加权求和，得到每个监控设备处的加权结果。

控制设备识别出每个监控设备采集到的多种声音信号之后，可以对这些声音信号进行加权求和来得到加权结果。加权运算需要使用的加权系数可以与这多个监控设备监控的场景对应，也就是与被监控区域相关的场景对应。所述场景可以是十字路口场景，也可以是高速公路收费站场景，在这样的场景下，通常需要全景影像来帮助观察者更全面地了解其中的状况。加权系数的大小可以在0至1的范围内。

这些加权系数可以分别与多种声音信号的类型对应。例如，当识别出的多种声音信号包括语音信号、鸣笛信号和/或异常声音信号时，这些加权系数包括与语音信号对应的加权系数、与鸣笛信号对应的加权系数和/或与异常声音信号对应的加权系数。

由于鸣笛操作在十字路口的场景下可能存在滥用的情况，因此与鸣笛信号对应的加权系数可以设置得较小(例如0.2，0.1等)，甚至设置为0以忽略对其进行处理。由于在十字路口的场景中出现异常事件时，通常伴随着较大的语音信号和较大的异常声音信号，因此可以将这两者对应的加权系数设置得较大，例如两者均为0.8，或者前者为0.8且后者为0.6。这些加权系数也可以根据在十字路口的现场进行调试来更灵活且准确的设定。

另外，在高速公路收费站场景中，通常难以出现明显的语音信号，因此可以将与语音信号对应的加权系数设置得较小(例如0.2，0.1等)，甚至设置为0以忽略对其进行处理。由于在高速公路收费站场景中出现异常事件时，通常伴随着较大的鸣笛信号和较大的异常声音信号，因此可以将这两者对应的加权系数设置得较大，例如两者均为0.8，或者前者为0.8且后者为0.6。这些加权系数也可以根据在高速公路收费站的现场进行调试来更灵活且准确的设定。

对于每个监控设备，将被监控场景所对应的加权系数与监控设备当前采集的相应信号的幅度进行相乘，再将乘积相加，可以得到该监控设备处的加权结果。

在S230中，根据每个监控设备处的加权结果，设置由所述多个监控设备形成的全景影像的焦点。

控制设备计算出每个监控设备处的加权结果后，可以比较这些监控设备处的加权结果的大小。根据比较结果，可以确定哪个或哪些监控设备更可能采集到了与场景中的异常或突发事件相关的信息，从而可以自动将全景影像的焦点调整到与这个或这些监控设备相匹配的位置。

例如，控制设备可以以加权结果最大的监控设备为中心，设置全景影像的焦点。具体地说，当最大加权结果与次最大加权结果之差大于预定值时，表明加权结果最大的监控设备离事件更近，于是控制设备可以将焦点设置到该监控设备的拍摄位置处，以便利于对事件的准确观察。

再例如，控制设备可以以与最大的两个加权结果对应的监控设备的中央为中心，设置全景影像的焦点。具体地说，当最大加权结果与次最大加权结果之差小于预定值时，表明事件可能位于加权结果最大的监控设备和加权结果次最大的监控设备之间，从而这两个设备都能够采集到与事件相关的差不多重要程度的信息。于是控制设备可以将焦点设置到这两个监控设备的拍摄位置的中央，以更准确地观察事件。

根据方法200的技术方案，通过识别多种声音信号并对其进行加权求和处理，可以根据加权结果将全景影像的焦点自动设置为与离事件更近的监控设备相匹配，从而有助于焦点自动对准到场景中发生的事件，使得可以减轻观察者的负担，并便利于对事件的全面监控。

图3示出了根据本公开实施例的在图1所示的控制设备120处执行的处理300的框图。虽然在图3中仅示出了对一个监控设备采集的音频输入的处理过程，但是实际上控制设备120对所有监控设备上传的音频输入都将进行类似的处理过程。具体而言，图3中的方框310至350对每个监控设备都同样地执行，方框360通过使用所有监控设备处的加权结果来执行。

如图3所示，对于与控制设备通信的每个监控设备，控制设备(例如服务器)接收该监控设备的探头前端采集的音频输入。该监控设备内置有麦克风，通过麦克风可以采集现场声音。控制设备对接收到的音频输入利用噪声门限进行过滤或通过噪声模板进行过滤，以去除环境背景噪声。

在方框310处，控制设备对监控设备采集并上传到控制设备的音频输入进行语音检测，例如进行VAD(Voice Activity Detection，语音活动检测)检测并过滤掉非语音信号。在方框340处，对过滤掉非语音信号得到的信号进行识别处理，以识别出语音信号。在方框320处，对过滤出的非语音信号，根据鸣笛的噪声模式进行鸣笛检测，例如根据鸣笛通常所处的预定频谱范围进行鸣笛检测。在方框330处，对于过滤掉鸣笛信号的非语音信号，根据幅度阈值进行异常声响检测。在方框320至340中得到的检测结果被发送至方框350，以通过对应的加权系数对相应信号的幅度进行加权并求和，从而得到加权结果。对于每个监控设备都可以得到这样的加权结果。在方框360处，通过比较对于每个监控设备的加权结果，将全景影像的焦点调整到以某个监控设备的探头或某两个监控设备的探头中央为中心的位置。

在目前存在的相关技术中，现有的用于呈现全景影像的监控系统不采集和处理任何声音，并且全景影像的焦点固定，且只能通过观察者的人工操作来手动调节。与此相比，本公开实施例的用于呈现全景影像的监控系统能够对监控设备采集的声音进行多重处理，并通过对不同种类的声音信号根据对应的加权系数进行加权求和，可以根据加权结果来自动调节全景影像的焦点，从而能够自动提示事件，并且可以提高监控效率，降低监控人员的负担和提高后台反应的速度。

本领域技术人员可以理解，尽管上文以呈现与道路交通相关的全景影像为例描述了监控系统和焦点调节方法，但是本公开实施例的监控系统和焦点调节方法也可以用于其它系统的全景影像的呈现中，例如视频会议系统、融合通信(RCS)系统、直播系统、在线教育系统等，本公开对此没有特别限制。

上面描绘了根据本公开实施例的用于调节焦点的方法，下面将结合图4至5描绘根据本公开实施例的设备或系统的结构框图。

图4示出了根据本公开实施例的用于调节焦点的设备400的结构框图。图4所示的设备400可以是与监控同一区域的多个监控设备连接的控制设备，例如服务器、专用计算机、其它信息处理设备等。设备400包括存储器410和处理器420。存储器410可以是只读存储器、光盘、硬盘、磁盘、闪存或其它任何非易失性存储介质。存储器410可以存储用于实现方法200和/或处理300中的一个或多个步骤的计算机可执行指令。

处理器420可以例如通过总线耦接至存储器410，可以作为一个或多个集成电路来实施，例如微处理器或微控制器。该处理器420用于执行存储器410中存储的用于实现方法200和/或处理300中的一个或多个步骤的计算机可执行指令。通过所述计算机可执行指令的执行，使得能够自动调节全景影像的焦点。

图5示出了根据本公开实施例的监控系统500的结构框图。图5所示的监控系统500可以包括多个监控设备510-1至510-N和控制设备520，其中N是大于等于2的整数，这意味着监控设备的数量可以为2个、3个、4个或更多。该多个监控设备例如可以是如图1所示的监控设备110-1至110-N。每个监控设备可以包括用于采集音频输入的音频采集设备(例如内置在监控设备中的麦克风)，并且被配置为向控制设备发送所采集的音频输入。控制设备例如可以是如图1所示的控制设备120，它可以被配置为根据从每个监控设备接收的音频输入，识别每个监控设备处的音频输入中包含的多种声音信号；通过使用与多个监控设备监控的场景对应的加权系数，对每个监控设备处的多种声音信号进行加权求和，得到每个监控设备处的加权结果；以及根据每个监控设备处的加权结果，设置由所述多个监控设备形成的全景影像的焦点。

如现有计算机装置中那样，设备400以及监控系统500包括的多个监控设备和控制设备可以通过读写接口连接至外部存储装置以便调用外部数据，还可以通过网络接口连接至网络或者其他计算机装置，此处不再进行详细描述。

尽管未在图中示出，但是本领域技术人员可以理解，根据上述方法可以实现用于调节焦点的装置。该装置可以包括多个部件，每个部件可以被配置为执行上述方法中的相应步骤。这些部件中的每一个可以通过一个或多个处理器来实现，并且可以以软件、硬件、固件或其任意组合实现。

本领域内的技术人员应明白，本公开的实施例可提供为方法、装置、或计算机程序产品。因此，本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本公开是参照根据本公开实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

至此，已经详细描述了本公开。为了避免遮蔽本公开的构思，没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述，完全可以明白如何实施这里公开的技术方案。

可能以许多方式来实现本公开的方法和系统。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和系统。用于所述方法的步骤的上述顺序仅是为了进行说明，本公开的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本公开实施为记录在记录介质中的程序，这些程序包括用于实现根据本公开的方法的机器可读指令。因而，本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。

虽然已经通过示例对本公开的一些特定实施例进行了详细说明，但是本领域的技术人员应该理解，以上示例仅是为了进行说明，而不是为了限制本公开的范围。本领域的技术人员应该理解，可在不脱离本公开的范围和精神的情况下，对以上实施例进行修改。本公开的范围由所附权利要求来限定。

完整全部详细技术资料下载