记录多媒体文件的方法及其电子设备

文献发布时间：2023-06-19 11:34:14

技术领域

本公开涉及在电子设备中执行动作。更具体地，本公开涉及一种用于以记录模式和效果中的至少一者记录包括至少一个对象的多媒体文件的电子设备和方法。

背景技术

通常，电子设备被广泛用于捕获和观看诸如视频的多媒体文件。然而，当用户使用电子设备捕获视频时，由于捕获视频的过程不是自动的并且不能创造性地确定所需的效果，因此用户必须手动将所需的效果应用于视频的特定部分。因此，每次用户捕获视频时手动应用所需效果的过程使该过程变得繁琐。此外，由用户应用的效果在很大程度上取决于用户的创造力，并且对于视频的特定部分可能不是适当的效果。模式切换机制本身不足以实现自动化或智能化。例如，考虑了用户正在捕获跳入游泳池的人的视频的场景。用户将希望以慢动作模式以及放大效果捕获潜水，以专注于正在潜水的人。然而，当用户应用慢动作模式和放大效果时，存在人可能已经跳下而用户错过捕获潜水动作的一部分的可能性。

以上信息仅作为背景信息呈现，以帮助读者理解本公开。申请人未就以上任何内容是否可作为关于本申请的现有技术应用做出任何确定，也没有断言。

发明内容

技术方案

本公开提供了一种用于记录多媒体文件的方法和电子设备。所述方法包括：预览包括所述电子设备的相机的视场中的多个对象的场景；以及检测与所述场景中的多个对象中的至少一个对象相关联的形状事件和声音事件中的至少一者。此外，所述方法包括：基于所述声音事件和所述形状事件中的至少一者，确定所述至少一个对象的记录模式和效果中的至少一者；以及自动地应用所述记录模式和所述效果中的至少一者。所述方法还包括：以所述记录模式视频和所述效果中的至少一者记录包括所述至少一个对象的多媒体文件；以及存储所述多媒体文件。

本公开还提供了一种用于记录多媒体文件的方法和电子设备。所述方法包括以第一记录模式和第一效果中的至少一者记录场景的第一部分，并且在记录所述场景的同时，检测与所述至少一个对象相关联的形状事件和声音事件中的至少一者。此外，所述方法还包括基于所述形状事件和所述声音事件确定第二记录模式，并以所述第二记录模式和第二效果中的至少一者记录所述场景的第二部分。所述方法还包括产生包括所述场景的第一部分和所述场景的第二部分的多媒体文件，并存储所述多媒体文件。

当结合以下描述和附图考虑时，还将更好地理解和理解本公开。然而，应当理解，以下描述虽然指示了优选实施例及其众多具体细节，但是它们是通过示例而非限制的方式给出的。在不脱离本公开的精神的情况下，可以在本文的实施例的范围内进行许多改变和修改，并且本文中的实施例包括所有此类的修改。

附图说明

在附图中示出了本公开，贯穿所有附图，相同的附图标记指示各个图中的相应部分。通过以下参考附图的描述，将会更好地理解本文的实施例，其中：

图1A是根据本文公开的实施例的用于以记录模式和效果中的至少一者记录包括至少一个对象的多媒体文件的电子设备的框图；

图1B示出了根据本文公开的实施例的在应用记录模式和效果中的至少一者之后确定至少一个对象并记录多媒体文件时，记录模式管理引擎的各个元件的功能；

图1C是根据本文公开的实施例的用于检测场景中的至少一个对象的对象检测引擎131的框图；

图1D是根据本文公开的实施例的记录模式管理引擎130的帧预测引擎132的框图；

图1E是示出了根据本文公开的实施例的通过形状事件检测引擎133检测形状事件的方法的示例；

图2A是根据本文公开的实施例的用于基于与至少一个对象相关联的形状事件和声音事件中的至少一者确定帧速率的帧速率确定引擎135的模型；

图2B-图2E是根据本文所公开的实施例的表示记录模式和效果基于帧速率应用于多媒体文件的图；

图3是示出了根据本文公开的实施例的用于以记录模式和效果中的至少一者记录包括至少一个对象的多媒体文件的方法的流程图；

图4是示出了根据本文公开的实施例的用于产生和回放包括场景的第一部分和场景的第二部分的多媒体文件的方法的流程图；

图5A-图5D是根据本文公开的实施例的显示与多媒体文件的记录模式和效果中的至少一者相对应的唯一标识符的各种技术的示例；

图6是根据本文公开的实施例的当在相机的视场(FOV)内不存在次要对象时，用于检测与气球相关联的形状事件和声音事件并以记录模式和效果中的至少一者记录多媒体文件的示例图示；

图7是根据本文公开的实施例的用于检测与弓相关联的形状事件和声音事件并以记录模式和效果中的至少一者记录多媒体文件的示例图示；

图8是根据本文公开的实施例的用于检测与海豚相关联的形状事件并以记录模式和效果中的至少一者记录多媒体文件的示例图示；

图9是根据本文公开的实施例的当在电子设备的相机的FOV中存在次要对象时，用于检测与气球相关联的形状事件并以记录模式和效果中的至少一者记录多媒体文件的示例图示；

图10是根据本文公开的实施例的用于检测与篮球场中的篮筐相关联的形状事件并且以记录模式和效果中的至少一者记录多媒体文件的示例图示；

图11是示出了根据本文公开的实施例的选择目标并自动记录由目标以较高帧速率执行的异常动作的示例；

图12是根据本文公开的实施例的当在可穿戴设备的相机的FOV内存在次要对象时，用于检测与气球相关联的形状事件并以记录模式和效果中的至少一者记录多媒体文件的示例图示；

图13是根据本文公开的实施例的用于检测与车辆相关联的形状事件和声音事件并以记录模式和效果中的至少一者记录多媒体文件的示例图示；以及

图14是根据本文公开的实施例的用于通过使用多个相机以记录模式和效果中的至少一者记录多个多媒体文件，并通过将多个多媒体文件合并来产生多媒体文件，来捕获多个对象的示例图示。

具体实施方式

现在将参考附图详细描述本公开的各种实施例。在以下描述中，仅提供诸如详细配置和组件的特定细节以帮助整体理解本公开的这些实施例。因此，对于本领域技术人员而言显而易见的是，在不脱离本公开的范围和精神的情况下，可以对本文所述的实施例进行各种改变和修改。另外，为了清楚和简洁，省略了对公知功能和构造的描述。而且，本文描述的各种实施例不必互相排斥，因为一些实施例可以与一个或更多个其他实施例结合以形成新的实施例。在本文中，除非另有说明，否则本文所用的术语“或”是指非排他性的“或”。本文中使用的示例仅旨在促进理解可以实践本文中的实施例的方式，并进一步使本领域技术人员能够实践本文中的实施例。因此，示例不应被解释为限制本文的实施例的范围。

如本领域中的传统，可以根据执行所描述的一个或更多个功能的块来描述和说明实施例。这些块在本文中可以被称为单元、引擎、管理器、模块等，并由模拟和/或数字电路(诸如逻辑门)、集成电路、微处理器、微控制器、存储电路、无源电子组件、有源电子组件、光学组件、硬接线电路等物理地执行，并且可以可选地由固件和/或软件驱动。电路可以例如被实施在一个或更多个半导体芯片中，或者被实施在基板支撑件(诸如印刷电路板等)上。可以通过专用硬件，或者通过处理器(例如，一个或更多个编程的微处理器和相关联电路)，或者通过执行该块的一些功能的专用硬件与执行该块的其他功能的处理器的组合，来实现构成块的电路。在不脱离本公开的范围的情况下，实施例的每个块可以在物理上被分成两个或更多个相互作用和离散的块。同样，在不脱离本公开的范围的情况下，实施例的块可以物理地组合成更复杂的块。

因此，本文的实施例提供了一种用于使用电子设备来记录多媒体文件的方法。该方法包括：预览包括电子设备的相机的视场中的多个对象的场景；并且检测与场景中的多个对象中的至少一个对象相关联的形状事件和声音事件中的至少一者。此外，该方法包括：基于声音事件和形状事件中的至少一者，确定至少一个对象的记录模式和效果中的至少一者；并且自动地应用记录模式和效果中的至少一者。该方法还包括以记录模式视频和效果中的至少一者记录包括至少一个对象的多媒体文件；并且存储该多媒体文件。

在传统的方法和系统中，记录模式的选择完全是由用户驱动的过程，其中用户必须单独地设置所需的记录模式，并且在需要时必须重复进行设置，并且不能实时记录功能。与传统的方法和系统不同，所提出的方法是全自动的，并且基于与场景中的至少一个对象相关联的形状事件和/或声音事件来确定要应用于视频的记录模式和/或效果。

与传统的方法和系统不同，所提出的方法检测可能在稍后的时间点出现在场景中的上下文可能对象，因此，确定记录模式/效果所需的处理时间变得更快。

现在参考附图，并且更具体地参考图1A至图13，其中相似的附图标记在所有图中始终表示相应特征，其中示出了优选实施例。

图1A是根据本文公开的实施例的用于以记录模式和效果中的至少一者记录包括至少一个对象的多媒体文件的电子设备100的框图。如图1A所示，电子设备100可以是例如膝上型计算机、个人计算机、移动电话、智能电话、个人数字助理(PDA)、平板电脑、可穿戴设备等。在实施例中，电子设备100可以包括相机110、语音管理引擎120、记录模式管理引擎130、处理器140、存储器150和显示器160。

在实施例中，相机110被配置为预览包括视场内的多个对象的场景。此外，相机110还被配置为以记录模式和效果中的至少一者记录包括至少一个对象的多媒体文件。相机110能够以可变的帧速率捕获多媒体文件。在实施例中，语音管理引擎120包括麦克风122和语音检测引擎124。语音管理引擎120中的麦克风122被配置为接收来自用户的语音输入，用于以语音命令的形式选择/提供次要对象。语音管理引擎120中的语音检测引擎124还被配置为确定与至少一个对象相关联的声音，并将其提供给记录模式管理引擎130，录音模式管理引擎130转而确定是否发生了声音事件。在实施例中，记录模式管理引擎130被配置为检测与场景中的多个对象中的至少一个对象相关联的形状事件和声音事件中的至少一者。形状事件可以是至少一个对象的形状的突然增加或减小。例如，丛林中的一只老虎突然看到猎物并开始追逐猎物。老虎的形状突然发生改变。声音事件可以是来自至少一个对象的声音的振幅的突然增加或减小。例如，从枪上发射子弹。玻璃瓶突然摔落而破裂是形状事件和声音事件的示例。场景中的至少一个对象可以是主要对象和次要对象。此外，记录模式管理引擎130被配置为基于声音事件和形状事件中的至少一者确定至少一个对象的记录模式和效果中的至少一者，并自动应用记录模式和效果中的至少一者。记录模式可以是例如慢动作模式、快动作模式、全景模式等。效果可以是例如聚焦、散焦等。此外，记录模式管理引擎130被配置为以记录模式和效果中的至少一者记录包括至少一个对象的多媒体文件。

在另一实施例中，记录模式管理引擎130被配置为以第一记录模式和第一效果中的至少一者记录场景的第一部分，并在记录场景的同时检测与至少一个对象相关联的形状事件和声音事件中的至少一者。此外，记录模式管理引擎130被配置为基于形状事件和声音事件来确定第二记录模式，并且以第二记录模式和第二效果中的至少一者记录场景的第二部分。记录模式管理引擎130还被配置为产生包括场景的第一部分和场景的第二部分的多媒体文件。第一记录模式和第二记录模式可以是快动作模式、慢动作模式中的至少一个。记录模式管理引擎130还在记录场景的第一部分的同时在多媒体文件的时间线上嵌入与第一记录模式相对应的唯一标识符，而在记录场景的第二部分的同时在多媒体文件的时间线上嵌入与第二记录模式相对应的唯一标识符。

在实施例中，处理器140被配置为与诸如相机110、语音管理引擎120、记录模式管理引擎130、存储器150和显示器160的硬件元件交互。

在实施例中，存储器150被配置为存储包括以记录模式视频和效果中的至少一者所记录的至少一个对象的多媒体文件。存储器150还包括对象数据库，该对象数据库存储对象名称和样本图像的键值对。当电子设备100检测到场景中的多个对象时，存储器150还存储由用户选择的主要对象。此外，存储器150还存储基于主要对象的上下文确定的次要对象。存储器150可以包括非易失性存储元件。此类非易失性存储元件的示例可以包括磁性硬盘、光盘、软盘、闪存、或电可编程存储器(EPROM)或电可擦除可编程(EEPROM)存储器的形式。另外，在一些示例中，存储器150可以被认为是非暂时性存储介质。术语“非暂时性”可以指示存储介质没有体现在载波或传播的信号中。然而，术语“非暂时性”不应被解释为存储器150是不可移动的。在一些示例中，存储器150被配置为存储比存储器大的信息量。在某些示例中，非暂时性存储介质可以存储能够随时间改变的数据(例如，在随机存取存储器(RAM)或缓存中)。

在实施例中，显示器160被配置为显示包括多个对象的场景，并从用户接收触摸输入，用于选择对象、开始/结束记录等。此外，显示器160被配置为显示检测到的对象并预览和记录帧。此外，显示器160被配置为在记录场景的第一部分的同时在多媒体文件的时间线上显示与第一记录模式相对应的唯一标识符，以及在记录场景的第二部分的同时在多媒体文件的时间线上显示与第二记录模式相对应的唯一标识符。此外，在用户回放存储的多媒体文件时，显示器160在多媒体文件的时间线上自动显示与第一记录模式和第二记录模式相对应的唯一标识符。

图1B示出了根据本文公开的实施例的在应用记录模式和效果中的至少一者之后确定至少一个对象并记录多媒体文件时，记录模式管理引擎130的各个元件的功能。

在实施例中，记录模式管理引擎130包括对象检测引擎131、帧预测引擎132、形状事件检测引擎133、声音事件检测引擎134和帧速率确定引擎135。在实施例中，对象检测引擎131被配置为在预览场景的同时检测多个对象中的相关对象。此外，对象检测引擎131使用卷积神经网络(CNN)和上下文信息的组合来确定场景中的对象。对象检测引擎131单元获取输入帧并确定场景中存在的可能对象，从而减少了多个处理级别。在实施例中，帧预测引擎132是用于视频预测的深度预测编码网络。帧预测引擎132被配置为接收输入帧，对输入帧执行学习并预测未来的帧。预测的未来帧被发送到对象检测引擎131以确定输入帧中的上下文上可能对象。在实施例中，形状事件检测引擎133被配置为检测所选择的对象的形状改变并确定对象的形状改变率。在实施例中，声音事件检测引擎134被配置为确定与至少一个对象相关联的声音的声压级(SPL)，并确定与至少一个对象相关联的声音的SPL是否满足声音改变标准。当与至少一个对象相关联的声音满足声音改变标准时，声音事件被检测到。相对于时间的SPL改变可以重新表示为当前信号功率与较早信号功率之间的线性比例之比r(t)，如下方程所示：

当前信号功率pow(t)指在T

p(t)是从麦克风122测得的SPL。

由于背景噪声的水平随时间或环境而缓慢变化，因此背景噪声也被包括在测量的声压中。当仅存在背景噪声时，可以观察到r(t)相对于时间的微小改变。当产生突然的大声声音时，r(t)急剧变化，因此引入阈值r

在实施例中，帧速率确定引擎135被配置为组合来自先前训练回归模型的形状事件检测引擎133和声音事件检测引擎134的输出，并返回预测的帧速率。如果预测的帧速率与主要对象的正常帧速率不同，则将聚焦效果应用于对象，并改变帧速率。类似地，如果预测的帧速率与次要对象的正常速率不同，则仅改变帧速率。此外，基于声音事件或形状事件的先前发生状态，当声音事件或形状事件消失时，该状态切换为正常。

图1C是根据本文公开的实施例的用于检测场景中的至少一个对象的对象检测引擎131的框图。

所提出的方法使用具有上下文信息的基于CNN的模型来改进对象检测并提高检测场景中至少一个对象的准确性。此外，该方法使用监督学习。对象检测的方法包括在场景中定位对象实例(假设生成)并将对象分类为语义类(假设分类)。假设是使用如对称性、长宽比、预期位置、颜色和运动的特征生成的。通常，假设分类方法可以被分为基于形状的方法和基于特征的方法。所提出的方法是基于特征的方法。对象检测引擎131具有融合系统，其合并来自基于CNN的深度学习(DL)分类器的输出和基于上下文的分类器的输出。基于上下文的分类器是使用朴素贝叶斯(Bayes)方法设计的。使用贝叶斯模型来融合DL分类器分数和基于上下文的分类器分数。使用输入帧广泛地训练对象检测引擎131以检测后续帧中的上下文对象。

图1D是根据本文公开的实施例的记录模式管理引擎130的帧预测引擎132的框图。

帧预测引擎132是用于视频预测的深度预测编码网络，其最初被训练。帧预测引擎132使用无监督学习。帧预测引擎132学习在多媒体文件中顺序地预测未来的帧。帧预测引擎132内的每个层进行局部预测，并且仅将与这些预测的偏差转发给后续层。预测帧被发送到对象检测引擎131中用于对象检测，以从预测帧中找到可能的对象。

参考图1D，示出了在帧预测引擎132的各层内的信息流的图示。每一层都由表示神经元(R

图1E是示出了根据本文公开的实施例的通过形状事件检测引擎133检测形状事件的方法的示例。

形状事件检测引擎133包括用于在变形对象的2-D轮廓序列上进行形状事件检测的框架，该2-D轮廓序列可以通过背景减法和质心对准从帧序列中获得。轮廓序列是如下视频序列，其中每个像素要么是0(黑色)表示背景，要么是1(白色)表示前景(典型地移动/变形的对象)。当接收到动作片段时，形状事件检测引擎133提取13维形状的集合，该集合描述了形状随时间t

图2A是根据本文公开的实施例的用于基于与至少一个对象相关联的形状事件和声音事件中的至少一者确定帧速率的帧速率确定引擎135的模型。

图2B-图2E是根据本文所公开的实施例的表示记录模式和效果基于帧速率应用于多媒体文件的图。

参考图2A，帧速率确定引擎135包括诸如线性回归的回归模型以预测帧速率。帧速率确定引擎135通过特征集训练，该特征集包括输入声音响度、形状改变率和预期输出(帧速率)。此外，帧速率确定引擎135学习使用方程(4)基于突然输入的声音和形状改变率的变量来预测帧速率：

Y＝β

其中：X

例如，考虑场景中的主要对象，值是X

在另一个示例中，考虑场景中检测到的主要对象，值X

由于F

从(4)的曲线中得出在主要对象(F

如果在次要对象中检测到有趣的事件，则根据曲线(4)分配帧速率(F

那么，次要对象事件的最终帧速率为F

当未检测到突然的形状/声音事件时或当形状/声音事件逐渐发生时，则减小帧速率(F1'和F2'*)，并该减小针对场景中所有对象，如图2D所示。当声音消失和/或形状改变停止时，恢复正常的记录模式。此外，在图2E中示出了形状事件和声音事件的组合值，其通过帧速率确定引擎135中的回归模型获得。

图3是示出了根据本文公开的实施例的用于以记录模式和效果中的至少一者记录包括至少一个对象的多媒体文件的方法的流程图300。

参考图3，在步骤302，电子设备100预览包括相机110的视场中的多个对象的场景。例如，在如图1A中所示的电子设备100中，相机110被配置为预览包括相机110的视场中的多个对象的场景。

在步骤304，电子设备100确定与至少一个对象相关联的声音的声压级(SPL)。在步骤306，电子设备100确定与至少一个对象相关联的声音的SPL是否满足声音标准。在步骤308，在确定与至少一个对象相关联的声音的SPL满足声音标准时，电子设备100检测与至少一个对象相关联的形状事件和声音事件中的至少一者。在步骤310，电子设备100基于声音事件和形状事件中的至少一者确定至少一个对象的记录模式和效果中的至少一者。在步骤312，电子设备100自动应用记录模式和效果中的至少一者。在步骤314，电子设备100以记录模式和效果中的至少一者记录包括至少一个对象的多媒体文件，并存储该多媒体文件。在步骤316，电子设备100获得与至少一个对象相关联的多个帧。在步骤318，电子设备100确定每个帧中至少一个对象的至少一个区域的差异。在步骤320，电子设备100确定每个帧中至少一个对象的至少一个区域的改变率。在步骤322，电子设备100确定在每个帧中的至少一个对象的至少一个区域的改变率是否满足形状标准。此外，在确定每个帧中的至少一个对象的至少一个区域的改变率满足形状标准时，电子设备100循环到步骤310并执行如上所述的步骤310至314。由图1A所示的由电子设备100的记录模式管理引擎130执行从步骤304到步骤322的步骤。

图4是示出了根据本文公开的实施例的用于产生和回放包括场景的第一部分和场景的第二部分的多媒体文件的方法的流程图400。

参考图4，在步骤402，电子设备100以第一记录模式和第一效果中的至少一者记录场景的第一部分。在步骤404，电子设备100在记录场景的同时检测与至少一个对象相关联的形状事件和声音事件中的至少一者。在步骤406，电子设备100基于形状事件和声音事件确定第二记录模式。在步骤408，电子设备100以第二记录模式和第二效果中的至少一者记录场景的第二部分。在步骤410，电子设备100产生包括场景的第一部分和场景的第二部分的多媒体文件。在步骤412，电子设备100存储多媒体文件。例如，在如图1A所示的电子设备100中，存储器150被配置为存储多媒体文件。

在步骤414，电子设备100回放多媒体文件。在步骤416，电子设备100在多媒体文件的时间线上自动显示与记录模式相对应的唯一标识符。例如，在如图1A所示的电子设备100中，显示器160被配置为在多媒体文件的时间线上自动显示与记录模式相对应的唯一标识符。在步骤418，电子设备100以第一记录模式回放第一部分并且以第二记录模式回放第二部分。由图4A所示的电子设备100的记录模式管理引擎130执行从步骤402-410、步骤414和步骤418的步骤。

图5A-图5D是根据本文公开的实施例的显示与多媒体文件的记录模式和效果中的至少一者相对应的唯一标识符的各种技术的示例。

参考图5A，在502a，帧中的主要对象是弓。电子设备100确定主要对象中的形状事件。此外，基于主要对象中的形状事件，电子设备100在记录包括主要对象的多媒体文件的同时确定要应用的记录模式和效果中的至少一者。此外，通过增加帧速率来改变记录模式，并应用聚焦效果来高亮屏幕上的主要对象。与多媒体文件的正常帧速率相比，通过提供唯一的标识符(诸如时间线的颜色变化)来表示多媒体文件的帧速率的增加。此外，在多媒体文件的时间线上还提供了主要对象的表示。在504a，当检测到声音事件时捕获次要对象。此外，基于由于次要对象引起的声音事件，电子设备100在记录包括次要对象的多媒体文件的同时确定要应用的记录模式和效果中的至少一者。此外，与多媒体文件的正常帧速率相比，通过增加帧速率来改变记录模式，以高亮屏幕上的次要对象。与多媒体文件的正常帧速率和为多媒体文件的主要对象提供的帧速率相比，通过提供唯一的标识符(诸如时间线的颜色变化)来表示多媒体文件的帧速率的增加。此外，在多媒体文件的时间线上也提供了次要对象的表示。结合图5A，在图5B中，在502b，与多媒体文件的正常帧速率相比，通过提供唯一的标识符(诸如具有时间线的颜色变化的图形表示)来表示多媒体文件的帧速率的增加。在504b，与多媒体文件的正常帧速率和为多媒体文件的主要对象提供的帧速率相比，通过提供唯一的标识符(诸如具有时间线的颜色变化的图形表示)来表示多媒体文件的帧速率的增加。

结合图5A，在图5C中，在502c，与多媒体文件的正常帧速率相比，通过提供唯一的标识符(诸如具有颜色变化的之字形时间线)来表示多媒体文件的帧速率的增加。在504c，与多媒体文件的正常帧速率和为多媒体文件的主要对象提供的帧速率相比，通过提供唯一的标识符(诸如具有颜色变化的之字形时间线)来表示多媒体文件的帧速率的增加。

结合图5A，在图5D中，在502d，与多媒体文件的正常帧速率相比，连同唯一标识符(诸如具有时间线的颜色变化的图形表示)一起，增加的帧速率240FPS也被显示在多媒体文件的时间线上。类似地，在多媒体文件的时间线上还显示捕获次要对象的帧速率，即120FPS。然而，用于捕获场景中的主要对象的帧速率始终大于用于捕获场景中的次要对象的帧速率，其由主要对象和次要对象的唯一标识符的改变来指示。

图6是根据本文公开的实施例的当在相机的视场(FOV)内不存在次要对象时，用于检测与气球相关联的形状事件和声音事件并以记录模式和效果中的至少一者记录多媒体文件的示例图示。

参考图6，在602，电子设备100提供包括电子设备100的相机110的FOV内的主要对象(即气球)的场景的预览。在步骤604，用户在场景预览中将气球识别为主要对象。此外，电子设备100还可以在场景的预览中自动识别主要对象。

在步骤606，电子设备100建议次要对象，该次要对象与场景中的主要对象上下文相关并且不存在于在相机110中显示的场景预览中。在电子设备100未建议用户想要引入场景中的次要对象的情况下，则用户可以向电子设备100提供语音命令以添加次要对象。在步骤608，用户选择所需的次要对象作为子弹。在步骤610和步骤612，电子设备100检测形状事件并确定由于次要对象而与主要对象相关联的声音事件，即，当子弹撞击气球时，气球爆炸，从而产生突然的声音和形状的瞬间改变。此外，电子设备100确定可应用于捕获主要对象和次要对象的记录模式和效果，并在应用记录模式和效果之后记录视频。可以以诸如慢动作的记录模式捕获气球的爆炸，并具有诸如聚焦的效果以清楚地捕获气球的形状和声音的改变。

在传统方法和系统中，用户必须在捕获事件的同时手动地改变记录模式/效果。因此，有可能在用户识别记录模式/效果等时错过对用户重要的事件/时刻。与传统方法和系统不同，所提出的方法基于主要对象的突然声音改变/形状改变来自动确定在捕获事件的同时要应用的记录模式/效果，其是用户感兴趣的。

图7是根据本文公开的实施例的用于检测与弓相关联的形状事件和声音事件并以记录模式和效果中的至少一者记录多媒体文件的示例图示。

参考图7，在步骤702，考虑了用户正在预览电子设备100的相机的视场内的使用弓箭的弓箭手。电子设备100自动检测相机的视场内的多个对象，即弓箭手和弓。此外，用户选择弓作为场景中的主要对象。在步骤704，电子设备100自动确定与主要对象上下文相关联的次要对象，并将建议的次要对象显示给用户。用户选择从电子设备100提供的多个次要对象中选出的次要对象。如果电子设备100未提供用户选择的次要对象，则用户可以通过提供语音命令等来添加次要对象。此外，在步骤706，电子设备100在屏幕上显示主要对象和次要对象，并且还将所确定的主要对象和次要对象存储在对象数据库中。在选择阶段之后，在步骤708，用户开始记录多媒体文件，并且电子设备100基于该学习来检测相机的视场内的主要对象。此外，在步骤710，电子设备100将主要对象存储在对象数据库中。

在步骤712，电子设备100检测与场景中的弓相关联的形状事件和声音事件。因此，电子设备100基于声音事件和形状事件将记录模式确定为慢动作模式，并将效果确定为聚焦(即，放大和捕获)以捕获主要对象。在步骤714，电子设备100自动应用慢动作模式和对焦效果并记录多媒体文件。在记录的同时应用于主要对象的慢动作模式由多媒体文件的时间线上的唯一标识符(即时间线中的递升模式)指示。此外，当电子设备100不再确定与弓相关联的形状事件和声音事件时，则电子设备100切换到正常模式并继续记录多媒体文件，其由多媒体文件的时间线中的直线指示。在步骤716，当电子设备100接收到包括次要对象的帧时，则在主要对象和次要对象之间执行声音验证。此外，当关于次要对象检测到声音事件时，电子设备100将要被应用以捕获次要对象的记录模式确定为慢动作模式，并且在步骤718，在记录多媒体文件的同时切换到慢动作模式。在记录的同时被应用于次要对象的慢动作模式由多媒体文件的时间线上的唯一标识符(即时间线上的递升模式)指示。然而，当与指示主要对象的递升模式相比时，该递升模式的高度较小。这是因为主要对象的帧速率增加总是大于次要对象的帧速率增加。在步骤720，当声音消失时，电子设备100切换到正常模式以记录多媒体文件。一旦用户完成了多媒体文件的记录，则多媒体文件被存储在电子设备100中。此外，当用户回放多媒体文件时，电子设备100在多媒体文件的时间线上自动地显示与主要对象的记录模式和次要对象的第二记录模式相对应的唯一标识符，并以各自记录模式回放多媒体文件的相应部分。

图8是根据本文公开的实施例的用于检测与海豚相关联的形状事件并以记录模式和效果中的至少一者记录多媒体文件的示例图示。

参考图8，在步骤802，考虑了用户正在预览包括静止水景的场景。在步骤804，电子设备100自动确定与场景上下文相关联的对象，即海豚，并在电子设备100的屏幕上显示建议的对象。用户选择从电子设备100提供的多个对象中选出的对象。如果电子设备100未提供用户选择的对象，则用户可以通过提供语音命令等来添加对象。此外，电子设备100在屏幕上显示对象，并且还将所确定的对象存储在对象数据库中。在选择阶段之后，在步骤806，用户开始记录多媒体文件。在步骤808，电子设备100检测相机的视场内的海豚并开始以正常模式记录。在步骤810，电子设备100检测与场景中的海豚相关联的形状事件。因此，电子设备100基于形状事件将记录模式确定为慢动作模式，并将效果确定为聚焦(即，放大和捕获)以捕获海豚。从步骤810到814，电子设备100自动应用慢动作模式和对焦效果，并记录捕获海豚的整个形状事件的多媒体文件。在记录的同时被应用来捕获海豚的慢动作模式由多媒体文件的时间线上的唯一标识符(即时间线上的递升模式)指示。此外，当电子设备100不再确定与海豚相关联的形状事件时，电子设备100切换到正常模式并继续记录多媒体文件。此外，当用户回放包括海豚的多媒体文件时，电子设备100在多媒体文件的时间线上自动显示与海豚的记录模式相对应的唯一标识符，并以各自记录模式回放多媒体文件的相应部分。

图9是根据本文公开的实施例的当在电子设备的相机的FOV中存在次要对象时，用于检测与气球相关联的形状事件并以记录模式和效果中的至少一者记录多媒体文件的示例图示。

参考图9，在步骤902，考虑了用户正在预览如下场景，该场景包括用别针接近气球的用户的手。电子设备100自动检测相机的视场内的多个对象，即气球和用户的手。在步骤904，用户选择气球作为场景中的至少一个感兴趣的对象。在步骤906，电子设备100将用户选择的气球作为图像显示在电子设备100的屏幕上，并且还将所确定的对象存储在对象数据库中。在选择阶段之后，在步骤908，用户开始记录多媒体文件，并在步骤910检测与气球相关联的形状事件。在步骤912，电子设备100基于形状事件将记录模式确定为快速运动模式，并将效果确定为聚焦以捕获气球。从步骤912到916，电子设备100自动应用快动作模式和对焦效果，并记录捕获气球的整个形状事件的多媒体文件。在记录的同时被应用来捕获气球的快速运动模式由在多媒体文件的时间线上的唯一标识符(即时间线上的递降模式)指示。此外，当电子设备100不再确定与气球相关联的形状事件时，电子设备100切换到正常模式并在步骤916之后继续记录多媒体文件。此外，当用户回放包括气球的多媒体文件时，电子设备100在多媒体文件的时间线上自动显示与气球的记录模式相对应的唯一标识符，并以各自记录模式回放多媒体文件的相应部分。

图10是根据本文公开的实施例的用于检测与篮球场中的篮筐相关联的形状事件并且以记录模式和效果中的至少一者记录多媒体文件的示例图示。

参考图10，在步骤1002，考虑了用户正在预览篮球场的场景。由于相机的视场内存在多个对象，因此电子设备100无法检测场景内的主要对象。因此，在步骤1004，用户提供语音输入，该语音输入指示主要对象为篮球的篮筐，其形状事件必须由电子设备100捕获。电子设备100将篮筐作为图像显示在电子设备100的屏幕上，并且还将篮筐存储在对象数据库中。在选择阶段之后，在步骤1006和1008，用户开始以正常模式记录多媒体文件并检测与篮筐相关联的形状事件。在步骤1010，电子设备100将记录模式确定为慢动作模式，并将效果确定为对焦以捕获与篮筐相关联的形状事件。从步骤1010到1012，电子设备100自动应用慢动作模式和对焦效果，并记录捕获了篮筐的整个形状事件的多媒体文件。在记录的同时被应用来捕获气球的慢动作模式由多媒体文件的时间线上的唯一标识符(即时间线上的递升模式)指示。在步骤1014，当电子设备100不再确定与篮筐相关联的形状事件时，电子设备100切换到正常模式并继续记录多媒体文件。此外，当用户回放包括篮筐的多媒体文件时，电子设备100在多媒体文件的时间线上自动显示与篮筐的记录模式相对应的唯一标识符，并以各自记录模式回放多媒体文件的相应部分。

图11是示出了根据本文公开的实施例的选择目标并自动记录由目标以较高帧速率执行的异常动作的示例。

通常，安全应用高度依赖于跟踪各种可疑目标以及与可疑目标关联的动作。因此，可以基于形状事件和声音事件选择可疑目标，并且可以以较高的帧速率自动记录与可疑目标相关联的动作。此外，由于捕获多媒体文件的帧速率较高，因此可以分析包括可疑目标的多媒体文件。考虑了小偷拿着枪进入商店的情况。在相机的预览模式下，电子设备100的用户选择需要被监视的对象(即枪)。在步骤1102，电子设备100确定枪突然出现在相机的视场内正在捕获的场景中。此外，在步骤1104，电子设备100确定与枪相关联的形状事件，并以增加的帧速率记录多媒体文件。

图12是根据本文公开的实施例的当在可穿戴设备的相机的FOV内存在次要对象时，用于检测与气球相关联的形状事件并以记录模式和效果中的至少一者记录多媒体文件的示例图示。

结合图9，参考图12，在步骤1202，具有相机的可穿戴设备100也可以用于预览包括多个对象的场景。此外，在选择阶段之后，从步骤1204到1208，用户记录多媒体文件并检测与气球相关联的形状事件。可穿戴设备100基于形状事件确定记录模式和效果用于捕获气球。此外，可穿戴设备100自动应用所确定的记录模式和效果并记录多媒体文件。在记录的同时被应用于气球的记录模式由可穿戴设备100的屏幕上的唯一标识符(即饼状图)指示。

图13是根据本文公开的实施例的用于检测与车辆相关联的形状事件和声音事件并以记录模式和效果中的至少一者记录多媒体文件的示例图示。

参考图13，考虑了车辆的仪表板相机。仪表板相机预览道路上的车辆，如在步骤1302所示。在步骤1304，仪表板相机自动将超速行驶的特定车辆确定为主要对象。在步骤1306，仪表板相机开始记录包含主要对象的多媒体文件。在步骤1308，电子设备100检测由于主要对象(即，超速车辆)撞击道路上的另一车辆而导致的与主要对象相关联的突然形状事件和声音事件。仪表板相机开始以慢动作模式记录多媒体文件，并具有聚焦效果，以捕获主要对象的牌照号码详细信息等。在步骤1310，具有仪表板相机的车辆超过主要对象，仪表板相机以正常模式继续记录道路上包含车辆的多媒体文件。此外，当用户回放包括超速车辆的多媒体文件时，电子设备100在多媒体文件的时间线上自动显示与超速车辆的记录模式相对应的唯一标识符，并以各自记录模式回放多媒体文件的相应部分。因此，所提议的方法可以被执法机构用来容易地跟踪违反交通的车辆，因为车辆中的仪表板相机可以用于捕获违反交通车辆的牌照详细信息。

图14是根据本文公开的实施例的用于通过使用多个相机以记录模式和效果中的至少一者记录多个多媒体文件，并通过将多个多媒体文件合并来产生多媒体文件，来捕获多个对象的示例图示。具有一个以上相机的电子设备100可以用于使用一个以上相机中的第一相机和第二相机分别捕获主要对象和次要对象。在步骤1402，用户从电子设备100的第一相机提供的视图中选择主要对象，并从第二相机提供的视图中选择次要对象。在步骤1404，电子设备100跟踪主要对象并确定与主要对象相关联的形状事件和声音事件中的至少一者。此外，电子设备100使用第一相机。此外，电子设备100还使用第二相机跟踪v对象并确定与次要对象相关联的形状事件和声音事件中的至少一者。此外，如步骤1404和步骤1406所示，在记录多媒体文件的同时，电子设备100通过各个相机确定并应用要应用于主要对象和次要对象的记录模式和效果。此外，在步骤1408，电子设备100合并使用第一相机记录的主要对象的帧和使用第二相机记录的次要对象的帧，以产生包括应用于主要对象和次要对象二者的记录模式和效果的单个多媒体文件。

特定实施例的前述描述将非常充分地揭示本文中的实施例的一般性质，以至于其他人可以在不背离通用概念的情况下，通过应用当前的知识而容易地修改和/或适应于此特定实施例的各种应用，因此，此类改编和修改应当并且旨在被理解为在所公开的实施例的等同形式的含义和范围内。应当理解，本文采用的措词或术语是出于描述的目的而非限制。因此，尽管已经根据优选实施例描述了本文的实施例，但是本领域技术人员将认识到，可以在如本文描述的实施例的精神和范围内进行修改来实践本文的实施例。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：阿卜舍克·米什拉;拉门德拉·辛格·巴杜里亚;索拉布·提瓦里;高拉夫·锡卡瓦尔;考沙尔·普拉卡什·莎玛;
专利申请人：三星电子株式会社;