多媒体文件的处理方法、装置及电子设备

文献发布时间：2023-06-19 12:18:04

技术领域

本申请实施例涉及通信技术领域，尤其涉及一种多媒体文件处理方法、装置及电子设备。

背景技术

随着电子技术的发展，电子设备中存储的文件也越来越多，如，视频、音频等多媒体文件占据内存空间较大，用户可以控制电子设备对这些多媒体文件进行筛选并执行特定操作，例如，删除操作。

以删除操作为例，目前，大多电子设备的生产厂家会提供空间清理功能，用以清理电子设备中的多媒体文件。而这种清理功能，需要用户手动、逐个去选择需要删除的多媒体文件，并逐个进行删除。如此，在电子设备中存储的文件较多的情况下，可能导致对多媒体文件进行操作的过程比较繁琐，便捷性较差。

发明内容

本申请实施例的目的是提供一种多媒体文件处理方法、装置及电子设备，能够解决对多媒体文件进行操作时过程繁琐，便携性差的问题。

第一方面，本申请实施例提供了一种多媒体文件处理方法，该方法包括：在目标界面上显示至少一个对象标识，该目标界面为第一多媒体文件的播放界面，每个对象标识用于指示该第一多媒体文件中的一个声纹对象；接收对该至少一个对象标识中目标标识的第一输入；响应于该第一输入，对目标多媒体文件执行目标操作，该目标多媒体文件为电子设备中包含该目标标识所指示的声纹对象的多媒体文件。

第二方面，本申请实施例提供了一种多媒体文件处理装置，该装置包括：显示模块、接收模块和处理模块。显示模块，用于在目标界面上显示至少一个对象标识，该目标界面为第一多媒体文件的播放界面，每个对象标识用于指示该第一多媒体文件中的一个声纹对象；接收模块，用于接收对该至少一个对象标识中目标标识的第一输入；处理模块，用于响应于接收模块接收的该第一输入，对目标多媒体文件执行目标操作，该目标多媒体文件为电子设备中包含该目标标识所指示的声纹对象的多媒体文件。

第三方面，本申请实施例提供了一种电子设备，该电子设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序或指令，程序或指令被处理器执行时实现如第一方面的方法的步骤。

第四方面，本申请实施例提供了一种可读存储介质，该可读存储介质上存储程序或指令，程序或指令被处理器执行时实现如第一方面的方法的步骤。

第五方面，本申请实施例提供了一种芯片，该芯片包括处理器和通信接口，通信接口和处理器耦合，该处理器用于运行程序或指令，实现如第一方面的方法。

在本申请实施例中，在目标界面上显示至少一个对象标识，该目标界面为第一多媒体文件的播放界面，每个对象标识用于指示该第一多媒体文件中的一个声纹对象；接收对该至少一个对象标识中目标标识的第一输入；响应于该第一输入，对目标多媒体文件执行目标操作，该目标多媒体文件为电子设备中包含该目标标识所指示的声纹对象的多媒体文件。通过该方法，电子设备可以通过声纹识别快速确定第一多媒体文件中所包含的至少一个声纹对象，并显示对应的至少一个对象标识。随后，用户可以通过选择对象标识中的目标标识，触发电子设备对包含该目标标识所指示的声纹对象的多媒体文件执行目标操作，例如，删除操作，传输操作等。如此，一方面，可以有效避免用户逐个选择文件，从而使得执行目标操作更加便捷，节约用户时间。另一方面，通过声纹识别技术对多媒体文件进行筛选，可以更加快速、准确的确定待执行目标操作的多媒体文件，使得目标操作更加准确，有效避免误操作。

附图说明

图1为本申请实施例提供的一种多媒体文件处理方法的示意图之一；

图2为本申请实施例提供的一种电子设备的操作示意图之一；

图3为本申请实施例提供的一种多媒体文件处理方法的示意图之二；

图4为本申请实施例提供的一种电子设备的操作示意图之二；

图5为本申请实施例提供的一种多媒体文件处理方法的示意图之三；

图6为本申请实施例提供的一种电子设备的操作示意图之三；

图7为本申请实施例提供的一种多媒体文件处理装置的结构示意图之一；

图8为本申请实施例提供的一种多媒体文件处理装置的结构示意图之二；

图9为本申请实施例提供的电子设备的硬件示意图之一；

图10为本申请实施例提供的电子设备的硬件示意图之二。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。且“第一”、“第二”等所区分的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。

声纹，是用电声学仪器显示的携带言语信息的声波频谱。由于每个人的发声器官(如，舌、牙齿、喉头、肺、鼻腔)在尺寸和形态方面存在差异很大，因此，导致任何两个人的声纹图谱都有差异，即每个人的语音声学特征具有不可替代性和相对稳定性。

声纹识别技术，是一种通过声音判别说话人身份的生物识别技术。其原理是一种通过把声信号转换成电信号，再用计算机进行识别、比对和判别决策的方法。

下面结合附图，通过具体的实施例及其应用场景对本申请实施例提供的多媒体文件处理方法进行详细地说明。

如图1所示，本申请实施例提供一种多媒体文件处理方法，该方法可以包括下述的步骤101至步骤103。

步骤101、电子设备在目标界面上显示至少一个对象标识。

其中，上述目标界面为第一多媒体文件的播放界面，每个对象标识用于指示该第一多媒体文件中的一个声纹对象。

可选的，本申请实施例中的多媒体文件为：视频文件、音频文件，以及其他能够提取声纹特征的文件。

需要说明的是，电子设备的内部存储有多个多媒体文件，针对当前播放的第一多媒体文件，电子设备可以通过对该第一多媒体文件的声纹识别，确定出该第一多媒体文件所包括的声纹对象(具体确定方式可参考下述步骤104至106中的详细描述)，并在目标界面上显示与这些声纹对象对应的对象标识，即每个对象标识用于指示该第一多媒体文件中的一个声纹对象，每个声纹对象与一个对象标识相对应。

可选的，上述第一多媒体文件为电子设备存储的多个多媒体文件。

可选的，上述声纹对象，是指根据多个声纹特征所确定的一个特定声纹，该特定声纹为一个用户的声纹。例如，一段视频中张三说了“你好”，“我们出发”，“明天一起继续”等内容，根据这多个内容中的声纹特征确定的“张三说的”为一个声纹对象，即，无论后续张三说什么内容，均可以确定声纹对象为“张三说的”。

可选的，上述对象标识，指示根据声纹对象所确定的特定用户的标识，该对象标识用于指示用户，具体可以为用户的头像、照片、电话、姓名等。每个对象标识均指示一个特定用户。

步骤102、电子设备接收对至少一个对象标识中目标标识的第一输入。

可选的，本申请实施例中，上述第一输入可以用于从至少一个对象标识中确定出目标标识。具体的，该第一输入可以为对至少一个对象标识中目标标识的单击选择、连续单击多选等。

可选的，本申请实施例中，上述第一输入还可以确定待执行目标操作的范围，例如，删除多媒体文件的范围。具体的，电子设备可以根据用户触控点击的次数或者触控时间确定待执行目标操作的文件的范围。该确定操作可以结合上述第一输入的选择操作一起执行，例如，若第一输入为触控操作，那么可以设置第一目标操作为对至少一个对象标识中目标标识的单击操作，并设置单击操作对应的待执行目标操作的文件的范围为：仅包括一个声纹对象的目标多媒体文件。也可以设置第二目标输入为对至少一个对象标识中目标标识的长按操作(具体可以为仅对最后选择的目标标识执行长按操作)，并设置单击操作对应的待执行目标操作的文件的范围为：所有目标多媒体文件。

步骤103、电子设备响应于第一输入，对目标多媒体文件执行目标操作。

其中，上述目标多媒体文件为电子设备中包含该目标标识所指示的声纹对象的多媒体文件。

可选的，本申请实施例中，上述目标操作包括以下至少一项：删除至少部分目标多媒体文件，传输至少部分目标多媒体文件。其中，上述传输至少部分目标多媒体文件是指，将至少部分目标多媒体文件传输给指定的电子设备，该电子设备可以为预先设置确定的，也可以为特定用户的电子设备。

需要说明的是，上述至少部分目标多媒体文件包括：部分目标多媒体文件和全部目标多媒体文件。通常执行目标操作为对全部目标多媒体文件执行的，即删除全部目标多媒体文件，传输全部目标多媒体文件。但在全部目标多媒体文件中的部分目标多媒体文件为具有特定操作标签的情况下，电子设备仅对具有特定操作标签的部分目标多媒体文件执行目标操作或传输操作(即，目标操作)，而不对其他目标多媒体文件执行目标操作。其中，该特定操作标签为预设的标签或用户手动设置的标签。

可选的，本申请实施例中，电子设备是多媒体文件库中的每个多媒体文件均具有至少一个声纹对象的标签，电子设备可以通过标签查找快速确定包括某个声纹对象的多媒体文件。

可选的，本申请实施例中，目标多媒体文件为电子设备中包含该目标标识所指示的声纹对象的多媒体文件。具体的，在电子设备接收到用户通过第一输入确定目标标识之后，首先，电子设备确定目标标识对应的声纹对象，然后，电子设备遍历所有声纹对象的标签，查找包括目标标识对应的声纹对象的多媒体文件，即确定目标多媒体文件。

示例性的，假设电子设备包括：Q1、Q2、……Q10个多媒体文件。用户通过第一输入确定的目标标识所指示的声纹对象A，电子设备可以通过每个多媒体文件的标签快速确定上述10个多媒体文件中包含声纹对象A的多媒体文件为：Q1、Q2和Q6，即Q1、Q2和Q6为目标多媒体文件。

可选的，本申请实施例中，第一输入可以用于确定目标标识，并可以确定执行目标操作的目标多媒体文件的种类，该目标多媒体文件的种类是基于该目标多媒体文件包含的对象的数量确定的。上述步骤103中的“对目标多媒体文件执行目标操作”具体可以通过下述步骤103a或103b实现，二者择一执行。

可选的，电子设备在接收到第一输入时，可以判断第一输入为第一目标输入或第二目标输入。

步骤103a、在所述第一输入为第一目标输入的情况下，仅仅包括目标标识所指示的声纹对象的目标多媒体文件执行所述目标操作。

可选的，本申请实施例中，上述第一输入为触控操作，具体可以为对至少一个对象标识中目标标识的单击操作。

可选的，本申请实施例中，上述仅包括目标标识所指示的声纹对象的目标多媒体文件，是指该目标多媒体文件有且仅包括一个声纹对象，且该声纹对象为目标标识所指示的声纹对象。

可以理解的是，设置第一目标输入的目的是为了快速筛选出只包括目标标识所指示的声纹对象的多媒体文件，并进行目标操作，从而方便用户使用。

步骤103b、在所述第一输入为第二目标输入的情况下，对目标多媒体文件执行目标操作。

可选的，本申请实施例中，上述第二目标输入可以为对至少一个对象标识中目标标识的长按操作、双击操作等(具体可以为仅对最后选择的目标标识执行长按操作或双击操作)。

可以理解的是，电子设备在接收用户对至少一个对象标识中目标标识的第一输入时，若判断第一输入属于第一目标输入，则对仅包括目标标识所指示的声纹对象的目标多媒体文件执行目标操作；若判断第一输入属于第二目标输入，则对目标多媒体文件执行目标操作。如此可以通过用户对输入的控制，进而控制所要执行目标操作的多媒体文件的范围，从而更加方便用户操作，提升用户使用体验。

示例性的，图2为电子设备的操作示意图之一。假设电子设备00中包括：Q1、Q2、……Q10个多媒体文件。如图2中的(a)所示，电子设备00播放第一多媒体Q1的界面001(即，目标界面)中显示：声纹对象“张三”的标识002和声纹对象“李四”的标识003。如果用户想要删除所有包括声纹对象“李四”的多媒体文件，如图2中的(b)所示，用户可以单击“李四”的标识003(即，目标标识)，电子设备00响应于该单击输入(即，第一输入)删除上述10个多媒体文件中包含标识003所指示的声纹对象“李四”的多媒体文件Q1、Q2和Q6(即，Q1、Q2和Q6为目标多媒体文件，对其执行删除的目标操作)。

本申请实施例提供一种多媒体文件的处理方法，在目标界面上显示至少一个对象标识，该目标界面为第一多媒体文件的播放界面，每个对象标识用于指示该第一多媒体文件中的一个声纹对象；接收对该至少一个对象标识中目标标识的第一输入；响应于该第一输入，对目标多媒体文件执行目标操作，该目标多媒体文件为电子设备中包含该目标标识所指示的声纹对象的多媒体文件。通过该方法，电子设备可以通过声纹识别快速确定第一多媒体文件中所包含的至少一个声纹对象，并显示对应的至少一个对象标识。随后，用户可以通过选择对象标识中的目标标识，触发电子设备对包含该目标标识所指示的声纹对象的多媒体文件执行目标操作，例如，删除操作，传输操作等。如此，一方面，可以有效避免用户逐个选择文件，从而使得执行目标操作更加便捷，节约用户时间。另一方面，通过声纹识别技术对多媒体文件进行筛选，可以更加快速、准确的确定待执行目标操作的多媒体文件，使得目标操作更加准确，有效避免误操作。

可选的，结合图1，如图3所示，在步骤101之前，本申请实施例提供的多媒体文件处理方法还包括下述步骤104至步骤106。

步骤104、在目标界面播放第一多媒体文件的情况下，电子设备显示第一控件。

其中，上述第一控件用于控制电子设备采集第一音频。

可选的，上述第一音频为该第一多媒体文件中的音频。具体的，该第一音频可以为第一多媒体文件中全部或部分音频。

可选的，上述第一控件用于控制电子设备采集第一音频。具体控制方式可以为以下任一种：方式1、第一控件可以控制采集第一音频的起始时刻和结束时刻，从而得到从起始时刻至结束时刻的一段音频为第一音频。若该第一多媒体文件为音频文件，则电子设备可以直接从整个音频文件中截取起始时刻至结束时刻的一段音频作为第一音频。若该第一多媒体文件为视频文件，则电子设备可以截取从起始时刻至结束时刻的一端视频文件，然后将截取的视频文件转换为音频文件得到第一音频；或者，电子设备先将整个视频文件转换为一个完整的音频文件，再从该完整的音频文件中截取从起始时刻至结束时刻的一端音频作为第一音频。

可选的，本申请实施例中，上述第一控件可以悬浮显示于目标界面上，即，在电子设备播放多媒体文件时，该第一控件悬浮显示于该播放界面。

可选的，本申请实施例中，上述第一控件的形状、大小、显示位置本申请实施例不作具体限定，可以根据实际使用需求进行确定。

步骤105、电子设备接收对第一控件的第二输入。

可选的，本申请实施例中，该第二输入用于控制该第一控件采集第一音频，具体的，该第二输入可以包括第一子输入和第二子输入，该第一子输入用于控制该第一控件选择采集音频的起始时刻和终止时刻，该第二子输入用于控制电子设备采集由起始时刻和终止时刻所确定的第一音频。

可选的，若第一控件可以显示第一时刻输入框和第二时刻输入框，则该第一子输入可以为用户在第一时刻输入框中输入采集音频的起始时刻，并在第二时刻输入框中输入采集音频的终止时刻的输入。若第一控件可以显示第一时刻选择框和第二时刻选择框(每个选择框用于选择该第一视频的总时长内的一个时刻)，则该第一子输入可以为用户在第一时刻选择框中选择采集音频的起始时刻，并在第二时刻选择框中选择采集音频的终止时刻的输入。

可选的，上述第二子输入可以为对第一控件中显示的“确认采集”虚拟按键的触控输入，或相类似功能按键的触控输入。该触控输入可以为单击、双击、长按等。

步骤106、电子设备响应于第二输入，根据第一音频确定至少一个声纹对象。

其中，每个声纹对象对应一个对象标识。

可选的，本申请实施例中，电子设备根据第一音频提取声纹特征，并使用所提取的声纹特征与预设声纹特征相比较，确定至少一个声纹对象。其中，预设声纹特征为电子设备中存储的电子设备中所有多媒体文件中的声纹特征，相当于一个声纹特征库。每个声纹特征确定一个声纹对象，每个声纹对象用于指示一个特定的用户。

示例性的，假设从第一音频中提取声纹特征X与预设声纹特征比较，得到第一音频中提取声纹特征X与预设声纹特征中的X1类似的结果，那么电子设备将预设声纹特征中的X1对应的声纹对象A确定为第一音频对应的一个声纹对象，进而将声纹对象A所是指的用户a唯一确定。

需要说明的是，上述过程使用的声纹特征提取、声纹建模、声纹比对、判别决策等技术可以参考相关技术，本申请实施例不作具体限定。

此外，上述在目标界面显示的至少一个对象标识，与根据第一音频确定至少一个声纹对象为一一对应关系。即每个对象标识用于指示该第一音频中的一个声纹对象，每个声纹对象对应一个对象标识。

示例性的，图4为电子设备的操作示意图之二。假设电子设备00中包括：Q1、Q2、……Q10个多媒体文件。如图4所示，电子设备00播放第一多媒体Q1的情况下，第一多媒体Q1的界面001(即，目标界面)中显示第一控件004，用户可以通过对控件004的输入从该第一多媒体Q1中获取第一音频P1(如，通过确定音频的起始时刻和结束时刻进行获取)。然后电子设备可以识别第一音频P1中的声纹对象：“张三”和“李四”。如图2中的(a)所示，在界面001中显示声纹对象“张三”的标识002和声纹对象“李四”的标识003。

可以理解的是，由于在目标界面播放第一多媒体文件的情况下，电子设备可以显示用于控制电子设备采集第一音频第一控件，从而用户可以根据实际使用需求，通过对该第一控件的输入(即，第二输入)触发电子设备采集第一音频，并根据该第一音频确定至少一个声纹对象，以及在目标界面显示与该至少一个声纹对象对应的至少一个对象标识。如此，用户可以通过对该第一控件的操作触发电子设备自动完成对第一音频中的声纹识别，并将识别后的结果(即，至少一个对象标识)显示于目标界面，从而方便用户的后续操作。

可选的，结合图1，如图5所示，在步骤103中的“对目标多媒体文件执行目标操作”之前，本申请实施例所提供的多媒体文件处理方法还包括下述步骤107至步骤109，相应的，“对目标多媒体文件执行目标操作”可以通过下述步骤103c实现。

步骤107、电子设备响应于第一输入，显示第一提示信息。

其中，上述第一提示信息用于提示目标多媒体文件中包括第二多媒体文件；该第二多媒体文件为具有第一声纹对象的多媒体文件，该第一声纹对象指示电子设备的管理员。

可选的，本申请实施例中，上述第一提示信息用于提示目标多媒体文件中包括具有第一声纹对象的第一多媒体文件，该第一声纹对象指示电子设备的管理员。即在电子设备根据第一输入确定的待对目标多媒体文件执行目标操作中包括电子设备的管理员声纹(即第一声纹对象)的文件时，显示提示信息提示用户，从而防止用户误操作。

需要说明的是，上述第二多媒体文件为具有电子设备的管理员声纹特征的多媒体文件，而第一多媒体文件为电子设备进行识别的当前多媒体文件。二者可以重合或不重合，即当前被识别的第一多媒体文件可以为第二多媒体文件，也可以不是第二多媒体文件。

需要说明的是，上述电子设备的管理员可以为电子设备的机主或长时间的实际使用人；也可以是用户自定义设置的其他人管理人员，如定期检测的管理人员等。

可选的，本申请实施例中，上述第一提示信息的内容可以为文字、图片、动画，及其组合，本申请实施例不对该第一提示信息的内容、显示位置、显示大小进行具体限定，可以根据实际使用需求进行确定。

可选的，本申请实施例中，在显示第一提示信息的同时，电子设备可以伴随其他提示效果，包括且不限于：振动、响亮、语音提示、呼吸灯闪烁等。具体可以根据实际使用需求进行确定。

可选的，本申请实施例中，上述第一提示信息的提示界面可以包括“确认输入验证”和“放弃输入验证”两个虚拟按键，或具有相似功能的功能按键。从而使得用户可以根据需求选择是否进行身份验证，该身份验证用于验证操作用户是否为电子设备的管理员，进而防止其他非管理员的用户误操作管理员的多媒体文件。

步骤108、电子设备接收对第一提示信息的第三输入。

其中，上述第三输入用于确认输入验证信息。

可选的，本申请实施例中，上述第三输入用于确认输入验证信息，具体可以为对第一提示信息的提示界面显示的“确认输入验证”等相似功能的虚拟按键的触控输入，该触控输入可以为以下任一项：单击、双击、长按等。具体可以根据实际使用需求进行确定，本申请实施例不作具体限定。

步骤109、电子设备响应于第三输入，接收用户的验证信息。

可选的，本申请实施例中，上述用户输入验证信息为用户输入语音信息，电子设备进行验证。在进入验证模式时，电子设备的界面可以显示预设的验证语句，用户对准电子设备的麦克风说出该预设语句。其中，该预设语句可以为用户提前设置的语句，例如，在采集电子设备的管理员身份验证时进行设置。该预设语句可以为“哈喽我是机主本人”，也可以为“天街小雨润如酥”等，用户可以自行设定。

需要说明的是，本申请实施例中，在进入验证模式的情况下，电子设备可以接收用户输入的验证语句的音频(如，“哈喽我是机主本人”)，然后，从该验证语句的音频文件中进行声纹特征提取，并与电子设备内部存储的管理员的声纹特征进行比对，从而确定该验证语句的声纹对象A为管理员a的声纹。

步骤103c、在验证信息通过验证的情况下，电子设备对目标多媒体文件执行目标操作。

步骤103d、在验证信息未通过验证的情况下，电子设备对目标多媒体文件中除第二多媒体文件之外其他多媒体文件执行目标操作。

需要说明的是，本申请实施例中，在验证信息通过验证的情况下，电子设备可以确定当前操作者为电子设备的管理员，具备管理员权限，进而可以删除或传输包括管理员声纹(即第一声纹对象)的目标多媒体文件。

可选的，本申请实施例中，上述其他多媒体文件为目标多媒体文件中不包括管理员声纹的多媒体文件。

示例性的，图6为电子设备的操作示意图之三。假设电子设备00中包括：Q1、Q2、……Q10个多媒体文件。如图6中的(a)所示，电子设备00播放第一多媒体Q1的界面001(即，目标界面)中显示：声纹对象“张三”的标识002和声纹对象“李四”的标识003。如果用户想要删除管理员“张三”的声纹对象的多媒体文件，那么用户可以单击“张三”的标识002，如图6中的(b)所示，电子设备00响应于该单击输入，显示提示信息005(即，第一提示信息)，该提示信息的显示界面还包括：“确认输入验证”0051和“确认放弃验证”0052两个虚拟按键，用户可以单击“确认输入验证”0051，此时，电子设备00的麦克风开启，用户可以语音输入“哈喽我是机主本人”进行身份验证。在身份验证通过之后(即，验证信息通过验证)，电子设备可以删除上述10个多媒体文件中包含标识002所指示的声纹对象“张三”的多媒体文件Q7、Q8和Q9(即，Q7、Q8和Q9为目标多媒体文件)。

可以理解的是，由于电子设备响应于第一输入，显示第一提示信息，从而用户可以通过对该第一提示信息的操作触发电子设备接收用户的验证信息进行身份验证，若身份验证通过，电子设备可以对全部目标多媒体文件执行目标操作；若身份验证未通过，电子设备只能对目标多媒体文件中除第一多媒体文件之外其他多媒体文件进行目标操作，即，仅对目标多媒体文件中不包括管理员声纹的多媒体文件进行删除或传输操作。如此，可以提示用户防止对包括管理员声纹的目标多媒体文件的误操作，从而保证操作安全，提升用户的使用体验。

可选的，本申请实施例中，在上述步骤107中“显示第一提示信息”之后，本申请实施例所提供的多媒体文件处理方法还包括下述步骤110，相应的，“对目标多媒体文件执行目标操作”可以通过下述步骤103e实现。

步骤110、电子设备接收对第一提示信息的第四输入。

其中，上述第四输入用于确认放弃输入验证信息。

可选的，本申请实施例中，上述第四输入用于确认放弃输入验证信息，具体可以为对第一提示信息的提示界面显示的“放弃输入验证”等相似功能的虚拟按键的触控输入，该触控输入可以为以下任一项：单击、双击、长按等。具体可以根据实际使用需求进行确定，本申请实施例不作具体限定。

需要说明的是，本申请实施例中，用户可以通过放弃输入验证信息，可以有效防止其他用户对管理员声纹的目标多媒体文件(即，第二多媒体文件)的误操作，从而保证操作安全。

步骤103e、电子设备响应于第四输入，对目标多媒体文件执行目标操作中除第二多媒体文件之外其他多媒体文件执行目标操作。

可选的，本申请实施例中，上述其他多媒体文件为目标多媒体文件中不包括管理员声纹的多媒体文件。

可以理解的是，由于用户还可以通过对该第一提示信息的第四输入(即，确认放弃输入验证信息)，使得电子设备无需身份验证，对目标多媒体文件中除第一多媒体文件之外其他多媒体文件直接进行目标操作。即，仅对目标多媒体文件中不包括管理员声纹的多媒体文件进行目标操作，从而保证操作安全，防止误操作。

需要说明的是，本申请实施例提供的多媒体文件处理方法，执行主体可以为多媒体文件处理装置，或者该多媒体文件处理装置中的用于执行多媒体文件处理方法的控制模块。本申请实施例中以多媒体文件处理装置执行多媒体文件处理方法为例，说明本申请实施例提供的装置。

如图7所示，本申请实施例提供一种多媒体文件处理装置700。该多媒体文件处理装置700可以包括：显示模块:701、接收模块702和处理模块703。显示模块701，可以用于在目标界面上显示至少一个对象标识，该目标界面为第一多媒体文件的播放界面，每个对象标识用于指示该第一多媒体文件中的一个声纹对象。接收模块702，可以用于接收对该至少一个对象标识中目标标识的第一输入。处理模块703，可以用于响应于接收模块702接收的该第一输入，对目标多媒体文件执行目标操作，该目标多媒体文件为电子设备中包含该目标标识所指示的声纹对象的多媒体文件。

可选的，本申请实施例中，显示模块701，还可以用于在目标界面播放第一多媒体文件的情况下，显示第一控件，该第一控件用于控制电子设备采集第一音频。接收模块702，还可以用于接收对第一控件的第二输入。处理模块703，可以用于响应于接收模块702接收的该第二输入，根据该第一音频确定至少一个声纹对象，每个声纹对象对应一个对象标识。

可选的，本申请实施例中，第一输入用于确定目标标识，并确定执行目标操作的目标多媒体文件的种类，目标多媒体文件的种类是基于目标多媒体文件包含的对象的数量确定的。处理模块703，具体可以用于在第一输入为第一目标输入的情况下，对仅包括目标标识所指示的声纹对象的目标多媒体文件执行目标操作；在第一输入为第二目标输入的情况下，对目标多媒体文件执行目标操作。

可选的，结合图7，如图8所示，该多媒体文件处理装置700还可以包括验证模块704。显示模块701，还可以用于在对目标多媒体文件执行目标操作之前，显示第一提示信息，该第一提示信息用于提示该目标多媒体文件中包括第二多媒体文件，该第二多媒体文件为具有第一声纹对象的多媒体文件，该第一声纹对象指示电子设备的管理员。接收模块702，可以用于接收对第一提示信息的第三输入，该第三输入用于确认输入验证信息。验证模块704，可以用于响应于接收模块702接收的该第三输入，接收用户的验证信息。处理模块703，具体可以用于在验证信息通过验证的情况下，对目标多媒体文件执行目标操作；在验证信息未通过验证的情况下，对目标多媒体文件中除第二多媒体文件之外其他多媒体文件执行目标操作。

可选的，本申请实施例中，接收模块702，还可以用于在显示模块701显示第一提示信息之后，接收对第一提示信息的第四输入，该第四输入用于确认放弃输入验证信息。处理模块703，还可以用于响应于接收模块702接收的该第四输入，对目标多媒体文件执行目标操作中除第二多媒体文件之外其他多媒体文件执行目标操作。

本申请实施例中的多媒体文件处理装置可以是电子设备中执行多媒体文件处理方法的功能实体和/或功能模块，也可以是终端中的部件、集成电路、或芯片。该装置可以是移动电子设备，也可以为非移动电子设备。示例性的，移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机(ultra-mobilepersonal computer，UMPC)、上网本或者个人数字助理(personal digital assistant，PDA)等，非移动电子设备可以为服务器、网络附属存储器(network attached storage，NAS)、个人计算机(personal computer，PC)、电视机(television，TV)、柜员机或者自助机等，本申请实施例不作具体限定。

本申请实施例中的多媒体文件处理装置可以为具有操作系统的装置。该操作系统可以为安卓(Android)操作系统，可以为iOS操作系统，还可以为其他可能的操作系统，本申请实施例不作具体限定。

本申请实施例提供的多媒体文件处理装置能够实现图1至图7的方法实施例中多媒体文件处理装置实现的各个过程，为避免重复，这里不再赘述。

本申请实施例提供一种多媒体文件处理装置，在目标界面上显示至少一个对象标识，该目标界面为第一多媒体文件的播放界面，每个对象标识用于指示该第一多媒体文件中的一个声纹对象；接收对该至少一个对象标识中目标标识的第一输入；响应于该第一输入，对目标多媒体文件执行目标操作，该目标多媒体文件为电子设备中包含该目标标识所指示的声纹对象的多媒体文件。通过该方法，电子设备可以通过声纹识别快速确定第一多媒体文件中所包含的至少一个声纹对象，并显示对应的至少一个对象标识。随后，用户可以通过选择对象标识中的目标标识，触发电子设备对包含该目标标识所指示的声纹对象的多媒体文件执行目标操作，例如，删除操作，传输操作等。如此，一方面，可以有效避免用户逐个选择文件，从而使得执行目标操作更加便捷，节约用户时间。另一方面，通过声纹识别技术对多媒体文件进行筛选，可以更加快速、准确的确定待执行目标操作的多媒体文件，使得目标操作更加准确，有效避免误操作。

可选的，如图9所示，本申请实施例还提供一种电子设备900，包括处理器901，存储器902，存储在存储器902上并可在所述处理器901上运行的程序或指令，该程序或指令被处理器901执行时实现上述多媒体文件处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要说明的是，本申请实施例中的电子设备包括上述所述的移动电子设备和非移动电子设备。

图10为实现本申请实施例的一种电子设备的硬件结构示意图。

该电子设备2000包括但不限于：射频单元2001、网络模块2002、音频输出单元2003、输入单元2004、传感器2005、显示单元2006、用户输入单元2007、接口单元2008、存储器2009、以及处理器2010等部件。

其中，输入单元2004可以包括图形处理器20041和麦克风20042，显示单元2006可以包括显示面板20061，用户输入单元2007可以包括触控面板20071以及其他输入设备20072，存储器2009可用于存储软件程序(如，操作系统、至少一个功能所需的应用程序)以及各种数据。

本领域技术人员可以理解，电子设备2000还可以包括给各个部件供电的电源(比如电池)，电源可以通过电源管理系统与处理器2010逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图10中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，在此不再赘述。

其中，显示单元2006，可以用于在目标界面上显示至少一个对象标识，该目标界面为第一多媒体文件的播放界面，每个对象标识用于指示该第一多媒体文件中的一个声纹对象。用户输入单元2007，可以用于接收对该至少一个对象标识中目标标识的第一输入。处理器2010，可以用于响应于用户输入单元2007接收的该第一输入，对目标多媒体文件执行目标操作，该目标多媒体文件为电子设备中包含该目标标识所指示的声纹对象的多媒体文件。

本申请实施例提供一种电子设备，在目标界面上显示至少一个对象标识，该目标界面为第一多媒体文件的播放界面，每个对象标识用于指示该第一多媒体文件中的一个声纹对象；接收对该至少一个对象标识中目标标识的第一输入；响应于该第一输入，对目标多媒体文件执行目标操作，该目标多媒体文件为电子设备中包含该目标标识所指示的声纹对象的多媒体文件。通过该方法，电子设备可以通过声纹识别快速确定第一多媒体文件中所包含的至少一个声纹对象，并显示对应的至少一个对象标识。随后，用户可以通过选择对象标识中的目标标识，触发电子设备对包含该目标标识所指示的声纹对象的多媒体文件执行目标操作，例如，删除操作，传输操作等。如此，一方面，可以有效避免用户逐个选择文件，从而使得执行目标操作更加便捷，节约用户时间。另一方面，通过声纹识别技术对多媒体文件进行筛选，可以更加快速、准确的确定待执行目标操作的多媒体文件，使得目标操作更加准确，有效避免误操作。

可选的，本申请实施例中，显示单元2006，还可以用于在目标界面播放第一多媒体文件的情况下，显示第一控件，该第一控件用于控制电子设备采集第一音频。用户输入单元2007，还可以用于接收对第一控件的第二输入。处理器2010，可以用于响应于用户输入单元2007接收的该第二输入，根据该第一音频确定至少一个声纹对象，每个声纹对象对应一个对象标识。

可选的，本申请实施例中，第一输入用于确定目标标识，并确定执行目标操作的目标多媒体文件的种类，目标多媒体文件的种类是基于目标多媒体文件包含的对象的数量确定的。处理器2010，具体可以用于在第一输入为第一目标输入的情况下，对仅包括目标标识所指示的声纹对象的目标多媒体文件执行目标操作；在第一输入为第二目标输入的情况下，对目标多媒体文件执行目标操作。

可选的，本申请实施例中，显示单元2006，还可以用于在对目标多媒体文件执行目标操作之前，显示第一提示信息，该第一提示信息用于提示该目标多媒体文件中包括第二多媒体文件，该第二多媒体文件为具有第一声纹对象的多媒体文件，该第一声纹对象指示电子设备的管理员。用户输入单元2007，可以用于接收对第一提示信息的第三输入，该第三输入用于确认输入验证信息。处理器2010，还可以用于响应于用户输入单元2007接收的该第三输入，接收用户的验证信息。处理器2010，具体可以用于在验证信息通过验证的情况下，对目标多媒体文件执行目标操作；在验证信息未通过验证的情况下，对目标多媒体文件中除第二多媒体文件之外其他多媒体文件执行目标操作。

可选的，本申请实施例中，用户输入单元2007，还可以用于在显示单元2006显示第一提示信息之后，接收对第一提示信息的第四输入，该第四输入用于确认放弃输入验证信息。处理器2010，还可以用于响应于用户输入单元2007接收的该第四输入，对目标多媒体文件执行目标操作中除第二多媒体文件之外其他多媒体文件执行目标操作。

可以理解的是，由于用户还可以通过对该第一提示信息的第四输入(即，确认放弃输入验证信息)，使得电子设备无需身份验证，对目标多媒体文件中除第一多媒体文件之外其他多媒体文件直接进行目标操作。即，仅对目标多媒体文件中不包括管理员声纹的多媒体文件进行删除或传输操作，从而保证操作安全，防止误操作。

本实施例中各种实现方式具有的有益效果具体可以参见上述方法实施例中相应实现方式所具有的有益效果，为避免重复，此处不再赘述。

本申请实施例还提供一种可读存储介质，该可读存储介质上存储有程序或指令，该程序或指令被处理器执行时实现上述多媒体文件处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

其中，该处理器为上述实施例中的电子设备中的处理器。该可读存储介质，包括计算机可读存储介质，如计算机只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等。

本申请实施例另提供了一种芯片，该芯片包括处理器和通信接口，该通信接口和该处理器耦合，该处理器用于运行程序或指令，实现上述多媒体文件处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

应理解，本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外，需要指出的是，本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能，还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能，例如，可以按不同于所描述的次序来执行所描述的方法，并且还可以添加、省去、或组合各种步骤。另外，参照某些示例所描述的特征可在其他示例中被组合。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：孙鑫;
专利申请人：维沃移动通信有限公司;

上一篇：文件处理方法、装置和电子设备
下一篇：一种基于感官替代的辅助感知系统的声音编码方法