掌桥专利:专业的专利平台
掌桥专利
首页

一种用于字幕显示的方法及电子设备

文献发布时间:2023-06-19 10:41:48


一种用于字幕显示的方法及电子设备

技术领域

本申请涉及终端技术领域,尤其涉及一种用于字幕显示的方法及电子设备。

背景技术

目前,用户可以利用手机等智能终端播放视频,收听音频。以用户通过手机观看视频的场景为例,用户在通过手机观看视频时,由于环境因素或者个人原因,可能无法听清楚或者听懂视频中人物讲话的内容,此场景中,可借助手机的语音识别功能,将人物讲话内容转译为文本,并显示在屏幕上形成实时字幕,以便用户通过转译的实时字幕了解视频的内容。

在一些方案中,用户在需要使用实时字幕功能时,需自己找到对应的菜单或选项,并在菜单或选项中找到并开启实时字幕开关。通常,这些菜单或选项是隐藏设置的,用户需要反复查找才能定位出实时字幕开关的位置。比如,在一个示例中,实时字幕开关设置在下拉菜单中。那么,用户在需要使用实时字幕功能时,首先需通过下滑操作唤出下拉菜单。其中,下拉菜单可能存在多个,且每个下拉菜单中的选择项较多,用户需从多个下拉菜单的多个选择项中定位实时字幕开关,并打开开关,搜索找到并打开实时字幕开关用时较长。且,用户需要在多个下拉菜单中反复切换,导致操作复杂。

发明内容

本申请实施例提供一种用于字幕显示的方法及电子设备,可以提高电子设备的人机交互效率。

为达到上述目的,本申请采用如下技术方案:

第一方面,提供一种用于字幕显示的方法。该方法应用于第一终端或能够帮助实现第一终端功能的组件或设备(比如第一终端的芯片或服务器等)。该方法包括:检测所述第一终端是否有声音输入或声音输出,并在检测到有声音输入或声音输出的情况下,检测当前声音中是否包括人物声音,并在检测到当前声音中包括人物声音的情况下,检测当前人物声音所属的第一语言,并显示第一界面,所述第一界面用于提示用户开启字幕功能;接收所述用户输入的用于开启字幕功能的第一操作;在接收到所述第一操作后,显示字幕,所述字幕由所述第一语言的人物声音转换得到。

可见,本申请实施例的技术方案,在检测到符合显示字幕的条件,比如检测到当前音频中包括人物声音的情况下,能够提示用户开启字幕功能,并且,在检测到用户输入的用于开启字幕功能的第一操作即可显示字幕。也就是说,用户无需从多个下拉菜单的多个选择项中定位实时字幕开关,也无需在多个下拉菜单中反复切换,简化了用户开启字幕功能所需的操作,缩短了用户打开实时字幕功能的用时,或者说能够提升用户开启并使用字幕功能的效率。

在一种可能的设计中,在所述显示第一界面之前,所述方法还包括:判断第一语言是否属于预设类型语言之一,所述预设类型语言是所述第一终端的字幕功能可支持语音识别的语言,或者,所述预设类型语言是所述第一终端上的字幕功能可支持语音识别的语言中排除所述第一终端当前使用的语言之外的语言,或者,所述预设类型语言是所述第一终端上的字幕功能可支持语音识别的语言中排除第一终端使用者的母语语种之外的语言。

在一种可能的设计帧,所述显示第一界面包括:在判断所述第一语言属于所述预设类型语言之一的情况下,显示所述第一界面。

在一种可能的设计中,在所述显示字幕之前,所述方法还包括:在接收到所述第一操作后,确认第一终端当前使用的语言与所述第一语言是否相同,若第一终端当前使用的语言与所述第一语言不同,则提示用户是否选择字幕语言为第一终端当前使用的语言;

所述显示字幕包括:在接收到所述用户输入的用于选择将字幕语言为第一终端当前使用的语言的操作,显示字幕,所述字幕的语言为所述第一终端当前使用的语言。

在一种设计中,所述显示第一界面包括:在所述第一语言属于所述预设类型语言之一且所述第一终端当前使用的语言与所述第一语言不同的情况下,显示所述第一界面,所述第一界面用于提示用户是否开启字幕功能以及是否选择语言为所述第一终端当前使用的语言的字幕(第一界面上可以提供多种语言供用户选择,所述多种语言包括所述第一语言和所述第一终端当前使用的语言,用户可以对多种语言进行单选或多选,进一步地,在第一界面上可以突出显示或优先显示所述第一终端当前使用的语言。)。所述接收所述用户输入的用于开启字幕功能的第一操作包括接收所述用户输入的用于开启字幕功能且选择语言为所述第一终端当前使用的语言的字幕的第一操作。所述显示字幕包括:所述字幕包括(可以是仅包括)所述第一终端当前使用的语言的字幕。其中,所述预设类型语言可参考文中其他处的描述。

在一种可能的设计中,所述字幕由所述第一语言的人物声音转换得到包括:

所述字幕为第一语言的字幕;

或,所述字幕为第二语言的字幕,所述第二语言与所述第一语言不同;

或,所述字幕为多语言字幕,所述多语言至少包括所述第一语言和第二语言。

在一种可能的设计中,所述第二语言包括所述用户或所述第一终端设置的语言。

在一种可能的设计中,所述方法还包括:

显示第二界面,所述第二界面用于提示用户设置字幕语言。

在一种可能的设计中,在检测当前人物声音所属的第一语言之前,所述方法还包括:

检测是否满足第一预设条件,所述第一预设条件包括如下任一项或多项的组合:视频类型应用程序被启动,符合视频网站网址格式的网页被打开,已开启的应用程序调用视频接口,当前显示帧率符合预设帧率,已开启的应用程序与用户之间的交互规律满足预设规律,屏幕显示状态为全屏或横屏显示状态,网络流量突然增大,或,音频类型应用程序被启动。

在一种可能的设计中,检测当前人物声音所属的第一语言,包括:在检测到满足所述第一预设条件的情况下,触发检测当前人物声音所属的第一语言。

在一种可能的设计中,检测当前声音中是否包括人物声音,包括:在检测到满足所述第一预设条件的情况下,触发检测当前声音中是否包括人物声音。

在一种可能的设计中,检测所述第一终端是否有声音输入或声音输出,包括:在检测到满足所述第一预设条件的情况下,触发检测所述第一终端是否有声音输入或声音输出。

在一种可能的设计中,所述方法还包括:向第二终端发送指令,所述指令用于指示所述第二终端显示所述字幕。

在一种可能的设计中,所述方法还包括:

显示第三界面,所述第三界面用于提示用户是否在第二终端上显示所述字幕;

所述向第二终端发送指令,包括:在检测到用户输入的第二操作的情况下,向所述第二终端发送所述指令,所述第二操作用于指示在所述第二终端上显示所述字幕。

在一种可能的设计中,在多方通信场景中,所述第二终端的字幕显示区域划分为一个或多个字幕窗口,不同字幕窗口对应不同通信对象,所述不同通信对象包括所述用户,所述方法还包括以下中的至少一项:

不同字幕窗口有不同用户界面UI效果;

不同字幕窗口的位置不同,且各字幕窗口的位置靠近所述字幕窗口所对应的通信对象的头像或画面。

在一种可能的设计中,在多方通信场景中,所述第一终端的字幕显示区域划分为一个或多个字幕窗口,不同字幕窗口对应不同通信对象,所述不同通信对象包括所述用户,所述方法还包括以下中的至少一项:

不同字幕窗口有不同用户界面UI效果;

不同字幕窗口的位置不同,且各字幕窗口的位置靠近所述字幕窗口所对应的通信对象的头像或画面。

在一种可能的设计中,所述第二终端为大屏设备。

在一种可能的设计中,所述方法还包括:若确定满足第二预设条件,则关闭字幕功能,停止显示字幕;

所述第二预设条件包括如下任一项或多项的组合:在第一时间段内没有检测到声音,检测到用户输入的指示关闭字幕功能的操作,视频类型应用程序被关闭,符合视频网站网址格式的网页被关闭,第二时间段内的显示帧率不符合预设帧率,音频类型应用程序被关闭。

上述各实现方式中的部分实现方式可以在方案不冲突的情况下相互组合。

第二方面,提供一种电子设备。该电子设备包括:处理器、存储器和显示屏,存储器、显示屏与处理器耦合,存储器用于存储计算机程序代码,计算机程序代码包括计算机指令,当处理器从存储器中读取计算机指令,使得电子设备执行第一方面中任意一种可能的实现方式所述的用于字幕显示的方法。

第三方面,提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序或指令,当计算机程序或指令在计算机上运行时,使得计算机执行第一方面中任意一种可能的实现方式所述的用于字幕显示的方法。

第四方面,提供一种计算机程序产品,该计算机程序产品包括:计算机程序或指令,当计算机程序或指令在计算机上运行时,使得计算机执行第一方面中任意一种可能的实现方式所述的用于字幕显示的方法。

第五方面,本申请实施例提供一种芯片系统,包括至少一个处理器和至少一个接口电路,至少一个接口电路用于执行收发功能,并将指令发送给至少一个处理器,当至少一个处理器执行指令时,至少一个处理器执行如上述第一方面及其中任一种可能的实现方式中所述的用于字幕显示的方法。

附图说明

图1为本申请实施例提供的电子设备的结构示意图一;

图2为本申请实施例提供的电子设备的软件结构框图;

图3为本申请实施例提供的字幕显示方法涉及的界面图;

图4为本申请实施例提供的字幕显示方法的流程示意图;

图5为本申请实施例提供的通过模型进行人物声音检测、语言检测的场景示意图;

图6为本申请实施例提供的字幕显示方法的流程示意图;

图7-图21为本申请实施例提供的字幕显示方法涉及的界面示意图;

图22为本申请实施例提供的电子设备的结构示意图二;

图23为本申请实施例提供的芯片系统的结构示意图。

具体实施方式

下面结合附图对本申请实施例提供的字幕显示方法及电子设备进行详细地描述。

本申请的描述中所提到的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括其他没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

需要说明的是,本申请实施例中,“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。

在本申请的描述中,除非另有说明,“多个”的含义是指两个或两个以上。本文中的“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。

本申请实施例中,有时候下标如W1可能会笔误为非下标的形式如W1,在不强调其区别时,其所要表达的含义是一致的。

首先,为了便于理解,下面先对本申请实施例可能涉及的相关术语和概念进行介绍。

(1)ASR

用户可以使用设备进行音频、视频相关操作。音频操作包括但不限于播放音频,录制音频等。用户使用设备进行音频操作的场景称为音频场景(或称语音场景)。视频操作包括但不限于播放视频,录制视频,视频直播等。用户使用设备进行视频操作的场景称为视频场景。视频场景中,播放的视频数据可以同时包括语音数据(或称音频数据)和图像数据。因此,这种情况下,视频场景也可概括为音频场景。

用户需要使用实时字幕功能时,需先对音频、视频中的语音进行识别。在一些方案中,系统可以获取设备内音频数据,并采用ASR技术把话语声音转译成文本,并以字幕形式输出到显示屏,以提供给用户观看。理想状态下,转译的文本内容和原话语内容一一对应,不做语义上的改写。

目前的一些实时字幕方案中,当用户需要欣赏实时字幕时,可手动打开系统提供的实时字幕开关,由手机将人物讲话内容转译成文本并以字幕形式显示在屏幕上。当用户不再观看视频时,实时字幕会遮挡用户视线,妨碍用户正常使用手机,降低用户使用体验。因此,当用户不再使用实时字幕功能,需手动关闭实时字幕开关。

也就是说,用户在开始观看视频和结束观看视频时,需要及时主动打开或者关闭系统提供的实时字幕功能,操作过程较为繁琐。

为了解决上述技术问题,本申请实施例提供一种字幕显示方法及电子设备,能够应用于播放视频、视频通话、录制视频、视频直播、播放音频、录制音频等场景。在使用实时字幕功能的场景中,能够降低用户的操作复杂度,提升用户的使用体验。其中,视频通话包括但不限于基于运营商网络的视频通话(比如长期演进语音承载(voice over long-termevolution,VOLTE)视频通话),或基于互联网的视频通话(比如通过畅连通话应用程序进行的视频通话)。

本申请实施例提供字幕显示方法可应用于电子设备100中,或者应用于包含电子设备100的系统中。

可选的,电子设备100具体可以是手机、平板电脑、车载设备、增强现实(augmentedreality,AR)/虚拟现实(virtual reality,VR)设备、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本、个人数字助理(personal digitalassistant,PDA)、人工智能(artificial intelligence)设备、可穿戴设备等具有语音识别功能的终端设备,可穿戴设备可以是智能手表、智能手环、无线耳机、智能眼镜、智能头盔、血糖仪、血压仪等。本申请实施例对电子设备100的具体类型不作任何限制。

示例性的,图1示出了电子设备100的一种结构示意图。电子设备100可以包括处理器110,外部存储器接口120,内部存储器121,通用串行总线(universal serial bus,USB)接口130,充电管理模块140,电源管理模块141,电池142,天线1,天线2,移动通信模块150,无线通信模块160,音频模块170,传感器模块190,按键190,马达191,指示器192,摄像头193,显示屏194,以及用户标识模块(subscriber identification module,SIM)卡接口195等。

处理器110可以包括一个或多个处理单元,例如:处理器110可以包括应用处理器(application processor,AP),调制解调处理器,图形处理器(graphics processingunit,GPU),图像信号处理器(image signal processor,ISP),控制器,存储器,视频编解码器,数字信号处理器(digital signal processor,DSP),基带处理器,和/或神经网络处理器(neural-network processing unit,NPU)等。其中,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器中。

其中,控制器可以是电子设备100的神经中枢和指挥中心。控制器可以根据指令操作码和时序信号,产生操作控制信号,完成取指令和执行指令的控制。

处理器110中还可以设置存储器,用于存储指令和数据。在一些实施例中,处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据,可从存储器中直接调用。避免了重复存取,减少了处理器110的等待时间,因而提高了系统的效率。

在本申请的一些实施例中,电子设备100可以利用处理器110对语音流进行识别。

充电管理模块140用于从充电器接收充电输入。其中,充电器可以是无线充电器,也可以是有线充电器。

电源管理模块141用于连接电池142、充电管理模块140与处理器110。电源管理模块141接收电池142和/或充电管理模块140的输入,为处理器110,内部存储器121,外部存储器,显示屏194,摄像头193,和无线通信模块160等供电。

电子设备100的无线通信功能可以通过天线1、天线2、移动通信模块150、无线通信模块160、调制解调处理器以及基带处理器等实现。

移动通信模块150可以提供应用在电子设备100上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器,开关,功率放大器,低噪声放大器(low noise amplifier,LNA)等。

无线通信模块160可以提供应用在电子设备100上的包括无线局域网(wirelesslocal area networks,WLAN)(如无线保真(wireless fidelity,Wi-Fi)网络),蓝牙(bluetooth,BT),全球导航卫星系统(global navigation satellite system,GNSS),调频(frequency modulation,FM),近距离无线通信技术(near field communication,NFC),红外技术(infrared,IR)等无线通信的解决方案。

电子设备100通过GPU,显示屏194,以及应用处理器等实现显示功能。GPU为图像处理的微处理器,连接显示屏194和应用处理器。GPU用于执行数学和几何计算,用于图形渲染。处理器110可包括一个或多个GPU,其执行程序指令以生成或改变显示信息。

显示屏194用于显示图像,视频等。在一些实施例中,电子设备100可以包括1个或N个显示屏194,N为大于1的正整数。在本申请的一些实施例中,显示屏194可以用于显示由语音转化成的字幕。

电子设备100可以通过ISP、摄像头193、视频编解码器、GPU、显示屏194以及应用处理器等实现拍摄功能。

摄像头193用于捕获静态图像或视频。

外部存储器接口120可以用于连接外部存储卡,例如Micro SD卡,实现扩展电子设备100的存储能力。

内部存储器121可以用于存储计算机可执行程序代码,所述可执行程序代码包括指令。内部存储器121可以包括存储程序区和存储数据区。内部存储器121可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件,闪存器件,通用闪存存储器(universal flash storage,UFS)等。处理器110通过运行存储在内部存储器121的指令,和/或存储在设置于处理器中的存储器的指令,执行电子设备100的各种功能应用以及数据处理。在本申请的一些实施例中,内部存储器121可以用于存储用于实现自动语音识别(automatic speech recognition,ASR)的一些机器学习模型。

音频模块170包括扬声器,受话器,麦克风,耳机接口等。

音频模块170用于将数字音频数据转换成模拟音频电信号输出,也用于将模拟音频电信号输入转换为数字音频数据,音频模块170可以包括模/数转换器和数/模转换器。在本申请的一些实施例中,音频模块170可以用于采集语音流、音频信号、语音信号等。

在一些实施例中,电子设备100可以通过音频模块170,以及应用处理器等实现音频功能。例如音乐播放,录音等。

传感器模块190可以包括压力传感器,陀螺仪传感器,气压传感器,磁传感器,加速度传感器,距离传感器,接近光传感器,指纹传感器,温度传感器,触摸传感器,环境光传感器,骨传导传感器等。

可以理解的是,本申请实施例示意的结构并不构成对电子设备100的具体限定。在本申请另一些实施例中,电子设备100可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。

电子设备100的软件系统可以采用分层架构、事件驱动架构、微核架构,微服务架构、或云架构。本发明实施例以分层架构的Android系统为例,示例性说明电子设备100的软件结构。

图2是本发明实施例的电子设备100的软件结构框图。

分层架构将软件分成若干个层,每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中,将Android系统分为四层,从上至下分别为应用程序层,应用程序框架层,安卓运行时(Android runtime)和系统库,以及内核层。

应用程序层可以包括一系列应用程序包。

如图2所示,应用程序包可以包括日历,地图,WLAN,短信息,图库,导航,第一应用等应用程序。

其中,本申请的一些实施例中,第一应用程序包括语音相关的应用程序。语音相关的应用程序指的是通过该应用程序可以输出语音(比如通过电子设备播放语音)或向电子设备输入语音(比如在录像场景中,相机应用程序可通过相应驱动调用麦克风采集用户的语音信息)。第一应用程序比如可以但不限于是视频、相机、音乐、通话。

第一应用程序可以是预装应用或通过第三方应用商店下载的应用程序。本申请实施例不限制第一应用程序的具体实现。

在本申请的一些实施例中,可以通过这些应用程序中的某些应用程序输出音频或输入音频,当电子设备检测到音频时,可以利用ASR技术将音频中的部分内容(比如音频中的人物说话声音(简称人声))转化为字幕,并在显示屏上显示字幕。

以用户观看网络视频为例,用户观看网络视频可以是通过浏览器观看,或通过视频播放器(比如优酷、爱奇艺等)观看,或通过其他应用程序观看(比如观看微博、微信中推送的视频)。

应用程序框架层为应用程序层的应用程序提供应用编程接口(applicationprogramming interface,API)和编程框架。应用程序框架层包括一些预先定义的函数。

如图2所示,应用程序框架层可以包括窗口管理器,内容提供器,视图系统,电话管理器,资源管理器,通知管理器等。

在本申请的一些实施例中,框架层还包括视频接口。其中,视频接口也称为视频服务或视频模块或其他名称。视频接口,可以通过相应驱动调用系统的解码器等,用于为某些视频应用程序执行解码等操作,以便播放解码后的视频。

其中,并非所有视频应用程序均可以通过系统的视频接口调用系统的解码器。有些视频应用程序可以集成解码器,并调用自身的解码器完成视频解码,以便播放相应视频。

在本申请的一些实施例中,框架层还包括声音接口(或称声音模块),用于检测输入电子设备或电子设备输出的声音。

在本申请的一些实施例中,框架层还包括帧率接口(或称帧率模块,未在图2中示出),用于查询显示帧率。

在本申请的一些实施例中,框架层还包括流量接口(或称流量模块,未在图2中示出),用于查询实时网络流量。

可选的,框架层还可以包括其他用于实现本申请实施例技术方案所需的接口或模块。

上述视频接口、声音接口、帧率接口、流量接口等可统称为第一模块。第一模块可集成有上述视频接口、声音接口、帧率接口、流量接口的功能,第一模块也可拆分为多个子模块,多个子模块分别实现上述视频接口、声音接口、帧率接口、流量接口等的功能。

在一些实施例中,第一模块的多个子模块可位于不同层。比如,一些子模块位于框架层,一些子模块位于其他层。本申请实施例不限制各个子模块的具体实现层级以及具体实现细节。

以荣耀手机为例,手机预装的视频应用可以通过系统的视频接口调用系统的解码器,手机中的第三方应用,比如微博自身集成有解码器,可以调用该解码器完成视频解码,以播放视频。

窗口管理器用于管理窗口程序。窗口管理器可以获取显示屏大小,判断是否有状态栏,锁定屏幕,截取屏幕等。

内容提供器用来存放和获取数据,并使这些数据可以被应用程序访问。所述数据可以包括视频,图像,音频,拨打和接听的电话,浏览历史和书签,电话簿等。

视图系统包括可视控件,例如显示文字的控件,显示图片的控件等。视图系统可用于构建应用程序。显示界面可以由一个或多个视图组成的。例如,包括短信通知图标的显示界面,可以包括显示文字的视图以及显示图片的视图。

电话管理器用于提供电子设备100的通信功能。例如通话状态的管理(包括接通,挂断等)。

资源管理器为应用程序提供各种资源,比如本地化字符串,图标,图片,布局文件,视频文件等等。

通知管理器使应用程序可以在状态栏中显示通知信息,可以用于传达告知类型的消息,可以短暂停留后自动消失,无需用户交互。比如通知管理器被用于告知下载完成,消息提醒等。通知管理器还可以是以图表或者滚动条文本形式出现在系统顶部状态栏的通知,例如后台运行的应用程序的通知,还可以是以对话窗口形式出现在屏幕上的通知。例如在状态栏提示文本信息,发出提示音,指示灯闪烁等。

Android Runtime包括核心库和虚拟机。Android runtime负责安卓系统的调度和管理。

核心库包含两部分:一部分是java语言需要调用的功能函数,另一部分是安卓的核心库。

应用程序层和应用程序框架层运行在虚拟机中。虚拟机将应用程序层和应用程序框架层的java文件执行为二进制文件。虚拟机用于执行对象生命周期的管理,堆栈管理,线程管理,安全和异常的管理,以及垃圾回收等功能。

系统库可以包括多个功能模块。例如:表面管理器(surface manager),媒体库(Media Libraries),三维图形处理库(例如:OpenGL ES),2D图形引擎(例如:SGL)等。

表面管理器用于对显示子系统进行管理,并且为多个应用程序提供了2D和3D图层的融合。

媒体库支持多种常用的音频,视频格式回放和录制,以及静态图像文件等。媒体库可以支持多种音视频编码格式,例如: MPEG4,H.264,MP3,AAC,AMR,JPG,PNG等。

三维图形处理库用于实现三维图形绘图,图像渲染,合成,和图层处理等。

2D图形引擎是2D绘图的绘图引擎。

内核层是硬件和软件之间的层。内核层至少包含显示驱动,摄像头驱动,音频驱动,传感器驱动。

以下将以电子设备为具有图1和图2所示结构的终端,具体的,电子设备为手机为例,对本申请实施例提供的字幕显示方法进行阐述。本申请实施例的技术方案可以用于各种语音识别相关场景,比如观看本地或网络视频、播放本地或网络音频、视频直播、视频通话等场景。

示例性的,以用户观看网络视频为例,如图3的(1)所示,用户当前在观看网络视频,手机检测当前播放的网络视频包括人声后,显示界面309(即第一界面),用于提示用户是否开启实时字幕(也可称人工智能(artificial intelligence,AI)字幕)。界面309包括播放器界面301。示例性的,如图3的(1)所示,手机显示控件302,当检测到用户输入的用于指示开启实时字幕的操作,比如检测到用户对该控件302中的“开启”按钮的诸如点击操作,手机显示如图3的(2)所示字幕显示控件303,该字幕显示控件303用于显示人声转化得到的字幕。

可选的,用户开启实时字幕的操作不局限于上述点击控件302的操作,还可以是对控件302进行滑动、隔空手势等操作。

在一些实施例中,控件302可实现为图3所示。在另一些实施例中,可选的,控件302还可以实现为其他方式,比如控件302可以为悬浮控件。与图3所示控件302中需点击固定位置的按钮(比如开启“按钮”)触发开启实时字幕不同,用户可以通过诸如点击悬浮控件中的任意位置开启实时字幕。

可选的,在显示控件302之后的一段时间内,若手机没有检测到用户对控件302的操作,则停止显示控件302,以避免控件302遮挡用户视线。且,可以不显示实时字幕。

可选的,为了使得用户注意到控件302,能够及时开启实时字幕功能,控件302可以以预设图标效果显示。比如,以闪烁方式显示控件302,以鲜艳颜色显示控件302,以动态动画效果显示控件302等,控件302的具体呈现方式不做限制。

可选的,字幕显示控件303可以为悬浮控件。用户可以通过操作控制字幕显示控件303的位置和尺寸,以防止字幕显示控件303遮挡用户视线。

可以看出,在本申请实施例中,能够对人声的语言进行检测,并基于检测结果(即具体为何种语言,比如为中文或英文)和预设的字幕规则将人声转化为相应的字幕输出到显示屏。

其中,预设的字幕规则包括但不限于如下任一项或多项规则的组合:字幕的语言与声音源的语言相同、字幕语言为声音源语言与其他预设语言的叠加、字幕语言为其他预设语言、字幕语言为声音源语言与用户偏好语言的叠加、字幕语言为用户偏好语言。换言之,字幕规则包括如下一项或多项:是否显示当前语言,是否显示当前语言外的其他语言,该其他语言的类型。总的来说,即可以显示单语言或多语言的字幕。

单语言字幕情况分为如下两种情况:

情况1:若字幕规则是显示当前语言,则电子设备显示的实时字幕的语言是当前语言。可选的,当前语言可以指电子设备检测到人物声音的语言,或者,当前语言可以指电子设备当前使用的语言,比如,通过“语言与输入法”设置项设置的语言。

情况2:若字幕规则是显示当前语言(比如中文)之外的其他语言,且该其他语言为英文,则电子设备显示的实时字幕是英文字幕。

多语言字幕,比如双语字幕情况:若字幕规则是显示当前语言,同时显示当前语言(比如中文)之外的其他语言,且该其他语言为英文,则电子设备显示的实时字幕是中英双语字幕。

在一些实施例中,可以用图4表示本申请实施例的技术方案。如下结合图4阐述本申请实施例技术方案的具体实现过程。如图4所示,本申请实施例提供的技术方案包括如下步骤:

S101、电子设备检测声音。

电子设备为诸如手机的终端。电子设备可以是图1或图2的结构。

作为一种可能的实现方式,电子设备通过系统接口检测声音。可选的,系统接口位于框架层,或者位于其他层。或者,电子设备通过其他方式检测声音,本申请实施例对检测声音的具体实现不做限制。

电子设备检测的声音可以是输入该电子设备的声音,比如视频录制、或直播场景中调用麦克风输入的声音,电子设备检测的声音还可以是该电子设备输出的声音,比如播放电影视频场景下调用扬声器输出的声音。

S102、电子设备判断是否检测到声音,若是,则执行步骤S103,若否,则继续检测声音。

可选的,电子设备判断是否检测到声音包括:电子设备判断是否检测到声音输入或声音输出。

S103、电子设备判断该声音是否为人声。若是,则执行步骤S104,若声音不是人声,则继续检测声音。

作为一种可能的实现方式,电子设备根据预设算法判断检测到的声音是否为人声,或者说根据预设算法判断检测到的声音是否包括人物声音。比如,电子设备中存储有用于检测声音类型的机器学习模型,电子设备利用该模型检测声音是否为人声。该模型可以通过数据样本和预设算法训练得到。数据样本可以是声音样本。声音样本包括正样本和负样本。正样本即人声的样本,负样本即非人声的样本,比如自然界的风声、雨声。

示例性的,如图5所示,电子设备将检测到的声音输入模型1,得到输出结果,该结果表明检测到的声音是人说话的声音。

S104、电子设备检测并判断人声的语言是否为预设类型语言,若是,则执行步骤S105,若否,则可以继续检测声音。

具体的,电子设备检测当前人物声音所属的第一语言,并判断第一语言是否属于预设类型语言之一。预设类型语言是所述预设类型语言是所述第一终端的字幕功能可支持语音识别的语言,或者,所述预设类型语言是所述第一终端上的字幕功能可支持语音识别的语言中排除所述第一终端当前使用的语言之外的语言,或者,所述预设类型语言是所述第一终端上的字幕功能可支持语音识别的语言中排除第一终端使用者的母语语种之外的语言。如下分别介绍各预设类型语言。

作为一种可能的设计,预设类型语言可以是电子设备上的字幕功能可支持语音识别的语言,可以理解为电子设备上的字幕功能(该字幕功能所对应的一些操作可以具体由电子设备和/或服务器来实现)可以语音识别的语言,比如,电子设备可以支持对英文、中文、俄语、日语的音频进行语音识别,则表明电子设备上的字幕功能可支持语音识别的语言为英文、中文、俄语、日语。

在另一种设计中,预设类型语言可以是电子设备上的字幕功能可支持语音识别的语言中排除电子设备当前使用的语言之外的语言。电子设备当前使用的语言可以是通过设置中的“语言与输入法”设置的语言,比如中文(简体)。例如,若电子设备检测当前人物声音对应的第一语言是中文(中文是电子设备上的字幕功能可支持语音识别的语言之一),电子设备当前使用的语言也是中文,这种情况下,用户能听懂该人物声音,故用户开启字幕功能的可能性较低,故这种情况下,电子设备可以不用主动提示用户开启字幕功能,这样可以提高人机交互的有效性,减少无效的交互。又如,若电子设备检测当前人物声音对应的第一语言是英文(英文是电子设备上的字幕功能可支持语音识别的语言之一),电子设备当前使用的语言是中文,这种情况下,用户很可能是能听懂中文但听不懂其他语言,故用户很可能听不懂英文,故用户开启字幕功能的可能性较高,故这种情况下,电子设备可以主动提示用户开启字幕功能。并且,电子设备所显示字幕的语言可以是电子设备当前使用的语言。

在另一种设计中,预设类型语言可以是电子设备上的字幕功能可支持语音识别的语言中排除电子设备使用者的母语语种之外的语言,可以参考上一段的例子进行类似的理解。其中,电子设备可以结合用户画像等信息确定电子设备使用者的母语语种。或者,电子设备通过采集的录音文件等确定电子设备使用者的母语语种。

作为一种可能的实现方式,电子设备根据预设算法识别检测到的人声的语言,并可以判断该人声的语言是否是电子设备可支持语音识别的语言。比如,电子设备中存储有用于检测声音语言的机器学习模型,电子设备利用该模型识别人声的语言。该模型可以通过数据样本和预设算法训练得到。数据样本可以是多个语言样本。语言样本可以包括各种语言的样本,比如包括但不限于英文声音样本、中文声音样本、法语声音样本。

示例性的,如图5所示,电子设备将检测到的人声数据输入模型2,经模型2运算得到输出结果,该结果表明检测到的人声为可支持语音识别的语言。

S105、电子设备显示第一界面。

其中,第一界面用于向用户提示是否开启实时字幕功能。

示例性的,当检测到人声对应的语言(即第一语言)为上述预设类型语言之一时,电子设备可向用户显示第一界面来建议用户开启实时字幕功能,否则,电子设备可以不用向用户显示第一界面来建议用户开启实时字幕功能,以降低错误显示字幕的概率。

第一终端除了检测人声对应的语言(即第一语言)是否为上述预设类型语言之一,可选的,第一终端还可以检测第一语言是否与第一终端当前使用的语言相同。

可选的,在检测到所述第一语言属于所述预设类型语言之一,且所述第一终端当前使用的语言与所述第一语言不同的情况下,第一终端显示所述第一界面,所述第一界面用于提示用户是否开启字幕功能以及是否选择语言为所述第一终端当前使用的语言的字幕。示例性的,如图16的(1)所示,手机检测到包括人物声音的视频,假设人物声音的语言为英文,手机当前使用的语言为中文,两者不同,则提示第一界面1005,第一界面1005包括控件1004。当检测到用户的诸如点击“开启”按钮的操作,手机以当前使用语言(即中文)显示字幕。

现有的一些实时字幕方案中,即便人声对应的语言是手机的字幕功能不支持语音识别的语言,手机也会按手机的字幕功能所支持语音识别的语言来识别人声并显示字幕,导致显示的字幕错误率较高,并且,错误的字幕对用户视线造成遮挡,用户不方便使用手机观看屏幕。利用本申请实施例的字幕显示方法,对不能够成功识别的人物音频,电子设备可不向用户提示开启实时字幕功能,或不开启实时字幕功能,以降低显示错误字幕的概率,并且,不会遮挡用户视线,不影响用户的正常使用。

并且,在一些实施例中,由于对人物声音进行语言检测识别,只有人物声音是电子设备语音识别能够支持的语言才被转换为文本形成字幕,因此,字幕的正确性有所提升。

S106、在检测到用户指示开启实时字幕功能的指令的情况下,电子设备开启实时字幕功能,并显示实时字幕。

其中,实时字幕可以是第一语言,通过对第一语言的人物声音(即说话者本来的语言)识别得到。

可选的,实时字幕为第二语言的字幕;所述第二语言与所述第一语言相同或不同。换言之,本申请实施例可以将说话者的讲说语言识别为该语言的字幕,或者,可以将说话者的讲说语言转化为(或称翻译为)其他语言的字幕。

或者,可选的,所述实时字幕为多语言字幕;所述多语言至少包括所述第一语言和第二语言,所述第二语言与所述第一语言不同。示例性的,可以将说话者的讲说语言转化为诸如双语字幕,该双语包括说话者的讲说语言。

实时字幕的具体语言以及设置方法请详见后续实施例。

可选的,在执行S105的情况下,即电子设备向用户提示是否开启实时字幕功能的情况下,电子设备需等待用户指示开启实时字幕功能,在检测到用户指示开启实时字幕功能的指令(即第一操作)的情况下,比如检测到用户点击图3所示控件302中的开启按钮,电子设备开启实时字幕功能,显示实时字幕。或者,电子设备在检测到包括人声的视频后,不提示用户是否开启实时字幕功能,而是直接开启实时字幕功能,按照设置的字幕规则显示实时字幕。

需要说明的是,本申请实施例中由用户设置的实时字幕相关设置项也可以系统默认设置,本申请实施例不对具体设置方式加以限制。

需要说明的是,实时字幕是将人声转化形成的字幕,不包括其他非人声转化形成的字幕。且该实时字幕是根据上述字幕规则形成的字幕。

可选的,S106还可以被替换为:在检测到用户指示开启实时字幕功能的指令的情况下,进一步提示用户选择要显示的字幕语言。比如,当电子设备当前使用的语言为中文,电子设备识别到的人声为英文,英文属于电子设备上的字幕功能可支持语音识别的语言之一但不是电子设备当前使用的语言,电子设备可以提示用户是否开启实时字幕功能,在用户确认要开启实时字幕功能后,电子设备可以进一步提示用户字幕语言是否要显示为中文(电子设备可以是在用户确认要开启实时字幕功能的情况下,进一步确认电子设备当前使用的语言与电子设备识别到的人声对应的语言是否相同,若两者不同,可以进一步提示用户是否选择字幕语言为电子设备当前使用的语言,也可理解为,提示用户是否需要对语音识别到的字幕翻译成另一语言。在接收到所述用户输入的用于选择字幕语言为第一终端当前使用的语言的操作,显示字幕,且字幕的语言为所述第一终端当前使用的语言。示例性的,如图15的(1)所示,手机检测到包括人物声音的视频,假设人物声音的语言为英文,手机当前使用的语言为中文,两者不同,则手机显示图15的(2)所示界面312,界面312包括控件1006。当检测到用户的诸如点击“是”按钮的操作,手机以当前使用语言(即中文)显示图15的(3)所示字幕。

若检测到当前使用的语言与电子设备识别到的人声对应的语言相同,则电子设备不需要进一步提示用户是否选择字幕语言为电子设备当前使用的语言,而是可以直接显示语音识别到的字幕)。

在另一些实施例中,对应于第一界面可以用于既提示用户是否开启字幕功能,又提示是否选择语言为所述第一终端当前使用的语言的字幕的情况,所述接收所述用户输入的用于开启字幕功能的第一操作包括:接收所述用户输入的用于开启字幕功能且选择语言为所述第一终端当前使用的语言的字幕的第一操作。所述显示字幕包括:所述字幕包括所述第一终端当前使用的语言的字幕。示例性的,如图16的(1)所示,手机检测到用户的诸如点击“开启”按钮的操作(即第一操作),那么,如图16的(2)所示,手机以当前使用语言(即中文)显示字幕。

上述界面均为示例性界面,本申请实施例并不限制界面的具体形态。比如,图16的(1)所示控件1004中的“开启”、“取消”按钮还可以替换为“开启字幕功能并以当前使用语言(比如英文)显示字幕”、“开启字幕功能并设置字幕语言”、“取消”这几个按钮组合。或者,有其他界面实现方案。

通常,如图5所示,通过模型判断音频是否为人物讲话声音,以及通过模型判断人物讲话声音的语言的过程,由于涉及多种算法、模型,计算量较大,功耗也就较高。

S107、在满足触发关闭实时字幕功能的条件下,电子设备关闭实时字幕功能。

可以理解,当满足触发关闭实时字幕功能的条件,电子设备关闭实时字幕功能,停止显示实时字幕。

其中,触发关闭实时字幕功能的条件可以是:在一段时间(即第一时间段)内,电子设备没有检测到声音。该一段时间可以设置。

或者,触发关闭实时字幕功能的条件可以是:电子设备检测到用户输入的指示关闭实时字幕功能的操作。比如,如图3的(1)或图3的(2)所示,当检测到用户对控件303中叉号“X”选项的诸如点击操作,手机停止显示实时字幕。用户输入的指示关闭实时字幕功能的操作还可以是其他操作,本申请实施例不做限制。

或者,在视频场景中,触发关闭实时字幕功能的条件包括但不限于如下一项或多项的组合:用户关闭了视频类型应用、用户关闭了视频网站的相关网页、在第二时间段内的显示帧率不再符合视频帧率或动画帧率(或者说,在一段时间内,显示帧率不符合视频或动画帧率)。

或者,在音频场景中,触发关闭实时字幕功能的条件可以是用户关闭的音频应用程序。

触发关闭实时字幕功能的条件还可以为其他,本申请实施例不做限制。

由此可见,本申请实施例中,设计多种触发关闭实时字幕功能的方式,关闭实时字幕功能的方式更加灵活。

现有技术提供一种在无障碍场景下的实时字幕(Live Caption)显示方案,该方案主要针对比如残障人士(比如聋哑人士)设计,能够将几乎全部音频转化为字幕,这就需要手机一直检测并识别声音,一旦检测到有声音,就马上将声音转为文本,并以字幕形式显示给用户。该方案中,持续检测声音的类型是否为人声,持续检测时间长,导致功耗严重。该方案的检测识别以及显示字幕的时间如表1所示。

表1

为了在字幕显示过程中降低电子设备的功耗,可选的,本申请实施例可以对用户可能有字幕显示需求的音频场景或视频场景进行判断,并结合场景判断结果确定是否触发诸如检测人声、检测语言等步骤,以降低非预设视频场景、非预设音频场景中不必要的人声检测、语言检测等操作中的一种或多种带来的功耗。

其中,预设视频场景包括但不限于播放视频、录制视频、视频直播等。预设音频场景包括但不限于播放录音、使用音频应用(比如喜马拉雅、听书软件等)收听音频节目等。

首先,以视频场景为例,作为一种可能的实现方式,可以设置预设条件,满足预设条件的情况下,电子设备确定用户即将进入或已经处于视频场景。

其中,预设条件包括但不限于如下一项或多项:

a1)用户启动的应用程序(application,App)在视频类应用的白名单中。

系统可以按照不同策略设置有不同类型的应用白名单。比如,根据应用类型设置白名单,将视频类应用归类到一个应用白名单中。或者,还可以有其他归类应用白名单的方法,本申请实施例对此不进行限制。

b1) App内数据符合系统视频网站定义。

其中,App内数据比如可以但不限于是浏览器网址。示例性的,系统可以预设有视频网站的网址格式。比如,youku.com,aiqiyi.com,tengxun.com等,当用户打开符合预定义视频网站的网址格式,比如打开如下网址:

https://m.youku.com/alipay_video/id_adbd5cc3e8e64e668546.html_spm=a2hww.12518357.drawer6.dzj2_6,由于该网址包括预定义字符串youku.com,则说明用户打开了视频网站中的某个视频的网页。

c1)当前使用的App调用了系统的视频接口,或者,当前显示帧率(也可称屏幕帧率)符合预设帧率。

需要说明的是,对于调用系统视频接口的视频应用,当其调用系统的视频接口,意味着,用户正在通过该视频应用进行诸如播放视频等操作。

对于非调用系统视频接口的视频应用,比如微博,可以通过判断当前显示帧率来判断用户是否即将进入或正处于视频场景。示例性的,设置显示帧率为每秒30帧为预设的视频或动画帧率,则当显示帧率为稳定输出的每秒30帧,则说明用户正在使用电子设备诸如播放视频。

其中,预设帧率可以为具体的帧率数值,也可以是帧率数值范围,帧率数值的枚举。预设帧率可以根据实际情况设置,这里不做限定。

作为一种可能的实现方式,可以通过系统提供的接口查询显示帧率。可选的,该接口位于框架层或其他层,这里不做限定。

d1)用户与App的交互规律符合预设规律。

预设规律比如可以但不限于是上下滑动并在当前界面停留一段时间。该时间段可以由用户或系统设置。

e1)检测到屏幕显示状态为全屏或横屏显示状态。

其中,检测到屏幕显示状态为全屏显示状态,可以包括但不限于如下场景:

一种场景下,电子设备当前并未处于全屏显示状态,电子设备检测到用户切换屏幕显示状态的操作,比如,将电子设备旋转一定角度的操作,由竖直持握变为水平持握电子设备,电子设备响应于用户的该操作,可以将屏幕显示状态切换为全屏显示状态。

一种场景下,用户可能正在观看视频或进行其他业务,电子设备正处于全屏显示状态,电子设备可以获取到当前是全屏显示状态。

f1) 网络流量迅速增大。

可以理解,当用户开启视频应用观看视频时,网络流量通常会突增,因此,可以根据网络流量是否突增来判断用户是否处于视频场景。

作为一种可能的实现方式,系统提供用于监测网络流量的接口。可选的,该接口位于框架层。或者,该接口位于系统的其他层。或者,电子设备可以采用其他方式监测网络流量。本申请实施例对检测网络流量的具体实现方式不做限制。

上述a1)-f1)各项条件可以有多种可选的组合,电子设备不一定需要检测全部条件。

需要说明的是,本申请实施例中,电子设备检测上述a1)-f1)的先后顺序不受限制,可以同时检测是否满足其中的某几个条件,也可以先检测是否满足其中的一部分条件,再检测是否满足其他条件。

通常检测上述一个或多个条件,可以提升视频场景识别的准确性,将一些无需实时字幕功能的非视频场景排除在外。

比如,游戏场景虽然偶尔也会有人物声音,但因为这些人物声音基本属于常用的语言表达,通常用户没有进行语音转文本形成字幕的需求。那么,电子设备可以通过检测上述一个或多个条件将游戏场景排除在外。

再比如,电子设备检测视频中的广告,不将广告声音转化为文本,不形成相应字幕。

以音频场景为例,作为一种可能的实现方式,可以设置预设条件,满足预设条件的情况下,电子设备确定用户即将进入视频场景。

其中,预设条件包括但不限于如下一项或多项:

a2)用户启动的App在音频类应用白名单中。

系统可以按照不同策略设置有不同类型的应用白名单。比如,根据应用类型设置白名单,将音频类应用归类到一个应用白名单中。或者,还可以有其他归类应用白名单的方法,本申请实施例对此不进行限制。比如,系统将喜马拉雅、收音机电台等应用加入音频类应用白名单中。

可选的,在音频场景中,可以排除掉一部分声音,不将该部分声音转换为文本,不形成该声音对应的字幕。

比如,用户听歌时,通常歌曲自带歌词,此种情况下,无需为用户形成可显示的实时字幕。具体的,电子设备可识别歌曲中的人物声音,不将人物声音转换为文本,从而不形成相应实时字幕。

再比如,电子设备可识别音频中的广告,不将广告声音转换为字幕。

结合上述用于检测视频场景或音频场景的预设条件,如图6示出了本申请实施例提供的字幕显示方法的另一示例性流程。该字幕显示方法还包括:S201、电子设备检测是否满足预设条件。若满足预设条件,说明用户有较高概率将进入诸如播放视频等视频场景或进入诸如播放音频等音频场景,或者用户已经处于视频或音频场景,则触发继续执行后续步骤。比如,触发执行如图6所示步骤S102。若不满足预设条件,说明用户没有播放视频、音频等诉求,也就无需为用户显示实时字幕,那么,电子设备可以继续检测声音。

需要说明的是,图6中是以S201(电子设备检测是否满足预设条件)在S101之后且S102之前执行为例。在另一些实施例中,S201的执行时机还可以是其他,比如,可以在检测声音的同时检测是否符合视频场景或音频场景的预设条件。或者,将S201拆分为多个子步骤,该多个子步骤可以独立执行。该多个子步骤与S101-S107之间的顺序不受限。比如,先对预设条件中的部分条件(比如是否开启视频类应用,当前是否为全屏显示)进行判断,再检测声音,再对预设条件中的另一部分条件(比如显示帧率,是否调用系统的视频接口)进行判断。本申请实施例不限制步骤S201与其他步骤之间的执行先后顺序,也不限制S201可拆解为的子步骤的数量,以及各个子步骤之间的执行顺序。

可选的,上述实施例提及的检测当前人物声音所属的第一语言,可以指:在检测到满足所述第一预设条件的情况下,才触发检测当前人物声音所属的第一语言。如此,降低持续检测人物声音语言导致的功耗。

可选的,检测当前音频中的人物声音,可以指:在检测到满足所述第一预设条件的情况下,触发检测当前音频中的人物声音。如此,能够降低持续检测识别人物声音导致的功耗。

可选的,检测音频,可以指:在检测到满足所述第一预设条件的情况下,触发检测音频。如此,能够降低持续检测识别声音导致的功耗。

示例性的,如图17的(1)所示,手机检测到用户开启视频应用的操作。之后,如图17的(2)所示,手机检测到手机当前的状态为全屏显示状态,这意味着,用户很可能将播放视频,那么,手机可以触发检测声音等操作。如图17的(3)所示,当手机检测到声音,检测出声音为人声,且检测出该人声的语言后,可以向用户提示开启实时字幕功能。如图17的(4)所示,当用户同意开启实时字幕功能,手机显示实时字幕。

可见,本申请实施例中,可以先判断用户是否即将进入视频或音频场景,或已经处于视频或音频场景,只有当确定用户即将进入视频或音频场景,或已经处于视频或音频场景,才触发诸如检测语言等高功耗的操作。也就是说,无需一直检测,只有满足触发条件才触发诸如语言检测等步骤。本申请实施例的检测识别、显示字幕的具体实现与现有技术的对比情况可参见表1。可见,相比于现有技术,本申请实施例的技术方案,检测识别时间短,以避免或降低不必要的功耗,提升电子设备续航性能。

示例性的,如表1所示,本申请实施例可以在检测到视频场景才触发检测识别声音,与表1所示的技术方案相比,本申请实施例技术方案,检测时间更短,检测功耗更低。并且,本申请实施例中,在人物声音为电子设备语音识别可支持的语种的情况下才显示字幕,降低了字幕显示错误的概率。

本申请实施例中,可对实时字幕相关设置项进行设置。实时字幕相关设置项包括但不限于:声音源,声音源语言,字幕规则。字幕规则即需要显示的字幕的语言。

由于篇幅限制,这里不再一一穷举实时字幕相关设置项。

可选的,实时字幕相关设置项可由用户设置或系统默认设置。

示例性的,如图3的(2)所示,手机显示控件304,控件304用于设置实时字幕功能。手机检测到用户对控件304的诸如点击等操作,显示图7的(1)所示设置界面305。用户通过设置界面305可对声音源、声音源语言、字幕规则中的一个或多个进行设置。

以用户设置声音源为例,示例性的,如图7的(1)所示,当检测到用户诸如点击控件308的操作,手机显示图7的(2)所示设置界面,用户可通过该设置界面选择声音源。声音源即用于转化为实时字幕的声音来源。

可选的,声音源可以是手机播放的媒体声音,或者输入手机的声音(比如录制视频时输入手机的声音),或者其他声音,比如麦克风声音。图7的(2)中,以声音源为媒体声音为例,其中,

图7以媒体声音、麦克风等设置选项与实时字幕设置界面不在同一界面为例进行说明,图7所示设置界面为示例性界面。在另一些实施例中,还可以将图7的(2)所示的媒体声音、麦克风等设置选项设置在图7的(1)所示实时字幕设置界面中。

以用户设置声音源语言为例,示例性的,如图8的(1)所示,当检测到用户诸如点击控件306的操作,手机显示图8的(2)所示设置界面,用户可通过该设置界面选择声音源语言。可选的,如图8的(2)所示,声音源语言可以为由用户设置为中文、英文等语言,也可以是系统检测的当前语言(即系统当前检测到的音频中人物声音的语言)。

可选的,手机可以检测人声的语言,并基于该语言和字幕规则将人声转化为实时字幕,将实时字幕显示给用户。其中,字幕规则可以是显示第一语言的字幕,或者显示第二语言(与第一语言不同)的字幕,或者显示包括第一语言和第二语言的字幕。第二语言包括所述用户或所述第一终端设置的语言。比如,第二语言可以是用户设置的中文、英文等语言,或者第二语言可以是第一终端自动检测的用户偏好语言,或系统默认语言(即电子设备当前使用的语言)等。用户或第一终端设置第二语言的时机不受限。

以用户设置字幕规则为例,示例性的,如图9的(1)所示,当检测到用户诸如点击控件307的操作,手机显示图9的(2)所示设置界面301(即第二界面),用户可通过该设置界面设置字幕规则。

其中,在图9的(2)中,“其他语言的类型”菜单为“显示当前语言之外的其他语言”开关的子菜单。如图9的(2)所示,“其他语言的类型”菜单可以和“显示当前语言之外的其他语言”开关位于同一界面。在另一些实施例中,“其他语言的类型”菜单也可以与“显示当前语言之外的其他语言”开关分别设置在不同界面中。

“其他语言的类型”菜单可以包括一个或多个选项。比如,可以包括中文、英文等语言。也可以包括“用户偏好语言”,系统检测等选项。

以字幕规则如图10的(1)所示,即实时字幕的语言与人声的语言相同(即字幕的语言为系统检测的人声的当前语言)为例,如图10的(2)和图10的(3)所示,当检测到当前播放视频中的人声为中文,则手机将人声转化为中文字幕701,并显示到显示屏,以便用户观看中文实时字幕。如此,能够尽可能向用户提供原汁原味的声音源语言的字幕。

在另一些实施例中,用户还可以设置与声音源语言不同的实时字幕。换句话说,可以将某一语言的人声翻译为不同语言的实时字幕。以字幕规则如图11的(1)所示,即实时字幕设置为英文为例,示例性的,如图11的(2)和图11的(3)所示,手机检测到当前播放视频中的人声为中文,则按照设置将人声转化为英文字幕801,并显示到显示屏,以便用户观看英文实时字幕。如此,能够将视频中的人声翻译为用户易懂或需要的语言,提升用户的观看体验。

可选的,本申请实施例提及的视频中可以有内嵌字幕,或者,视频不带字幕。

在另一些实施例中,手机还可以结合用户画像确定用户偏好语言。手机可以采集用户相关的信息确定用户画像,并基于用户画像确定用户偏好语言。用户偏好语言可以是用户在最近一段时间内使用率较高的语言。比如,用户为英语学习者,那么,用户可能长时间段内将英语作为使用的语言,比如在一段时间内经常观看声音源为英语的视频或带有英语字幕的视频。那么,英语即该用户的偏好语言。

可选的,用户偏好语言也可以是用户使用率不高,但用户画像中频率较高的语言。比如,用户虽然不经常播放英文视频,但用户经常搜索英文相关资料,经常使用英文相关应用程序(比如有道词典、金山词典等)。

示例性的,用户可以设置实时字幕的语言为偏好语言。那么,当手机检测到视频中人声为英文,则将人声转化为偏好语言(假设为日语)的字幕。如此,用户可以观看所偏好语言的实时字幕,契合用户的观看需求,提升用户的观看体验。

在另一些实施例中,手机还可以根据不同场景确定不同的偏好语言,也就是说,偏好语言不是固定的,可以更新用户的偏好语言,以便将人声转化为相应偏好语言的实时字幕,满足用户的观看需求。换句话说,可以根据用户偏好自适应调整实时字幕的语言类型。

在另一些实施例中,手机在显示某语言的实时字幕之前,可以提示用户是否显示该语言的实时字幕,若用户选择显示该语言的实时字幕,则手机显示该语言的实时字幕,否则手机显示默认语言的字幕。也就是说,在手机显示实时字幕前,用户可以选择当前期望显示的实时字幕语言,或者,手机可以向用户推荐实时字幕的语言。

比如,如图13的(1)-图13的(2)所示,手机在检测到包括人声的视频后,可以显示控件1001,用于询问用户实时字幕的语言。当检测到用户的诸如单击控件1001的操作,手机显示所推荐语言,即英文的实时字幕901。当检测到用户的诸如双击控件1001的操作,手机显示默认语言的实时字幕。其中,默认语言可以是用户设置或系统设置的。可见,在用户的不同操作情况下,手机可以显示不同语言的实时字幕,实时字幕的语言不拘泥于预先设定的某一固定语言,显示实时字幕的方式更加灵活。

再比如,如图14的(1)所示,手机在检测到包括人声的视频后,可以显示控件1003,用于提示用户选择实时字幕的语言。当检测到用户的诸如单击控件1003的操作,手机显示如图14的(2)所示界面311(即第二界面),界面311包括控件1002,当检测到用户通过诸如点击控件1002选择字幕语言的操作(比如选择英文),手机显示如图14的(3)所示的英文实时字幕。

本申请实施例中,将能够用于设置字幕语言的界面统称为第二界面。其中,包括用于设置字幕语言的各级界面。比如,仍以图14为例,控件1002还可以设置为隐藏语言选项,当用户点击控件1002弹出具体的中文、英文、更多等语言选项。弹出的语言选项可称为控件1002的下一级界面。

可选的,如图14所示,用户设置字幕语言(比如英文)后,手机可记住用户的本次选择,下次可不再提示用户设置字幕语言,直接将本次选择语言用于下次字幕语言。

可选的,手机还可以提示用户是否记住本次设置的字幕语言,当用户选择记住本次设置的字幕语言,手机可将本地设置的字幕语言用于下次字幕显示。

图13和图14、图15、图16等仅为示例性界面,除显示控件1001、控件1002、控件1003的方式提示用户选择何种语言显示实时字幕外,手机还可以通过其他界面提示用户选择何种语言显示实时字幕,或者说向用户推荐可以选择的实时字幕的语言。比如,提示用户可以在下拉菜单或下拉列表中选择待显示的实时字幕的语言。

在另一些实施例中,还可以提供类似于“双语”实时字幕。意味着,手机显示两种或两种以上实时字幕,可选的,在一种设计中,手机显示的一种字幕是声音源语言的字幕,一种字幕是用户所选择(或系统默认或系统配置)语言的字幕。示例性的,参见图12的(1),用户设置实时字幕的语言为声音源语言与所选语言的叠加。那么,当如图12的(2)所示,手机识别出视频中的人声为中文后,可以显示如图12的(3)所示的中文字幕以及用户预先设置的英文字幕。如此,用户可以观看多语言的实时字幕,通过该类字幕,用户能更加直观的理解所播放视频的含义。

在另一些实施例中,“双语”实时字幕还可以包括声音源语言的字幕和用户偏好语言的字幕。

以上主要以用户观看视频为例,对本申请实施例提供的字幕显示方法进行介绍,本申请实施例的技术方案还可用于直播、视频录制等场景。以视频录制场景为例,用户开启相机应用,并开启录像功能。如图18的(1)所示,用户可以开启录像,并可以旋转手机,将画面切换为图18的(2)所示横屏显示。如图18的(2)所示,当检测到人物声音,人物声音的语言为可识别语言(比如中文),且检测到当前帧率稳定为预设视频帧率,手机提示用户开启实时字幕功能。响应于用户同意开启实时字幕功能的操作,手机显示如图18的(3)所示中文字幕。

在另一些实施例中,本申请实施例还可以应用于大屏设备上的视频、音频场景,比如跨设备场景中的投屏场景。比如将第一终端即将显示或正在显示的字幕投放到大屏的第二终端上进行显示。由于大屏设备的屏幕尺寸相对较大,因此,可提升用户观看更加清楚的视频画面细节。

示例性的,如图19的(1)所示,手机检测到包括人物声音的媒体文件,且检测到当前存在联网的大屏设备(比如但不限于智慧屏),手机显示界面1902,用于提示用户是否在智慧屏上显示实时字幕。界面1902包括控件1901。当检测到用户同意在智慧屏上显示实时字幕的操作(即第二操作),比如检测到用户单击控件1901的操作,手机向智慧屏(即第二终端)发送指令,用于指示智慧屏显示实时字幕。可见,本申请实施例中,手机可调用智慧屏的相关硬件等资源,比如调用智慧屏的显示屏显示图19的(2)所示实时字幕。

控件1901仅是一个示例。控件1901还可以是诸如“检测到联网的智慧屏,是否在智慧屏上显示实时字幕”,或者,“检测到联网的智慧屏,点击开启在智慧屏上显示实时字幕,并设置实时字幕的语言”等。本申请实施例对此不限制。

在另一些实施例中,还可以在设置界面选择投屏后的字幕语言。比如,在系统的设置界面存在投屏的字幕语言选项,用于设置在大屏设备上的字幕语言。或者,还可以在提示用户投屏显示字幕后向用户推荐或提示投屏的字幕语言。本申请实施例对投屏的字幕语言的设置方式不做限制。

可选的,显示的字幕的位置、大小等可以改变。比如,仍以图19为例,用户可以通过隔空手势操作按照诸如虚线箭头所示方向移动字幕位置。

可选的,在诸如多方通信场景中,还可以区分不同对象的字幕。比如,如图20的(1)、图20的(2)所示,在大屏设备上显示多个字幕窗口,字幕窗口的位置不限。不同字幕窗口可以对应不同通信对象,所述不同通信对象包括所述第一终端的用户。

可选的,不同字幕窗口有不同用户界面(user interface,UI)效果。比如,大屏设备将说话方的字幕窗口显示在屏幕上,没有声音或没有讲话的一方的窗字幕口淡化或不显示或隐藏。再比如,不同字幕窗口的颜色不同。说话方的字幕窗口颜色更为鲜艳,以便吸引用户注意力。再比如,说话方的字幕窗口的外沿边框有闪烁的动态效果。

可选的,不同字幕窗口的位置不同,且各字幕窗口的位置靠近所述字幕窗口所对应的通信对象的头像或画面。示例性的,参见图21的(1)和图21的(2),Bob的字幕窗口靠近Bob的头像或画面。Andy的字幕窗口靠近Andy的头像或画面。

可选的,第一终端(或者是小屏设备)也可以有类似第二终端的UI效果或字幕窗口位置等。即,在多方通信场景中,所述第一终端的字幕显示区域划分为一个或多个字幕窗口,不同字幕窗口对应不同通信对象,所述方法还包括以下中的至少一项:

不同字幕窗口有不同UI效果;不同字幕窗口的位置不同,且各字幕窗口的位置靠近所述字幕窗口所对应的通信对象的头像或画面。

可选的,跨设备场景还可以是车载场景,手机可以将手机的画面显示到车机的显示屏上。或者,跨设备场景还可以为其他。

为了实现上述跨设备场景,手机与其他设备之间可以提前完成注册流程。示例性的,以车机与手机实现跨设备显示实时字幕为例,车机中的相关硬件需提前注册到手机中,手机形成相关硬件的虚拟驱动。后续,手机可以通过虚拟驱动调用相关硬件完成相应功能。比如,手机中注册有车机的显示屏信息,并形成显示屏对应的虚拟驱动,那么,手机可以通过该虚拟驱动调用车机的显示屏实现实时字幕显示等显示功能。

可以理解的是,为了实现上述功能,电子设备包含了执行各个功能相应的硬件和/或软件模块。结合本文中所公开的实施例描述的各示例的算法步骤,本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以结合实施例对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。

本实施例可以根据上述方法示例对电子设备进行功能模块的划分,例如,可以对应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块可以采用硬件的形式实现。需要说明的是,本实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。

如图22所示,本申请实施例公开了一种电子设备的结构示意图。该电子设备1800可用于实现以上各个方法实施例中记载的方法。示例性的,该电子设备1800具体可以包括:处理单元1801、显示单元1802;

其中,处理单元1801用于支持电子设备1800执行图4中的步骤S101-S104、S107。和/或,处理单元1801用于支持电子设备1800执行图6中的步骤S201。和/或,处理单元1801还用于支持电子设备1800执行本申请实施例中电子设备执行的其他步骤。显示单元1802用于支持电子设备1800执行图4中的步骤S105、S106中的字幕显示功能。和/或,显示单元1802还用于支持电子设备1800执行本申请实施例中电子设备执行的其他步骤。

可选的,图22所示的电子设备1800还可以包括通信单元1803,该通信单元1803,用于支持电子设备1800执行本申请实施例中电子设备与其他电子设备之间通信的步骤,比如,支持第一终端向第二终端发送指令。

可选的,图22所示的电子设备1800还可以包括存储单元(图22中未示出),该存储单元存储有程序或指令。当处理单元1801执行该程序或指令时,使得图22所示的电子设备1800可以执行图4和图6所示的用于字幕显示的方法。

图22所示的电子设备1800的技术效果可以参考图4和图6所示的字幕显示方法的技术效果,此处不再赘述。

图22所示的电子设备1800中涉及的处理单元1801可以由处理器或处理器相关电路组件实现,可以为处理器或处理模块。通信单元1803可以由收发器或收发器相关电路组件实现,可以为收发器或收发模块。显示单元1802可以由显示屏相关组件实现,可以包括显示屏。

本申请实施例还提供一种芯片系统,如图23所示,该芯片系统包括至少一个处理器1601和至少一个接口电路1602。处理器1601和接口电路1602可通过线路互联。例如,接口电路1602可用于从其它装置接收信号。又例如,接口电路1602可用于向其它装置(例如处理器1601)发送信号。示例性的,接口电路1602可读取存储器中存储的指令,并将该指令发送给处理器1601。当所述指令被处理器1601执行时,可使得电子设备执行上述实施例中的电子设备100(比如第一终端)执行的各个步骤。当然,该芯片系统还可以包含其他分立器件,本申请实施例对此不作具体限定。

可选地,该芯片系统中的处理器可以为一个或多个。该处理器可以通过硬件实现也可以通过软件实现。当通过硬件实现时,该处理器可以是逻辑电路、集成电路等。当通过软件实现时,该处理器可以是一个通用处理器,通过读取存储器中存储的软件代码来实现。

可选地,该芯片系统中的存储器也可以为一个或多个。该存储器可以与处理器集成在一起,也可以和处理器分离设置,本申请并不限定。示例性的,存储器可以是非瞬时性处理器,例如只读存储器ROM,其可以与处理器集成在同一块芯片上,也可以分别设置在不同的芯片上,本申请对存储器的类型,以及存储器与处理器的设置方式不作具体限定。

示例性的,该芯片系统可以是现场可编程门阵列(field programmable gatearray,FPGA),可以是专用集成芯片(application specific integrated circuit,ASIC),还可以是系统芯片(system on chip,SoC),还可以是中央处理器(central processorunit,CPU),还可以是网络处理器(network processor,NP),还可以是数字信号处理电路(digital signal processor,DSP),还可以是微控制器(micro controller unit,MCU),还可以是可编程控制器(programmable logic device,PLD)或其他集成芯片。

应理解,上述方法实施例中的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。结合本申请实施例所公开的方法步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。

本申请实施例提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序或指令,当计算机程序或指令在计算机上运行时,使得该计算机执行上述方法实施例所述的字幕显示方法。

本申请实施例提供一种计算机程序产品,该计算机程序产品包括:计算机程序或指令,当计算机程序或指令在计算机上运行时,使得该计算机执行上述方法实施例所述的字幕显示方法。

另外,本申请的实施例还提供一种装置,该装置具体可以是组件或模块,该装置可包括相连的处理器和存储器;其中,存储器用于存储计算机执行指令,当装置运行时,处理器可执行存储器存储的计算机执行指令,以使装置执行上述各方法实施例中的字幕显示方法。

其中,本申请实施例提供的终端设备、计算机可读存储介质、计算机程序产品或芯片均用于执行上文所提供的对应的方法,因此,其所能达到的有益效果可参考上文所提供的对应的方法中的有益效果,此处不再赘述。

通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

在本申请所提供的几个实施例中,应该理解到,所揭露的方法,可以通过其它的方式实现。各实施例在不冲突的情况下可以相互结合或相互参考。以上所描述的终端设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,模块或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:快闪存储器、移动硬盘、只读存储器、随机存取存储器、磁碟或者光盘等各种可以存储程序指令的介质。

以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何在本申请揭露的技术范围内的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

相关技术
  • 一种用于字幕显示的方法及电子设备
  • 一种字幕显示方法、字幕显示装置及终端
技术分类

06120112641394