实现移动端耳机模式进行双录的方法及系统

文献发布时间：2023-06-19 19:16:40

技术领域

本申请涉及数据处理技术领域，特别是涉及一种实现移动端耳机模式进行双录的方法及系统。

背景技术

在证券、信托、保险、银行等业务场景中，用户在办理相关业务时，需要进行双录(录音录像)，并进行实时质检和留档等。

随着智能手机时代的到来，现在需要进行双录的大部分场景，已经不需要用户到现场进行，用户完全可以使用自己的手机，进行自主双录，并上传。目前，国内各大证券/保险/信托/银行等机构的APP中，都已经实现了基本的双录功能，但是，有些双录功能对用户当前所处的环境，使用的手机设备，尤其是用户佩戴有线/蓝牙耳机这种情况，是不支持进行双录的；会提示用户“双录过程中，不允许连接耳机”。之所以不支持是因为，双录中的录音，不但要录制用户的回答，还要录制双录过程中，手机播放的风险提示语等信息，而，用户佩戴耳机的情况下，由于手机声音是通过耳机发出(非喇叭)，所以，麦克风就无法录制到手机播放的声音，显然无法满足相关规定。

发明内容

本申请的目的在于克服上述问题或者至少部分地解决或缓减解决上述问题。

根据本申请的一个方面，提供了一种实现移动端耳机模式进行双录的方法，包括：

检测到终端设备触发启动双录进程时，开启MIC流和图像流和TTS流；

利用所述MIC流和图像流实时采集双录进程中的视频流信息，同时利用所述TTS流和图像流采集所述双录进程中的TTS流信息；

检测到所述终端设备结束双录进程时，停止所述MIC流和图像流和TTS流，得到经由所述MIC流录制的第一文件、经由所述图像流录制的第二文件和经由所述TTS流录制的第三文件；

其中，所述MIC流和所述TTS流时长一致。

可选地，所述利用所述MIC流和图像流采集所述双录进程中的声音信息包括：

创建本地录制文件，所述本地录制文件能够随机进行读写，所述本地录制文件默认实时填充空声音；

在所述终端设备开始播放声音时，停止向所述本地录制文件填充空声音，转为向所述本地文件实时填充所述终端设备播放的声音；

在所述终端设备停止播放声音时，停止向所述本地录制文件填充所述终端设备播放的声音，转为向所述本地文件实时填充空声音。

可选地，所述得到经由所述MIC流录制的第一文件、经由所述图像流录制的第二文件和经由所述TTS流录制的第三文件之后，所述方法还包括：

将所述第一文件、所述第二文件和所述第三文件上传至云端；和/或，

合成所述第一文件、所述第二文件和所述第三文件，以得到双录视频文件。

可选地，所述终端设备连接有耳机或未连接耳机。

根据本申请的另一方面，还提供了一种实现移动端耳机模式进行双录的系统，包括：

检测模块，用于检测到终端设备触发启动双录进程时，开启MIC流和图像流和TTS流；

录制模块，用于利用所述MIC流和图像流实时采集双录进程中的视频流信息，同时利用所述TTS流和图像流采集所述双录进程中的TTS流信息；

文件生成模块，检测到所述终端设备结束双录进程时，停止所述MIC流和图像流和TTS流，得到经由所述MIC流录制的第一文件、经由所述图像流录制的第二文件和经由所述TTS流录制的第三文件；

其中，所述MIC流和所述TTS流时长一致。

可选地，所述录制模块还用于：

创建本地录制文件，所述本地录制文件能够随机进行读写，所述本地录制文件默认实时填充空声音；

在所述终端设备开始播放声音时，停止向所述本地录制文件填充空声音，转为向所述本地文件实时填充所述终端设备播放的声音；

在所述终端设备停止播放声音时，停止向所述本地录制文件填充所述终端设备播放的声音，转为向所述本地文件实时填充空声音。

可选地，所述系统还包括：

传输模块，将所述第一文件、所述第二文件和所述第三文件上传至云端；和/或，

合成模块，合成所述第一文件、所述第二文件和所述第三文件，以得到双录视频文件。

根据本申请的另一方面，还提供了一种计算设备，包括存储器、处理器和存储在所述存储器内并能由所述处理器运行的计算机程序，其中，所述处理器执行所述计算机程序时实现如上述任一项所述的实现移动端耳机模式进行双录的方法。

根据本申请的另一方面，还提供了一种计算机可读存储介质，优选为非易失性可读存储介质，其内存储有计算机程序，所述计算机程序在由处理器执行时实现如上述任一项所述的实现移动端耳机模式进行双录的方法。

本申请提供了一种实现移动端耳机模式进行双录的方法及系统，基于本申请实施例提供的方案能够实现全场景(带不带耳机都行)可以正常进行双录，通过查看双录生成的视频，不管是用户的回答还是TTS等都被清晰的记录下来，满足了用户多样化录制双录的需求，降低了使用门槛，也节省了客户采购的成本。

根据下文结合附图对本申请的具体实施例的详细描述，本领域技术人员将会更加明了本申请的上述以及其他目的、优点和特征。

附图说明

后文将参照附图以示例性而非限制性的方式详细描述本申请的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解，这些附图未必是按比例绘制的。附图中：

图1是根据本申请实施例的实现移动端耳机模式进行双录的方法流程示意图；

图2是根据本申请实施例的双录总体流程图；

图3是根据本申请实施例TTS录制流程图；

图4是根据本申请一实施例的实现移动端耳机模式进行双录的系统结构示意图；

图5是根据本申请另一实施例的实现移动端耳机模式进行双录的系统结构示意图；

图6是根据本申请可选实施例的计算设备结构示意图；

图7是根据本申请实施例的计算机可读存储介质示意图。

具体实施方式

根据下文结合附图对本申请的具体实施例的详细描述，本领域技术人员将会更加明了本申请的上述以及其他目的、优点和特征。

除了相关APP中双录功能是通过禁止用户使用耳机以达到双录正常合规，也有通过使用WebRTC技术的方案，可以实现耳机模式进行双录。WebRTC，名称源自网页即时通信(英语：Web Real-Time Communication)的缩写，是一个支持网页浏览器进行实时语音对话或视频对话的API。它于2011年6月1日开源并在Google、Mozilla、Opera支持下被纳入万维网联盟的W3C推荐标准。

基于开源的WebRTC的技术，首先，需要搭建一套信令服务器、流媒体服务器、转流录制服务等后端服务。然后，前端需要集成对应平台的SDK，通过SDK和服务进行一个交互。目前主流的方案都是基于房间的概念，即，一次双录就会创建一个房间，然后，所有的音视频源都是作为房间的一个“成员”，然后，在房间中会有一个“上帝视角”的程序存在，由他“记录”房间内实时发生的一切(即，录音录像)。此方案采用服务端录制的方式，由于所有双录过程中的音频源、图像原，包括TTS(风险提示语)这样的音源，都是作为一个“成员”在房间中进行的发布，所以，即使用户佩戴耳机，也可以察觉。并且，该方案需要大量的对于WebRTC技术栈特别熟悉的资深开发人员，共同完成；同时，需要大量服务器资源和网络带宽，多种服务配合，复杂的服务搭建、集成、管理等。同时，对于异常情况的追踪，链路比较复杂，不好发现和处理问题，成本较高。

本申请实施例提供了一种实现移动端耳机模式进行双录的方法，如图1所示，本申请实施例提供的方程至少可以包括以下步骤S101～S103。

S101，检测到终端设备触发启动双录进程时，开启MIC流和图像流和TTS流。本实施例的终端设备可以是手机、平板或是其他智能设备，终端设备中可以安装有专门用于进行双录的软件或者程序。所述终端设备连接有耳机或未连接耳机。用户通过触发终端设备可以启动双录，如图2所示，可以同时启动MIC流和图像流和TTS流。其中，MIC流，是麦克风流，主要用于采集音频数据，图像流可以是利用摄像头采集连续的图像帧数据，TTS流是语音合成流,Text To Speech的缩写，即“从文本到语音”，是人机对话的一部分，让机器能够说话。在双录中，TTS也可以认为是“风险提示语”的意思。一般的双录过程，只有图像流的录制和MIC流的录制，一种基本的双录(录音录像)过程是一问一答的形式，目的是通过用户的回答，记录用户对于风险的认识和明确的知悉性。比如，双录过程中，会播报风险提示语“您购买的产品XZXX收益率是5％，风险等级是中风险，XXX。请问您是否知悉？”用户回答“我已知悉”。双录就是记录这个一问一答的过程中的音视频资料。需要同时记录风险提示语和用户回答。

风险提示语一般是通过专业的语音算法，将文字转为拟人的声音，这个技术称为“TTS”。TTS流就是记录双录过程中，播报的风险提示语的声音的一路流。风险提示语如果不佩戴耳机的情况下，是从扬声器播放，这个时候MIC可以录制到扬声器播放出来的声音；但是当用户佩戴耳机(有线或者蓝牙)的情况下，风险提示语是从耳机孔发出，手机的MIC就无法录制到风险提示语的声音。本申请实施例通过引入TTS流的录制，以解决耳机模式录制不到TTS流的问题。

S102，利用所述MIC流和图像流实时采集双录进程中的视频流信息，同时利用所述TTS流和图像流采集所述双录进程中的TTS流信息。

当MIC流和录音的时候(即，开始同步启动录音录像时)，立即开启TTS流录制；当MIC流和图像流结束录音的时候(即，结束录音录像时)，停止TTS流录制。以使得TTS流能够紧随MIC流和图像流的时间线，从而保证可以实时录制TTS流，以及确保MIC流和图像流和TTS流的时长一致性。

其中，结合图3，所述利用所述MIC流和图像流采集所述双录进程中的声音信息包括：

A1，创建本地录制文件，所述本地录制文件能够随机进行读写，所述本地录制文件默认实时填充空声音。录制开始时，可以先创建一个本地录制文件，本地录制文件可以随机进行读写，进而对于本地录制文件，默认实时填充空声音；并和MIC流和图像流的时间线保持一致。

A2，在所述终端设备开始播放声音时，停止向所述本地录制文件填充空声音，转为向所述本地文件实时填充所述终端设备播放的声音；

A3，在所述终端设备停止播放声音时，停止向所述本地录制文件填充所述终端设备播放的声音，转为向所述本地文件实时填充空声音。

当手机开始播放声音(比如，风险提示语)的时候，本地录制文件立即停止填充空声音，同时，开始实时填充播放的声音；当手机停止播放声音的时候，本地录制文件也对应停止填充播放声音，转为开始填充空声音；重复A3和A4的步骤，直至双录结束。

S103，检测到所述终端设备结束双录进程时，停止所述MIC流和图像流和TTS流，得到经由所述MIC流录制的第一文件、经由所述图像流录制的第二文件和经由所述TTS流录制的第三文件；其中，所述MIC流和所述TTS流时长一致。

进一步地，在上述步骤S103之后，还可以将所述第一文件、所述第二文件和所述第三文件上传至云端；和/或，合成所述第一文件、所述第二文件和所述第三文件，以得到双录视频文件。

最后，随着录音录像结束，可以得到此TTS流录制文件。这样，就可以将MIC流和图像流录制文件和TTS流录制文件，以及对应的视频流录制文件，进行上传或者合成，用于最终的双录视频生成。本申请实施例提供的方法既可以实现耳机模式进行双录，而且技术门槛低、成本可控。

具体来讲，又分为本地合成和服务端合成，两种方式。本实施例的双录系统中，使用的是服务端合成，即，双录结束后，将3路流生成的文件先上传给服务器，服务器拿到这3个文件之后，会进行编解码操作，最终合成一个视频文件。其中编解码操作，使用目前主流的FFMPEG技术。

举例来讲，本实施例的整体双录过程可以如下：

1)用户发起双录，开始录音录像。

2)程序会分别开始图像流、MIC流、TTS流的录制，并实时同步时间进度，时间进度以MIC流和为准，保证一致性。

3)双录过程中会播报风险提示语，比如，“用户您好，您购买的理财产品XXX，产品期限是24个月，风险等级是中风险，存在以下风险：YYYY。请问您是否已经知晓？”。然后，用户将进行回答：“是的，我已知晓”。依次类推，完成双录。

4)双录完成后，将分别得到图像流录制文件、MIC流录制文件以及TTS流录制文件。

5)可以将上述文件进行合成，生成最终双录视频文件；也可分别进行上传，留档。具体可以根据客户需求定制。

本实施例的方法具有以下有益效果：

1.提高用户使用体验和转化率。对于用户使用自己手机进行自助双录的场景中，用户可能处于比较特殊的环境，比如，对于注重隐私的用户，不希望外放声音，被别人听到，或者打扰到别人。或者周围环境比较嘈杂等，都是希望佩戴耳机进行双录的。

2.敏感词质检。部分采购客户要求，双录过程中，如果用户说了一些敏感词，比如，骂人的话或者违法的话。双录需要检测出来并按照质检异常处理。原有的录制方案，录制的音频是混合了TTS声音和用户回答声音，无法进行区分。本方案由于分离了MIC流和图像流(用户回答)和TTS流(风险提示语)，所以可以区分出来，并针对性进行质检。

基于同一发明构思，本申请实施例还提供了一种实现移动端耳机模式进行双录的系统，如图4所示，本申请实施例的实现移动端耳机模式进行双录的系统可以包括：

检测模块410，用于检测到终端设备触发启动双录进程时，开启MIC流和图像流和TTS流；

录制模块420，用于利用所述MIC流和图像流实时采集双录进程中的视频流信息，同时利用所述TTS流和图像流采集所述双录进程中的TTS流信息；

文件生成模块430，检测到所述终端设备结束双录进程时，停止所述MIC流和图像流和TTS流，得到经由所述MIC流录制的第一文件、经由所述图像流录制的第二文件和经由所述TTS流录制的第三文件；

其中，所述MIC流和所述TTS流时长一致。

在本申请一个可选实施例中，所述录制模块420还可以用于：

创建本地录制文件，所述本地录制文件能够随机进行读写，所述本地录制文件默认实时填充空声音；

在所述终端设备开始播放声音时，停止向所述本地录制文件填充空声音，转为向所述本地文件实时填充所述终端设备播放的声音；

在所述终端设备停止播放声音时，停止向所述本地录制文件填充所述终端设备播放的声音，转为向所述本地文件实时填充空声音。

在本申请一个可选实施例中，如图5所示，本申请实施例的实现移动端耳机模式进行双录的系统还可以包括：

传输模块440，将所述第一文件、所述第二文件和所述第三文件上传至云端；和/或，

合成模块450，合成所述第一文件、所述第二文件和所述第三文件，以得到双录视频文件。

本实施例中各模块的功能可参见上述方法实施例的描述，此处好不再赘述。

本申请实施例还提供了一种计算设备，包括存储器、处理器和存储在存储器内并能由处理器运行的计算机程序，其中，处理器执行计算机程序时实现如上述任一项所述的实现移动端耳机模式进行双录的方法。

本申请实施例还提供了一种计算机可读存储介质，优选为非易失性可读存储介质，其内存储有计算机程序，计算机程序在由处理器执行时实现如上述任一项所述的实现移动端耳机模式进行双录的方法。

本申请实施例还提供了一种计算设备，参照图6，该计算设备包括存储器620、处理器610和存储在所述存储器620内并能由所述处理器610运行的计算机程序，该计算机程序存储于存储器620中的用于程序代码的空间630，该计算机程序在由处理器610执行时实现用于执行任一项根据本申请实施例的方法步骤631。

本申请实施例还提供了一种计算机可读存储介质。参照图7，该计算机可读存储介质包括用于程序代码的存储单元，该存储单元设置有用于执行根据本申请实施例的方法步骤的程序631′，该程序被处理器执行。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、获取其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

专业人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令处理器完成，所述的程序可以存储于计算机可读存储介质中，所述存储介质是非短暂性(英文：non-transitory)介质，例如随机存取存储器，只读存储器，快闪存储器，硬盘，固态硬盘，磁带(英文：magnetic tape)，软盘(英文：floppy disk)，光盘(英文：optical disc)及其任意组合。

以上所述，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：徐永超;刘腾腾;夏溧;周健;
专利申请人：北京有限元科技有限公司;