一种智能双录核验方法、装置及电子设备

文献发布时间：2024-04-18 19:59:31

技术领域

本申请涉及智能双录技术领域，尤其涉及一种智能双录核验方法、装置及电子设备。

背景技术

在一些实际应用场景中，通过现代化的音视频技术，同步录音、录像采集用户提供的核验信息的方式称为智能双录。比如金融领域，商业银行或者保险机构在销售理财产品或者保险等金融产品时，同步对用户进行录音录像，以获取用户针对所提供的金融产品的核验信息。

现有的智能双录技术，通常由机构方开发APP(Application，移动客户端)，然后由用户下载该APP后，由校验人员与该用户约定登陆时间，用户在约定的登陆时间登陆APP后与校验人员进行线上一对一问答，期间对用户进行音视频采集，然后将所采集的音视频进行自动存档。此种方式需要用户下载指定的APP方可执行，便容易对用户产生强制要求，严重影响用户体验。

发明内容

有鉴于此，本申请实施例提供了一种智能双录核验方法、装置及电子设备，以解决现有技术依赖于APP方可进行智能双录核验而影响用户体验的问题。其中：

第一方面，本申请实施例提供了一种智能双录核验方法，所述方法包括：

获取用户基于目标链接输入的答复语音文件，其中，所述目标链接中携带有目标核验文件，所述答复语音文件是基于所述用户根据所述目标核验文件进行答复得到的；

将所述答复语音文件转换为答复文字，并确定所述答复文字是否满足预设核验条件；

若满足，确定所述答复语音文件核验通过。

结合第一方面，在第二种可能的实施例中，所述获取用户基于目标链接输入的答复语音文件，包括：

响应于用户点击所述目标链接，开启所述用户的终端设备的视频录制功能，对所述用户进行视频录制，以获取所述用户的答复视频文件；

响应于用户根据所述目标核验文件进行答复的动作，开启所述用户的终端设备的音频录制功能，对所述用户的答复进行录制，以获取所述用户基于所述目标链接输入的答复语音文件。

结合第一方面的第二种可能的实施例，在第三种可能的实施例中，所述方法还包括：

针对不同的目标核验文件对应的答复语音文件，添加语音标识信息，其中，所述语音标识信息至少包括所述答复语音文件的物理起止时间戳；

所述确定所述答复语音文件核验通过后，所述方法还包括：

基于核验通过的答复语音文件的物理起止时间戳，将所述答复语音文件与所述答复视频文件进行对齐，以生成目标音视频文件。

结合第一方面，在第四种可能的实施例中，所述目标核验文件预先通过如下方式得到：

获取预设接口传输的核验指令以及预设核验条件，其中，所述预设接口为所述目标链接的初始化数据传输接口；

基于所述核验指令进行音频和/或视频进行合成，以生成所述目标核验文件。

结合第一方面的第四种可能的实施例，在第五种可能的实施例中，所述方法还包括：

按照预设网页传输协议，根据所述预设接口以及所述目标核验文件，生成所述目标链接，其中，所述预设接口包括：预设网页即时通讯的API接口。

结合第一方面的第四种可能的实施例，在第五种可能的实施例中，所述音频和/或视频按照预设存储路径存储，所述方法还包括：

若确定所述答复语音文件核验通过，按照所述预设存储路径加载新的音频和/或视频；

基于加载得到的新的音频和/或视频，生成新的目标核验文件；

返回执行所述获取用户基于目标链接输入的答复语音文件步骤。

第二方面，本申请提供了一种智能双录校验装置，所述装置包括：

获取模块，用于获取用户基于目标链接输入的答复语音文件，其中，所述目标链接中携带有目标核验文件，所述答复语音文件是基于所述用户根据所述目标核验文件进行答复得到的；

语音处理模块，用于将所述答复语音文件转换为答复文字；

核验模块，用于确定所述答复文字是否满足预设核验条件；若满足，确定所述答复语音文件核验通过。

结合第二方面，在第二种可能的实施例中，所述获取模块，具体用于：

响应于用户点击所述目标链接，开启所述用户的终端设备的视频录制功能，对所述用户进行视频录制，以获取所述用户的答复视频文件；

响应于用户根据所述目标核验文件进行答复的动作，开启所述用户的终端设备的音频录制功能，对所述用户的答复进行录制，以获取所述用户基于目标链接输入的答复语音文件。

结合第二方面的第二种可能的实施例，在第三种可能的实施例中，所述装置还包括：

标识处理模块，用于针对不同的目标核验文件对应的答复语音文件，添加语音标识信息，其中，所述语音标识信息至少包括所述答复语音文件的物理起止时间戳；

音视频处理模块，用于基于核验通过的答复语音文件的物理起止时间戳，将所述答复语音文件与所述答复视频文件进行对齐，以生成目标音视频文件。

结合第二方面，在第四种可能的实施例中，所述获取模块还用于：

获取预设接口传输的核验指令以及预设核验条件，其中，所述预设接口为所述目标链接的初始化数据传输接口；

基于所述核验指令进行音频和/或视频进行合成，以生成所述目标核验文件。

结合第二方面的第四种可能的实施例，在第五种可能的实施例中，所述装置还包括：

目标链接生成模块，用于按照预设网页传输协议，根据所述预设接口以及所述目标核验文件，生成所述目标链接，其中，所述预设接口包括：预设网页即时通讯的API接口。

结合第二方面的第四种可能的实施例，在第六种可能的实施例中，所述音频和/或视频按照预设存储路径存储，所述获取模块，还用于：

若确定所述答复语音文件核验通过，按照所述预设存储路径加载新的音频和/或视频；基于加载得到的新的音频和/或视频，生成新的目标核验文件；

返回执行所述获取用户基于目标链接输入的答复语音文件步骤。

第三方面，本申请提供了一种电子设备，所述电子设备包括：

处理器；以及

存储程序的存储器，

其中，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行第一方面所述的智能双录核验方法。

第四方面，本申请提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使计算机执行第一方面所述的智能双录核验方法。

本申请的有益效果：

本申请实施例提供了一种智能双录核验方法、装置及电子设备，其中，该智能双录核验方法通过获取用户基于目标链接的答复语音文件，将该答复语音文件转换为答复文字，并确定该答复文字是否满足预设的核验条件，若满足，则确定该答复语音文件核验通过。由于目标链接中携带有目标核验文件，答复语音文件是基于用户根据该目标核验文件进行答复生成的，由此，用户无需下载指定的APP客户端便可直接通过目标链接快速完成信息核验。故，选用本申请实施例有助于减少用户的操作以提高用户的使用体验。

附图说明

在下面结合附图对于示例性实施例的描述中，本申请的更多细节、特征和优点被公开，在附图中：

图1为本申请实施例提供的智能双录核验方法的一种流程示意图；

图2为本申请实施例提供的获取答复语音文件的一种流程示意图；

图3为本申请实施例提供的获取答复语音文件的另一种流程示意图；

图4为本申请实施例提供的获取目标核验文件的一种流程示意图；

图5为本申请实施例提供的生成目标链接的一种流程示意图；

图6a为本申请实施例提供的智能双录核验方法的另一种流程示意图；

图6b为本申请实施例提供的智能双录核验方法的另一种流程示意图；

图7为本申请实施例提供的智能双录核验装置的一种结构示意图；

图8为本申请实施例提供的电子设备的一种结构示意图。

具体实施方式

下面将参照附图更详细地描述本申请的实施例。虽然附图中显示了本申请的某些实施例，然而应当理解的是，本申请可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本申请。应当理解的是，本申请的附图及实施例仅用于示例性作用，并非用于限制本申请的保护范围。

应当理解，本申请的方法实施方式中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本申请的范围在此方面不受限制。

本文使用的术语“包括”及其变形是开放性包括，即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”；术语“另一实施例”表示“至少一个另外的实施例”；术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。需要注意，本申请中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

需要注意，本申请中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。

如背景技术所述，现有的智能双录技术通常需要用户下载机构方开发的APP方可进行用户核验，易因对用户强制要求而影响用户体验。

有鉴于此，本申请提供了一种智能双录核验方法、装置及电子设备，其中，该智能双录核验方法可应用于任一具备录音录像核验功能的电子设备中，包括但不限于个人移动终端、计算机或者服务器等等。其中，在本申请中所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

第一方面，可参考如图1所示的流程示意图，本申请实施例所提供的智能双录核验方法可包括如下几个步骤：

S11、获取用户基于目标链接输入的答复语音文件；

其中，该目标链接中携带有目标核验文件，该答复语音文件是基于用户根据目标核验文件进行答复而得到的。

S12、将答复语音文件转换为答复文字，并确定该答复文字是否满足预设核验条件。

S13、若满足，确定该答复语音文件核验通过。

选用本申请实施例，通过获取用户基于目标链接的答复语音文件，将该答复语音文件转换为答复文字，并确定该答复文字是否满足预设的核验条件，若满足，则确定该答复语音文件核验通过。由于目标链接中携带有目标核验文件，答复语音文件是基于用户根据该目标核验文件进行答复生成的，由此，用户无需下载指定的APP客户端便可直接通过目标链接快速完成信息核验。故，选用本申请实施例有助于减少用户的操作而提高用户的使用体验

下文将对上述步骤S11至步骤S13进行详细说明：

在步骤S11中，用户是指需要进行信息核验的用户，主要是通过用户的终端设备完成信息核验。如此，可无需用户前往指定营业厅或者办事处，便可实现网上信息核验。

在步骤S11中，目标链接是指目标网络链接，网络链接是用于根据URL(uniformresource location，统一资源定位符)，运用HTML(hyper text markup language，超文本标记语言)，将网站内部网页之间、系统内部之间或不同之间的超文本或者超媒体链接起来。即通过网络链接可以从一个网站的网页链接至另一个网站的网页。

作为一种实施方式，在执行步骤S11时，目标链接可以是短信发送至用户终端设备的网络链接，也可以是以公众号或者社交媒体上的网络链接。作为一种示例，用户可通过点击机构方的公众号中的网络链接，进入核验流程。比如，用户通过点击HTML5(下文简称H5)跳转至公众号上的网页或者浏览器上的网页，进入核验流程。

在步骤S11中，答复语音文件是指用户针对核验系统或者核验网络链接提示的核验信息进行答复的音频信号。作为一种实施方式，答复语音文件可以单独以音频信号的形式进行传输、处理或存储，示例性的，答复语音文件为mp3格式的音频信号。作为另一种实施方式，答复语音文件可以以音视频信号混合的形式进行传输、处理或存储，示例性的，答复语音文件为mp4或者其他视频格式的音视频信号。

在步骤S11中，目标核验文件用于向用户展示所需要核验的信息，目标核验文件的格式可根据实际需求进行灵活选择，可以是音频文件，也可以是视频文件，也可以是图像文件等等。示例性的，比如对于用户新开户这一类新场景而言，目标核验文件可以是包含用户的个人信息、用户所开账户的类型信息等等核验信息的图片、音视频等。

作为一种示例，用户通过点击公众号或者短信中收到的目标链接，获取所需核验的文本、图像、音频或者视频，针对所需核验的目标核验文件确定文件中所含信息是否有误，根据确定结果进行语音答复，以得到答复语音文件。

在一些实施例中，在执行步骤S11时，可通过如图2所示步骤获取答复语音文件：

S21、响应于用户点击目标链接，开启用户的终端设备的视频录制功能，对用户进行视频录制，以获取用户的答复视频文件；

S22、响应于用户根据目标核验文件进行答复的动作，开启用户的终端设备的音频录制功能，对用户的答复进行录制，以获取用户基于目标链接输入的答复语音文件。

作为一种实施方式，在执行步骤S21之前，在用户点击目标链接之后，通过弹窗的方式向用户申请获取用户的终端设备的录制权限。若用户同意授权，则执行步骤S21。若用户不同意授权，则终止整个核验流程。其中，录制权限包括：相机使用权限和/或麦克风使用权限。

作为一种示例，获取用户终端设备的录制权限可以是同时获取相机使用权限，以及麦克风使用权限。

作为另一种示例，获取用户终端设备的录制权限可以是先获取相机使用权限，然后再根据用户的回答动作获取麦克风的使用权限，比如，图像检测到用户开始说话，便开启麦克风的使用权限开始音频录制。或者，比如用户点击了用户交互界面上的录制按钮后，开启麦克风的使用权限开始音频录制。

作为一种实施方式，在执行步骤S21时，用户在点击目标链接且获取用户授予的录制权限后，通过指令控制用户终端设备的摄像头开启视频录制功能，对用户进行视频录制，以获取用户答复过程中的视频信号。作为一种实施方式，在执行步骤S21的过程中，对用户进行录制的过程中，可通过活体检测技术对用户进行活体检测，判断用户是否为真实的用户而非虚假的用户，具体的活体检测技术可以为红外检测、人像检测等等。示例性的，可通过将采集到的人脸图像或者人体图像输入至活体检测模型中，由该活体检测模型检测用户头部姿势，通过动作验证用户是否为真实用户。

在执行步骤S22时，作为一种示例，用户根据目标核验文件进行答复的动作，可以是用户点击用户交互界面上的录制按钮，也可以是用户根据目标校验文件点击确定，以便后续根据用户点击确定的动作，开启用户终端设备的音频录制功能。其中，作为一种示例，可借助RecorderJS对音频进行录制。

作为一种实施方式，在执行步骤S22时，可以是从用户点击进入目标链接并获取麦克风授权开始，一直开启麦克风权限，对整个核验全流程进行音频录制。作为另一种实施方式，可以是基于用户根据目标核验文件进行答复的动作，开启麦克风权限，对用户的答复音频进行录制，进而获取用户基于目标链接输入的答复语音文件。

选用本申请实施例，通过将视频录制与音频录制独立成两个单独的处理线程进行处理，可在用户根据目标核验文件进行答复的动作发生后，响应于该动作开启终端设备的音频录制功能，对用户的答复进行录制，以获取用户基于目标链接输入的答复语音文件。如此所获取的答复语音文件，相较于一直开启录音功能所获取的长时间跨度的答复语音文件，时长较短，用户所回答的内容占整段答复语音文件的比例增加，进而有效减少了所录制的答复语音文件中所包含的无效信息量，减少了无效噪声对答复内容的干扰，有助于提升核验准确性。

在一些实施例中，在执行步骤S21与步骤S22之后，本申请所提供的智能双录核验方法还可如图3所示，包括如下步骤：

S31、针对不同的目标核验文件对应的答复语音文件，添加语音标识信息；

其中，该语音标识信息中至少包括该答复语音文件的物理起止时间戳；

S32、基于核验通过的答复语音文件的物理起止时间戳，将答复语音文件与答复视频文件进行对齐，以生成目标音视频文件。

在本申请中，目标核验文件的数量不限，可以为1个，也可以为若干个。针对不同的目标核验文件，用户的答复是不同的。示例性的，第一目标核验文件用于核验用户的个人信息，第二目标核验文件用于核验用户的账户信息，第三目标核验文件用于核验用户的交易信息，则针对目标核验文件所需核验的内容不同，用户的答复是不同的，在执行步骤S11所获取的用户的答复语音文件也是不同的。基于此，作为一种实施方式，在执行步骤S31时，针对不同的目标核验文件对应的答复语音文件，添加语音标识信息，该语音标识信息用于区分不同的答复语音文件。在本申请实施例中，物理起止时间戳是以世界时作为时间基准的起止时刻，其中，世界时是指格林尼治标准时。

作为一种示例，由于不同的目标核验文件核验顺序不同，对应的答复语音文件的发生顺序也不同。基于此，在执行步骤S31时，可基于物理时间添加答复语音文件的语音标识信息。比如，第一目标核验文件对应的第一答复语音文件开始时刻为北京时间2020年1月1日下午8点15分00秒，则可基于该物理时间添加语音标识信息，即添加语音标识信息“2020/1/1/20/15/00”。

除此之外，语音标识信息还可包括唯一ID标识，以区分不同的答复语音文件。

作为一种实施方式，可在执行步骤S12确定出答复语音文件满足预设核验条件后，执行步骤S31，对满足核验条件的答复语音文件添加语音标识信息。如此，有助于减少未通过核验的答复语音文件占用额外的处理资源，有利于提高核验效率。

在本申请中，答复视频文件也是基于世界时逐帧生成的视频信号，为了便于文件管理，在执行步骤S31后，执行步骤S32时基于通过核验的答复语音文件的物理起止时间戳，将答复语音文件与答复视频文件进行对齐。作为一种示例，将答复语音文件的物理起始时间戳同答复视频文件中的时间戳对齐，使得视频信号播放至该对齐的起始时间戳时，既有视频画面又有音频声音。同理，将答复语音文件的物理结束时间戳同答复视频文件中的时间戳对齐，可使得视频信号播放至该对齐的结束时间戳时，视频画面保留，音频声音消失。

作为一种实施方式，在执行步骤S31时，可以是将语音标识信息直接添加至答复语音文件中，也可以是记录答复语音起止时刻，将记录的答复语音起止时刻独立于答复语音文件进行存储。在执行步骤S32时，基于存储的语音标识信息中的起止时刻，将答复语音文件同答复视频文件对齐。最终，将答复语音文件同答复视频文件进行数据合成，生成一个完整的目标音视频文件，以便后续作为核验证据进行存储。

作为一种实施方式，在执行步骤S32时，从时间维度上，针对答复语音文件未占用的物理时间段，可通过添加空白音频的方式，以生成一个结构完整的目标音视频文件。作为一种示例，由于答复语音文件是响应于用户根据目标核验文件进行答复的动作得到的，因此，每一段答复语音文件都是较短的音频。在本示例中，通过记录答复语音文件的时间，便可知晓各段短语音是在第几秒录制的，假设共计三段短语音短语音A、短语音B以及短语音C，按照录制前后顺序，短语音A早于短语音B早于短语音C。通过在短语音A与短语音B之间添加空白音频a，在短语音B与短语音C之间添加空白音频b。若答复视频时长共计3min，将短语音A至短语音C按照起止时间戳同答复视频中的时间节点对齐，并通过调节空白音频a、空白音频b的时长，以生成一个时长跨度为3min的长音频，进而保障文件的完整性。

选用本申请实施例，通过对不同的答复语音文件添加物理起止时间戳等语音标识信息，然后借助该物理起止时间戳将答复语音文件同答复视频文件进行对齐，并进行音视频合成，如此可将多个零散的文件整合成一个完整的目标音视频文件，有助于提高后续核验溯源时操作便捷性，并有助于文件管理。

在一些实施例中，可如图4所示，步骤S11中的目标核验文件可通过如下步骤获得：

S41、获取预设接口传输协议的核验指令以及预设核验条件；

其中，该预设接口为目标链接的初始化数据传输接口。

S42、基于核验指令对音频和/或视频进行合成，以生成目标核验文件。

作为一种实施方式，在执行步骤S41时，预设接口传输协议是指预设API接口的各类协议，比如HTTP(Hypertext Transfer Protocol，超文本传输协议)协议、Websocket协议等等。预设接口为目标链接的初始化数据传输接口，比如说，目标链接为HTTP链接，则预设接口为HTTP的数据传输接口，或者目标链接为H5链接，则预设接口为H5的数据传输接口。

作为一种实施方式，可通过初始化接口，设置指定的接口用于传输核验指令。在执行步骤S41时通过该指定的接口传输核验指令以及预设的核验条件。其中，核验指令是指用于驱动语音处理模块的指令消息，示例性的，比如核验指令为：语音合成，则后端语音处理模块在接收到该核验指令后，会基于预设的核验条件进行自动语音合成。或者，在执行步骤S12时，若核验指令为：语音识别，则后端的语音处理模块在接收到该核验指令后，会对该答复语音文件进行语音识别，获取答复语音文件中包含的答复语音文字。

在执行步骤S12时，通过预设的语音处理模块对用户的答复语音文件进行数据转换，将音频信号转换为文字信号，以得到答复语音文字。如此，可便于直接根据答复语音文字是否满足预设的核验条件，来判断用户的答复是否准确。其中，作为一种实施方式，预设的核验条件可以是预设的关键词列表，在执行步骤S12时，基于答复语音文字同预设的关键词列表中的字、词进行匹配，确定出答复语音文字同预设的关键词列表中的字词之间的相似度，若相似度大于预设相似度阈值，则判定该答复语音文字满足预设的核验条件。

作为另一种实施方式，基于不同的核验文件，所对应的预设核验条件不同。预设的核验条件可以是预设的白名单词汇、语句。在执行步骤S12时，基于答复语音文字同预设核验条件中的各白名单之间的欧氏距离，判定欧式距离满足预设距离条件的答复语音文字满足预设核验条件。

作为另一种实施例方式，在执行步骤S42时，核验指令文字由用户触发用户交互界面上的核验款项生成。示例性的，假设用户点击交互界面显示的“核验个人信息”，基于该核验个人信息生成核验个人信息指令。在执行步骤S42时，基于语音处理模块基于核验个人信息指令中的文字“核验个人信息”，对音频、视频或者音视频进行合成，比如合成一个视频文件，视频文件中加载了该用户的个人信息，并合成音频“请核对页面上的个人信息是否准确”，如此便可得到一个目标核验文件，用于同该用户交互，促使该用户对自己的个人信息进行核验。

选用本申请实施例，可直接响应于用户的操作，生成核验指令信息，然后基于该核验指令信息直接快速合成音视频文件的目标核验文件。如此，无需后端通过繁琐的操作人工合成用于核验的音视频文件，提高了核验的便捷性，有效节约了人工成本。

在一些实施例中，可如图5所示，步骤S11中的目标链接可通过如下步骤生成：

S41、获取预设接口传输协议的核验指令以及预设核验条件。如前步骤S41所述，此处不再赘述。

S42、基于核验指令对音频和/或视频进行合成，以生成目标核验文件。如前步骤S42所述，此处不再赘述。

S43、按照预设网页传输协议，根据预设接口以及目标核验文件，生成目标链接。

其中，预设接口包括：预设网页即时通讯的API接口。

作为一种实施方式，在执行步骤S43时，将预设接口以及目标核验文件填充至预设网页传输协议的传输链接中，如此便可生成目标链接。具体的，作为一种示例，可将预设接口以及用于用户个人信息核验的个人信息核验文件的地址信息填充至H5的链接中，以生成一个权限的H5链接，当用户点击该H5链接，可自动获取个人信息核验文件。

选用本申请实施例，通过将通信接口以及目标核验文件填充至预设网页传输协议的传输地址中，可实现自动链接需要核验的目标核验文件，用户仅需点击该链接便可快速进行信息核验，有助于保障用户的使用体验。

在一些实施例中，上述步骤S42中所提及的音频和/或视频是按照预设存储路径存储的，可如图6a所示，在原本步骤S11至步骤S13的基础上，本申请所提供的智能双录核验方法还可包括如下步骤：

S14、若确定答复语音文件核验通过，按照预设存储路径加载新的音频和/或视频；

S15、基于加载得到的新的音频和/或视频，生成新的目标核验文件，并返回执行步骤S11。

由于需要用户进行核验的内容数量并不为1，所以为了提升核验效率，作为一种实施方式，在执行步骤S12后，判断一个答复语音文件满足预设的核验条件后，继续在该目标链接中加载新的目标核验文件。具体的，作为一种实施方式，按照预设的存储路径加载新的音频或者视频，或者执行步骤S41重新获取新的核验指令以及预设的核验条件，生成新的目标核验文件。然后通过执行步骤S15并返回执行步骤S11，可实现基于新的目标核验条件进行新一轮的信息核验，直至所有待核验的信息均已核验通过为止。

作为一种实施方式，在执行步骤S12判断就当前的目标核验文件的答复语音文件不满足预设的核验条件，可再返回执行步骤S11，获取用户针对新的目标核验文件的答复语音文件。

选用本申请实施例，通过设置答复语音文件核验通过后，加载新的音频和/或视频以得到新的目标核验文件，并返回获取用户针对该新的目标核验文件的答复语音文件。如此，可自动快速推进核验流程的进度，有助于提升智能双录核验的效率。

为了更为清楚说明本申请所提供的智能双录核验方法，可结合图6b所示的流程示意图进行理解，其中：

视频核验引导页面是内置于小程序、公众号上的页面，该页面通过H5网页链接生成。用户点击该视频核验引导页面后将自动进入视频核验流程。整个视频核验流程中，通过WebRTC(Web Real-Time Communications，网页实时通讯)对用户视频核验全过程进行视频录制。期间，通过活体检测技术对用户进行活体检测，判断是否为真实的用户。若为真实的用户，通过预设的接口获取所需核验的动态指令，借助语音处理模块对动态指令进行语音合成，生成合成后的音频并向用户播放。用户根据播放的音频核验播放音频中所需核验的内容是否准确，根据判断结果给出用户回答，然后借助语音处理模块将用户的回答进行语音识别，转换成答复语音文字，并判断答复语音文字是否满足预设的核验条件。若满足，则进行下一轮的核验，不断重复，直至各项需要用户核验的项目均核验完毕。整个过程中，不断进行视频截图，以取证，核验完毕后，将视频、音频、截图等核验证据保存为一个目标证据文件进行提交备份。

第二方面，本申请提供了一种智能双录核验装置，可如图7所示，本申请所提供的智能双录核验装置700可包括如下几个部分：

获取模块701，用于获取用户基于目标链接输入的答复语音文件，其中，目标链接中携带有目标核验文件，答复语音文件是基于用户根据目标核验文件进行答复得到的；

语音处理模块702，用于将答复语音文件转换为答复文字；

核验模块703，用于确定答复文字是否满足预设核验条件；若满足，确定答复语音文件核验通过。

结合第二方面，在第二种可能的实施例中，获取模块701，具体用于：

响应于用户点击目标链接，开启用户的终端设备的视频录制功能，对用户进行视频录制，以获取用户的答复视频文件；

响应于用户根据目标核验文件进行答复的动作，开启用户的终端设备的音频录制功能，对用户的答复进行录制，以获取用户基于目标链接输入的答复语音文件。

结合第二方面的第二种可能的实施例，在第三种可能的实施例中，装置700还包括：

标识处理模块704，用于针对不同的目标核验文件对应的答复语音文件，添加语音标识信息，其中，语音标识信息至少包括答复语音文件的物理起止时间戳；

音视频处理模块705，用于基于核验通过的答复语音文件的物理起止时间戳，将答复语音文件与答复视频文件进行对齐，以生成目标音视频文件。

结合第二方面，在第四种可能的实施例中，获取模块701还用于：

获取预设接口传输的核验指令以及预设核验条件，其中，预设接口为目标链接的初始化数据传输接口；

基于核验指令进行音频和/或视频进行合成，以生成目标核验文件。

结合第二方面的第四种可能的实施例，在第五种可能的实施例中，装置700还包括：

目标链接生成模块706，用于按照预设网页传输协议，根据预设接口以及目标核验文件，生成目标链接，其中，预设接口包括：预设网页即时通讯的API接口。

结合第二方面的第四种可能的实施例，在第六种可能的实施例中，音频和/或视频按照预设存储路径存储，获取模块701，还用于：

若确定答复语音文件核验通过，按照预设存储路径加载新的音频和/或视频；基于加载得到的新的音频和/或视频，生成新的目标核验文件；

返回执行获取用户基于目标链接输入的答复语音文件步骤。

本申请实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的，而并不是用于对这些消息或信息的范围进行限制。

本申请示例性实施例还提供一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器。所述存储器存储有能够被所述至少一个处理器执行的计算机程序，所述计算机程序在被所述至少一个处理器执行时用于使所述电子设备执行根据本申请实施例的方法。

本申请示例性实施例还提供一种存储有计算机程序的非瞬时计算机可读存储介质，其中，所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本申请实施例的方法。

本申请示例性实施例还提供一种计算机程序产品，包括计算机程序，其中，所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本申请实施例的方法。

参考图8，现将描述可以作为本申请的服务器或客户端的电子设备800的结构框图，其是可以应用于本申请的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图8所示，电子设备800包括计算单元801，其可以根据存储在只读存储器(ROM)802中的计算机程序或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序，来执行各种适当的动作和处理。在RAM 803中，还可存储设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

电子设备800中的多个部件连接至I/O接口805，包括：输入单元806、输出单元807、存储单元808以及通信单元809。输入单元806可以是能向电子设备800输入信息的任何类型的设备，输入单元806可以接收输入的数字或字符信息，以及产生与电子设备的用户设置和/或功能控制有关的键信号输入。输出单元807可以是能呈现信息的任何类型的设备，并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元804可以包括但不限于磁盘、光盘。通信单元809允许电子设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据，并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组，例如蓝牙TM设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。

计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理。例如，在一些实施例中，前述智能双录核验方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元808。在一些实施例中，计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到电子设备800上。在一些实施例中，计算单元801可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行前述智能双录核验方法。

用于实施本申请的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本申请的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

如本申请使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：度小满科技(北京)有限公司;

上一篇：一种氧化锆陶瓷材料及其制备方法、电子设备
下一篇：打印设备的控制装置、控制方法及打印设备