导航：首页> 工程元件或部件；为产生和保持机器或设备的有效运行的一般措施；一般绝热>一种人工智能内容生产实时风控方法及装置

一种人工智能内容生产实时风控方法及装置

文献发布时间：2024-04-18 19:59:31

技术领域

本申请属于视频处理技术领域，特别涉及一种人工智能内容生产实时风控方法及装置。

背景技术

生成式人工智能内容生成和数字人技术的发展普及，越来越多的人利用数字人技术克隆自己的形象、声音和大脑打造数字分身。数字分身第一次将人类从物理世界的束缚中解脱出来，可以在真人不用参与的情况下，利用生成式人工智能内容生产技术和数字分身，生成出和真人在物理世界的演播室录制无异的视频或直播。例如不用拍摄也不用剪辑，就可以快速的生产出带有主播参与的视频。随着技术的逐步成熟，数字人传播效果和真人无差异，并且视频观看用户基本无法识别其为真人还是数字分身。

数字人技术极大推动了主播视频和互联网IP视频的发展，也带来了极大的安全隐患。由于数字分身的存在，可以在真人完全不知情、不参与的情况下，利用其数字分身播报内容生成视频。这种情况可能造成巨大的危害。一旦数字分身会被恶意使用，生成非真人真实意思表达的视频，给真人本人造成损失，更严重时会对社会造成危害。

目前行业对数字人和数字分身在生成式人工智能视频生产过程中，多数工具或者平台都没有进行风控管理，极个别企业会利用关键词技术在视频合成之前对脚本文案进行过滤，提示使用者存在内容风险。关键词过滤技术在数字分身视频生成中，起到的作用非常有限，因为关键词很容易被绕过去，在很多领域，内容本身具有较强专业性，很难通过简单的文字识别来判断内容是否合法。

更关键的是，数字分身使用者和数字分身对应的真人主体，在当前的行业应用中大概率不是同一个人。以上市公司董事长或证券基金行业专家为例，其数字分身的使用者分别是市场部和新媒体部门的员工。这种情况下，数字分身生成出的内容是否是分身本人的真实意思就特别重要。比如，对热点事件的观点表述，本身是没有对错之分的，但是数字分身使用者和分身本人可能观点相左，视频结果大相径庭。

发明内容

为了解决上述技术问题至少之一，本申请提供了一种人工智能内容生产实时风控方法及装置，以对数字人视频进行合规性检查。

本申请的第一个方面，一种人工智能内容生产实时风控方法，主要包括：

步骤S1、接收需要用于合成数字分身视频的输入数据；

步骤S2、按照预设的风控要求，确定所述输入数据的安全合规性，如果所述输入数据安全合规，则解除施加在数字分身模型上的风控锁；

步骤S3、根据所述输入数据进行数字分身视频的合成，由所述数字分身模型对合成后位于缓存中的视频进行合规性审批；

步骤S4、对通过合规性审批的最终视频进行磁盘存储。

优选的是，步骤S1进一步包括，对所述输入数据进行数据质量检查及数据合法性检查。

优选的是，步骤S3进一步包括：对合成的位于缓存中的视频，按预审的视频标准进行清晰度、逼真度及内容检查。

优选的是，在步骤S1之前，进一步包括通过外部风控系统对所述输入数据进行前置审批。

优选的是，在步骤S4之后，进一步包括：

步骤S5、获取对合成后位于缓存中的视频进行合规性审批的敏感度，同时，获取所述输入数据与所述数字分身的匹配度，所述敏感度是指视频内容与合规审批数据库中敏感内容的相似度，所述匹配度是指所述输入数据与所述数字分身关键词的相似度；

步骤S6、基于所述合规相似度及匹配度确定审核值Ex：

Ex＝sen-sen*ma；

其中，sen为敏感度，ma为匹配度；

步骤S7、当所述审核值Ex超过设定值时，通过外部风控系统对所述视频进行后置审批。

本申请第二方面，一种人工智能内容生产实时风控装置，主要包括：

输入数据接收模块，用于接收需要用于合成数字分身视频的输入数据；

风控锁解锁模块，用于按照预设的风控要求，确定所述输入数据的安全合规性，如果所述输入数据安全合规，则解除施加在数字分身模型上的风控锁；

视频合成及审批模块，用于根据所述输入数据进行数字分身视频的合成，由所述数字分身模型对合成后位于缓存中的视频进行合规性审批；

视频输出模块，用于对通过合规性审批的最终视频进行磁盘存储。

优选的是，所述输入数据接收模块还包括质检单元，用于对所述输入数据进行数据质量检查及数据合法性检查。

优选的是，所述视频合成及审批模块还包括视频标准检查单元，用于对合成的位于缓存中的视频，按预审的视频标准进行清晰度、逼真度及内容检查。

优选的是，所述人工智能内容生产实时风控装置连接有外部风控系统，通过外部风控系统对所述输入数据进行前置审批。

优选的是，所述人工智能内容生产实时风控装置还包括：

敏感度及匹配度获取模块，用于获取对合成后位于缓存中的视频进行合规性审批的敏感度，同时，获取所述输入数据与所述数字分身的匹配度，所述敏感度是指视频内容与合规审批数据库中敏感内容的相似度，所述匹配度是指所述输入数据与所述数字分身关键词的相似度；

审核值计算模块，用于基于所述合规相似度及匹配度确定审核值Ex：

Ex＝sen-sen*ma；

其中，sen为敏感度，ma为匹配度；

后置审批接入模块，用于当所述审核值Ex超过设定值时，通过外部风控系统对所述视频进行后置审批。

本申请的第三方面，一种计算机系统，包括处理器、存储器以及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序用于实现如上的人工智能内容生产实时风控方法。

本申请的第四方面，一种可读存储介质，可读存储介质存储有计算机程序，计算机程序被处理器执行时用于实现上述的人工智能内容生产实时风控方法。

本申请能够对数字分身生成的视频内容进行实时风控管理，防止数字分身被恶意使用。

附图说明

图1是本申请人工智能内容生产实时风控方法的一实施方式的流程图。

图2适于用来实现本申请实施方式的终端或服务器的计算机设备的结构示意图。

具体实施方式

为使本申请实施的目的、技术方案和优点更加清楚，下面将结合本申请实施方式中的附图，对本申请实施方式中的技术方案进行更加详细的描述。在附图中，自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。所描述的实施方式是本申请一部分实施方式，而不是全部的实施方式。下面通过参考附图描述的实施方式是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。基于本申请中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本申请保护的范围。下面结合附图对本申请的实施方式进行详细说明。

根据本申请第一方面，提供了一种人工智能内容生产实时风控方法，如图1所示，主要包括：

步骤S1、接收需要用于合成数字分身视频的输入数据。

在该步骤中，输入数据可以是文本数据，也可以音频数据，对于文本数据，数字人模型可以对其进行语音生成，对于音频数据，也可以将其转换为文本数据。当需要合成数字分身视频之时，作为输入数据的音频会驱动数字分身完成与音频匹配的唇形、表情和动作等合成，实现和真人拍摄一样的结果视频。

在一些可选实施方式中，步骤S1进一步包括，对所述输入数据进行数据质量检查及数据合法性检查。

在该实施例中，质量检查部分会确认其是否符合数字分身生成式内容系统要求的标准和规范。例如，音频的格式、分辨率、声音质量等都会被检查。如果音频数据不符合标准，系统将拒绝接收。然后检查数据的内容和来源是否合法，以及检查是否存在潜在的风险因素，如恶意注入。如果输入数据未通过检查，系统可能会拒绝继续处理，并采取适当的安全措施。对数据输入做有效性检查的同时防止模型层的恶意注入，系统能够检查输入数据的合法性，防止恶意数据的注入和潜在风险。

步骤S2、按照预设的风控要求，确定所述输入数据的安全合规性，如果所述输入数据安全合规，则解除施加在数字分身模型上的风控锁。

待输入数据通过了质量检查及数据合法性检查之后，系统将进入解锁判定阶段。风控锁是用于限制数字分身模型合成操作的安全控制措施。如果风控锁未被解除，数字分身模型将保持被锁定状态，无法进行视频合成工作。

在步骤S2中，按照预设的风控要求，判断输入数据的安全合规性，判断是否违法信息，是否虚假信息等不同层面的风控要求。如果通过了风控判定，则解除风控锁，系统会准备开始合成数字分身视频。

需要说明的是，这里的风控要求通常是指文本中不应当出现某些词语，即通过关键词识别技术对文本中出现的某型词语进行识别及过滤，例如构建好敏感词词库后，开始实现自动审核，即判断输入数据的安全合规性，一般包括以下步骤：

(1)文本分词：将待审核的文本按照单词或短语进行切分；

(2)关键词匹配：将文本中出现的单词或短语与敏感词词库中的敏感词进行匹配，如果匹配成功，则将该文本标记为“敏感信息”。

关键词匹配技术主要是指计算相似度，包括如下步骤：

(21)确定待比较的两个句子的各个关键词，并转换为特征向量；

(22)选中其中一个句子的关键词，遍历另一个句子中的未选中的关键词进行配对，直至其中一个句子中的所有关键词均被配对；

(23)对每次配对后的两个句子，计算其内的配对后的各关键词的余弦值，并通过计算平均值的方式作为两个句子该次配对的相似度；

(24)对所有实现配对的两个句子，选取相似度最大值作为两个句子的相似度。

举例来说，句子1由三个关键词组成，对应的特征向量为a1，a2，a3，句子2由三个关键词组成，对应的特征向量为b1，b2，b3。

在第一次配对情况下，计算的相似度1为：v1＝(cos(a1,b1)+cos(a2,b2)+cos(a3,b3))/3；在第二次配对情况下，计算的相似度1为：v2＝(cos(a1,b2)+cos(a2,b1)+cos(a3,b3))/3；在第三次配对情况下，计算的相似度3为：v3＝(cos(a1,b2)+cos(a2,b3)+cos(a3,b1))/3。……。按照上述组合方式，一共可以计算出6个相似度，选取其中的最大值作为两个句子的相似度。

之后，当相似度超过审核设定值时，认为句子存在敏感信息，保持风控锁锁定状态，并将情况反馈给上层用户，对其进行修改。

步骤S3、根据所述输入数据进行数字分身视频的合成，由所述数字分身模型对合成后位于缓存中的视频进行合规性审批。

本申请的关键技术在于数字分身视频合成过程中的实时风控技术，让内置风控管理单元和数字分身模型融为完整一个有机整体。这种构造就像是现实世界的真人一样，真人在拍摄演绎的过程中会同步判断风险，以做出下一步行动。

需要说明的是，通过外置的关键词匹配技术等进行风控管理简称前置审核，前置审核风控方法具有原理简单、易理解，实现成本低的优点。由于生成式人工智能一般需要较长时间、消耗一定的算力成本才能得到最终生成结果。这种管理前置审核方法，用于生成式人工智能内容生产风控，不仅可以做到快速反馈修改提高效率，还能减少因为结果内容无效导致的电力算力浪费，节约社会成本。但是这种风控方法存在较大的缺陷。首先是前置输入系统的风控，在实践中容易被绕过去，不管是前置系统漏洞，还是测试环境、内部管理豁免等都可能导致前置风控失效，例如通过逗号等方式隔离敏感词。其次在生成式人工智能内容生产过程中很多内容都是人工智能自己重新产生的，最终结果可能与预期有较大的差异，只限于前置输入数据的风控，有较大的风险隐患。

为此，本申请在数字分身模型将输入数据处理之后，形成的视频文件中的文字做进一步处理，以保证输出的视频的风控管理。在步骤S3中，一旦数字分身模型被解锁，它开始接受输入数据，并根据音频内容生成唇形、表情和动作等，合成数字分身视频。合成完成后，还为存储到磁盘之前，对视频内容进行合规性审批，合规性审批与步骤S2的判断输入数据的安全合规性的原理是一致的，同样是通过关键词技术对虚假信息、违法内容或其他安全风险进行检查，如果存在问题，系统可能会终止合成并采取相应的安全措施。该过程全部在缓存中执行，不会做磁盘永久性存储，避免了内容被导出或者转存的风险。

在一些可选实施方式中，步骤S3进一步包括：对合成的位于缓存中的视频，按预审的视频标准进行清晰度、逼真度及内容检查。

步骤S4、对通过合规性审批的最终视频进行磁盘存储。

一旦合成的数字分身视频通过了审批，系统将生成的视频内容输出，做磁盘永久性存储。此后，输出的视频可以在适当的应用场景中使用，例如在社交媒体上发布或实时直播。如果没有通过审批，那么系统将拒绝输出并可能触发警报或通知相关人员进行处理。

上述步骤构成了运行时安全风控系统的工作流程，它们旨在确保数字分身视频的合成在安全、合法和符合真实意图的条件下进行。这种综合的风控管理方法可以帮助防止不良行为和潜在的风险。

本申请步骤S2及步骤S3涉及的风控管理模型与数字分身模型融为一体，确保了在不同应用场景中都能保持风控的一致性和有效性。不管数字分身如何升级、迁移，内置风控管理单元作为可信数字分身组件的一部分，都会被同时升级、迁移。在数字分身大规模使用的情况下，为加快速度将其硬件化为专用集成芯片时，内置风控将会被同步固化为专用集成芯片的一部分。风控锁限制了数字分身模型的操作，只有在通过风控判定后才能解锁，从而提高了系统的安全性。这样构筑的安全性，完全无法在权限管理或者系统操作层面被绕过，不管在研发还是测试阶段，不管是管理员还是普通用户，甚至系统攻击黑客都会被限制。

在一些可选实施方式中，在步骤S1之前，进一步包括通过外部风控系统对所述输入数据进行前置审批。

为了更好地达到在系统性能、安全性和风控召回率之间做均衡，可以实现将前置风控加入到本申请中，前置风控对接企业或者政府的外部风控系统，能够更灵活的按照企业需求定制风控规则，也能够配置最新的风控要素，提升风控召回率。前置风控主要包括两方面：

(1)内容关键词审核模块：对数字分身生成的文本、音频数据进行关键词审核，判断这些合成前的素材是否具有违法内容。

(2)语义分析模块：对内容的语义进行分析，判断这些将构成视频核心的脚本内容是否包含敏感信息。

除了可以加入前置风控之外，还可以按需配置后置审批，后置审批用于承接复杂的外部审批审计机制，能够匹配高级权限管理控制系统。后置审批包括以下方面：

(1)生产的内容通过短信和微信小程序通知信息的方式，通知到生产授权审批者或系统定义的数字分身对应的真人，

(2)授权审批人或者数字分身对应的真人在核对最终的结果音频、视频等内容；

(3)如果确认是真实意思的表达，审批同意后，风控系统将允许导出视频。如果不认可结果视频，则可以给出审批意见后否决生成内容，风控系统将销毁已生产的内容。生产者可以根据审批意见重新开始生产流程。

可以理解的是，后置审批系统则是对最终的结果进行内容审批，存在正确性高，无内容效果偏差的风险。但是后者审批系统存在效率低、成本高的特点，因为一旦内容生产完成，时间和资源都已经消耗。此外，这种审批方式也存在测试环境、数字分身权限管理混乱，还没有到达结果审核就出现结果内容泄露，或者结果审核不通过但依然被录屏等管理不善导致错误结果内容外流。这种情况，在生产者和数字分身真人不是同一个人的情况下，最容易出现风险。为此，本申请提供了按需配置后置审批机制，例如在一些可选实施方式中，在步骤S4之后，进一步包括：

步骤S6、基于所述合规相似度及匹配度确定审核值Ex：

Ex＝sen-sen*ma；

其中，sen为敏感度，ma为匹配度；

步骤S7、当所述审核值Ex超过设定值时，通过外部风控系统对所述视频进行后置审批。

步骤S5中计算敏感度与步骤S2及步骤S3所描述的计算相似度的方式相似。不同点在于，步骤S2及步骤S3中给出的审核设定值要高于步骤S7给定的设定值。步骤S2给出的审核设定值是根据敏感等级而定，用于确定文本或视频是否终止流通。在计算的敏感度小于审核设定值时，文本或视频内容可以流通，但此时需要进一步判断其与步骤S7中的设定值的大小，以确定其是否要执行后置审核，在该判据中，引入了输入数据与所述数字分身的匹配度，这个通常关联数字分身模型，任何一个数字分身模型都是特定IP打造的，其关联由指定的关键词，一个待处理的输入数据是否与这些关键词匹配，是决定的输入数据与数字分身模型匹配的关键点，同样基于关键词匹配技术可以计算出该匹配度ma，然后通过步骤S6计算审核值Ex，根据步骤S6的公式，可以看出如果一个输入数据敏感度较高，而与数字分身模型的匹配度较低时，其更容易超过步骤S7的设定值，也就更需要加入后置审批制度，以确保输入数据是真人真实意思的表达。

本申请够解决当前数字分身技术应用中的安全和合规性问题。通过巧妙地整合前置、后置和运行时风控方法，确保了数字分身内容的真实性和合规性。

本申请第二方面提供了一种与上述方法的对应的人工智能内容生产实时风控装置，主要包括：

输入数据接收模块，用于接收需要用于合成数字分身视频的输入数据；

风控锁解锁模块，用于按照预设的风控要求，确定所述输入数据的安全合规性，如果所述输入数据安全合规，则解除施加在数字分身模型上的风控锁；

视频合成及审批模块，用于根据所述输入数据进行数字分身视频的合成，由所述数字分身模型对合成后位于缓存中的视频进行合规性审批；

视频输出模块，用于对通过合规性审批的最终视频进行磁盘存储。

在一些可选实施方式中，所述输入数据接收模块还包括质检单元，用于对所述输入数据进行数据质量检查及数据合法性检查。

在一些可选实施方式中，所述视频合成及审批模块还包括视频标准检查单元，用于对合成的位于缓存中的视频，按预审的视频标准进行清晰度、逼真度及内容检查。

在一些可选实施方式中，所述人工智能内容生产实时风控装置连接有外部风控系统，通过外部风控系统对所述输入数据进行前置审批。

在一些可选实施方式中，所述人工智能内容生产实时风控装置还包括：

审核值计算模块，用于基于所述合规相似度及匹配度确定审核值Ex：

Ex＝sen-sen*ma；

其中，sen为敏感度，ma为匹配度；

后置审批接入模块，用于当所述审核值Ex超过设定值时，通过外部风控系统对所述视频进行后置审批。

根据本申请第三方面，一种计算机系统，包括处理器、存储器以及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序用于实现如上的人工智能内容生产实时风控方法。

根据本申请第四方面，一种可读存储介质，可读存储介质存储有计算机程序，计算机程序被处理器执行时用于实现上述的人工智能内容生产实时风控方法。

下面参考图2其示出了适于用来实现本申请实施方式的计算机设备800的结构示意图。图2出的计算机设备仅仅是一个示例，不应对本申请实施方式的功能和使用范围带来任何限制。

如图2示，计算机设备800包括中央处理单元(CPU)801，其可以根据存储在只读存储器(ROM)802中的程序或者从存储部分708加载到随机访问存储器(RAM)803中的程序而执行各种适当的动作和处理。在RAM803中，还存储有设备800操作所需的各种程序和数据。CPU801、ROM802以及RAM803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

以下部件连接至I/O接口805：包括键盘、鼠标等的输入部分806；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分807；包括硬盘等的存储部分808；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器810上，以便于从其上读出的计算机程序根据需要被安装入存储部分808。

特别地，根据本申请的实施方式，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本申请的实施方式包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施方式中，该计算机程序可以通过通信部分809从网络上被下载和安装，和/或从可拆卸介质811被安装。在该计算机程序被中央处理单元(CPU)801执行时，执行本申请的方法中限定的上述功能。需要说明的是，本申请的计算机存储介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本申请各种实施方式的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施方式中所涉及到的模块或单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块或单元也可以设置在处理器中，这些模块或单元的名称在某种情况下并不构成对该模块或单元本身的限定。

本申请第四方面提供的计算机可读存储介质可以是上述实施方式中描述的装置中所包含的；也可以是单独存在，而未装配入该装置中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被该装置执行时按上述方法对数据进行处理。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：北京风平智能科技有限公司;