导航：首页> 计算；推算；计数>一种直播间违规检测方法及装置

一种直播间违规检测方法及装置

文献发布时间：2023-06-19 11:27:38

技术领域

本申请涉及通信技术领域，尤其涉及一种直播间违规检测方法及装置。

背景技术

目前，随着直播平台的火热，通过直播卖货成为了当下热门的销售模式。

通常，主播会在直播时介绍商品的基本信息、功能特点、优惠方案等。然而，为了吸引顾客，主播可能会进行夸大宣传、违规促销等违规行为，更有甚者，还会进行诈骗或销售假冒伪劣产品等违法行为。

上述违规违法行为既侵害了消费者权益，又扰乱了市场秩序，必须及时进行处理。然而由于直播过于火热，往往存在大量直播间，且任何时间都可以进行直播。因此，仅靠人工方式监管，很难满足当前的监管要求。

发明内容

有鉴于此，本申请提供一种直播间违规检测方法及装置，通过判断主播的违规行为对所述直播间进行违规检测。

具体地，本申请是通过如下技术方案实现的：

第一方面，本申请提出一种直播间违规检测方法，该方法包括：

获取目标直播间的直播数据流；所述直播数据流包括视频流，以及与所述视频流对应的音频流；

对所述视频流进行分段处理，得到若干视频片段；

从所述视频片段中提取特征，并确定提取到的特征是否与所述目标直播间对应的主播特征匹配；

如果是，则将所述视频片段对应的音频片段转换成文本信息，并基于所述文本信息针对所述目标直播间进行违规检测。

第二方面，本申请还提出一种直播间违规检测装置，该装置包括：

获取单元，用于获取目标直播间的直播数据流；所述直播数据流包括视频流，以及与所述视频流对应的音频流；

切分单元，用于对所述视频流进行分段处理，得到若干视频片段；

匹配单元，用于从所述视频片段中提取特征，并确定提取到的特征是否与所述目标直播间对应的主播特征匹配；

检测单元，用于在所述提取到的特征与所述目标直播间对应的主播特征匹配时，将所述视频片段对应的音频片段转换成文本信息，并基于所述文本信息针对所述目标直播间进行违规检测。

分析以上技术方案可知，通过提取目标直播间视频流中的特征，并与目标直播间对应的主播特征匹配，从而确定出包含主播特征的视频片段；进一步的，将该视频片段对应的音频片段转换成文本信息，并基于文本信息对目标直播间进行违规检测。主播作为直播间的责任人，需要对直播内容负责，本申请通过确定直播数据流中包含主播特征的视频片段，使违规检测更具有针对性；进一步的，由于直播带货的特点在于主播进行推销，音频片段包含的信息量远多于视频片段，本申请基于上述确定出的视频片段对应的音频片段进行违规检测，通过将主播在直播带货时说的话转换成文本信息进行违规检测，提高违规检测的准确度。

附图说明

图1是本申请一示例性实施例示出的一种直播间违规检测方法的流程图；

图2是本申请一示例性实施例示出的另一种直播间违规检测方法的流程图；

图3为本申请一示例性实施例示出的一种直播间违规检测装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

在直播间进行违规检测时，可以针对不同的直播内容，采取不同的检测策略。

例如，对于生活类或户外类的直播间，可以针对直播数据流中视频流的视频画面进行检测，确定直播画面中是否出现违规内容。

又如，对于情感类或聊天类的直播间，可以针对直播数据流中的音频流进行识别，将音频流转换成文本内容进行检测，确定主播是否在直播时说了违规内容。

直播带货作为融合了以上两种类型直播间特点的新的直播类型，主播在进行商品展示的同时，会对商品进行宣传，介绍商品的功能特点、优惠力度等，并通过弹幕与直播间的观众互动，回答观众的问题。另外，主播还可能会邀请嘉宾做宣传或请助手帮忙展示商品。

当主播在宣传时，主要是通过说话向直播间的观众介绍，重要的信息都包含在音频流中。如果对视频画面进行审核，由于视频流中主要是人物之间的对话画面以及商品的展示画面，基于视频画面不容易检测出违规内容。而如果将音频流转成文本内容进行审核，除重点关注的主播对商品宣传的内容外，音频流中还会有很多无用的对话、背景杂音等与违规判断无关的内容，对这些无关内容进行的检测会导致检测效率降低。

可见，针对直播带货这种新的直播形式，沿用现有的检测策略无法满足监管要求。而采用人工巡逻的方式，虽然可以提高检测时的准确度，但人工方式效率很低，无法满足海量的直播间监管需求。

有鉴于此，本申请提供一种通过有针对性的将包含主播特征的视频片段对应的音频片段转换成文本信息，并基于该文本信息对直播间进行违规检测的技术方案。

在实现时，当对目标直播间进行违规检测时，可以获取该目标直播间的直播数据流；该直播数据流可以包括视频流，以及与该视频流对应的音频流。

当获取到该目标直播间的直播数据流之后，可以对上述视频流进行分段处理，得到若干视频片段；

例如，可以通过语音分段技术将上述音频流分段，保留具有语音的音频片段，根据上述保留的音频片段对应的时间戳范围，对上述视频流进行切分，得到若干视频片段。

可以从上述视频片段中提取特征，并确定提取到的特征是否与上述目标直播间对应的主播特征匹配；

例如，从上述视频片段中提取到的特征，可以是人脸特征，通过人脸识别技术来识别从上述视频片段中提取到的人脸特征，是否匹配上述目标直播间对应的主播的人脸特征。

如果从上述视频片段中提取的特征，与上述目标直播间对应的主播特征匹配，表明上述视频片段中出现了主播的画面，此时可以进一步将该视频片段对应的音频片段转换成文本信息，并基于该文本信息针对上述目标直播间进行违规检测；

例如，当上述视频片段中提取的特征，与上述目标直播间对应的主播特征匹配时，可以根据语音识别技术将该视频片段对应的音频片段转换成文本信息；对该文本信息进行分词处理得到若干关键词，将上述关键词与预设的违规关键词库中的违规关键词进行匹配，并根据匹配的结果确定上述目标直播间是否违规。

在以上技术方案中，通过提取目标直播间视频流中的特征，并与目标直播间对应的主播特征匹配，可以确定出包含主播特征的视频片段；进一步的，可以将该视频片段对应的音频片段转换成文本信息，并基于文本信息对目标直播间进行违规检测。主播作为直播间的责任人，需要对直播内容负责，本申请通过确定直播数据流中包含主播特征的视频片段，使违规检测更具有针对性；进一步的，由于直播带货的特点在于主播进行推销，音频片段包含的信息量远多于视频片段，本申请基于上述确定出的视频片段对应的音频片段进行违规检测，通过将主播在直播带货时说的话转换成文本信息进行违规检测，提高违规检测的准确度。

接下来对本申请实施例进行详细说明。

请参见图1，图1是本申请一示例性实施例示出的一种直播间违规检测方法的流程图，所述方法包括如下所示步骤：

步骤101：获取目标直播间的直播数据流；所述直播数据流包括视频流，以及与所述视频流对应的音频流；

步骤102：对所述视频流进行分段处理，得到若干视频片段；

步骤103：从所述视频片段中提取特征，并确定提取到的特征是否与所述目标直播间对应的主播特征匹配；

步骤104：如果是，则将所述视频片段对应的音频片段转换成文本信息，并基于所述文本信息针对所述目标直播间进行违规检测。

在本实施例中，在对目标直播间进行违规检测时，可以先通过直播平台获取目标直播间的直播数据流，再从直播数据流中解析出视频流，以及与该视频流相对应的音频流。

其中，视频流与音频流两者相对应，具有相同的时间轴，能够达到视频中的画面与音频中的声音同步。

另外，在获取直播间的直播数据流时，可以实时获取直播间的直播数据流，实现对该直播间的不间断检测；也可以对直播间进行随机抽查，获取直播间在特定时段的直播数据流，对该直播间进行抽样的违规检测；还可以基于预设的间隔时长周期性地获取直播间的直播数据流，实现对该直播间的定期检测。在本说明书中不对直播数据流的获取方式进行具体限定，在实际应用中，本领域技术人员可以根据直播平台对不同的直播间的检测要求，选取不同的直播数据流获取方式。

例如，对于违规可能性较高的直播间或经常发生违规行为的直播间，为满足严格的检测要求，可以通过提高对直播数据流的获取频率，实现更严格的检测；而对于违规可能性较低或较少发生违规行为的直播间，如果频繁的获取直播数据流并进行检测，会做很多无用功，此时可以采用宽松的检测要求，通过抽样检测即可满足检测要求。

在实际应用中，由于主播的违规行为往往不具有持续性，通常只发生在直播过程中的某一特定时段；因此，在直播间的直播数据流中，往往可能存在大量的对于违规检测没有任何帮助的无效的视频或音频片段。在这种情况下，如果对直播数据流中的视频流和音频流进行逐帧的违规检测，显然会降低违规检测的检测效率。

例如，在直播过程中，如果在某一个时段内，主播并没有说话，而是在翻看直播间的弹幕，则该时段对应的音频片段中并没有人声，只有背景噪声，对于违规检测没有任何作用；因此，如果对直播数据流中的音频流进行逐帧的违规检测，显然会因为需要处理大量对违规检测没有任何作用的音频帧而影响违规检测的检测效率。

在本实施例中，为了提升违规检测的检测效率，在基于直播间的直播数据流对该直播间进行违规检测之前，可以对获取到的直播数据流中的视频流和音频流进行分段处理，然后针对分段处理后得到的视频片段和音频片段进行违规检测处理。

其中，需要说明的是，对获取到的直播数据流中的视频流和音频流进行分段处理的具体分段方式，在本说明书中不进行特别限定。

由于直播带货的特点主要是主播在对商品进行全方位展示的同时，还可以实时的与观众互动，回答观众的问题，所以在违规检测时，直播数据流中的包含主播话音信号的音频部分是重要的检测对象。

因此，在示出的一种实施方式中，可以基于直播数据流中的包含主播话音信号的有效音频片段，对直播数据流中的视频流进行分段处理。

在实现时，可以利用VAD（Voice Activity Detection，话音激活检测）技术，通过检测直播数据流中的音频流对应的音频信号中的语音出现和语音消失的语音边界，将音频流中由主播发出的话音信号与各种背景噪声信号区分出来。

当区分出音频流中由主播发出的话音信号与各种背景噪声信号之后，可以将音频流中包含由主播发出的话音信号的音频片段确定为有效音频片段，再基于确定出的有效音频片段对应的时间戳范围，对音频流和视频流分别进行切分，得到若干包含主播发出的话音信号的有效音频片段，以及与这些有效音频片段相对应的视频片段。

其中，需要说明的是，对直播数据流中的音频流进行VAD话音激活检测的具体过程，在本说明书中不再进行详述，本领域技术人员可以参考相关技术中的记载。

另外，还可以利用人脸检测技术，通过检测直播数据流中的视频流对应的视频帧中是否有人脸出现，将视频流切分成有人脸出现的部分和没有人脸出现的部分。

当区分出视频流中包含有人脸出现的部分，可以基于人脸出现时对应的时间戳范围，对音频流和视频流分别进行切分，得到包含有人脸出现的视频片段，以及与这些视频片段相对应的音频片段。

在上述对视频流进行分段处理之后，可以剔除直播数据流中与违规检测没有任何作用的视频片段，保留若干待检测的视频片段。

其中，需要说明的是，直播画面中除了主播，通常还会出现嘉宾或主播的助手；因此，分段处理后得到的若干视频片段的画面中，可能出现主播，也可能出现嘉宾或助手。

而主播作为直播间的责任人，需要遵守直播平台的规则，对直播的内容负责，同时对直播间参与者的言行进行约束；因此，在对直播间进行违规检测时，为进一步提高违规检测的检测效率，可以重点关注有主播出现的视频片段，将主播作为主要的检测对象。

在本实施例中，为进一步确定包含主播信息的视频片段，在对视频流进行分段处理，得到若干视频片段之后，可以从各视频片段中提取特征，并确定提取到的特征是否与目标直播间对应的主播特征匹配，从而将包含主播特征的视频片段确定为有主播出现的视频片段。

其中，目标直播间对应的主播特征可以是主播在申请直播间时，由直播平台录入的主播特征，该特征可以统一存储在主播特征库中。

具体的，可以预先基于若干被标注了主播的特征数据样本，对机器学习模型进行训练，并将训练完成的机器学习模型作为用于对视频片段中提取的特征进行主播特征匹配的模型。

对于视频片段中提取的特征，可以将该特征输入至上述主播特征匹配模型，从而获得特征匹配的结果。

在示出的一种实施方式中，上述特征可以包括人脸特征。

进一步的，可以从所述视频片段中提取视频帧，并从所述视频帧中提取人脸特征；确定提取到的所述人脸特征是否与所述目标直播间对应的主播人脸特征匹配。

具体的，上述的主播特征匹配模型可以是主播人脸特征匹配模型，可以预先基于若干被标注了主播的人脸特征样本数据，对机器学习模型进行训练，并将训练完成的机器学习模型作为用于对视频帧中提取的人脸特征进行主播人脸特征匹配的模型。

对于视频帧中提取的人脸特征，可以将该人脸特征输入至上述主播人脸特征匹配模型，从而获取视频帧中提取的人脸特征匹配的结果。

例如，当视频片段中出现多个人时，对该视频片段提取视频帧，并从视频帧中提取人脸特征；再将提取到的多个人脸特征与目标直播间对应的主播人脸特征匹配，确定从视频帧中提取的多个人脸特征中是否有主播的人脸特征。

在对多个视频片段进行特征匹配，确定包含主播特征的视频片段时，为提高违规检测时发现违规行为的效率，可以确定多个视频片段中存在违规行为的可能性更大的视频片段，并进行优先特征匹配。

例如，对于观众来说，在观看直播时，很容易被主播的情绪带动，被主播诱导进行冲动消费。例如，主播在推销商品时，经常会采用限时优惠的形式，在倒计时快要结束时，往往会激动的描述商品优惠的力度，强调商品的功能，给消费者造成不买就亏大了的感觉。

在上述过程中，主播为了售卖更多的商品，可能会产生夸大宣传、违反广告法等行为。因此，当主播出现大幅情绪波动时，很可能伴随着违规行为，这就需要在进行违规检测时优先关注主播的情绪是否出现大幅波动，进而提高直播间违规检测的准确度。

因此，在示出的一种实施方式中，可以基于所述有效音频片段进行语调情绪识别；当识别出的情绪命中预设的情绪时，可以优先对所述有效音频片段对应的视频片段进行特征匹配。

其中，预设的情绪可以包括兴奋、愤怒、悲伤等情感强烈的情绪。

具体的，可以预先基于若干被标注了不同情绪的声音特征数据样本，对机器学习模型进行训练，并将训练完成的机器学习模型作为用于对有效音频片段进行语调情绪识别的模型。

对于有效音频片段，可以先提取该有效音频片段中的声音特征，再将该声音特征输入至上述语调情绪识别模型，从而获得语调情绪识别的结果。

后续，如果识别出的情绪命中预设的情绪时，优先对符合条件的有效音频片段对应的视频片段进行特征匹配。

例如，假设有以下两个视频片段，第一个是主播在平静地介绍商品，第二个是主播激动的大声催促观众赶紧下单购买。那么对这两个视频片段对应的有效音频片段进行语调情绪识别时，可以确定第二个片段识别出的情绪命中了预设的情绪，需要优先对第二个视频片段进行特征匹配。

另外，也可以在确定出包含主播特征的视频片段之后，根据各视频片段对应的音频片段进行语调情绪识别；当识别出的情绪命中预设的情绪时，可以优先对该视频片段进行后续的处理。

在上述根据视频片段中的特征与目标直播间对应的主播特征匹配之后，可以确定出主播对应的视频片段。进一步的，需要对该视频片段进行违规检测，确定该视频片段中是否出现了违规行为。

对于直播带货场景来说，由于主播主要是通过言语进行商品的宣传，如果仅根据视频中的画面进行检测，会错过很多重要信息。因此，对于直播带货的违规检测，关注的重点在于视频对应的音频信息，针对主播说的话进行违规检测。

在本实施例中，如果上述从视频片段中提取的特征与目标直播间对应的主播特征匹配，则将所述视频片段对应的音频片段转换成文本信息，并基于所述文本信息针对所述目标直播间进行违规检测。

具体的，可以利用ASR（Automatic Speech Recognition，语音识别技术）将视频片段对应的音频片段输入至预设的语音识别模型，获得该音频片段对应的文本信息作为输出的结果。

进一步的，可以对获得的文本信息进行文本内容识别，检测主播说过的话里有没有出现违规内容，从而确定该目标直播间是否发生了违规行为。

例如，假设将主播的音频片段输入至预设的语音识别模型，进行文本信息转换，得到文本信息为“高仿手提包，绝对以假乱真，用低价享受奢华……”之后；基于该文本信息进行内容识别，识别出主播在售卖高仿产品，从而可以确定该直播间发生了违规行为。

在进行主播人脸特征匹配之后，如果视频片段中提取的特征与目标直播间对应的主播特征匹配，说明主播出现在该视频片段中，则进一步将视频片段对应的音频片段转换成文本信息，并基于所述文本信息针对所述目标直播间进行违规检测；而如果不匹配，说明主播没有出现在该视频片段中。

然而，当主播没有出现在视频片段中时，仍有可能在对商品进行介绍，有可能存在违规行为。因此，当直播间的违规检测需要采用更严格的检测策略时，为扩大检测的范围，可以对未出现主播的视频片段进行进一步检测。

在示出的一种实施方式中，如果提取到的特征与所述目标直播间对应的主播特征不匹配，则进一步从所述视频片段对应的有效音频片段中提取声纹特征；确定提取到的所述声纹特征是否与所述目标直播间对应的主播声纹特征匹配；如果是，则将所述视频片段对应的有效音频片段转换成文本信息，并基于所述文本信息针对所述目标直播间进行直播违规检测。

具体的，当视频片段中提取的特征与目标直播间对应的主播特征不匹配时，可以进一步从视频片段对应的有效音频片段中提取声纹特征。

其中，可以预先基于若干被标注了主播的声纹特征数据样本，对机器学习模型进行训练，并将训练完成的机器学习模型作为用于对提取的声纹进行主播声纹特征匹配的模型。

对于有效音频片段中提取的声纹特征，可以将该声纹特征输入至上述主播声纹特征匹配模型，从而获得声纹特征匹配的结果。

如果提取到的声纹特征与目标直播间对应的主播声纹特征匹配，则确定该视频片段中虽然没有出现主播，但主播在说话。为满足更严格的检测策略，需要将该视频片段对应的有效音频片段转换成文本信息，并基于文本信息针对目标直播间进行直播违规检测。

例如，在对某一视频片段提取视频帧，并从视频帧中提取人脸特征之后，如果提取到的人脸特征与目标直播间对应的主播人脸特征不匹配，则说明该视频片段中未出现主播。

进一步的，为满足更严格的检测策略，可以对该视频片段提取声纹特征，将该声纹特征输入预设的主播声纹特征匹配模型，确定该视频片段中出现的声音是否为主播的声音。

如果该视频片段中出现的声音是主播的声音，说明虽然这段视频画面中没有出现主播，但是主播在说话。显然，需要将该视频片段对应的有效音频片段转换成文本信息，并基于该文本信息针对目标直播间进行直播违规检测。

在上述对包含主播特征的视频片段进行违规检测时，需要将该视频片段对应的有效音频片段转换成文本信息，并基于该文本信息针对目标直播间进行直播违规检测。

而当主播在进行商品宣传时，为抓住观众的注意力，主播可能会一直在说话，也可能说一大堆内容干扰观众对于商品的判断，让观众未经深思熟虑之下仓促下单。此时，上述过程的音频片段转换后的文本信息过长，信息过于杂乱，使得针对文本信息的违规检测效率降低。

在示出的一种实施方式中，对所述文本信息进行分词处理得到若干关键词；将所述若干关键词，分别与预设的违规关键词库中的违规关键词进行匹配；其中，所述违规关键词被分别标注了对应的违规类型。如果所述若干关键词与所述违规关键词库中的任一违规关键词匹配时，将所述违规关键词对应的违规类型，确定为所述目标直播间的违规类型。

具体的，可以将文本信息按照预设的分词规则，对连续的文本信息进行分词处理，得到若干关键词；其中，预设的分词规则可以是本领域技术人员根据需要设置的词典。

例如，假设文本信息是“XX奶粉是采用世界领先的最新技术生产的，是这个价格能买到的顶级奶粉”，基于预设的分词规则，可以得到以下若干关键词：XX奶粉、世界领先、最新技术、顶级。

再将这些关键词分别与预设的违规关键词库中的违规关键词进行匹配；其中，违规关键词库可以由多种违规类型的关键词构成，所述违规关键词被分别标注了对应的违规类型。

如果文本信息中得到的若干关键词分别与违规关键词库中的违规关键词匹配时，将匹配的关键词所对应的违规类型，确定为目标直播间的违规类型。

继续上述举例，将文本信息中获得的关键词“XX奶粉、世界领先、最新技术、顶级”分别与预设的违规关键词库中的违规关键词进行匹配。其中，预设的关键词库中，“世界领先、最新技术、顶级”被标注为广告法中的极限用语，主播在宣传时使用这些词汇违反了广告极限词。

另外，违规类型除了上述提到的违反广告极限词，还有售卖违禁商品、使用违禁词语、进行虚假宣传等。

通过对文本信息时进行分词处理，可以获取关键词并进行违规关键词库匹配，当预设的分词规则中的词典越多，分词处理获得的关键词越多。

然而，通过增加关键词提高违规检测准确度的程度有限。

例如，通过关键词匹配无法识别“XX明星强烈推荐XX奶粉”、“XX明星对XX奶粉赞不绝口”中是否违规，实际上该明星并没有代言该品牌，也没有为该品牌做过宣传，主播属于虚假宣传。

此时，可以通过NLU（Natural Language Understanding，自然语言理解）识别文本信息中的语义，进一步提高违规检测的准确性。

在示出的一种实施方式中，对所述文本信息进行语义识别；基于所述语义识别结果针对所述目标直播间进行直播违规检测。

继续上述举例，通过语义识别，可以知道主播在利用XX明星进行商品宣传。进一步的，可以在识别出主播提到明星时，根据预设的明星与代言品牌的关系进行匹配。当没有匹配到该品牌时，确定该主播进行了虚假宣传的违规行为。

当确定主播的违规行为之后，可以对该违规行为进行记录，并对目标直播间进行评分。

在示出的一种实施方式中，如果确定所述目标直播间发生违规行为，将违规数据记录到违规数据库；其中，所述违规数据包括违规次数和/或所述违规类型；基于所述违规数据库中记录的所述目标直播间对应的违规数据，对所述直播间进行评分；其中，所述评分的机制包括分数的扣除或累积；当所述评分低于或高于阈值时，限制所述主播的权限。

具体的，当确定目标直播间发生违规行为时，可以将违规主播发生违规行为时的时间戳、违规行为发生的次数，以及主播每次违规行为对应的违规类型记录到违规数据库中。

其中，在检测到主播发生违规行为时，可以在直播间生成告警提示，该告警提示可以包括主播违规行为对应的类型。

通过建立违规数据库，可以基于该违规数据库建立直播间的评分模型，对直播间进行评分；也可以在违规检测的结果出现争议时，根据违规数据库中记录的历史数据进行复查。

其中，根据违规数据库中记录的目标直播间对应的违规数据，包括违规的次数和/或违规类型。

值得说明的是，每次违规对应的分值可以相同，也可以根据次数的增加而增加；不同的违规类型可以根据违规的严重程度赋予不同的分值。

进一步的，评分的机制可以是减分制，也可以是加分制。

当评分机制为减分制时，每次发生违规行为时，扣分相应的分数；当评分低于阈值时，限制主播的权限。

例如，假设每个直播间初始评分为100分，主播发生虚假宣传时，第一次扣十分，在警告之后，第二次可以扣15分，当评分低于60分时，可以限制该直播间的流量或者限制主播的权限。

当评分的机制为加分制时，每次发生违规行为时，累积相应的分数；当评分高于阈值时，限制主播的权限。

例如，假设每个直播间初始评分为0分，主播发生虚假宣传时，第一次加十分，在警告之后，第二次可以加15分，当评分高于60分时，可以限制该直播间的流量或者限制主播的权限。

其中，主播的权限可以包括在直播界面添加商品的购买链接、直播的时长等，本申请对此不做限定。

在以上技术方案中，通过提取目标直播间视频流中的特征，并与目标直播间对应的主播特征匹配，从而确定出包含主播特征的视频片段；进一步的，将该视频片段对应的音频片段转换成文本信息，并基于文本信息对目标直播间进行违规检测。主播作为直播间的责任人，需要对直播内容负责，本申请通过确定直播数据流中包含主播特征的视频片段，使违规检测更具有针对性；进一步的，由于直播带货的特点在于主播进行推销，音频片段包含的信息量远多于视频片段，本申请基于上述确定出的视频片段对应的音频片段进行违规检测，通过将主播在直播带货时说的话转换成文本信息进行违规检测，提高违规检测的准确度。

请参见图2，图2为本申请一示例性实施例示出的另一种直播间违规检测方法的流程图。

如图2所示，在示出的一种实施方式中，直播间违规检测方法包括如下步骤：

S201：获取目标直播间的直播数据流；

其中，所述直播数据流包括视频流，以及与所述视频流对应的音频流。

S202：通过VAD话音激活检测确定有效音频片段以及对应的视频片段。

具体的，对获取到的所述直播数据流中的音频流进行VAD话音激活检测，以确定所述音频流中包含话音信号的有效音频片段；基于确定出的所述有效音频片段对应的时间戳范围对所述视频流进行切分，得到与所述有效音频片段对应的视频片段。

例如，通过确定直播数据流中有效的人声说话的音频片段，可以根据该音频片段的时间戳，确定对应的视频片段。

S203：根据有效音频片段的语调情绪识别的结果确定优先匹配的视频片段。

具体的，基于所述有效音频片段进行语调情绪识别；当识别出的情绪命中预设的情绪时，优先对所述有效音频片段对应的视频片段进行特征匹配。

例如，对于多个有效音频片段，当某个有效音频片段语调情绪识别结果命中预设的情绪时，将该有效音频片段对应的视频片段进行优先匹配。

S204：将视频帧中的人脸特征与主播人脸特征匹配。

具体的，从所述视频片段中提取视频帧，并从所述视频帧中提取人脸特征；确定提取到的所述人脸特征是否与所述目标直播间对应的主播人脸特征匹配。

例如，视频片段中可能是嘉宾或助手在说话，并不是重点要关注的主播，该片段可以忽略。因此，可以根据人脸特征，确定主播出现的视频片段，提出与主播无关的视频片段。

S205：确定所述视频片段中与所述目标直播间对应的主播特征匹配的视频帧的数量是否大于阈值。

如果是，执行步骤S208；

例如，当该视频片段中出现多个人时，可以对该视频片段提取多个视频帧，当匹配的视频帧的数量大于阈值时，确定该视频片段为待检测的视频片段。

如果否，执行步骤S206。

S206：从所述视频片段对应的有效音频片段中提取声纹特征。

具体的，如果提取到的特征与所述目标直播间对应的主播特征不匹配，则进一步从所述视频片段对应的有效音频片段中提取声纹特征。

例如，当主播没有出现在画面中时，仍有可能在对商品进行介绍，有可能存在违规行为。因此，当直播间的违规检测需要采用更严格的策略时，可以扩大检测的范围，对画面中未出现主播的片段进行进一步检测。

S207：确定提取到的所述声纹特征是否与所述目标直播间对应的主播声纹特征匹配。

如果是，表明主播虽然没有在画面中，但是在说话，执行步骤S208。

S208：将视频片段对应的音频片段转换成文本信息。

S209：对文本信息进行分词处理获得关键词，与违规关键词库匹配。

具体的，对所述文本信息进行分词处理得到若干关键词；

将所述若干关键词，分别与预设的违规关键词库中的违规关键词进行匹配；其中，所述违规关键词被分别标注了对应的违规类型。

如果所述若干关键词与所述违规关键词库中的任一违规关键词匹配时，将所述违规关键词对应的违规类型，确定为所述目标直播间的违规类型。

例如，当文本信息过长时，可以对文本信息进行分词处理，获取关键词并与预设的关键词库匹配。当匹配到关键词时，确定该关键词对应的违规类型。

S210：对文本信息进行语义识别。

具体的，可以通过增加语义识别进一步提高检测的准确性。

S211：基于文本信息识别的结果判断目标直播间是否违规。

具体的，可以根据获取的关键词与预设的违规关键词库匹配的结果和/或语义识别的结果判断目标直播间是否违规。

如果是，执行步骤S212。

S212：基于违规数据库中记录的数据对直播间评分。

具体的，如果确定所述目标直播间发生违规行为，将违规数据记录到违规数据库；

其中，所述违规数据包括违规次数和/或所述违规类型；

基于所述违规数据库中记录的所述目标直播间对应的违规数据，对所述直播间进行评分；

其中，所述评分的机制包括分数的扣除或累积；

例如，当检测到目标直播间的违规行为时，可以在违规数据库中记录与违规行为相关的数据，包括违规时间戳、违规次数以及违规类型等。同时，可以基于违规数据库中的历史记录，对直播间进行评分。

S213：确定直播间当前评分是否低于或高于阈值。

如果否，执行S214，对所述直播间输出告警提示。

如果是，执行S215，限制所述主播的权限。

例如，当当评分机制为减分制时，每次发生违规行为时，扣分相应的分数；当评分低于阈值时，限制主播的权限；而当评分的机制为加分制时，每次发生违规行为时，累积相应的分数；当评分高于阈值时，限制主播的权限。

由上述实施例可见，通过提取目标直播间视频流中的特征，并与目标直播间对应的主播特征匹配，从而确定出包含主播特征的视频片段；进一步的，将该视频片段对应的音频片段转换成文本信息，并基于文本信息对目标直播间进行违规检测。主播作为直播间的责任人，需要对直播内容负责，本申请通过确定直播数据流中包含主播特征的视频片段，使违规检测更具有针对性；进一步的，由于直播带货的特点在于主播进行推销，音频片段包含的信息量远多于视频片段，本申请基于上述确定出的视频片段对应的音频片段进行违规检测，通过将主播在直播带货时说的话转换成文本信息进行违规检测，提高违规检测的准确度。

与上述方法实施例相对应，本说明书还提供了一种直播间违规检测装置的实施例。

请参见图3，图3为本申请一示例性实施例示出的一种直播间违规检测装置的框图，包括：

获取单元301，用于获取目标直播间的直播数据流；所述直播数据流包括视频流，以及与所述视频流对应的音频流；

切分单元302，用于对所述视频流进行分段处理，得到若干视频片段；

匹配单元303，用于从所述视频片段中提取特征，并确定提取到的特征是否与所述目标直播间对应的主播特征匹配；

检测单元304，用于在所述提取到的特征与所述目标直播间对应的主播特征匹配时，将所述视频片段对应的音频片段转换成文本信息，并基于所述文本信息针对所述目标直播间进行违规检测。

可选的，所述切分单元302包括：

对所述音频流进行VAD话音激活检测，以确定所述音频流中包含话音信号的有效音频片段；

基于确定出的所述有效音频片段对应的时间戳范围，对所述视频流进行切分，得到与所述有效音频片段对应的视频片段。

具体的，所述特征包括人脸特征；

可选的，所述匹配单元303包括：

从所述视频片段中提取视频帧，并从所述视频帧中提取人脸特征；

确定提取到的所述人脸特征是否与所述目标直播间对应的主播人脸特征匹配。

可选的，在将所述视频流对应的音频流转换成文本信息之前，包括：

确定所述视频片段中与所述目标直播间对应的主播特征匹配的视频帧的数量是否大于阈值；

如果是，则进一步将所述视频片段对应的音频片段转换成文本信息。

可选的，所述装置还包括：

如果提取到的特征与所述目标直播间对应的主播特征不匹配，则进一步从所述视频片段对应的有效音频片段中提取声纹特征；

确定提取到的所述声纹特征是否与所述目标直播间对应的主播声纹特征匹配；

如果是，则将所述视频片段对应的有效音频片段转换成文本信息，并基于所述文本信息针对所述目标直播间进行直播违规检测。

可选的，所述装置还包括：

基于所述有效音频片段进行语调情绪识别；

当识别出的情绪命中预设的情绪时，优先对所述有效音频片段对应的视频片段进行特征匹配。

可选的，所述检测单元304包括：

对所述文本信息进行分词处理得到若干关键词；

将所述若干关键词，分别与预设的违规关键词库中的违规关键词进行匹配；其中，所述违规关键词被分别标注了对应的违规类型。

如果所述若干关键词与所述违规关键词库中的任一违规关键词匹配时，将所述违规关键词对应的违规类型，确定为所述目标直播间的违规类型。

可选的，所述检测单元304包括：

对所述文本信息进行语义识别；

基于所述语义识别结果针对所述目标直播间进行直播违规检测。

可选的，所述装置还包括：

如果确定所述目标直播间发生违规行为，将违规数据记录到违规数据库；其中，所述违规数据包括违规次数和/或所述违规类型；

基于所述违规数据库中记录的所述目标直播间对应的违规数据，对所述直播间进行评分；其中，所述评分的机制包括分数的扣除或累积；

当所述评分低于或高于阈值时，限制所述主播的权限。

上述中各设备的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本领域技术人员在考虑本申请及实践这里申请的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未申请的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

以上所述仅为本申请的较佳实施例而已，并不用以限制本申请，凡在本说明书的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本说明书保护的范围之内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：魏海巍;王伟伟;刘凯;
专利申请人：共道网络科技有限公司;

上一篇：线轮上下料装置、放线系统及其线轮装卸方法
下一篇：集成电路层间耦合即时更新的粗颗粒并行迭代方法及装置