掌桥专利:专业的专利平台
掌桥专利
首页

一种RCS消息的违规识别方法及装置

文献发布时间:2023-06-19 13:26:15


一种RCS消息的违规识别方法及装置

技术领域

本发明涉及通信领域,尤其涉及一种RCS消息的违规识别方法及装置。

背景技术

随着5G时代的到来,运营商传统短信业务功能简单、体验受限,已经不能满足用户多样的需求,短信业务需要升级到富媒体消息业务,称之为RCS(Rich CommunicationSuite,富媒体通信套件)。RCS消息业务不仅支持个人用户之间的多媒体消息交互,还可以让行业客户能够为其用户提供基于富媒体的新型数字化交互服务。行业客户以chatbot(即聊天机器人)形式与个人用户通过运营商网络进行消息交互,消息内容可以包含:文本、图片、表情、位置等等。

然而,现有RCS消息的内容审核通常通过人工审核耗时又费力,而传统的垃圾短信的识别方法要么采用被动防守,即通过通讯信任机制,双方用户在明确对方身份并获得信任许可后才可以进行短信通讯,但这种方法仅适用于个人用户之间的交互,不适合企业用户对个人用户之间的交互,并且增加了通讯的复杂性;要么采用关键词过滤机制,即运营商确定关键词,并通过关键词匹配规则进行识别是否为垃圾短信,但这种方法仅适用于文字信息,对于富媒体信息不适用,并且当行业客户将违规文字转化为违规图片时则无法识别。

发明内容

本发明所要解决的技术问题是针对现有技术的上述不足,提供一种RCS消息的违规识别方法及装置,用以解决相关技术中现有RCS消息的内容审核通常通过人工审核耗时又费力,而传统的垃圾短信的识别方法不适合RCS消息识别的问题。

第一方面,本发明实施例提供一种RCS消息的违规识别方法,包括:

获取包含待识别图片的RCS消息;

将所述RCS消息中的待识别图片输入预先训练好的分类模型进行初步违规识别,得到初步违规识别结果;

判断所述初步违规识别结果是否为违规图片;

若否,则将所述待识别图片输入预先训练好的检测模型进行二次违规识别,得到二次违规识别结果;

根据所述二次违规识别结果判断所述RCS消息是否违规。

优选地,所述将所述RCS消息中的待识别图片输入预先训练好的分类模型进行初步违规识别之前,所述方法还包括:

获取预先收集的违规图片;

将所述预先收集的违规图片输入预先建立的GAN模型进行训练,得到新的违规图片;

根据所述预先收集的违规图片和所述新的违规图片生成违规图片训练样本;

基于所述违规图片训练样本对所述分类模型和所述检测模型分别进行训练,得到训练好的所述分类模型和所述检测模型。

优选地,所述将所述预先收集的违规图片输入预先建立的 GAN模型进行训练,得到新的违规图片之前,所述方法还包括:

根据如下公式建立GAN模型:

其中,D为GAN模型的判别器,G为GAN模型的生成器;x为预先收集的违规图片,P

优选地,所述分类模型为Efficient Net模型,所述将所述RCS 消息中的待识别图片输入预先训练好的分类模型进行初步违规识别,得到初步违规识别结果,具体包括:

将所述RCS消息中的待识别图片输入预先训练好的所述 Efficient Net模型进行初步违规识别,得到所述初步违规识别结果;

其中,所述Efficient Net模型的损失函数表达式为:

L=-[y·log(p)+(1-y)·log(1-p)]

式中,y表示违规图片训练样本的标签,违规图片为1,正常图片为0;p表示违规图片训练样本预测为违规图片的概率,1-p 表示违规图片训练样本预测为正常图片的概率。

优选地,所述检测模型为yolo-v2模型,所述将所述待识别图片输入预先训练好的检测模型进行二次违规识别,得到二次违规识别结果,具体包括:

将所述待识别图片输入预先训练好的yolo-v2模型进行二次违规识别,得到所述二次违规识别结果。

优选地,所述分类模型用于确定所述待识别图片为违规图片的第一概率,并将所述第一概率与预设的第一阀值进行比较,若所述第一概率大于所述第一阀值则判断所述待识别图片为违规图片;

所述检测模型用于确定所述待识别图片为违规图片的第二概率,并将所述第二概率与预设的第二阀值进行比较,若所述第二概率大于所述第二阀值则判断所述待识别图片为违规图片;

其中,所述第一阀值小于第二阀值。

优选地,所述根据所述二次违规识别结果判断所述RCS消息是否违规,具体包括:

若所述二次违规识别结果为违规图片,则判断所述RCS消息违规,否则,判断所述RCS消息不违规。

优选地,所述获取包含待识别图片的RCS消息,具体包括:

通过接收Maap平台发送的携带有Chatbot标识,终端标识以及所述待识别图片的所述RCS消息,以获取包含所述待识别图片的RCS消息;

所述根据所述二次违规识别结果判断所述RCS消息是否违规之后,所述方法还包括:

若所述RCS消息违规,则将所述Chatbot标识加入黑名单;

若所述RCS消息不违规,则将所述RCS消息返回给所述Maap 平台,以使所述Maap平台将所述RCS消息发送给所述终端标识对应的终端。

第二方面,本发明实施例提供一种RCS消息的违规识别装置,包括:

RCS消息获取模块,用于获取包含待识别图片的RCS消息;

初步违规识别模块,与所述RCS消息获取模块连接,用于将所述RCS消息中的待识别图片输入预先训练好的分类模型进行初步违规识别,得到初步违规识别结果;

第一判断模块,与所述初步违规识别模块连接,用于判断所述初步违规识别结果是否为违规图片;

二次违规识别模块,与所述第一判断模块连接,用于在所述第一判断模块判断结果为否时,将所述待识别图片输入预先训练好的检测模型进行二次违规识别,得到二次违规识别结果;

第二判断模块,与所述二次违规识别模块连接,用于根据所述二次违规识别结果判断所述RCS消息是否违规。

第三方面,本发明实施例提供一种RCS消息的违规识别装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以实现上述第一方面所述的 RCS消息的违规识别方法。

本发明实施例提供的RCS消息的违规识别方法及装置,基于深度学习技术,通过获取包含待识别图片的RCS消息,并将RCS 消息中的待识别图片输入预先训练好的分类模型进行初步违规识别,能够得到初步违规识别结果,从而实现违规图片的自动识别,无需人工干预。同时,为了进一步提高违规图片识别的准确率,避免漏判、误判的情形,在初步违规识别结果不为违规图片时,再将待识别图片输入预先训练好的检测模型进行二次违规识别,从而得到二次违规识别结果,再根据二次违规识别结果判断RCS 消息是否违规,解决了相关技术中现有RCS消息的内容审核通常通过人工审核耗时又费力,而传统的垃圾短信的识别方法不适合 RCS消息识别的问题。

附图说明

图1:为本发明实施例的一种RCS消息的违规识别方法的场景图;

图2:为本发明实施例1的一种RCS消息的违规识别方法的流程图;

图3:为本发明实施例2的一种RCS消息的违规识别装置的结构示意图;

图4:为本发明实施例3的一种RCS消息的违规识别装置的结构示意图。

具体实施方式

为使本领域技术人员更好地理解本发明的技术方案,下面将结合附图对本发明实施方式作进一步地详细描述。

可以理解的是,此处描述的具体实施例和附图仅仅用于解释本发明,而非对本发明的限定。

可以理解的是,在不冲突的情况下,本发明中的各实施例及实施例中的各特征可相互组合。

可以理解的是,为便于描述,本发明的附图中仅示出了与本发明相关的部分,而与本发明无关的部分未在附图中示出。

可以理解的是,本发明的实施例中所涉及的每个单元、模块可仅对应一个实体结构,也可由多个实体结构组成,或者,多个单元、模块也可集成为一个实体结构。

可以理解的是,在不冲突的情况下,本发明的流程图和框图中所标注的功能、步骤可按照不同于附图中所标注的顺序发生。

可以理解的是,本发明的流程图和框图中,示出了按照本发明各实施例的系统、装置、设备、方法的可能实现的体系架构、功能和操作。其中,流程图或框图中的每个方框可代表一个单元、模块、程序段、代码,其包含用于实现规定的功能的可执行指令。而且,框图和流程图中的每个方框或方框的组合,可用实现规定的功能的基于硬件的系统实现,也可用硬件与计算机指令的组合来实现。

可以理解的是,本发明实施例中所涉及的单元、模块可通过软件的方式实现,也可通过硬件的方式来实现,例如单元、模块可位于处理器中。

需要说明的是,本申请实施例描述的场景图是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定,本领域普通技术人员可知,随着网络架构的演变和新业务场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。

如图1所示,为本申请实施例提供的一种RCS消息的违规识别方法的场景图,其中,各部分说明如下:

(1)chatbot:即聊天机器人,负责在行业客户管理员配置下自动或手动完成与手机终端用户的聊天,包括消息发送、消息接收、消息解析、消息处理等功能。其中,RCS消息主要是B2C (Business-to-Customer),所有使用Chatbot的企业都可以称之为行业客户。

(2)Maap(Messaging as a Platform,消息即平台):旨在构建开放标准的运营商消息平台生态系统,将现有行业短彩信升级到RCS消息,使用户可以在消息窗口内完成搜索、交互、支付等一站式的业务体验。

(3)消息安全管控平台,内含违规图片数据库,该消息安全管控平台用于对chatbot下发给手机终端用户的RCS消息进行违规识别,对于正常RCS消息可直接下放,对于违规RCS消息进行拦截,并对发送违规RCS消息的chatbot做相应的“违规冻结”等处理。

(4)RCS消息中心,用于接收Maap平台发送的正常RCS 消息,并转发给IMS(IPMultimedia Subsystem,IP多媒体系统)。

(5)IMS,用于将RCS消息中心转发的正常RCS消息发送给手机终端。

基于图1所示的场景图,下面介绍本申请涉及的RCS消息的违规识别方法的相关实施例。

实施例1:

本实施例提供一种RCS消息的违规识别方法,如图2所示,该方法包括:

步骤S102:获取包含待识别图片的RCS消息。

需要说明的是,本实施例提供的一种RCS消息的违规识别方法主要应用于图1中的消息安全管控平台,Maap平台接收到行业客户通过chatbot下发给手机终端用户的RCS消息后,将该RCS 消息转发给消息安全管控平台进行违规识别。具体地,消息安全管控平台通过接收Maap平台发送的携带有Chatbot标识,终端标识以及待识别图片的RCS消息,以获取包含待识别图片的RCS 消息。

步骤S104:将RCS消息中的待识别图片输入预先训练好的分类模型进行初步违规识别,得到初步违规识别结果;

步骤S106:判断初步违规识别结果是否为违规图片;

步骤S108:若否,则将待识别图片输入预先训练好的检测模型进行二次违规识别,得到二次违规识别结果。

可选地,将RCS消息中的待识别图片输入预先训练好的分类模型进行初步违规识别之前,方法还可以包括:

获取预先收集的违规图片;

将预先收集的违规图片输入预先建立的GAN(Generative AdversarialNetworks,生成式对抗网络)模型进行训练,得到新的违规图片;

根据预先收集的违规图片和新的违规图片生成违规图片训练样本;

基于违规图片训练样本对分类模型和检测模型分别进行训练,得到训练好的分类模型和检测模型。

在本实施例中,由于违规图片特殊,样本数量少,且不易获取,为了保证模型训练的有效性和准确性,本发明使用GAN模型生成新的违规图片,以扩充违规图片数据库。如果为了增加违规图片数据而采用传统数据增强的方法生成图像,会导致计算量大、精确度低等缺点。GAN模型是一种深度学习模型,包括生成器和判别器,生成器用于估计真实数据的分布,使用服从某一概率分布的数据输入到生成器,生成器利用该随机样本产生一个假数据,送入判别器,判别器的输入包括真实数据和生成器生成的数据,根据输入判别数据真假。在利用GAN生成图像时,将一幅图像输入GAN中,GAN通过框架中的生成器和判别器互相博弈学习达到动态平衡,输出一幅新的图像,对生成器生成的数据,判别器也无法判别其是否来自真实数据。

在本实施例中,可以根据如下公式建立GAN模型:

其中,D为GAN模型的判别器,G为GAN模型的生成器;判别器D包括卷积层、池化层和dropout层,生成器G包括全连接层和反卷积层;x为原有违规图片,即预先收集的违规图片,P

在本实施例中,GAN模型的训练过程如下:

(a)生成器用随机产生的服从某一分布(均匀分布,高斯分布等)的噪声z生成一个类似真实训练数据的样本,追求效果是越像真实样本越好,将生成的新的违规图片和真实的原有违规图片作为样本送到判别器中。

(b)判别器是一个二分类器,判定输入样本来自于真实违规图片(而非生成图片)的概率,如果样本是真实的违规图片,判别器输出大概率,否则,输出小概率。

(c)如果判断正确,说明在这次博弈中,判别器赢了,则需要训练生成器;如果判断错误,说明在这次博弈中生成器赢了,则需要训练判别器。

(d)直到模型收敛(生成器、判别器均不再变化),GAN 模型训练结束。

在本实施例中,通过分类模型,可将图片分类为违规图片或者正常图片,考虑到RCS消息的实时性,可以使用高准确率、高效率的分类模型,优选使用EfficientNet模型,EfficientNet模型可以兼顾速度与精度,该模型利用了移动翻转瓶颈卷积(mobileinverted bottleneck convolution,MBConv)模块,比如,分类模型具体可以使用EfficientNet-B0模型。

在本实施例中,分类模型即Efficient Net模型的损失函数表达式可以为:

L=-[y·log(p)+(1-y)·log(1-p)]

式中,y表示违规图片训练样本的标签,违规图片为1,正常图片为0;p表示违规图片训练样本预测为违规图片的概率,1-p 表示违规图片训练样本预测为正常图片的概率。需要说明的是,违规图片训练样本中的每一个样本图片均对应一个违规标签。

在本实施例中,为了进一步提高违规图片识别的准确率,避免漏判、误判的情形,在初步违规识别结果不为违规图片时,可以将待识别图片输入预先训练好的检测模型进行二次违规识别。其中,检测模型可以进一步将判定为正常图片的待识别图片进行特征检测,检测输入的待识别图片中是否有违规的特征(比如裸露的身体部位、大片血腥等等),如果有则会被检测标注出来,判定为违规图片。

在本实施例中,为了提升定位的准确度,同时保持分类的准确度,检测模型可以为yolo模型,优选为yolo-v2模型。

在本实施例中,分类模型和检测模型的原理是通过训练好的参数值确定待识别图片为违规图片的概率,并将这个概率与预设的阀值进行比较,若超过设置的阈值,则判断待识别图片为违规图片,否则,判断不是违规图片。若分类模型预设的阀值为第一阀值,检测模型预设的阀值为第二阀值,则第一阀值小于第二阀值,比如第一阀值可以设置为0.6,第二阀值可以设置为0.9。

步骤S110:根据二次违规识别结果判断RCS消息是否违规。

具体地,若二次违规识别结果为违规图片,则判断RCS消息违规,否则,判断RCS消息不违规。

在本实施例中,若RCS消息违规,则禁止将该RCS消息发送给终端用户,并可以将Chatbot标识加入黑名单,做相应的“违规冻结”等处理;若RCS消息不违规,则做相应的“正常放行”等处理,将RCS消息返回给Maap平台,以使Maap平台将RCS 消息发送给终端标识对应的终端。需要说明的是,该RCS消息仅包括图片内容,或者除图片内容以外的其他内容均已事先通过检测判断为不违规。

在一个具体的实施例中,为了保证RCS消息业务生态的安全和干净,急需对行业客户下发的RCS消息进行安全管控,具体可以通过以下步骤对该RCS消息进行违规识别:

1)创建违规图片数据库。由于违规图片特殊,样本数量少,且不易获取,若违规图片数量不够,则直接影响分类、检测模型的训练,因此,为了保证训练的有效性和准确性,使用GAN模型生成违规图片,以扩充违规图片数据库,具体步骤如下:

a)收集已有违规图片,得到违规图片数据库,每个图片都对应一个违规标签,用于指示该图片为违规图片;

b)为了加快模型训练的收敛性,对违规图片数据库进行预处理和标准归一化处理,预处理比如将所有图片裁剪成224*224大小,标准归一化处理比如将图片像素点都归一到(0,1)之间,即都除以256;

c)使用上述处理后的图片训练GAN模型;

d)通过GAN模型生成更多的违规图片,扩充违规图片数据库。

2)将违规图片数据库中的违规图片作为训练样本分别训练分类模型和检测模型,得到训练好的分类模型和检测模型。

3)Maap平台将chatbot下发的RCS消息送入消息安全管控平台进行违规判定。

4)消息安全管控平台将RCS消息中的图片作为输入送入分类模型,阈值设为0.6,将图片大致分为违规图片和正常图片。

5)若分类模型判断为违规图片,消息安全管控平台可以将该判断为违规图片的消息返回给Maap平台,并对违规图片进行拦截,不下发到maap平台,Maap平台和消息安全管控平台均可以做相应的“违规冻结”等处理,比如将Chatbot标识加入黑名单、警告等,Maap平台将禁止将该RCS消息发送给终端用户。

6)若分类模型判断为正常图片,消息安全管控平台将RCS 消息中的图片作为输入送入检测模型,阈值设为0.9,其中,包含违规图片特征的图片将判定为违规图片,不包含违规图片特征的图片将判定为正常图片。

7)经检测模型判定为违规图片时,处理同步骤5)。

8)经过检测模型判定为正常图片的RCS消息返回给Maap 平台,做相应的“正常放行”等处理,Maap平台将该RCS消息发送给终端用户。

本发明实施例提供的RCS消息的违规识别方法,基于深度学习技术,通过获取包含待识别图片的RCS消息,并将RCS消息中的待识别图片输入预先训练好的分类模型进行初步违规识别,能够得到初步违规识别结果,从而实现违规图片的自动识别,无需人工干预。同时,为了进一步提高违规图片识别的准确率,避免漏判、误判的情形,在初步违规识别结果不为违规图片时,再将待识别图片输入预先训练好的检测模型进行二次违规识别,从而得到二次违规识别结果,再根据二次违规识别结果判断RCS消息是否违规,解决了相关技术中现有RCS消息的内容审核通常通过人工审核耗时又费力,而传统的垃圾短信的识别方法不适合RCS 消息识别的问题。

实施例2:

如图3所示,本实施例提供一种RCS消息的违规识别装置,包括:

RCS消息获取模块12,用于获取包含待识别图片的RCS消息;

初步违规识别模块14,与RCS消息获取模块12连接,用于将RCS消息中的待识别图片输入预先训练好的分类模型进行初步违规识别,得到初步违规识别结果;

第一判断模块16,与初步违规识别模块14连接,用于判断初步违规识别结果是否为违规图片;

二次违规识别模块18,与第一判断模块16连接,用于在第一判断模块16判断结果为否时,将待识别图片输入预先训练好的检测模型进行二次违规识别,得到二次违规识别结果;

第二判断模块20,与二次违规识别模块18连接,用于根据二次违规识别结果判断RCS消息是否违规。

可选地,还可以包括:

违规图片获取模块,用于获取预先收集的违规图片;

第一训练模块,用于将预先收集的违规图片输入预先建立的 GAN模型进行训练,得到新的违规图片;

训练样本生成模块,用于根据预先收集的违规图片和新的违规图片生成违规图片训练样本;

第二训练模块,用于基于违规图片训练样本对分类模型和检测模型分别进行训练,得到训练好的分类模型和检测模型。

可选地,还可以包括:

GAN模型建立模块,用于根据如下公式建立GAN模型:

其中,D为GAN模型的判别器,G为GAN模型的生成器;x为预先收集的违规图片,P

可选地,分类模型为Efficient Net模型,初步违规识别模块 14具体用于将RCS消息中的待识别图片输入预先训练好的 Efficient Net模型进行初步违规识别,得到初步违规识别结果;

其中,Efficient Net模型的损失函数表达式为:

L=-[y·log(p)+(1-y)·log(1-p)]

式中,y表示违规图片训练样本的标签,违规图片为1,正常图片为0;p表示违规图片训练样本预测为违规图片的概率,1-p 表示违规图片训练样本预测为正常图片的概率。

可选地,检测模型为yolo-v2模型,二次违规识别模块18具体用于在第一判断模块16判断结果为否时,将待识别图片输入预先训练好的yolo-v2模型进行二次违规识别,得到二次违规识别结果。

可选地,分类模型用于确定待识别图片为违规图片的第一概率,并将第一概率与预设的第一阀值进行比较,若第一概率大于第一阀值则判断待识别图片为违规图片;

检测模型用于确定待识别图片为违规图片的第二概率,并将第二概率与预设的第二阀值进行比较,若第二概率大于第二阀值则判断待识别图片为违规图片;

其中,第一阀值小于第二阀值。

可选地,第二判断模块20具体用于若二次违规识别结果为违规图片,则判断RCS消息违规,否则,判断RCS消息不违规。

可选地,RCS消息获取模块12具体用于通过接收Maap平台发送的携带有Chatbot标识,终端标识以及待识别图片的RCS消息,以获取包含待识别图片的RCS消息;

可选地,还可以包括:

黑名单模块,用于若RCS消息违规,则将Chatbot标识加入黑名单;

返回模块,用于若RCS消息不违规,则将RCS消息返回给 Maap平台,以使Maap平台将RCS消息发送给终端标识对应的终端。

实施例3:

如图4所示,本实施例提供一种RCS消息的违规识别装置,包括存储器21和处理器22,存储器21中存储有计算机程序,处理器22被设置为运行所述计算机程序以执行实施例1中的RCS 消息的违规识别方法。

其中,存储器21与处理器22连接,存储器21可采用闪存或只读存储器或其他存储器,处理器22可采用中央处理器或单片机。

实施例2至实施例3提供的RCS消息的违规识别装置,基于深度学习技术,通过获取包含待识别图片的RCS消息,并将RCS 消息中的待识别图片输入预先训练好的分类模型进行初步违规识别,能够得到初步违规识别结果,从而实现违规图片的自动识别,无需人工干预。同时,为了进一步提高违规图片识别的准确率,避免漏判、误判的情形,在初步违规识别结果不为违规图片时,再将待识别图片输入预先训练好的检测模型进行二次违规识别,从而得到二次违规识别结果,再根据二次违规识别结果判断RCS 消息是否违规,解决了相关技术中现有RCS消息的内容审核通常通过人工审核耗时又费力,而传统的垃圾短信的识别方法不适合 RCS消息识别的问题。

可以理解的是,以上实施方式仅仅是为了说明本发明的原理而采用的示例性实施方式,然而本发明并不局限于此。对于本领域内的普通技术人员而言,在不脱离本发明的精神和实质的情况下,可以做出各种变型和改进,这些变型和改进也视为本发明的保护范围。

相关技术
  • 一种RCS消息的违规识别方法及装置
  • 一种RCS业务消息的发送方法、装置、客户端和服务器
技术分类

06120113677691