掌桥专利:专业的专利平台
掌桥专利
首页

违规词检测方法、装置、设备及计算机可读存储介质

文献发布时间:2023-06-19 11:35:49


违规词检测方法、装置、设备及计算机可读存储介质

技术领域

本发明涉及数据处理领域,尤其涉及一种违规词检测方法、装置、设备及计算机可读存储介质。

背景技术

随着计算机技术的迅速发展,各种互联网产品不断增多。互联网产品非实物产品,向广大互联网用户展示互联网产品的产品信息(例如产品介绍、广告等),存在一定的违反法律或公序良俗的风险。例如,所有商品均不得使用的广告语违禁词包括:国家级、世界级、最高级、最佳、第一、唯一、首个、最好、精确、顶级、最低、最底、最、最便宜、最大程度、国家级产品、填补国内空白、绝对、独家、首家、最新、最先进、第一品牌、金牌、名牌、最赚、超赚、最先、巨星、奢侈、至尊、顶级享受等绝对性用语,对于金融理财产品,更是不能出现“保本保息”、“无风险”等承诺词语。

为了降低违反法律或公序良俗的风险,需要对互联网产品的产品信息进行审核,以检测是否有违规词。但是,现有的违规词检测方式,检测效率低、成本高。

发明内容

本发明的主要目的在于提供一种违规词检测方法、装置、设备及存储介质,旨在解决现有违规词检测方式检测效率低、成本高的问题。

为实现上述目的,本发明提供一种违规词检测方法,所述违规词检测方法包括:

基于目标互联网产品的标识信息,从预设存储引擎中,获取所述目标互联网产品的产品信息,所述预设存储引擎中包括多个互联网产品的产品信息;

基于预设搜索引擎,检测所述目标互联网产品的产品信息中是否存在预设违规词;

若所述目标互联网产品的产品信息中存在所述预设违规词,则获取所述目标互联网产品对应的目标联系人信息;

基于所述目标联系人信息,将所述目标互联网产品的产品信息进行上报。

可选的,所述产品信息包括文本类产品信息;

所述基于目标互联网产品的标识信息,从预设存储引擎中,获取所述目标互联网产品的产品信息的步骤,包括:

基于目标互联网产品的标识信息,从预设存储引擎的数据库中,获取所述目标互联网产品的文本类产品信息。

可选的,所述基于预设搜索引擎,检测所述目标互联网产品的产品信息中,是否存在预设违规词的步骤之后,所述违规词检测方法还包括以下步骤:

若所述目标互联网产品的文本类产品信息中存在所述预设违规词,则存储所述目标互联网产品的文本类产品信息。

可选的,所述产品信息包括非文本类产品信息;

所述基于目标互联网产品的标识信息,从预设存储引擎中,获取所述目标互联网产品的产品信息的步骤,包括:

基于目标互联网产品的标识信息,从预设存储引擎的LFS日志结构文件系统中,获取所述目标互联网产品的非文本类产品信息。

可选的,所述基于预设搜索引擎,检测所述目标互联网产品的产品信息中是否存在预设违规词的步骤,包括:

对所述目标互联网产品的非文本类产品信息进行文字识别,以得到所述目标互联网产品的文本内容;

基于预设搜索引擎,检测所述目标互联网产品的文本内容中,是否存在预设违规词。

可选的,所述对所述目标互联网产品的非文本类产品信息进行文字识别,以得到所述目标互联网产品的文本内容的步骤,包括:

通过光学字符识别OCR技术,对所述目标互联网产品的非文本类产品信息进行文字识别,以得到所述目标互联网产品的文本内容;

所述基于预设搜索引擎,检测所述目标互联网产品的文本内容中,是否存在预设违规词的步骤,包括:

将所述目标互联网产品的文本内容存储至搜索服务器ES的数据库中;

基于所述搜索服务器ES,在所述目标互联网产品的文本内容的存储区域中,搜索所述预设违规词;

若在所述存储区域中,搜索到所述预设违规词,则判定所述目标互联网产品的文本内容中,存在所述预设违规词;

若在所述存储区域中,未搜索到所述预设违规词,则判定所述目标互联网产品的文本内容中,不存在所述预设违规词。

可选的,所述基于目标互联网产品的标识信息,从预设存储引擎中,获取所述目标互联网产品的产品信息的步骤之前,所述违规词检测方法还包括以下步骤:

接收产品设置指令,所述产品设置指令包括互联网产品标识信息和对应的联系人信息;

将所述互联网产品标识信息对应的互联网产品设置为目标互联网产品,以对所述互联网产品的产品信息进行检测;

基于所述产品设置指令,确定所述目标互联网产品的配置信息,所述配置信息包括所述目标互联网产品的标识信息和对应的联系人信息;

所述若所述目标互联网产品的产品信息中存在所述预设违规词,则获取所述目标互联网产品对应的目标联系人信息的步骤,包括:

若所述目标互联网产品的产品信息中存在所述预设违规词,则从所述目标互联网产品的配置信息中,获取所述目标互联网产品的联系人信息,以作为所述目标互联网产品对应的目标联系人信息。

此外,为实现上述目的,本发明还提出一种违规词检测装置,所述违规词检测装置包括:

第一获取模块,用于基于目标互联网产品的标识信息,从预设存储引擎中,获取所述目标互联网产品的产品信息,所述预设存储引擎中包括多个互联网产品的产品信息;

检测模块,用于基于预设搜索引擎,检测所述目标互联网产品的产品信息中是否存在预设违规词;

第二获取模块,用于若所述目标互联网产品的产品信息中存在所述预设违规词,则获取所述目标互联网产品对应的目标联系人信息;

上报模块,用于基于所述目标联系人信息,将所述目标互联网产品的产品信息进行上报。

此外,为实现上述目的,本发明还提出一种违规词检测设备,所述违规词检测设备包括:存储器、处理器及存储在所述存储器上并在所述处理器上运行违规词检测程序,所述违规词检测程序被所述处理器执行时实现上述任一项所述的违规词检测方法的步骤。

此外,为实现上述目的,本发明还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有违规词检测程序,所述违规词检测程序被处理器执行时实现上述任一项所述的违规词检测程序方法的步骤。

本发明提供的技术方案,通过基于目标互联网产品的标识信息,从预设存储引擎中,获取目标互联网产品的产品信息,预设存储引擎中包括多个互联网产品的产品信息;基于预设搜索引擎,检测目标互联网产品的产品信息中是否存在预设违规词;若目标互联网产品的产品信息中存在预设违规词,则获取目标互联网产品对应的目标联系人信息;基于目标联系人信息,将目标互联网产品的产品信息进行上报,从而快速、高效的对互联网产品的产品信息进行检测;本发明中,可以对预设存储引擎中的多个互联网产品的产品信息进行检测,无需针对每个互联网产品都开发一套检测程序,降低了开发成本和后期运维成本;同时,统一从预设存储引擎中获取互联网产品的产品信息,无需直接与各个互联网产品对接,减少开发成本和时间成本;并且,如果有新互联网产品,则只需要将其设置为目标互联网产品,即可实现对该互联网产品的产品信息进行检测,无需另外开发一套检测程序,流程简单,节约了成本。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的违规词检测设备结构示意图;

图2为本发明违规词检测方法第一实施例的流程示意图;

图3为本发明违规词检测方法第二实施例的流程示意图;

图4为本发明违规词检测方法第三实施例的流程示意图;

图5为本发明违规词检测装置第一实施例的结构框图。

本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

参照图1,图1为本发明实施例方案涉及的硬件运行环境的违规词检测设备结构示意图。

违规词检测设备可以是移动电话、智能电话、笔记本电脑、数字广播接收器、个人数字助理(PDA)、平板电脑(PAD)等用户设备(User Equipment,UE)、手持设备、车载设备、可穿戴设备、计算设备、监控设备、服务器或连接到无线调制解调器的其它处理设备、移动台(Mobile station,MS)等。

通常,违规词检测设备包括:至少一个处理器101、存储器102以及存储在所述存储器上并可在所述处理器上运行的违规词检测程序,所述违规词检测程序配置为实现如下任一实施例所述的违规词检测方法的步骤。

处理器101可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器101可以采用DSP(Digital Signal Processing,数字信号处理)、 FPGA(Field-Programmable Gate Array,现场可编程门阵列)、 PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器101也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(CentralProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器101可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。处理器101还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关违规词检测方法操作,使得违规词检测方法模型可以自主训练学习,提高效率和准确度。

存储器102可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器102还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器102中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器101所执行以实现本申请中方法实施例提供的违规词检测方法。

在一些实施例中,违规词检测设备还可选包括有:通信接口103和至少一个外围设备。处理器101、存储器102和通信接口103之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与通信接口103相连。具体地,外围设备包括:射频电路104、显示屏105和电源106中的至少一种。

通信接口103可被用于将I/O(Input/Output,输入/输出)相关的至少一个外围设备连接到处理器101和存储器102。在一些实施例中,处理器101、存储器102和通信接口103被集成在同一芯片或电路板上;在一些其他实施例中,处理器101、存储器102和通信接口103中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。

射频电路104用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路104通过电磁信号与通信网络以及其他通信设备进行通信。射频电路104将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路104包括:天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路104可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:城域网、各代移动通信网络(2G、3G、4G 及5G)、无线局域网和/或WIFI(Wireless Fidelity,无线保真)网络。在一些实施例中,射频电路104还可以包括NFC(Near Field Communication,近距离无线通信)有关的电路,本申请对此不加以限定。

显示屏105用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏105是触摸显示屏时,显示屏105还具有采集在显示屏105的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器101进行处理。此时,显示屏105还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏105可以为一个,电子设备的前面板;在另一些实施例中,显示屏105 可以为至少两个,分别设置在电子设备的不同表面或呈折叠设计;在再一些实施例中,显示屏105可以是柔性显示屏,设置在电子设备的弯曲表面上或折叠面上。甚至,显示屏105还可以设置成非矩形的不规则图形,也即异形屏。显示屏105可以采用LCD(LiquidCrystal Display,液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

电源106用于为电子设备中的各个组件进行供电。电源106可以是交流电、直流电、一次性电池或可充电电池。当电源106包括可充电电池时,该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。本领域技术人员可以理解,图1中示出的结构并不构成对违规词检测设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。

此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有违规词检测程序,所述违规词检测程序被处理器执行时实现如下文任一实施例所述的违规词检测方法的步骤。因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节,请参照本申请方法实施例的描述。确定为示例,程序指令可被部署为在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行。

本领域普通技术人员可以理解实现下文任一实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述违规词检测程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如下述各方法的实施例的流程。其中,上述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory, RAM)等。

相关技术中,为了检测互联网产品的产品信息中是否存在违规词,通常是各个产品线系统自行检测,各系统数据相互隔离,用到的技术各不相同,因此,针对每个产品线系统,都需要开发一套检测程序,从而导致开发成本高、后期运维成本高、运维难度大,检测效率低。

为了解决上述技术问题,基于上述硬件结构,提出本发明的各实施例。

违规词检测方法实施例:

参照图2,图2为本发明违规词检测方法第一实施例的流程示意图。本发明实施例中,违规词检测方法包括以下步骤:

步骤S21:基于目标互联网产品的标识信息,从预设存储引擎中,获取目标互联网产品的产品信息。

应当理解的是,互联网产品是在互联网领域中产出而用于经营的商品,它是满足互联网用户需求和欲望的无形载体。也就是说,互联网产品就是指网站为满足用户需求而创建的用于运营的功能及服务,它是网站功能与服务的集成。其中,互联网产品包括但不限于各种软件产品,例如,金融类产品 (如:“平安银行”、“平安证券”等)、通信类产品(如:“微信”、“QQ”等)。

互联网产品的标识信息用于将该互联网产品与其他互联网产品区别,其可以是互联网产品的名称等。

存储引擎为用于存储数据的介质。预设存储引擎包括但不限于数据库、 LFS(Log-structured file system,日志结构文件系统)等。其中,数据库包括但不限于hive(数据仓库工具)数据库。

互联网产品的产品信息包括但不限于:互联网产品的名称、产品介绍等信息。产品信息的形式包括但不限于文本类产品信息、非文本类产品信息等。其中,文本类产品信息包括但不限于:互联网产品的文字介绍等;非文本类产品信息包括但不限于图片格式的产品信息、PDF(Portable Document Format,可移植文档格式)格式的产品信息等,例如,产品广告图片、单品页图片、图片或PDF格式的合同文件等。

本发明实施例中,预先设置有一个或多个目标互联网产品;预设存储引擎中,存储有多个互联网产品的产品信息。针对每一个目标互联网产品,互联网产品检测设备基于目标互联网产品的标识信息,从预设存储引擎中,获取目标互联网产品的产品信息。也就是说,本发明实施例中,可以统一从预设存储引擎中,获取目标互联网产品的产品信息,在目标互联网产品有多个时,从而无需直接与各个目标互联网产品对接,减少开发成本和时间成本。

其中,预设存储引擎可以包括数据库和LFS。为了方便处理,不同类型的产品信息,其在预设存储引擎中的存储位置可以不同。例如,在一些实施例方式中,可以将文本类产品信息存储在预设存储引擎的数据库中,非文本类产品信息存储在预设存储引擎的LFS中。

在一些实施方式中,步骤S21包括:基于目标互联网产品的标识信息,根据预设频率,从预设存储引擎中,获取目标互联网产品的产品信息。

其中,预设频率可以根据实际需要灵活设置,例如,3分钟一次等。也就是说,本发明实施例中,可以定时从预设存储引擎中,获取目标互联网产品的产品信息进行检测。

考虑到上一次检测时,已经对目标互联网产品的产品信息进行了检测,因此,步骤S21中,可以基于目标互联网产品的标识信息,根据预设频率,从预设存储引擎中,获取目标互联网产品更新的产品信息。其中,产品信息更新包括但不限于:产品信息发生改变、新增产品信息等。即定期访问预设存储引擎,以获取目标互联网产品更新的产品信息,从而降低数据处理量,提升检测速度。例如,假设预设频率为2分钟一次,上一次访问预设存储引擎的时间为12:00:00,则可以在12:02:00时,访问预设存储引擎,以获取目标互联网产品在12:00:00-12:02:00期间,更新的产品信息。

在一些实施方式中,步骤S21包括:

步骤1:接收目标互联网产品的产品信息更新通知。

互联网产品的产品信息更新之后,可以向违规词检测设备发送产品信息更新通知。

产品信息更新通知通常会包括互联网产品的标识信息,用于确定哪一互联网产品的产品信息发生更新。在接收到产品信息更新通知后,基于目标互联网产品的标识信息和产品信息更新通知中的互联网产品标识信息,确定该产品信息更新通知是否为目标互联网产品的产品信息更新通知。

步骤2:根据产品信息更新通知,从预设存储引擎中获取目标互联网产品的产品信息。

在接收到目标互联网产品的产品信息更新通知之后,从预设存储引擎中获取目标互联网产品的产品信息。也就是说,只有目标互联网产品的产品信息更新后,才会获取该目标互联网产品的产品信息。例如,假设目标互联网产品包括:互联网产品1、互联网产品2、互联网产品3,在某一时刻,接收到互联网产品1的产品信息更新通知,则基于互联网产品1的配置信息,从预设存储引擎中获取互联网产品1的产品信息。

步骤S22:基于预设搜索引擎,检测目标互联网产品的产品信息中是否存在预设违规词。

应当理解的是,搜索引擎是根据用户需求与一定算法,运用特定策略从互联网检索出制定信息反馈给用户的一门检索技术。搜索引擎依托于多种技术,如网络爬虫技术、检索排序技术、网页处理技术、大数据处理技术、自然语言处理技术等,为信息检索用户提供快速、高相关性的信息服务。搜索引擎技术的核心模块一般包括爬虫、索引、检索和排序等,同时可添加其他一系列辅助模块,以为用户创造更好的网络使用环境。

本发明实施例中,预设搜索引擎可以根据实际需要灵活设置,其中,预设搜索引擎包括但不限于ES(Elasticsearch)。可以理解的是,Elasticsearch 是一个基于Lucene的搜索服务器,它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。Elasticsearch是用Java语言开发的,并作为Apache许可条款下的开放源码发布,是一种流行的企业级搜索引擎。 Elasticsearch用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。

预设违规词为预先设置的词语,包括但不限于:国家级、世界级、最高级、最佳、第一、唯一、首个、最好、精确、顶级、最低、最底、最、最便宜、最大程度、国家级产品、填补国内空白、绝对、独家、首家、最新、最先进、第一品牌、金牌、名牌、最赚、超赚、最先、巨星、奢侈、至尊、顶级享受、保本保息、无风险等。

本发明实施例中,在获取了目标互联网产品的产品信息后,基于预设搜索引擎,检测目标互联网产品的产品信息中,是否存在预设违规词。例如,假设预设搜索引擎ES,为了提升检测速度,步骤S22包括:将各目标互联网产品的产品信息存储在ES中,基于ES检测目标互联网产品的产品信息中,是否存在预设违规词。

步骤S23:若目标互联网产品的产品信息中存在预设违规词,则获取目标互联网产品对应的目标联系人信息。

其中,联系人信息包括但不限于:邮箱、电话号码等,从而可以通过邮箱、短信的方式将进行上报,以对违规信息进行修改。

本发明实施例中,为目标互联网产品配置了对应的联系人信息,即,预先设置了目标互联网产品与联系人信息的映射关系。当某一目标互联网产品的产品信息中,存在预设违规词,则根据预设目标互联网产品与联系人信息的映射关系,获取该目标互联网产品对应的联系人信息,即目标联系人信息。

步骤S24:基于目标联系人信息,将目标互联网产品的产品信息进行上报。

本发明实施例中,在获取目标联系人信息后,基于目标联系人信息,将目标互联网产品的产品信息进行上报,也就是说,将存在违规词的互联网产品的产品信息上报给目标联系人,以使目标联系人对存在违规词的产品信息进行修改。例如,假设目标联系人信息为目标联系人的邮箱,则通过邮件的方式将目标互联网产品的产品信息上报给目标联系人。

在一些实施方式中,步骤S24包括:生成告警信息;基于目标联系人信息,将告警信息发送给目标联系人。其中,告警信息可以包括:存在预设违规词的目标互联网产品的标识信息、目标互联网产品中存在的违规词、违规词在目标互联网产品中的位置等信息中的至少一种,从而便于后续追踪整改。例如,告警信息可以是:应用程序B的主界面上的产品介绍中存在违规词“唯一”,从而便于后续追踪整改。

本发明实施例提供的违规词检测方法,通过基于目标互联网产品的标识信息,从预设存储引擎中,获取多个目标互联网产品的产品信息;基于预设搜索引擎,检测目标互联网产品的产品信息中是否存在预设违规词;若目标互联网产品的产品信息中存在预设违规词,则获取目标互联网产品对应的目标联系人信息;基于目标联系人信息,将目标互联网产品的产品信息进行上报,从而快速、高效的对互联网产品的产品信息进行检测;其中,可以对预设存储引擎中的多个互联网产品的产品信息进行检测,无需针对每个互联网产品都开发一套检测程序,降低了开发成本和后期运维成本;同时,统一从预设存储引擎中获取互联网产品的产品信息,无需直接与各个互联网产品对接,减少开发成本和时间成本;并且,如果有新互联网产品,则只需要将其设置为目标互联网产品,即可实现对该互联网产品的产品信息进行检测,无需另外开发一套检测程序,流程简单,节约了成本。

基于第一实施例,提出本发明违规词检测方法第二实施例。参照图3,图 3为本发明违规词检测方法第二实施例的流程示意图。本发明实施例中,步骤 S24之前,违规词检测方法还可以包括以下步骤:

步骤S25:接收产品设置指令。

其中,产品设置指令包括互联网产品标识信息和对应的联系人信息。互联网产品标识信息用于标识互联网产品,其可以是互联网产品的名称等。联系人信息可以是邮箱、电话号码、微信名称等信息中的至少一种。在一些实施方式中,产品设置指令可以基于用户操作生成。

在一个示例中,假设产品设置指令包括:应用程序C和联系人邮箱D。

步骤S26:将互联网产品标识信息对应的互联网产品设置为目标互联网产品。

在接收到产品设置指令后,从产品设置指令中解析出互联网产品标识信息,将该互联网产品标识信息对应的互联网产品设置为目标互联网产品,这样,后续即可对该互联网产品的产品信息进行检测。

承接前例,将应用程序C设置为目标互联网产品,这样,后续可以对应用程序C的产品信息进行检测。

步骤S27:基于产品设置指令,确定目标互联网产品的配置信息。

根据产品设置指令中的互联网产品标识信息和联系人信息,确定目标互联网产品的配置信息,并存储。需要说明的是,目标互联网产品的配置信息包括:目标互联网产品的标识信息和对应的联系人信息。

步骤S23包括:若目标互联网产品的产品信息中存在预设违规词,则从目标互联网产品的配置信息中,获取目标互联网产品的联系人信息,以作为目标互联网产品对应的目标联系人信息。

需要说明的是,本发明实施例中,目标互联网产品的配置信息可以根据用户的设置进行新增或更换。在一些实施例方式中,为了提升获取速度,目标互联网产品的配置信息中还可以包括产品信息存储地址,产品信息存储地址为该互联网产品的产品信息在预设存储引擎中的存储地址,这样,在步骤 S21中,可以基于目标互联网产品的标识信息,从对应的配置信息中,获取产品信息存储地址,根据产品信息存储地址,从预设存储引擎中,获取目标互联网产品的产品信息。

考虑到文本类产品信息存储在数据库中,数据库通常是以表的形式存储数据。因此,产品信息存储地址可以包括表名,该表名为预设存储引擎的数据库中,存储有目标互联网产品的文本类产品信息的链表的名称;这样,步骤S21中,可以根据目标互联网产品配置信息中的表名,从预设存储引擎的数据库中,获取目标互联网产品的文本类产品信息。为了更加精确、快速的获取到互联网产品的文本类产品信息,在一个示例中,产品信息获取地址还包括:字段名,该字段名为:预设存储引擎的数据库中,存储有目标互联网产品的文本类产品信息的字段的名称;这样,步骤S21中,可以根据配置信息中的字段名,从预设存储引擎的数据库中,获取目标互联网产品的文本类产品信息。

本发明实施例提供的违规词检测方法,接收产品设置指令,其中,产品设置指令中包括互联网产品的标识信息和联系人信息,从而根据产品设置指令确定目标互联网产品和配置信息,以使后续对目标互联网产品的产品信息进行检测,在检测后,若产品信息中存在预设违规词,则根据配置信息中的联系人信息进行上报,也就是说,本发明实施例中,若需要对某一互联网产品的产品信息进行检测,只需要下发产品设置指令将其设置为目标互联网产品即可,无需另外开发一套检测程序,流程简单,节约了成本。

基于前述实施例,提出本发明违规词检测方法第三实施例。参照图4,图 4为本发明违规词检测方法第三实施例的流程示意图。本发明实施例中,互联网产品的产品信息包括文本类产品信息。

步骤S21包括:基于目标互联网产品的标识信息,从预设存储引擎的数据库中,获取目标互联网产品的文本类产品信息。

本发明实施例中,预设存储引擎包括数据库,目标互联网产品的文本类产品信息存储在预设存储引擎的数据库中,因此,从预设存储引擎的数据库中,获取多个目标互联网产品的文本类产品信息。

其中,预设存储引擎的数据库可以是hive数据库。

在一些实施方式中,可以基于目标互联网产品的标识信息,根据预设频率,从预设存储引擎的数据库中获取目标互联网产品的文本类产品信息。即定期访问预设存储引擎的数据库,以获取目标互联网产品的文本类产品信息。在一个示例中,可以根据预设频率,从预设存储引擎的数据库中获取多个目标互联网产品更新的文本类产品信息,从而降低数据处理量,提升检测速度。

步骤S22包括:基于预设搜索引擎,检测目标互联网产品的文本类产品信息中,是否存在预设违规词。

步骤S23包括:若目标互联网产品的文本类产品信息中存在预设违规词,获取目标互联网产品对应的目标联系人信息。

在步骤S22之后,违规词检测方法还可以包括以下步骤:

步骤S28:若目标互联网产品的文本类产品信息中存在预设违规词,则存储目标互联网产品的文本类产品信息。

若目标互联网产品的文本类产品信息中,存在预设违规词,则存储目标互联网产品的文本类产品信息,以为后续操作做数据储备。

在一个示例中,预设搜索引擎包括ES,可以基于ES检测目标互联网产品的文本类产品信息中,是否存在预设违规词。在另一个示例中,预设搜索引擎包括除ES外的搜索引擎,可以先基于ES外的搜索引擎检测各目标互联网产品的文本类产品信息中,是否存在预设违规词;若目标互联网产品的文本类产品信息中存在预设违规词,再将存在违规词的文本类产品信息存储在 ES中,从而节约ES的数据存储空间。

本发明实施例提供的违规词检测方法中,对于文本类产品信息,从预设存储引擎的数据库中,获取目标互联网产品的文本类产品信息,基于预设搜索引擎,检测目标互联网产品的文本类产品信息中,是否存在预设违规词;若目标互联网产品的文本类产品信息中存在预设违规词,则存储目标互联网产品的文本类产品信息,从而减少数据存储量。

基于前述实施例,提出本发明违规词检测方法第四实施例。本发明实施例中,互联网产品的产品信息包括非文本类产品信息。

步骤S21包括:基于目标互联网产品的标识信息,从预设存储引擎的LFS 中,获取目标互联网产品的非文本类产品信息。

本发明实施例中,预设存储引擎包括LFS,目标互联网产品的非文本类产品信息存储在预设存储引擎的LFS中,因此,基于目标互联网产品的标识信息,从预设存储引擎的LFS中,获取目标互联网产品的非文本类产品信息。

在一些实施方式中,可以基于目标互联网产品的标识信息,根据预设频率,从预设存储引擎的LFS中获取目标互联网产品的非文本类产品信息。即定期访问预设存储引擎的LFS,以获取目标互联网产品的非文本类产品信息。在一个示例中,可以根据预设频率,从预设存储引擎的LFS中获取目标互联网产品更新的非文本类产品信息,从而降低数据处理量,提升检测速度。

在一些实施方式中,可以接收产品信息更新通知,基于目标互联网产品的标识信息判断其是否为目标互联网产品的产品更新通知,若是,根据产品信息更新通知,从预设存储引擎的LFS中获取目标互联网产品的非文本类产品信息。需要说明的是,LFS可以在其上存储的数据更新后,向互联网产品检测设备发送产品信息更新通知,互联网产品检测设备在接收到产品信息更新通知后,判断该产品信息更新通知是否属于目标互联网产品,如是,则根据产品信息更新通知,从预设存储引擎的LFS中获取目标互联网产品的产品信息。

步骤S22包括:基于预设搜索引擎,检测目标互联网产品的非文本类产品信息中,是否存在预设违规词。

在获取到目标互联网产品的非文本类产品信息后,基于预设搜索引擎,检测目标互联网产品的非文本类产品信息中,是否存在预设违规词。

在一些实施例中,由于非文本类产品信息并非文本形式的,因此,步骤 S22可以包括以下步骤:

步骤S221:对目标互联网产品的非文本类产品信息进行文字识别,以得到目标互联网产品的文本内容。

其中,可以通过OCR(Optical Character Recognition,光学字符识别)技术,对目标互联网产品的非文本类产品信息进行文字识别,以得到文本内容。当然,还可以通过其他技术,对目标互联网产品的非文本类产品信息进行文字识别,以得到文本内容。

步骤S222:基于预设搜索引擎,检测目标互联网产品的文本内容中,是否存在预设违规词。

其中,预设搜索引擎可以包括ES,即基于ES,检测目标互联网产品的文本内容中,是否存在预设违规词。在一些实施方式中,可以将目标互联网产品的文本内容存储至ES的数据库中;基于ES,在目标互联网产品的文本内容的存储区域中,搜索预设违规词;若在存储区域中,搜索到预设违规词,则判定目标互联网产品的文本内容中,存在预设违规词;若在存储区域中,未搜索到预设违规词,则判定目标互联网产品的文本内容中,不存在预设违规词。例如,假设将第一目标互联网产品的文本内容存储在ES数据库中的存储区域1,将第二目标互联网产品的文本内容存储在ES数据库中的存储区域 2,在存储区域1、2中分别搜索预设违规词,若存储区域1中搜索到预设违规词,则第一目标互联网产品的文本内容中,存在预设违规词;若存储区域2 中没有搜索到预设违规词,则第二目标互联网产品的文本内容中,不存在预设违规词。

在一些实施方式中,预设搜索引擎可以包括两种搜索引擎,一种为ES,另一种为除ES外的搜索引擎,其中,将目标互联网产品的文本内容存储至 ES,基于ES,检测目标互联网产品的文本内容是否有预设关键词;基于除 ES外的搜索引擎,检测目标互联网产品的文本类产品信息中是否有预设关键词,若有,将目标互联网产品的文本类产品信息存储在ES中。

考虑到对非文本类产品信息进行文字识别得到的文本内容可能出现错误,因此,在一些实施方式中,在步骤S222之前,还可以包括以下步骤:对目标互联网产品的文本内容进行校验。

步骤S23包括:若目标互联网产品的非文本类产品信息中存在预设违规词,则获取目标互联网产品对应的目标联系人信息。

本发明实施例提供的违规词检测方法中,对于非文本类产品信息,从预设存储引擎的LFS中,获取目标互联网产品的非文本类产品信息,对目标互联网产品的非文本类产品信息进行文字识别,以得到文本内容,基于预设搜索引擎,检测目标互联网产品的文本内容中,是否存在预设违规词;若目标互联网产品的非文本类产品信息中存在预设违规词,获取目标互联网产品对应的目标联系人信息,基于目标联系人信息,将目标互联网产品的产品信息进行上报,从而实现对非文本类产品信息的检测。

违规词检测装置实施例:

参照图5,图5为本发明违规词检测装置第一实施例的结构框图,其中违规词检测装置包括:

第一获取模块51,用于基于目标互联网产品的标识信息,从预设存储引擎中,获取目标互联网产品的产品信息,预设存储引擎中包括多个互联网产品的产品信息。

检测模块52,用于基于预设搜索引擎,检测目标互联网产品的产品信息中是否存在预设违规词。

第二获取模块53,用于若目标互联网产品的产品信息中存在预设违规词,则获取目标互联网产品对应的目标联系人信息。

上报模块54,用于基于目标联系人信息,将目标互联网产品的产品信息进行上报。

需要说明的是,违规词检测装置还可选的包括有对应的模块,以实施上述违规词检测方法的其他步骤。

需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备执行本发明各个实施例所述的方法。

以上所述仅为本发明的可选实施例,并非因此限制本发明的专利范围,凡是在本发明的发明构思下,利用本发明说明书及附图内容所作的等效结构变换,或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。

相关技术
  • 违规词检测方法、装置、设备及计算机可读存储介质
  • 违规话术检测方法、装置、设备及计算机可读存储介质
技术分类

06120112986071