掌桥专利:专业的专利平台
掌桥专利
首页

一种基于预训练模型的警情地址所属区域分类方法

文献发布时间:2024-04-18 19:58:30


一种基于预训练模型的警情地址所属区域分类方法

技术领域

本发明属于人工智能技术应用领域,特别是涉及一种基于预训练模型的警情地址所属区域分类方法。

背景技术

全国各地的发展日新月异,每天都可能会有大量新建社区、办公楼宇、娱乐场所、道路名、地址等。在城市区域,人口及其稠密,每天都会有海量的报警事件,每当接到报警事件时,警方会将警情地址归为若干区域,然后指派给该区域附近执勤的民警。目前均是以人工的方式,根据个人经验对警情地址划分区域,费时费力,有时候会比较容易出错;对于大量的报警地址数据准确及时的划分所属区域,有利于出警规划安排及提高出警效率。因此,对报警地址数据建立稳定可靠的所述区域分类模型,减少接警客服人员的工作量,提高出警效率及出警质量,维护公共安全尤为重要。

目前,警情地址所述区域划分都是以传统人工的方式,相应的研究也比较匮乏。对分类算法技术研究的比较多;比如,CN101201835A公开的应急联动警情自动分类系统,其具体是基于关键词匹配的方法实现;又如CN110990562A公开的警情分类方法及其系统,其具体是基于传统机器学习算法实现,上述技术方案都是老方法,或者在其它方面上的实际应用。最近几年人工智能技术发展迅速,有很多新的算法模型层出不穷;采用新的算法模型解决实际问题,有利于进一步提高准确率,提升出警效率和出警质量。

发明内容

本发明的目的就是为了克服现有技术存在的不足,提供一种基于预训练模型的警情地址所属区域分类方法,通过对警情地址及对应的所述区域数据处理,建立训练数据集、验证数据集、测试数据集,又通过更为先进的预训练深度学习网络分类模型Bert-Softmax建立预测模型,最后对模型评估、上线,具有针对性强的优点,能够一定程度上解决预测效果不如意的问题,满足接近系统警情地址所属区域分类的需求,从而解决了背景技术中的问题。

为解决上述技术问题,本发明是通过以下技术方案实现的:

本发明的一种基于预训练模型的警情地址所属区域分类方法,包括如下步骤:

S1、获取接警系统中警情地址及对应人工标注的所述区域数据;

S2、将原始警情地址及对应所属区域数据进行清洗、去重等预处理操作,得到同一规范化后的数据;

S3、抽取规范化后的数据为训练数据集、验证数据集、测试数据集;

S4、用训练数据集训练预训练深度学习网络分类模型Bert-Softmax,每批次训练深度学习网络分类模型后,用验证数据集校验该模型;

S5、模型训练完成后,用测试数据集测试模型得到模型评估结果;

S6、在评估结果达到要求后,上线模型,对线上的警情地址数据实时预测所属区域分类。

进一步地,所述S2步骤具体包括如下分步骤:

S21、数据清洗:删除无效数据以及不全数据;

S22、数据转换:将数据中的转义字符转换为正常字符;

S23、数据去重:删除警情地址以及所属区域完全一样的数据,只保留二者相同数据中的一条;

S24、处理为统一规范后的数据。

进一步地,所述S3步骤具体包括如下分步骤:

S31、规范化后的数据按所述区域、警情地址排序,根据一定步长从前往后均匀抽取一定数量的数据,保证抽取的样本数据分布与全量数据的分布一样;

S32、按照上述方法分别抽取训练数据集、验证数据集。测试数据集,数量比例视情况而定,三个数据集的数据不能够有交叉。

进一步地,所述S4步骤具体包括如下分步骤:

S41、用训练数据集分多批次训练预训练深度学习网络分类模型Bert-Softmax,每批次数据训练模型后用验证数据集校验模型,若校验结果有提升则保存模型,训练数据集每训练完成一遍则算是一轮;

S42、用训练数据反复训练多轮训练模型,直到多轮训练后校验结果再没有提升,训练结束。

进一步地,所述S5步骤具体是在模型训练完成后,用测试数据集测试模型得到模型评估结果:准确率、精确率、召回率、F1综合指标。

进一步地,所述S6步骤具体是在评估结果达到要求后,上线模型,对线上的警情地址数据实时预测,最终得到对应的所属区域。

本发明相对于现有技术包括有以下有益效果:

(1)本发明实现了对警情地址及对应的类别数据处理,建立训练数据集、验证数据集、测试数据集,又通过更为先进的预训练深度学习网络分类模型Bert-Softmax建立预测模型,最后对模型进行评估、上线,具有针对性强的优点,能够在一定程度上减少人力劳动,解决了划分效果不如意的问题,提高了出警效率,满足接警系统警情地址所属区域分类的需求;

(2)本发明利用预训练深度学习网络分类模型,能够快速有效的预测出警情地址对应的所属区域,响应速度快,针对性强,预测效果好。

当然,实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明的一种基于预训练模型的警情地址所属区域分类方法的流程框架图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。

本发明的实验测试是在2个8核CPU Intel(R)Xeon(R)CPU E5630@2.53GHz,2个GPUGeForce RTX 3090,Python的版本为Python3.11。

下面按照图1的流程框架图详细给出本发明技术方案中所涉及的各个步骤细节做出说明:请参阅图1所示,本发明的一种基于预训练模型的警情地址所属区域分类方法,包括以下步骤:

S1、获取接警系统中的警情地址及对应人工标注的所属区域数据。

举例来说,从接警系统数据库中,获取接警单表上警情地址及对应人工标注的所属区域数据,所属区域数据共有二级:所属热点区域、所属责任社区,如表1所示。

表1、接警单表上警情地址及对应人工标注的所述区域数据表

S2、将原始的警情地址与对应所属区域数据清洗、去重等预处理操作,得到统一规范化后的数据,具体为:

S21、数据清洗:删除无效数据、不全数据;

S22、数据转换:把数据中的转义字符转换为正常字符;

S23、数据去重:删除数据警情地址、所属区域完全一样的数据,只保留二者相同数据中的一条。举例来说,如表1中,第1、2条数据是一样的,删除重复的,只保留其中一条数据。

S24、处理为统一规范后的数据:具体为“所属热点区域”、“所属责任社区”二级类别数据依次用“--”拼接为一级类别,作为所属区域。如果不够二级的,有几级就拼接几级类别。举例来说,如表1中,第1条数据有二级类别,拼接为一级后“10+1商业大道--福建园街道办事处石柱岭社区责任区”,该拼接后的一级类别就是第1条数据对应的所属区域名称;

S3、抽取规范化后的数据为训练数据集、验证数据集、测试数据集,具体为:

S31、规范化后的数据按所属区域、警情地址排序,根据一定步长从前往后均匀抽取一定数量的数据,保证抽取的样本数据分布和全量数据的分布一样;

S32、按上述方法分别抽取训练数据集、验证数据集、测试数据集,数量比例视情况而定,三个数据集的数据不能有交叉;

举例来说,数据集共有30万条数据,分别抽3万条数据做训练数据集、验证数据集、测试数据集。从数据集抽取数据的步长为S=30/3=10,数据集索引为1、11、21、……、(N*S+1)的数据作为训练数据集,数据集索引为4、14、24、……、(N*S+4)的数据作为验证数据集,数据集索引为7、17、27、……、(N*S+7)的数据作为测试数据集,其中N是自然数。三个数据集取完后分别打乱顺序,以便使用。

S4、用训练数据集训练预训练深度学习网络分类模型(Bert-Softmax),每批次训练模型后用验证数据集校验模型,具体为:

S41、用训练数据集分多批次训练预训练深度学习网络分类模型Bert-Softmax,每批次训练模型后用验证数据集校验模型,如果校验结果有提升则保存模型,训练数据集每训练完成一遍算一轮,一批数据的大小根据硬件情况而定;

S42、用训练数据集反复多伦训练模型,直到多伦训练后校验结果再没有提升,训练结束,训练多少轮根据具体情况而定;

举例来说,3万条数据每批次100条数据,分300批次训练模型。每批次训练完成后,校验结果的损失函数得分比上次保存模型时有下降,并且F1综合指标得分比上次保存模型时有上升,则保存模型,同时保存损失函数得分和F1综合指标得分。

S5、模型训练完成后,用测试数据集测试模型得到模型评估结果;具体为:模型训练完成后,用测试数据集测试模型得到模型评估结果:准确率、精确率、召回率、F1综合指标。

S6、评估结果达到要求后,上线模型,对线上的警情地址数据实时预测所属区域分类,具体为:评估结果达到要求后,比如F1综合指标得分达到80%以上,上线模型。通过接口服务的形式,对线上的警情地址数据实时预测,最终得到对应的所属区域。

综上,本发明的基于预训练模型的警情地址所属区域分类方法可以准确地识别出所属区域,简单而高效,对接警系统中的警情地址数据所属区域分类起到了重要的作用。

以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

相关技术
  • 基于预训练语言模型的学生模型训练方法和文本分类系统
  • 一种基于区块链的跨区域警情控制平台及方法
技术分类

06120116505232