基于机器学习的政务信息推送方法、装置和计算机设备

文献发布时间：2023-06-29 06:30:04

技术领域

本申请涉及机器学习技术领域，特别是涉及一种基于机器学习的政务信息推送方法、装置和计算机设备。

背景技术

政务信息是信息的一个重要门类，是政务活动中反映政务工作及其相关事物的情报、情况、资料、数据、图表、文字材料和音像材料等的总称。当某项政务商议完成，需要对该政务进行发布，使人民群众和政府办事人员获知。

随着国家电子政务、数字政府和数字中国等大数据、智慧政务的深入推进，各级政府部门将政策法规、新闻报道和标准规范越来越多通过网络的形式面向公众宣传和推送，政务的发布已由最初的纸质文件发布扩展到了网络发布，由此产生了大量政府公文公告。

政府部门经过长期发展，记录了大量相关部门的政务数据，这些都是政府部门进行管理的重要依据。政务数据涉及的数据量大、数据类型多、来源广泛、数据格式复杂，随着大数据和互联网的发展，政府、社会对挖掘各部门领域的政务数据价值的需求越来越大。据不完全统计，国家部委在近五年通过政府公开网站发布的公文数量就超过10万篇。

面对日益繁重的政务公文文本数据信息，利用现有的政务数据系统将每个政务文件正确、高效地分类，并主动推送给相应企业变得十分困难，这使得企业难以精准获取与自身相匹配的政务信息。举例来说，中国专利文献CN202210808392.9公开了一种根据地域的政务信息推送方法，其包括步骤一：建立地域之间的从属关系模型，并通过地域之间的从属关系模型对各个地域之间的关联性进行确定；步骤二：获取所发布的政务信息内容，提取政务信息内容中的关键特征，并将关键特征输入至从属关系模型内；步骤三：通过从属关系模型输出政务信息对各个地域的影响，并在政务信息内容内，将关键词特征对应的政务信息内容部分进行标记，并推送至指定区域内的终端。

利用该方法，只能将政务内容推送至相应的地域的所有用户，而无法将政务内容中只推送给地域内相匹配的企业。庞大的信息使得地域内企业要仔细阅读公文信息来筛选出对自己有用的内容，这个过程中会浪费大量的人力资源，加大了企业的人力成本。

发明内容

基于此，针对上述技术问题，提供一种基于机器学习的政务信息推送方法、装置和计算机设备，以解决现有的政务数据系统难以将每个政务文件正确、高效地分类并主动推送给相应企业的技术问题。

为了实现上述目的，本申请提供如下技术方案：

第一方面，一种基于机器学习的政务信息推送方法，包括：

获取政务信息推送区域内多个企业的信息；

根据所述多个企业的信息，将所述多个企业划分为多个企业群组；

采集政务信息，对采集到的政务信息进行清洗；

对进行清洗后的政务信息通过相似度计算进行分类，并根据预先建立的政务标签库中包含的政务类别标签，对每一类政务信息进行标签标注；

将进行标签标注后的政务信息输入到机器学习模型中，训练得到政务分类模型；

接收待推送政务文件，将所述待推送政务文件输入到所述政务分类模型中，得到所述待推送政务文件中的每个段落内容的政务类别分类结果；

将所述待推送政务文件中的每个段落内容根据相应政务类别推送给相应企业群组。

可选地，所述采集政务信息包括：

通过网络爬虫技术，捕获网络中的政务公开信息；

通过标准API获取外部政务系统的数据。

进一步可选地，所述政务公开信息包括政策法规、营商环境和专家共识。

可选地，所述机器学习模型使用的算法为分类算法或回归算法。

可选地，具体是利用HanLP算法进行相似度计算。

可选地，所述方法还包括：

采用深度学习评估方法，对所述政务分类模型的效果进行评估。

可选地，所述方法还包括：

定期更新采集到的政务信息和所述政务分类模型，对所述政务分类模型进行维护。

可选地，所述方法还包括：

将所述待推送政务文件的分类结果存储到关系型数据库中。

第二方面，一种基于机器学习的政务信息推送装置，包括：

企业信息获取模块，用于获取政务信息推送区域内多个企业的信息；

企业划分模块，用于根据所述多个企业的信息，将所述多个企业划分为多个企业群组；

政务信息采集模块，用于采集政务信息，对采集到的政务信息进行清洗；

相似度计算模块，用于对进行清洗后的政务信息通过相似度计算进行分类，并根据预先建立的政务标签库中包含的政务类别标签，对每一类政务信息进行标签标注；

模型训练模块，用于将进行标签标注后的政务信息输入到机器学习模型中，训练得到政务分类模型；

待推送政务文件分类模块，用于接收待推送政务文件，将所述待推送政务文件输入到所述政务分类模型中，得到所述待推送政务文件中的每个段落内容的政务类别分类结果；

推送模块，用于将所述待推送政务文件中的每个段落内容根据相应政务类别推送给相应企业群组。

第三方面，一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现第一方面中任一项所述的方法的步骤。

本发明至少具有以下有益效果：

在本发明实施例提供的一种基于机器学习的政务信息推送方法中，采用获取政务信息推送区域内多个企业的信息，将多个企业划分为多个企业群组，采集政务信息并进行清洗，对进行清洗后的政务信息通过相似度计算进行分类，对每一类政务信息进行标签标注，训练得到政务分类模型，将待推送政务文件输入到政务分类模型中，得到待推送政务文件中的每个段落内容的政务类别分类结果，将待推送政务文件中的每个段落内容根据相应政务类别推送给相应企业群组；能够利用机器学习模型对政务文件进行正确、高效的分类，并且在分类后还能将政务文件中的各个段落内容主动推送给相应企业，无需企业人工阅读公文信息来筛选对自己有用的内容，减少了企业的人力成本，有效提升了政务工作执行的效率与质量，降低了政务工作落实的负担与成本。

附图说明

图1为本发明一个实施例提供的一种基于机器学习的政务信息推送方法的流程示意图；

图2为本发明一个实施例提供的一种基于机器学习的政务信息推送装置的模块架构框图；

图3为本发明一个实施例提供的一种计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图1所示，提供了一种基于机器学习的政务信息推送方法，包括以下步骤：

S101，获取政务信息推送区域内多个企业的信息。

其中，企业信息包括企业名称、所属行业、企业经营内容等

S102，根据多个企业的信息，将多个企业划分为多个企业群组。

也就是将用一类型的企业划分到同一企业群组中，同一企业群组内的企业可能需要的政务信息类似或相同。

S103，采集政务信息，对采集到的政务信息进行清洗。

需要收集大量的政务数据，同时收集到的数据中可能会存在脏数据，需要对数据进行清洗，去除无用信息和异常值。

其中，采集政务信息包括：

通过网络爬虫技术，捕获网络中的政务公开信息；政务公开信息包括政策法规、营商环境和专家共识；

通过标准API获取外部政务系统的数据。

也就是说，可以运用面向多种数据源、多种方法进行数据全量采集，贯穿政务数据的整个生命周期。通过采集足够全面的属性、维度、指标，建立政务数据资产体系。多源数据汇聚方面，通过SDK埋点技术，采集用户访问行为数据，分析UV、PV等用户访问指标；通过网络爬虫技术，捕获网络数据，用于舆情信息监测，以及政策法规、营商环境等政务公开信息获取；通过标准API获取外部政务系统数据。数据分析方面，通过数据分析规则实现多维度、多视角的数据分析，深入挖掘关联数据的潜在价值；支持海量数据信息的并行实时计算处理技术，大幅提高数据分析与处理效率。

S104，对进行清洗后的政务信息通过相似度计算进行分类，并根据预先建立的政务标签库中包含的政务类别标签，对每一类政务信息进行标签标注。

其中，具体是利用HanLP算法进行相似度计算。

可以综合运用基于快速相似度计算的实体匹配规则方法和基于规则的实体匹配方法，构建面向政务绩效管理、政务督查、财政评估、预算绩效分析等分析模型与知识条目。针对不同应用场景，通过文本匹配器、结构匹配器和基于示例的匹配器，以及映射关系和相似度算法模型，计算知识信息与业务信息相似度，从而实现精准化服务推送。通过海量业务数据中查找匹配实例对，对匹配实例对的特征分析，基于统计算法、聚类算法、深度学习、神经网络等智能算法，自我学习并完善匹配规则算法，随着业务数据量增加，算法规则也随之迭代。

S105，将进行标签标注后的政务信息输入到机器学习模型中，训练得到政务分类模型。

其中，机器学习模型使用的算法为分类算法或回归算法。

S106，接收待推送政务文件，将待推送政务文件输入到政务分类模型中，得到待推送政务文件中的每个段落内容的政务类别分类结果。

待推送政务文件中一般会包含若干段内容，或者说是若干点内容，每一点内容可能是针对不同行业、企业的。通过政务分类模型能够对待推送政务文件中的每一段进行分类贴标签，可以知道待推送政务文件中的每一段内容的类别，从而能够更好地对该政务文件进行精准推送。

S107，将待推送政务文件中的每个段落内容根据相应政务类别推送给相应企业群组。

根据待推送政务文件每一段落的分类结果，将待推送政务文件的各段内容可以分别推送给所需要企业群组内的所有企业，从而将训练好的模型部署到实际应用中，用来进行精准推送政务服务。

进一步地，该方法还包括：

采用深度学习评估方法，对政务分类模型的效果进行评估。

其中，深度学习评估方法具体为交叉验证法、留出验证法或预测验证法。

进一步地，该方法还包括：

定期更新采集到的政务信息，对更新后的政务信息进行清洗、相似度计算分类、标签标注，并用更新后的政务信息再次训练政务分类模型以更新政务分类模型；对政务分类模型进行维护，以确保政务分类模型能够正常运行。

进一步地，该方法还包括：将待推送政务文件的分类结果存储到关系型数据库中。

在本发明中，为解决政务应用数据烟囱、信息孤岛现象，可以通过建立统一的数据标准接口规范，打通各系统间数据，实现数据整合、建模、展现，为各应用系统之间提供统一数据授权和有效访问数据和共享服务。数据管理方面，运用多源标准数据接口、可视化元数据管理、异构数据转换引擎，实现对不同来源(外部应用、网络爬虫、离线导入等)数据的统一存储与管理。数据访问层面，提供标准化数据资源服务目录；支持数据访问申请、申请审核、访问鉴权、访问审计等完整的访问管理；外部用户通过标准化访问接口，获取授权的数据资源信息。

通过数据标准的目录管理，能够根据标准的类型定义与属性的不同，将平台内所有的数据标准进行统一的标准目录管理，标准目录管理主要实现了对所有标准的统一编目，统一目录下模型管理等内容。目录的存在能够使得所有定义好的数据标准信息和资源发挥更好更精确的作用，基于标准的目录管理能力，能够将数据标准模块内的所有数据标准资源组合起来，进行集中式管理，一方面方便用户或者机器的资源搜索与使用，另外一方面，也保障了其更加严谨的安全控制。

本发明运用自然语言处理技术，通过在政务专业领域大量的经验积累，自主研发政务分词技术。该技术通过政府绩效、财政、政府督查、营商环境等专有词汇，以字词向量化为基础，利用多层卷积神经网络，训练得到垂直领域分词模型。从而提升政务专业领域的分词准确性、类目相关性。分词模型具备自学习、自组织能力，通过持续应用、学习、训练不断扩大计算结果集，进一步优化分词模型和准许性。该技术广泛应用于政府工作报告分解、敏感词监测、案例推荐、匹配查重等业务功能，有效提升政务工作的效率与质量，降低政务工作落实负担与成本。

上述一种基于机器学习的政务信息推送方法中，采用获取政务信息推送区域内多个企业的信息，将多个企业划分为多个企业群组，采集政务信息并进行清洗，对进行清洗后的政务信息通过相似度计算进行分类，对每一类政务信息进行标签标注，训练得到政务分类模型，将待推送政务文件输入到政务分类模型中，得到待推送政务文件中的每个段落内容的政务类别分类结果，将待推送政务文件中的每个段落内容根据相应政务类别推送给相应企业群组；能够利用机器学习模型对政务文件进行正确、高效的分类，并且在分类后还能将政务文件中的各个段落内容主动推送给相应企业，无需企业人工阅读公文信息来筛选对自己有用的内容，减少了企业的人力成本，有效提升了政务工作执行的效率与质量，降低了政务工作落实的负担与成本。

应该理解的是，虽然图1的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图2所示，提供了一种基于机器学习的政务信息推送装置，包括以下程序模块：

企业信息获取模块201，用于获取政务信息推送区域内多个企业的信息；

企业划分模块202，用于根据多个企业的信息，将多个企业划分为多个企业群组；

政务信息采集模块203，用于采集政务信息，对采集到的政务信息进行清洗；

相似度计算模块204，用于对进行清洗后的政务信息通过相似度计算进行分类，并根据预先建立的政务标签库中包含的政务类别标签，对每一类政务信息进行标签标注；

模型训练模块205，用于将进行标签标注后的政务信息输入到机器学习模型中，训练得到政务分类模型；

待推送政务文件分类模块206，用于接收待推送政务文件，将待推送政务文件输入到政务分类模型中，得到待推送政务文件中的每个段落内容的政务类别分类结果；

推送模块207，用于将待推送政务文件中的每个段落内容根据相应政务类别推送给相应企业群组。

关于一种基于机器学习的政务信息推送装置的具体限定可以参见上文中对于一种基于机器学习的政务信息推送方法的限定，在此不再赘述。上述一种基于机器学习的政务信息推送装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于机器学习的政务信息推送方法。

本领域技术人员可以理解，图3中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，涉及上述实施例方法中的全部或部分流程。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，涉及上述实施例方法中的全部或部分流程。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random AccessMemory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(StaticRandomAccessMemory，SRAM)或动态随机存取存储器(DynamicRandomAccessMemory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：杨超;高文飞;张荣;田野;
专利申请人：北京无代码科技有限公司;