掌桥专利:专业的专利平台
掌桥专利
首页

舆情云平台接入的舆情系统资源配置的优化方法及子系统

文献发布时间:2023-06-19 11:45:49


舆情云平台接入的舆情系统资源配置的优化方法及子系统

技术领域

本发明涉及网络舆情信息或数据管理领域,具体涉及一种舆情云平台接入的舆情系统资源配置的优化方法及子系统。

背景技术

由于各个接入舆情云平台的舆情系统,是不同的舆情公司所运营,为了给原客户提供完整的网络舆情技术服务,势必在网络舆情数据采集方面和网络舆情数据分析模型研发方面存在大量冗余,并且从网络舆情服务行业整体上看存在大量技术资源的冗余投入,主要体现在两个方面:

一方面在网络舆情数据采集方面存在大量冗余,由于需要采集的目标互联网平台的设置上存在重复,特别是对主要互联网平台的采集上存在重复设置,大量的网站被重复采集,从整体上而言存在网络硬件和资源的重复投入。

另一方面在网络舆情数据分析模型研发投入上存在大量冗余,类似于信息聚类、正负面判断、传播路径等基础数据分析模块被各个舆情公司重复研发,存在研发资源的浪费。

所以,按照传统的网络舆情技术服务模式,是由各个舆情公司直接面向用户单位提供服务,不但每个舆情公司在市场营销方面的成本投入较大,而且从网络舆情服务市场的全局来看存在巨大的技术资源和研发投入的浪费。

发明内容

本发明的目的在于提供一种能降低各接入舆情系统技术资源和研发投入的方法及子系统。

本发明提供的这种舆情云平台接入的舆情系统资源配置的优化方法,包括:

舆情云平台对一段时间内各接入舆情系统相互转发的网络舆情数据进行分析,就各个接入舆情系统所配置的采集网站的范围进行协商协同,从而提高整体网络舆情数据采集效率;

舆情云平台对各接入舆情系统的网络舆情数据分析模型的采用情况进行分析,从中筛选出低采用率的网络舆情数据分析模型并给相应舆情系统反馈,从而提高各个接入舆情公司的投入产出效率。

通过对一段时间内各接入舆情系统的通过舆情云平台相互转发的网络舆情数据进行分析后,就各个接入舆情系统所配置的被采集网站的范围进行协商协同后减少冗余。

对各舆情系统采集网站的范围进行协商协同时:

将每个网站被配置为采集目标网站的舆情系统的个数取平均值为平均配置率,即:

平均配置率=被配置为采集目标网站的舆情系统的个数/被配置为采集目标网站之和

筛选配置率高于平均配置率2倍的网站为高配置率采集网站,

筛选配置率低于平均配置率1/2的网站为低配置率采集网站,

若高配置率采集网站的采集频率高于数据更新频率,向相关接入舆情系统的舆情公司推送减少配置的建议,

将低配置率的采集网站按类推送至相应接入舆情系统的舆情公司,建议将相应的低配置率网站增加为采集网站。

通过舆情云平台网络舆情数据分析模型统一运行环境归集各个接入舆情系统的网络舆情数据分析模型后,通过统计一段时间以内用户单位或各接入舆情系统对共享在舆情云平台上的网络舆情数据分析模型的采用率,筛选采用率低于平均采用率1/2的的网络舆情数据分析模型并反馈至相应的舆情系统。

本发明还提供了一种网络舆情云平台优化接入舆情系统配置的子系统,包括

网络舆情数据采集推荐模块,向各接入的舆情系统推送采集网站的配置优化建议;

网络舆情数据分析模型推荐模块,向各接入舆情系统推送网络舆情数据分析模型研发投入的优化建议。

本发明通过针对各接入舆情系统网络舆情数据采集策略推荐优化配置时,通过对一段时间内各接入舆情系统的通过舆情云平台相互转发的网络舆情数据进行分析,对各个接入舆情系统的数据采集策略提出优化配置建议,促进各个接入舆情系统在网站数据采集方面协同配合,从而即提高整体网络舆情数据采集效率。归集接入舆情云平台各舆情系统的网络舆情数据分析模型,从中筛选出低采用率的网络舆情数据分析模型并反馈給相关接入舆情系统,建议其调整相关模型的研发投入至舆情系统,从而减少舆情系统对应的主体舆情公司的各类投入。

附图说明

图1为本发明一个优选实施例中方法的流程图。

图2为本优选实施例中网络舆情数据共享交换机制框图。

具体实施方式

如图1所示,本实施例提供的这种舆情云平台接入的舆情系统资源配置的优化方法对接入舆情系统配置进行整体优化,从而提高各个接入舆情系统的投入产出效率。

在进行针对各接入舆情系统网络舆情数据采集策略推荐优化配置时,一方面通过对一段时间内各接入舆情系统的通过舆情云平台相互转发的网络舆情数据进行分析,对各个接入舆情系统的数据采集策略提出优化配置建议,促进各个接入舆情系统在网站数据采集方面协同配合,从而即提高整体网络舆情数据采集效率;另一方面归集接入舆情云平台各舆情系统的网络舆情数据分析模型,并从中筛选出一段时间内低采用率的网络舆情数据分析模型并反馈給相关接入舆情系统,建议其调整相关模型的研发投入。

对归集的网络舆情数据采集模型去冗过程中,采集网站的范围进行协商协同后减少冗余。协商协同时筛选配置率高于平均配置率2倍的网站为高配置率采集网站,筛选配置率低于平均配置率1/2的网站为低配置率采集网站,若高配置率采集网站的采集频率高于数据更新频率,则向相关接入舆情系统的舆情公司推送减少配置的建议,将低配置率的采集网站按类推送至相关接入舆情系统建议增加配置为采集网站。

其中,平均配置率=被配置为采集目标网站的舆情系统的个数/被配置为采集目标网站之和。

减少冗余过程中,舆情云平台从一段时间的有效舆情数据中可以分析出各个接入舆情系统所设置的采集网站的范围和采集频率。筛选出一些被大部分舆情系统设置为网络舆情数据采集范围的网站,从整体而言由于综合采集频率大大高于这些网站的数据更新频率,而各个接入舆情系统由于网络舆情数据交换共享机制,完全可以放弃设置部分从整体上而言采集频率过高的网站,而不用担心由于放弃采集而导致自身重要信息漏采的问题。与此同时,舆情云平台还可以分析出各个网站都相对较少配置的采集网站,并根据各个接入舆情系统现有的采集网站的配置情况,对这些较少被采集的网站进行划分,推荐相关接入舆情系统将这些配置成为被采集网站。由此通过推荐相关接入舆情系统减少和增加相关被采集的网站,从而做到从整体上优化所有接入舆情系统的整体采集效能,而不牺牲采集的范围和实效性。

网络舆情数据共享交换机制,主要包含舆情关键词标准、舆情数据格式标准、舆情数据交换标准等。同时,对舆情数据进行标准化约束后,进一步构建舆情核心数据库,从而为用户与用户、用户与平台之间舆情数据的共享和交换提供通道,如图2所示。

舆情关键词标准。由于各舆情厂商采集的关键词数据来源及类型较多,且会存在大量重复数据,因此本平台制定了相应的网络舆情关键词标准。如关键词“安化+(贪官|假冒伪劣|学术造假)”,即表示“安化贪官”,“安化假冒伪劣”,“安化学术造假”。通过这种方式能够把多个关键词连接成一个字符串,且能够直观地了解关键词之间的关系。各厂商首先需对各自的关键词数据进行去停用词和去除重复数据处理,再将关键词数据格式更改为满足平台标准要求后才可上传至平台,从而提高数据的质量及规范化水平。

舆情数据格式标准。针对各舆情厂商提供的舆情数据格式不统一问题,制定相应的格式标准来对网络舆情数据的格式进行约束,如表1所示。

表1网络舆情数据格式标准要求字段

在将舆情数据上传至平台前,各厂商应按照此标准调整舆情数据的格式,并将字段与舆情数据中相应的内容进行拼接,以JSON或XML的形式上传至平台。通过这种方式不仅能够方便平台对舆情数据进行存储和管理,也使得用户能够清晰直观地了解舆情数据的相关信息。

舆情数据交换标准。本标准中,在用户按照数据格式标准向平台提交数据后,平台将会根据用户所提供的数据计算关键词的相关度及相似性指标,根据相关度以及相似性指标对数据进行审核。审核通过后,平台会将分析结果和原数据一起存入数据库中。当用户需要利用平台获取舆情数据时,只需将关键词发送给平台,平台再将请求转发给其它舆情厂商。当其它舆情厂商上传相应的数据后,平台首先会对厂商上传的数据进行审核,审核通过后会将舆情厂商提供的数据、平台舆情核心数据库中相应的数据以及平台的数据分析结果一起返回给用户,最大化程度上满足用户的需求,同时也能够为用户进行数据筛选及分析工作提供便利。

对归集的网络舆情数据分析模型去冗过程中,收集用户单位或各接入舆情系统对共享在舆情云平台上的网络舆情数据分析模型的采用率率,筛选采用率低于平均采用率1/2的网络舆情数据分析模型并反馈至舆情系统。

网络舆情数据采集推荐模块,用于向各接入的舆情系统推送采集网站的配置优化建议;筛选出一些被大部分舆情系统设置为网络舆情数据采集范围的网站,以及各个舆情系统都相对较少配置的采集网站。由此通过推荐相关接入舆情系统减少和增加相关采集网站。

网络舆情数据分析模型推荐模块,用于向各接入舆情系统(舆情公司)推送网络舆情数据分析模型研发投入的优化建议。各个接入舆情系统(舆情公司)将各自研发的网络舆情数据分析模型提交到系统后。该模块对一段时间用户单位或其它接入舆情系统对各个接入舆情系统所提交的网络舆情数据分析模型的采用情况,从整体上分析分析模型的种类和数量上的重复情况。从中挑选出用户单位或其它接入舆情系统采用率较低的网络舆情数据分析模型,并建议提交这些模型的接入舆情系统(舆情公司)减少这些数据分析模型的研发投入。通过协调各个接入舆情系统减少重复投入,各自集中资源开展协同技术攻关,以优势互补的方式做到从整体上优化所有接入舆情系统的网络数据模型研发资源的投入效能,而不牺牲整体上网络舆情数据分析模型的多样性、先进性和用户单位满意度。

相关技术
  • 舆情云平台接入的舆情系统资源配置的优化方法及子系统
  • 一种网络舆情云平台接入运行效能的评估方法及系统
技术分类

06120113047400