掌桥专利:专业的专利平台
掌桥专利
首页

一种基于自然语言处理技术和大数据分析的科创服务平台

文献发布时间:2023-06-19 12:07:15


一种基于自然语言处理技术和大数据分析的科创服务平台

技术领域

本发明涉及大数据信息网络技术领域,特别涉及一种基于自然语言处理技术和大数据分析的科创服务平台。

背景技术

大数据正在改变信息社会,我们正从IT时代走向DT时代。积极建设一个以数据驱动的运营体系、创新创业生态、大数据产业链、政务数据共享交换、智慧城市大数据支撑平台为核心目的的大数据全产业链的生态环境。

以“一点创新,全盘激活”为引导思路,“一平台,多应用”为框架设计思路,在人才培育体系建立、就业岗位增加、产业发展空间和产值提升等方面真切的做到为政府提供全方位的服务,从而为产业发展现状形成标杆性的发展格局,夯实大数据产业发展基础。因此而提出本发明。

发明内容

本发明要解决的技术问题是提供一种支撑政府在更高的平台上实现经济可持续发展,为产业转型升级提供经验和启示的基于自然语言处理技术和大数据分析的科创服务平台。

为了解决上述技术问题,本发明的技术方案为:一种基于自然语言处理技术和大数据分析的科创服务平台,包括相互互联网连接的基础设施层、大数据平台层以及大数据应用层;

所述基础设施层依托于分布式存储架构,建立基础设施框架,从而为大数据平台层提供一个稳定可靠、高性能、扩展性强、易于管理的基础设施层;

所述大数据平台层用于提供了包括数据接入、分析、共享和平台管理在内的大数据分析处理功能;

所述大数据应用层用于提供的各种大数据应用来充分展示大数据平台层的数据处理能力和共享能力。

所述基础设施层包括互联网分布式采集系统、互联网门户网站信息获取接入系统、网络社交论坛信息获取系统及微博信息获取系统;

所述互联网分布式采集系统用于采用分布式网络采集框架对互联网数据的获取;

所述互联网门户网站信息获取接入系统是利用分布式网页采集技术,以及基于行业领域字库的模式识别技术,实现对各类新闻门户网站、行业领域专业门户网站等相关B/S网页进行实时解析获取符合条件的数据;

网络社交论坛信息获取系统是通过网页的采集技术获取互联网中的社交论坛信息;

所述微博信息获取系统是利用采集工具对新浪微博的网页采集方式,对微博用户发布的信息进行实时的采集,微博信息可以进行基础的统计分析,为未来深层次利用做好准备。

所述大数据平台层包括SOA框架系统、分布式异构存储系统及高效算法和分布式计算框架系统;

所述SOA框架系统采用基于政务服务总线GSB及政务数据总线GDB双总线架构的SOA框架;政务数据总线GDB用于数据的接入和交换,政务服务总线GSB用于对内对外的提供统一的服务接口。

所述分布式异构存储系统采用经过深度优化的HDFS、HBase与集群关系数据库相结合的异构存储方案,利用基于内存交换技术的高速缓存和高性能数据中间件实现了高并发的异构存储体系系统;

所述高效算法和分布式计算框架系统是利用MapReduce和Spark的高效分布式计算框架,实现各类复杂数据挖掘和分析需求。

所述大数据应用层包括元数据管理系统及元数据服务管理系统;

所述元数据管理系统是基于Web浏览器端,向后台系统管理员提供对元数据文件导入的功能,基于单机版元数据编辑器,向后台系统管理员提供对数据描述元数据的创建编辑保存功能,提供基于元数据检索、元数据入库存储、元数据修改删除功能的元数据管理WebService服务;

所述元数据服务管理系统是基于Web浏览器端,向后台系统管理员提供启停元数据服务的功能。

与现有技术相比,本发明的有益效果为:

本发明承担了智慧城市底层支撑、政务数据共享交换、互联网数据存储、数据访问接口等多个核心业务需求,平台自身需要具备和采用先进的经过深度优化大数据技术、分布式存储计算和算法模型、高并发和快速响应的高速缓存架构等,建设一个基于SOA框架的大数据能力核心平台,作为整个项目的数据智慧处理中心,需要支持多种数据源的汇集(政务数据、互联网数据、行业数据等),支持不同的数据格式(结构化数据、非结构化数据以及流数据等)。在繁杂的数据接入要求的情况下,采用基于总线机制的数据接入系统,可以快速有效的完成数据接入的要求以及提供丰富和灵活的扩展性。

附图说明

图1为本发明的系统结构框图;

图2为本发明的基础设施层的系统结构框图;

图3为本发明的大数据平台层的系统结构框图;

图4为本发明的大数据应用层的系统结构框图。

具体实施方式

下面结合附图对本发明的具体实施方式作进一步说明。在此需要说明的是,对于这些实施方式的说明用于帮助理解本发明,但并不构成对本发明的限定。此外,下面所描述的本发明各个实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互组合。

请参照图1-4,本发明的一种基于自然语言处理技术和大数据分析的科创服务平台,包括相互互联网连接的基础设施层1、大数据平台层2以及大数据应用层3;基础设施层1依托于分布式存储架构,建立基础设施框架,从而为大数据平台层2提供一个稳定可靠、高性能、扩展性强、易于管理的基础设施层1;大数据平台层2用于提供了包括数据接入、分析、共享和平台管理在内的大数据分析处理功能;大数据应用层3用于提供的各种大数据应用来充分展示大数据平台层2的数据处理能力和共享能力。

基础设施层1包括互联网分布式采集系统、互联网门户网站信息获取接入系统、网络社交论坛信息获取系统及微博信息获取系统;互联网分布式采集系统用于采用分布式网络采集框架对互联网数据的获取;对互联网数据的获取主要依赖于网络采集技术实现。创新创业大数据平台采用先进的分布式网络采集框架,由框架完成采集的统一调度、管理和维护工作,以及被采集数据的统一存储工作。采集使用者只需要进行简单的配置或开发极少量脚本代码即可完成一个复杂页面甚至网站的抓取工作。另外,平台在合法范围内适当利用反防采集技术,如验证码识别、动态IP、动态用户等,从而保障互联网数据的有效获取,减少人工干预,节约成本。平台提供部分互联网门户网站、网络社交论坛、微博等系统的采集,并采集相应数据以供平台使用。对于以后新增的应用,如果需要用到其他网站的数据,则可以基于采集框架,使用平台提供的SDK套件开发相应的采集工具。

互联网门户网站信息获取接入系统是利用分布式网页采集技术,以及基于行业领域字库的模式识别技术,实现对各类新闻门户网站、行业领域专业门户网站等相关B/S网页进行实时解析获取符合条件的数据;利用分布式网页采集技术,以及基于行业领域字库的模式识别技术,实现对各类新闻门户网站、行业领域专业门户网站等相关B/S网页进行实时解析获取符合条件的数据。互联网门户网站信息采集的对象如新华网、人民网、中国新闻网、新浪网、搜狐网、腾讯网、网易网、凤凰网、省级新闻网等各大综合类新闻网站的实时监控,获取符合条件的电子政务相关的信息。对中国气象网、中国地震台网、交通网、减灾网等行业领域门户网站的实时监控,获取气象、地震、交通、自然灾害信息。其他政府期望及时获取的有价值互联网信息等。

网络社交论坛信息获取系统是通过网页的采集技术获取互联网中的社交论坛信息;与门户网站信息获取方式类似,网络社交论坛信息获取同样通过网页的采集技术获取互联网中的社交论坛信息。主要提供对天涯社区、猫扑社区、搜狐论坛、凤凰论坛、网易论坛、新浪论坛、凯迪社区、强国论坛、中华网论坛、新华网论坛、环球网论坛、红网论坛等众多主流论坛的信息进行实时监控,获取符合条件的电子政务相关的信息。对搜狗说吧、百度贴吧等公共交流平台中的信息进行监控,获取网民反映电子政务相关的信息内容。

微博信息获取系统是利用采集工具对新浪微博的网页采集方式,对微博用户发布的信息进行实时的采集,微博信息可以进行基础的统计分析,为未来深层次利用做好准备。

大数据平台层2包括SOA框架系统、分布式异构存储系统及高效算法和分布式计算框架系统;

SOA框架系统采用基于政务服务总线GSB及政务数据总线GDB双总线架构的SOA框架;政务数据总线GDB用于数据的接入和交换,政务服务总线GSB 用于对内对外的提供统一的服务接口。

分布式异构存储系统采用经过深度优化的HDFS、HBase与集群关系数据库相结合的异构存储方案,利用基于内存交换技术的高速缓存和高性能数据中间件实现了高并发的异构存储体系系统;

高效算法和分布式计算框架系统是利用MapReduce和Spark的高效分布式计算框架,实现各类复杂数据挖掘和分析需求。

大数据应用层3包括元数据管理系统及元数据服务管理系统;

元数据管理系统是基于Web浏览器端,向后台系统管理员提供对元数据文件导入的功能,基于单机版元数据编辑器,向后台系统管理员提供对数据描述元数据的创建编辑保存功能,提供基于元数据检索、元数据入库存储、元数据修改删除功能的元数据管理WebService服务;

元数据服务管理系统是基于Web浏览器端,向后台系统管理员提供启停元数据服务的功能。

对互联网信息的接入将在信息资源的规模上对大数据提供更加丰富的数据资源。本系统将对互联网门户网站、网络社交论坛、微博舆论信息等相关信息资源进行接入。

数据分析不能一概而论,数据分析需要有基础算法的支撑。随着数据集规模和复杂度的持续上升,对算法要求也越来越高。创新创业大数据平台采用基于Hadoop技术架构的处理技术,为数据分析师及开发者提供几十种具备自主知识产权的分布式算法。平台提供相应的SDK开发工具套件及算法调用API,从而让各种应用能够方便的使用平台数据及其算法。拥有基础算法的支持仅仅完成了数据分析和挖掘的第一步,对于每一个具体的基于数据的应用系统,都需要根据其自身特点建立相应的分析模型,才能够有效的支撑应用系统。简单的说,分析模型可以看作是由一个或多个基础算法组合而成,基础算法提供了大量的中间结果,而模型则将大量的中间结果处理为最终结果。

大数据平台提供的三种分布式计算框架为平台提供了强大的分布式计算能力,从而为各种基于数据的应用提供了基本的运行环境;同时,基础算法库中大量的分布式算法实现则为数据分析模型的建立提供了底层的工具支撑。为了让平台的计算能力和算法分析能力应用到实际业务之中,还需要通过研发人员开发出使用这些计算能力和算法库的分析程序。

数据展示主要是将数据种类、描述、样例、历史访问量等信息展示给客户,以方便用户的分析使用。具体包括数据的分类显示数据的分类会出现页面的头部导航栏,当用户把鼠标放到某一大分类出,弹出当前大分类下的所有子分类,用户点击子分类进入当前子分类有关数据的详细列表页面。

数据过滤是提供标签过滤功能,用户点击其中某个标签,会按照此标签以及之前的过滤标签重新过滤目标数据。目标数据的将以标签匹配的数据标题的关键字查找出来,以列表的形式展示出来,以供用户选择。

数据查找是提供查找功能,用户通过页面的搜索查找有关输入关键字所匹配的数据,搜索框前可以选择搜索数据的标题还是搜索详情,默认的是标题的关键字,输入数据的关键字,根据程序的处理搜索有关数据的关键字匹配,以列表的形式展示出来以供用选择。

数据列表是展示当前用户选择的或者默认的分类下的所有的数据,会以列表分页的形式展示,按照时间默认排序。当前列表会展示数据的一些基本信息“数据的标题、数据质量的评分、数据的图片、数据的访问量以及数据的简单描述”;如果当前登录的用户为创新工场的用户,创新工厂用户进入API列表, api标题后会多出金银铜等级,只有符合当前等级的用户才可以调用当前的API 数据。

数据详细信息是点击数据的标题进入当前数据的详细信息页面。会显示当前数据的详细信息,包括“数据的图片、数据的标题、数据的价值、数据来源、数据上架的时间、数据的大小、当前数据的下载量、数据的简短描述、当前数据的完整性(八个指标)、收藏、推荐有关当前数据的相关数据、数据的详细信息、访问过的用户对当前数据的评论信息。

数据的检索包括,标签的筛选,数据的关键字及详细信息的搜索。用户点击其中某个标签,会按照此标签以及之前的过滤标签重新过滤目标数据。

目标数据是将以标签匹配的数据标题的关键字查找出来。搜索框前可以选择搜索数据的标题还是详细信息,默认的是标题的关键字,输入数据的关键字,根据程序的处理搜索有关数据的关键字匹配,以列表的形式展示出来以供用选择。

以上结合附图对本发明的实施方式作了详细说明,但本发明不限于所描述的实施方式。对于本领域的技术人员而言,在不脱离本发明原理和精神的情况下,对这些实施方式进行多种变化、修改、替换和变型,仍落入本发明的保护范围内。

相关技术
  • 一种基于自然语言处理技术和大数据分析的科创服务平台
  • 一种基于科创咨询的云服务平台及搭建方法
技术分类

06120113177929