掌桥专利:专业的专利平台
掌桥专利
首页

一种大数据平台的数据汇集方法及装置

文献发布时间:2023-06-19 19:37:02


一种大数据平台的数据汇集方法及装置

技术领域

本发明涉及数据统计技术领域,具体是一种大数据平台的数据汇集方法及装置。

背景技术

市场营销分析,是指企业在规定时间内,对各个营销区域的各项销售工作进行的总结、分析、检讨及评估,并对下阶段的营销工作提出修正建议,对某些区域的营销策略进行局部调整,甚至对某些区域的销售目标予以重新制定。因此,市场营销分析工作,是企业营销管理工作中一项极其重要的主体内容。

在当今的大数据时代,营销数据的数据量极大,获取到的营销数据非常繁琐,分析过程较为困难,分析人员的分析压力极大,对分析人员的要求极高;如何全面的、有顺序的获取营销数据,降低工作人员的工作压力是本发明技术方案想要解决的技术问题。

发明内容

本发明的目的在于提供一种大数据平台的数据汇集方法及装置,以解决上述背景技术中提出的问题。

为实现上述目的,本发明提供如下技术方案:

一种大数据平台的数据汇集方法,所述方法包括:

查询产品的销售渠道,获取各销售渠道中的评论信息,对所述评论信息进行识别,得到内部评价信息;

查询产品的推广渠道,获取推广渠道中的反馈信息,对所述反馈信息进行识别,得到外部评价信息;

统计内部评价信息和所述外部评价信息,基于预设的关键词提取模型提取所述内部评价信息和所述外部评价信息中的关键词;

将所述关键词向预设的搜索引擎中发送,获取搜索引擎反馈的相关评价信息。

以下是本发明对上述技术方案的进一步优化:

所述查询产品的销售渠道,获取各销售渠道中的评论信息,对所述评论信息进行识别,得到内部评价信息的步骤包括:

查询产品的销售渠道,获取各销售渠道中的评论信息,并根据销售渠道对评论信息进行分类,得到以销售渠道为索引的评论信息库;

根据评论信息的长度对所述评论信息库中的内容进行排序;所述排序基准为长度升序;

依次选取评论信息作为基准信息,根据所述基准信息遍历对应的评论信息库,确定基准信息的出现频数;

根据出现频数删除重复评论,得到待检评论信息;

对待检评论信息进行识别,得到内部评价信息。

进一步优化:所述对待检评论信息进行识别,得到内部评价信息的步骤包括:

将所述待检评论信息输入训练好的比对模型,标记相同字词;

计算相同字词的字词数,根据所述字词数计算两个待检评论信息的相关度;

根据所述相关度对待检评论信息进行二次分类;

统计二次分类结果,得到内部评价信息。

进一步优化:所述查询产品的推广渠道,获取推广渠道中的反馈信息,对所述反馈信息进行识别,得到外部评价信息的步骤包括:

查询产品的推广渠道,获取推广渠道中的反馈信息,提取反馈信息中的文本内容,建立文本库;

获取所述反馈信息的信息格式,当所述信息格式为视频时,将视频转换为音频和图像,输入音频库和图像库;

对音频库和图像库进行文本转换,得到反馈文本,输入文本库;

对文本库进行识别,得到外部评价信息。

进一步优化:所述对文本库进行识别,得到外部评价信息的步骤包括:

根据预设的评价词库遍历所述文本库,在文本库中确定目标词;

以目标词为中心,预设的数值为截取半径获取目标语段;

统计所述目标语段,对所述目标语段进行重复性筛选,得到外部评价信息。

进一步优化:所述将所述关键词向预设的搜索引擎中发送,获取搜索引擎反馈的相关评价信息的步骤包括:

将所述关键词向预设的搜索引擎中发送,接收搜索引擎反馈的词条信息;

查询搜索引擎的词条陈列规则,基于所述词条陈列规则对词条信息进行筛选;其中,所述词条陈列规则用于表征词条信息的类型;

统计筛选后的词条信息,建立词条信息与关键词所在的评价信息的连接,得到对应评价信息的相关评价信息。

本发明技术方案还提供了一种大数据平台的数据汇集装置,所述装置包括:

销售信息分析模块,用于查询产品的销售渠道,获取各销售渠道中的评论信息,对所述评论信息进行识别,得到内部评价信息;

推广信息分析模块,用于查询产品的推广渠道,获取推广渠道中的反馈信息,对所述反馈信息进行识别,得到外部评价信息;

关键词提取模块,用于统计内部评价信息和所述外部评价信息,基于预设的关键词提取模型提取所述内部评价信息和所述外部评价信息中的关键词;

相关信息获取模块,用于将所述关键词向预设的搜索引擎中发送,获取搜索引擎反馈的相关评价信息。

进一步优化:所述销售信息分析模块包括:

评论信息分类单元,用于查询产品的销售渠道,获取各销售渠道中的评论信息,并根据销售渠道对评论信息进行分类,得到以销售渠道为索引的评论信息库;

内容排序单元,用于根据评论信息的长度对所述评论信息库中的内容进行排序;所述排序基准为长度升序;

频数确定单元,用于依次选取评论信息作为基准信息,根据所述基准信息遍历对应的评论信息库,确定基准信息的出现频数;

重复判定单元,用于根据出现频数删除重复评论,得到待检评论信息;

第一识别执行单元,用于对待检评论信息进行识别,得到内部评价信息。

进一步优化:所述推广信息分析模块包括:

文本库建立单元,用于查询产品的推广渠道,获取推广渠道中的反馈信息,提取反馈信息中的文本内容,建立文本库;

格式转换单元,用于获取所述反馈信息的信息格式,当所述信息格式为视频时,将视频转换为音频和图像,输入音频库和图像库;

文本提取单元,用于对音频库和图像库进行文本转换,得到反馈文本,输入文本库;

第二识别执行单元,用于对文本库进行识别,得到外部评价信息。

进一步优化:所述相关信息获取模块包括:

词条信息接收单元,用于将所述关键词向预设的搜索引擎中发送,接收搜索引擎反馈的词条信息;

词条信息筛选单元,用于查询搜索引擎的词条陈列规则,基于所述词条陈列规则对词条信息进行筛选;其中,所述词条陈列规则用于表征词条信息的类型;

信息统计单元,用于统计筛选后的词条信息,建立词条信息与关键词所在的评价信息的连接,得到对应评价信息的相关评价信息。

与现有技术相比,本发明的有益效果是:本发明通过销售渠道中的评论数据确定内部评价数据,通过推广渠道中的反馈数据确定外部评价数据,对内部评价数据和外部评价数据进行关键词提取,根据提取到的关键词获取相关信息,全面且有序的获取了产品数据,极大地提高了工作人员的分析便捷性。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例。

图1为大数据平台的数据汇集方法的流程框图。

图2为大数据平台的数据汇集方法的第一子流程框图。

图3为大数据平台的数据汇集方法的第二子流程框图。

图4为大数据平台的数据汇集方法的第三子流程框图。

图5为大数据平台的数据汇集装置的组成结构框图。

具体实施方式

 为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

实施例1

图1为大数据平台的数据汇集方法的流程框图,本发明实施例中,一种大数据平台的数据汇集方法,所述方法包括:

步骤S100:查询产品的销售渠道,获取各销售渠道中的评论信息,对所述评论信息进行识别,得到内部评价信息;

产品的销售渠道包括线上和线下,如果是线下销售渠道,不同的销售点获取到的评价信息就是所述评论信息;如果是线上销售渠道,不同App中的不同门店的评价信息就是所述评论信息;一般情况下,线上的评价信息更容易获取(平台功能),线下的评价信息需要由销售点的工作人员自行获取;评论信息一般由客户做出,因此,对评论信息进行识别,得到的是内部评价信息。

步骤S200:查询产品的推广渠道,获取推广渠道中的反馈信息,对所述反馈信息进行识别,得到外部评价信息;

每个产品都存在自己的推广渠道,这些推广渠道可以是微博、贴吧和论坛等,推广文件可以是视频、音频、图像和文本;每个推广文件都会有对应的反馈信息,由反馈信息可以得到浏览者对产品的评价,称为外部评价信息。

步骤S300:统计内部评价信息和所述外部评价信息,基于预设的关键词提取模型提取所述内部评价信息和所述外部评价信息中的关键词;

根据现有的关键词提取模型(使用到的词库由工作人员预先提供)可以提取内部评价信息和外部评价信息中的关键词。

步骤S400:将所述关键词向预设的搜索引擎中发送,获取搜索引擎反馈的相关评价信息;

对提取到的关键词进行搜索,可以得到与该产品有关的内容,这些内容具有参考意义,因此,将通过关键词获取到的信息称为相关评价信息。

汇集并存储内部评价信息、外部评价信息和相关评价信息即可构建出能够全面反映产品情况的数据库。

图2为大数据平台的数据汇集方法的第一子流程框图,所述查询产品的销售渠道,获取各销售渠道中的评论信息,对所述评论信息进行识别,得到内部评价信息的步骤包括:

步骤S101:查询产品的销售渠道,获取各销售渠道中的评论信息,并根据销售渠道对评论信息进行分类,得到以销售渠道为索引的评论信息库;

获取产品在各个销售渠道中的评论信息,根据销售渠道对评论信息进行分类存储。

步骤S102:根据评论信息的长度对所述评论信息库中的内容进行排序;所述排序基准为长度升序;

对每一类评论信息,根据评论信息的长度进行排序,将长度短的评论信息排在前,长度长的评论信息排在后。

步骤S103:依次选取评论信息作为基准信息,根据所述基准信息遍历对应的评论信息库,确定基准信息的出现频数;

按照评论信息的排列顺序,依次选取评论信息作为基准信息,由基准信息遍历评论信息库,可以判断评论信息库中有多少条信息与基准信息相同,重复次数称为出现频数。

步骤S104:根据出现频数删除重复评论,得到待检评论信息;

根据出现频数确定删除规则,保留一个或部分重复的评论,从而使得评论信息库中的内容更具备参考意义。

步骤S105:对待检评论信息进行识别,得到内部评价信息;

对待评论信息进行识别,根据识别结果确定内部评价信息。

在本发明技术方案的一个实例中,对内部评价信息的生成过程进行了限定,所述对待检评论信息进行识别,得到内部评价信息的步骤包括:

将所述待检评论信息输入训练好的比对模型,标记相同字词;

依次在待检评论信息中选取两个目标信息,对目标信息进行比对,确定相同的字词。

计算相同字词的字词数,根据所述字词数计算两个待检评论信息的相关度;

计算相同字词的字词数,结合所述字词数与两个目标信息的长度,可以计算出现两个目标信息之间的相似度,称为相关度。

根据所述相关度对待检评论信息进行二次分类;

由所述相关度可以对待检评论信息中的内容进行二次分类,进一步提高评论信息的有序性。

统计二次分类结果,得到内部评价信息;

统计二次分类后的内容,即可得到内部评价信息。

图3为大数据平台的数据汇集方法的第二子流程框图,所述查询产品的推广渠道,获取推广渠道中的反馈信息,对所述反馈信息进行识别,得到外部评价信息的步骤包括:

步骤S201:查询产品的推广渠道,获取推广渠道中的反馈信息,提取反馈信息中的文本内容,建立文本库;

查询产品的推广渠道,获取由推广渠道获取到的反馈信息,反馈信息包括视频、音频、图像和文本,文本作为最终格式。

步骤S202:获取所述反馈信息的信息格式,当所述信息格式为视频时,将视频转换为音频和图像,输入音频库和图像库;

视频文件可以理解为多帧图像和音频信息的集合,当所述反馈信息为视频时,将视频转换为音频和图像的过程并不困难,转换完成后,分别输入音频库和图像库。

步骤S203:对音频库和图像库进行文本转换,得到反馈文本,输入文本库;

根据现有技术对音频库中的音频和图像库中的图像进行识别,可以转换为文本信息,将文本信息输入已生成的文本库。

步骤S204:对文本库进行识别,得到外部评价信息;

对文本库进行识别,可以得到外部评价信息。

在本发明技术方案的一个实施例,所述对文本库进行识别,得到外部评价信息的步骤包括:

根据预设的评价词库遍历所述文本库,在文本库中确定目标词;

根据预设的评价词库在生成的文本库中遍历匹配,可以确定目标词。

以目标词为中心,预设的数值为截取半径获取目标语段;

以目标词为中心,在文本库中可以截取目标语段,所述目标语段的首尾可以是分隔符。

统计所述目标语段,对所述目标语段进行重复性筛选,得到外部评价信息;

统计所述目标语段,对目标语段进行重复性筛选,剔除掉重复的数据,即可得到外部评价信息。

图4为大数据平台的数据汇集方法的第三子流程框图,所述将所述关键词向预设的搜索引擎中发送,获取搜索引擎反馈的相关评价信息的步骤包括:

步骤S301:将所述关键词向预设的搜索引擎中发送,接收搜索引擎反馈的词条信息;

在内部评价信息和外部评价信息中提取到关键词后,将关键词作为查询标签,向预设的搜索引擎发送。

步骤S302:查询搜索引擎的词条陈列规则,基于所述词条陈列规则对词条信息进行筛选;其中,所述词条陈列规则用于表征词条信息的类型;

每个搜索引擎对词条信息的排列规则都由搜索引擎的管理方预先设置,所述排列规则用于表征词条信息的重要性,除此之外,排列规则还限定的词条信息的标签信息,用于表征词条信息属于什么类型,如果是广告的话,需要标明是广告。

步骤S303:统计筛选后的词条信息,建立词条信息与关键词所在的评价信息的连接,得到对应评价信息的相关评价信息;

统计筛选后的词条信息,统计后的词条信息与关键词对应,关键词与评价信息之间存在映射关系,连接词条信息与关键词所在的评价信息,即可得到相关评价信息。

实施例2

图5为大数据平台的数据汇集装置的组成结构框图,本发明实施例中,一种大数据平台的数据汇集装置,所述装置10包括:

销售信息分析模块11,用于查询产品的销售渠道,获取各销售渠道中的评论信息,对所述评论信息进行识别,得到内部评价信息;

推广信息分析模块12,用于查询产品的推广渠道,获取推广渠道中的反馈信息,对所述反馈信息进行识别,得到外部评价信息;

关键词提取模块13,用于统计内部评价信息和所述外部评价信息,基于预设的关键词提取模型提取所述内部评价信息和所述外部评价信息中的关键词;

相关信息获取模块14,用于将所述关键词向预设的搜索引擎中发送,获取搜索引擎反馈的相关评价信息。

所述销售信息分析模块11包括:

评论信息分类单元,用于查询产品的销售渠道,获取各销售渠道中的评论信息,并根据销售渠道对评论信息进行分类,得到以销售渠道为索引的评论信息库;

内容排序单元,用于根据评论信息的长度对所述评论信息库中的内容进行排序;所述排序基准为长度升序;

频数确定单元,用于依次选取评论信息作为基准信息,根据所述基准信息遍历对应的评论信息库,确定基准信息的出现频数;

重复判定单元,用于根据出现频数删除重复评论,得到待检评论信息;

第一识别执行单元,用于对待检评论信息进行识别,得到内部评价信息。

所述推广信息分析模块12包括:

文本库建立单元,用于查询产品的推广渠道,获取推广渠道中的反馈信息,提取反馈信息中的文本内容,建立文本库;

格式转换单元,用于获取所述反馈信息的信息格式,当所述信息格式为视频时,将视频转换为音频和图像,输入音频库和图像库;

文本提取单元,用于对音频库和图像库进行文本转换,得到反馈文本,输入文本库;

第二识别执行单元,用于对文本库进行识别,得到外部评价信息。

所述相关信息获取模块14包括:

词条信息接收单元,用于将所述关键词向预设的搜索引擎中发送,接收搜索引擎反馈的词条信息;

词条信息筛选单元,用于查询搜索引擎的词条陈列规则,基于所述词条陈列规则对词条信息进行筛选;其中,所述词条陈列规则用于表征词条信息的类型;

信息统计单元,用于统计筛选后的词条信息,建立词条信息与关键词所在的评价信息的连接,得到对应评价信息的相关评价信息。

所述大数据平台的数据汇集方法所能实现的功能均由计算机设备完成,所述计算机设备包括一个或多个处理器和一个或多个存储器,所述一个或多个存储器中存储有至少一条程序代码,所述程序代码由所述一个或多个处理器加载并执行以实现所述大数据平台的数据汇集方法的功能。

 处理器从存储器中逐条取出指令、分析指令,然后根据指令要求完成相应操作,产生一系列控制命令,使计算机各部分自动、连续并协调动作,成为一个有机的整体,实现程序的输入、数据的输入以及运算并输出结果,这一过程中产生的算术运算或逻辑运算均由运算器完成;所述存储器包括只读存储器(Read-Only Memory,ROM),所述只读存储器用于存储计算机程序,所述存储器外部设有保护装置。

示例性的,计算机程序可以被分割成一个或多个模块,一个或者多个模块被存储在存储器中,并由处理器执行,以完成本发明。一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述计算机程序在终端设备中的执行过程。

本领域技术人员可以理解,上述服务设备的描述仅仅是示例,并不构成对终端设备的限定,可以包括比上述描述更多或更少的部件,或者组合某些部件,或者不同的部件,例如可以包括输入输出设备、网络接入设备、总线等。

 所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,上述处理器是上述终端设备的控制中心,利用各种接口和线路连接整个用户终端的各个部分。

 上述存储器可用于存储计算机程序和/或模块,上述处理器通过运行或执行存储在存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现上述终端设备的各种功能。存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如信息采集模板展示功能、产品信息发布功能等)等;存储数据区可存储根据泊位状态显示系统的使用所创建的数据(比如不同产品种类对应的产品信息采集模板、不同产品提供方需要发布的产品信息等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card, SMC),安全数字(Secure Digital, SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

 终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例系统中的全部或部分模块/单元,也可以通过计算机程序来指令相关的硬件来完成,上述的计算机程序可存储于计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个系统实施例的功能。其中,计算机程序包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、电载波信号、电信信号以及软件分发介质等。

需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

相关技术
  • 一种智能检测终端的数据汇集系统及数据汇集方法
  • 一种基于Docker一键部署大数据平台的方法和装置
  • 大数据平台BI元数据管理的方法和装置
  • 基于大数据平台的数据处理方法、装置、设备及介质
  • 一种大数据平台环境配置与业务数据分离管理方法及系统
  • 一种基于大数据平台的数据汇集方法及装置
  • 大数据平台的数据传输方法、装置及大数据平台管理系统
技术分类

06120115972552