掌桥专利:专业的专利平台
掌桥专利
首页

评论数据分析方法、系统、电子设备及存储介质

文献发布时间:2023-06-19 11:44:10


评论数据分析方法、系统、电子设备及存储介质

技术领域

本发明涉及数据处理领域,具体地说,涉及一种评论数据分析方法、系统、电子设备及存储介质。

背景技术

现在的社会是一个高速发展的社会,科技发达,信息流通,人们之间的交流越来越密切,生活也越来越方便。电商、网购或者一些数据采集的终端(例如:智能音箱),无时无刻不采集数据。这些数据有如下5V特点:量大(Volume)、高速(Velocity)、多样(Variety)、高价值(Value)、真实性(Veracity)。

现有的技术中,原始的上报数据量庞大,系统每天上报的数据可达上万亿条,而且上报数据格式混乱,缺乏内容维度信息、用户画像信息等。下游无法直接使用上述数据。根据信息流的业务场景,进行了内容维度的关联、用户画像的关联、各种粒度的聚合,如何提供下游方便使用的实时数据成为亟待解决的问题。

需要说明的是,在上述背景技术部分公开的信息仅用于加强对本发明的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

针对现有技术中的问题,本发明的目的在于提供了一种评论数据分析方法、系统、电子设备及存储介质,评论数据分析方法从评论数据中准确获取用户对被评论对象的满意度以及满意度变化关系;同时,被评论对象可获得结合评论热点的特定时间内的负面评论数据。

本发明的实施例还提供了一种评论数据分析方法,包括以下步骤:

S100:获取用户的目标评判指标树,所述目标评判指标树包括多个目标评判指标;

S200:获取设定时间段内的评论数据;

S300:对所述评论数据中的各条评论进行文本识别,并匹配各条评论对应的目标评判评论指标;

S400:将所述评论数据中的各条评论输入训练好的满意度模型获得各条评论的满意度等级;

S500:根据与各个目标评判评论指标的匹配的评论的满意度等级获得设定时间段的各个目标评判评论指标的满意度数据。

根据本发明的一些示例,S500根据与各个目标评判评论指标的匹配的评论的满意度等级获得设定时间段的各个目标评判评论指标的满意度数据包括如下步骤:

所述满意度等级包括正面评论、中性评论和负面评论;

获得与目标评判评论指标相匹配的正面评论的数量和与目标评判评论指标相匹配的评论的总数量;

正面评论的数量与目标评判评论指标相匹配的评论的总数量之间的比值为设定时间段的各个目标评判评论指标的满意度数据。

根据本发明的一些示例,S300对所述评论数据中的各条评论进行文本识别,并匹配各条评论对应的目标评判评论指标步骤包括如下步骤:

对各条评论做分词处理;

获得各条评论的至少一关键词;

根据关键词匹配各条评论对应的目标评判评论指标。

根据本发明的一些示例,所述评论数据分析方法还包括如下步骤:

重复S200至S500步骤获得多个设定时间段的各个目标评判评论指标的满意度数据;

获取多个设定时间段的各个目标评判评论指标的满意度变化关系。

根据本发明的一些示例,S200获取设定时间段内的评论数据后还包括如下步骤:

对各条评论做分词处理得到每条评论中的多个词汇;

获得每一词汇在各条评论的词汇中的词频-逆文本频率;

根据各个词汇的词频-逆文本频率的高低获得评论数据中的多个热点词汇。

根据本发明的一些示例,所述评论数据分析方法还包括如下步骤:

获得各个目标评判评论指标与多个热点词汇的相关性;

向用户推送与多个热点词汇具有相关性的多个目标评判评论指标的满意度变化关系。

根据本发明的一些示例,所述评论数据分析方法还包括如下步骤:

S600:根据设定时间段的各个目标评判评论指标的满意度数据获得设定时间段的整体满意度数据。

根据本发明的一些示例,S600根据设定时间段的各个目标评判评论指标的满意度数据获得设定时间段的整体满意度数据包括如下步骤:

获得各个目标评判评论指标与多个热点词汇的相关性;

根据各个目标评判评论指标与多个热点词汇的相关性确定目标评判指标树中各个目标评判评论指标的权重;

根据各个目标评判评论指标的权重与各个目标评判评论指标的满意度数据获得整体满意度数据。

本发明的实施例还提供了一种评论数据分析系统,用于实现所述评论数据分析方法的步骤,包括数据获取模块、文本模块和满意度评论模块,其中:

所述数据获取模块用于获取用户的目标评判指标树,所述目标评判指标树包括多个目标评判指标;以及用于获取设定时间段内的评论数据;

所述文本模块用于对所述评论数据中的各条评论进行文本识别,并匹配各条评论对应的目标评判评论指标;

所述满意度评论模块用于将所述评论数据中的各条评论输入训练好的满意度模型获得各条评论的满意度等级,并根据与各个目标评判评论指标的匹配的评论的满意度等级获得设定时间段的各个目标评判评论指标的满意度数据。

本发明的实施例还提供了一种电子设备,包括:

处理器;

存储器,其中存储有所述处理器的可执行指令;

其中,所述处理器配置为经由执行所述可执行指令来执行所述评论数据分析方法的步骤。

本发明的实施例还提供了一种计算机可读存储介质,用于存储程序,其特征在于,所述程序被执行时实现所述评论数据分析方法的步骤。

本发明的评论数据分析方法实现对大数据的分析,从评论数据中准确获取用户对被评论对象的满意度以及满意度变化关系;同时,被评论对象可获得结合评论热点的特定时间内的满意度变化关系对自己的业务做调整。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理,通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明一实施例的评论数据分析方法的流程图;

图2为本发明一实施例一目标评判评论指标的满意度变化关系图;

图3为本发明一实施例多个热点词汇对应的满意度变化关系图;

图4为本发明一实施例的评论数据分析系统的结构示意图;

图5为本发明一实施例的电子设备的结构示意图;

图6为本发明一实施例的计算机可读存储介质的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。

此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

图1为本发明一实施例的评论数据分析方法的流程图,具体的,所述评论数据分析方法可以包括以下步骤:

S100:获取用户的目标评判指标树,所述目标评判指标树包括多个目标评判指标;

S200:获取设定时间段内的评论数据;

S300:对所述评论数据中的各条评论进行文本识别,并匹配各条评论对应的目标评判评论指标;

S400:将所述评论数据中的各条评论输入训练好的满意度模型获得各条评论的满意度等级;

S500:根据与各个目标评判评论指标的匹配的评论的满意度等级获得设定时间段的各个目标评判评论指标的满意度数据。

不同行业有不同的行业指标树,如百度、阿里拥有通用的行业指标树,本发明的S100步骤中,获取用户的目标评判指标树可以是用户所属行业的指标树,也可以是用户自定义的指标树,目标评判指标树包括多个目标评判指标。在一些实施例中,目标评判指标树还可以包括多个所述目标评判指标之间的映射关系,可以通过多个目标评判指标之间的映射关系进一步获得映射关系对应的评判指标的数据。

S200步骤中时间段可以根据用户行业或需求的不同设定,可以是一周、一月、一季度或一年等。S200步骤中评论数据可以从多种数据源中获取,如从用户数据库、业务数据系统、文档资料库、爬虫数据库或语音数据库获取设定时间段内的评论数据,当然,评论数据是经过数据清洗处理、缺失值处理、异常值消除等预处理后的数据。

由于可以是数据源的接入,在获得各个目标评判评论指标的满意度数据前,通过S300步骤对评论数据中的各条评论匹配对应的目标评判评论指标,在通过S400步骤获得各条评论的满意度等级,最后通过S500步骤获得设定时间段的各个目标评判评论指标的满意度数据。本发明的评论数据分析方法实现从评论数据中准确获取用户对被评论对象的满意度。

在一实施例中,进一步地,S500根据与各个目标评判评论指标的匹配的评论的满意度等级获得设定时间段的各个目标评判评论指标的满意度数据包括如下步骤:

所述满意度等级包括正面评论、中性评论和负面评论;

获得与目标评判评论指标相匹配的正面评论的数量和与目标评判评论指标相匹配的评论的总数量;

正面评论的数量与目标评判评论指标相匹配的评论的总数量之间的比值为设定时间段的各个目标评判评论指标的满意度数据。即在上述实施例中,目标评判评论指标的满意度数据设定为正面评论的数量占总评论数的比值。在另一些实施例中,目标评判评论指标的满意度数据也可设定为正面评论的数量和负面评价的数量。此处的满意度等级也可以采用具有更多等级的体系,可以通过各个等级的权重等获得最终的正面评价或负面评价数据。

需要说的是,S300对所述评论数据中的各条评论进行文本识别,并匹配各条评论对应的目标评判评论指标步骤可以包括如下步骤:

对各条评论做分词处理;此处的分词处理可以使用Jieba分词处理或者HanLP分词处理,也可以采用自定义的分词算法。

获得各条评论的至少一关键词;

根据关键词匹配各条评论对应的目标评判评论指标。如一条评论中的关键词为“餐盘”或“海鲜”,则此条评论与指标“餐饮”相匹配。

在另一些实施例中,本发明的评论数据分析方法还可以包括如下步骤:

重复S200至S500步骤获得多个设定时间段的各个目标评判评论指标的满意度数据;获取多个设定时间段的各个目标评判评论指标的满意度变化关系。图2为本发明一实施例一目标评判评论指标的满意度变化关系图,其中,用户设定的时间段为一周。本发明的评论数据分析方法通过上述步骤,实现动态反映评论中对被评论对象的满意度的变化,如被评论对象是一商家的服务,该商家可根据上述目标评判评论指标的满意度变化关系提高改善自己的服务。

在另一些实施例中,S200获取设定时间段内的评论数据后还可以包括如下步骤:

对各条评论做分词处理得到每条评论中的多个词汇;此处的分词处理可以使用Jieba分词处理或者HanLP分词处理,也可以采用自定义的分词算法。

获得每一词汇在各条评论的词汇中的词频-逆文本频率;

根据各个词汇的词频-逆文本频率的高低获得评论数据中的多个热点词汇。如被评论对象是一酒店,可能获得的热点词汇为“位置”、“价格”、“餐饮”、“卫生”等。上述步骤对各条评论的分词进行统计,从而获得设定时间段内评论的热点。热点词汇的数量可以根据用户的行业等实际需求设定。

本发明的评论数据分析方法还可以包括如下步骤:

获得各个目标评判评论指标与多个热点词汇的相关性;这一步骤可以看成是热点词汇匹配对应的目标评判评论指标的过程;

向用户推送与多个热点词汇具有相关性的多个目标评判评论指标的满意度变化关系。即上述过程将目标评判评论指标结合评论热点,选择属于评论热点的目标评判评论指标的满意度数据推送至用户,此过程可以使用户更精准地获知需关注的目标评判评论指标。

需要说明的是,在获得各个目标评判评论指标与多个热点词汇的相关性,通过个目标评判评论指标的满意度数据可以获得多个热点词汇对应的满意度数据。相应地,获得多个热点词汇对应的满意度数据;获取多个设定时间段的多个热点词汇对应的满意度变化关系,如图3所示。商家可根据热点词汇对应的满意度变化关系对自己的业务做调整。

本发明的评论数据分析方法还可以包括如下步骤:

S600:根据设定时间段的各个目标评判评论指标的满意度数据获得设定时间段的整体满意度数据。上述S600根据设定时间段的各个目标评判评论指标的满意度数据获得设定时间段的整体满意度数据进一步地可以包括如下步骤:

获得各个目标评判评论指标与多个热点词汇的相关性;

根据各个目标评判评论指标与多个热点词汇的相关性确定目标评判指标树中各个目标评判评论指标的权重;

根据各个目标评判评论指标的权重与各个目标评判评论指标的满意度数据获得整体满意度数据。设定时间段的整体满意度数据与该时间段内各个目标评判评论指标的满意度数据相关,根据各个目标评判评论指标与热点词汇的相关性确定各个目标评判评论指标的权重,可使获得整体满意度数据更精准地反应对评价数据。

同样地,本发明的方法还可以重复S200至S600步骤获得多个设定时间段的各个目标评判评论指标的整体满意度数据;获取多个设定时间段的各个目标评判评论指标的整体满意度变化关系。

本发明的实施例还提供了一种评论数据分析系统,用于实现所述评论数据分析方法的步骤,图4为本发明一实施例的评论数据分析系统的结构示意图,评论数据分析系统包括数据获取模块M100、文本模块M200和满意度评论模块M300,其中:

所述数据获取模块M100用于获取用户的目标评判指标树,所述目标评判指标树包括多个目标评判指标以及多个所述目标评判指标的映射关系;以及用于获取设定时间段内的评论数据;

所述文本模块M200用于对所述评论数据中的各条评论进行文本识别,并匹配各条评论对应的目标评判评论指标;

所述满意度评论模块M300用于将所述评论数据中的各条评论输入训练好的满意度模型获得各条评论的满意度等级,并根据与各个目标评判评论指标的匹配的评论的满意度等级获得设定时间段的各个目标评判评论指标的满意度数据。

实施例的评论数据分析系统中的各个功能模块的功能实现方式均可以采用上述评论数据分析方法中各个步骤的具体实施方式来实现。例如,数据获取模块M100、文本模块M200和满意度评论模块M300可以分别采用上述步骤S100至S500的具体实施方式实现其功能,此处不予赘述。

下面参照图5来描述根据本发明的这种实施方式的电子设备600。图5显示的电子设备600仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。

如图5所示,电子设备600以通用计算设备的形式表现。电子设备600的组件可以包括但不限于:至少一个处理单元610、至少一个存储单元620、连接不同平台组件(包括存储单元620和处理单元610)的总线630、显示单元640等。

其中,存储单元存储有程序代码,程序代码可以被处理单元610执行,使得处理单元610执行本说明书上述方法部分中描述的根据本发明各种示例性实施方式的步骤。例如,处理单元610可以执行如图1中所示的步骤。

存储单元620可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)6201和/或高速缓存存储单元6202,还可以进一步包括只读存储单元(ROM)6203。

存储单元620还可以包括具有一组(至少一个)程序模块6205的程序/实用工具6204,这样的程序模块6205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线630可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备600也可以与一个或多个外部设备700(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备600交互的设备通信,和/或与使得该电子设备600能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口650进行。并且,电子设备600还可以通过网络适配器660与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。网络适配器660可以通过总线630与电子设备600的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备600使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储平台等。

本发明实施例还提供一种计算机可读存储介质,用于存储程序,程序被执行实现评论数据分析方法的步骤。在一些可能的实施方式中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当程序产品在终端设备上运行时,程序代码用于使终端设备执行本说明书上述方法部分中描述的根据本发明各种示例性实施方式的步骤。

参考图6所示,描述了根据本发明的实施方式的用于实现上述方法的程序产品800,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

综上所述,本发明提供了一种评论数据分析方法、系统、电子设备及存储介质,该方法包括如下包括:获取用户的目标评判指标树,目标评判指标树包括多个目标评判指标以及多个目标评判指标的映射关系;获取设定时间段内的评论数据;对所述评论数据中的各条评论进行文本识别,并匹配各条评论对应的目标评判评论指标;将所述评论数据中的各条评论输入训练好的满意度模型获得各条评论的满意度等级;根据与各个目标评判评论指标的匹配的评论的满意度等级获得设定时间段的各个目标评判评论指标的满意度数据。本发明的评论数据分析方法实现从评论数据中准确获取用户对被评论对象的满意度以及满意度变化关系;被评论对象可获得结合评论热点的特定时间内的满意度变化关系对自己的业务做调整。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其他的具体形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一、第二等词语用来表示名称,而并不表示任何特定的顺序。

相关技术
  • 评论数据分析方法、系统、电子设备及存储介质
  • 商品评论情感分析方法、系统、电子设备及存储介质
技术分类

06120113034343