掌桥专利:专业的专利平台
掌桥专利
首页

一种基于关键词提取的方面级自给权重商品选品系统及方法

文献发布时间:2024-01-17 01:13:28



技术领域

本发明涉及商品选品技术领域,具体为一种基于关键词提取的方面级自给权重商品选品系统及方法。

背景技术

跨境电商圈流传一句话:“七分靠选品,三分靠运营”,做跨境电商无论是在知名电商平台上开设店铺还是做自建站,选品是首要考虑的问题,是整个运营流程的第一步,成功的选品不仅能够显著提升收益,也会带来稳定的流量。现有大部分选品方法侧重关注爆款商品和参考商品销量,却忽略了分析爆款商品之所以成功的原因,没有站在消费者的角度去解读商品。消费者在电商平台上购买完商品并使用后,在商品页面下部编写对商品的评价,并为商品进行打分,消费者给商品所打的分值在很大程度上反应出消费者对该商品的认可情况,而由消费者所编写的评论文本会包含真实的商品特征,深度挖掘消费者对商品的评价对商品选品更具实际意义。从电商选品存在的问题展开分析,利用自然语言领域中的关键词提取来为选品赋能,为做到从优质商品中选出更被消费者认可的优质商品,为吸引更多的消费者,获得更多的流量,因此急需一种站在消费者的角度审视商品的选品方法。

发明内容

本发明的目的在于提供一种基于关键词提取的方面级自给权重商品选品系统及方法,以解决上述背景技术中提出的问题。

为了解决上述技术问题,本发明提供如下技术方案:一种基于关键词提取的方面级自给权重商品选品系统,所述方面级自给权重商品选品系统包括构建商品特征库子系统,所述构建商品特征库子系统包括代表商品评论数据爬取模块、关键词种子生成模块、商品特征生成模块、商品特征存储模块。所述方面级自给权重商品选品系统包括待选商品评论数据爬取模块、商品特征匹配模块、待选商品资质值计算模块、待选商品选品值计算排序模块、优选商品推送模块。

进一步的,所述构建商品特征库子系统中的代表商品评论数据爬取模块用于爬取代表商品的评论数据,对于商品页面下部的每条评论数据具体包括评论文本、评论星级、觉得该条评论文本有用的人数,其中,代表商品由系统维护人员选定,系统维护人员选定某商品类型多款销售情况良好且商品评论条数多的商品作为代表商品,不同商品类型的多款代表商品的评论数据将会生成不同类型的商品特征数据,如由水杯类型多款代表商品评论数据生成水杯类型商品特征数据,故系统维护人员需要选定多商品类型的代表商品,使用代表商品评论数据爬取模块爬取各商品类型代表商品的评论数据,记每种商品类型的所有代表商品的评论数据为a数据。

进一步的,所述构建商品特征库子系统中的关键词种子生成模块从部分a数据中生成关键词种子数据,从a数据中每款代表商品评论数据划分40%的数据用于生成关键词种子,记为b数据,对b数据中每条评论文本做关键词提取,所提取的每个关键词都来自b数据中的评论文本,系统维护人员从所提取的关键词中人工筛选出与商品有关的、可读性好的关键词作为关键词种子,最终生成的关键词种子数据的数据结构是Python字典,该字典有两个字段,分别是seed_type和keyword_seeds,其中,seed_type字段值的数据类型是字符串,由a数据所对应的商品类型决定,keyword_seeds字段的值是将关键词种子形成形如[关键词种子1, 关键词种子2, 关键词种子3, ......]的N个字符串组成的一维化列表。

进一步的,所述构建商品特征库子系统中的商品特征生成模块从部分a数据中生成商品特征数据,将a数据中剩余的60%数据记为c数据,使用b数据生成的关键词种子对c数据中的每条评论文本做关键词提取,提取出与关键词种子类似的关键词,所提取的每个关键词都来自c数据中的评论文本,系统维护人员先从所提取的关键词中人工筛选出与商品有关的、可读性好的关键词作为商品特征,再对商品特征进行方面级分类,具体方面级类别有:质量、价格、可用性、其他,系统维护人员可根据a数据所对应的商品类型对方面级类别进行细微调整,如在生成咖啡商品类型的商品特征时,可以将可用性方面级类别修改为口感,最终生成的商品特征数据的数据结构是Python字典,该字典有两个字段,分别是feature_type和aspect_features,其中,feature_type字段值的数据类型是字符串,由a数据所对应的商品类型决定,aspect_features字段的值是将商品特征按4个方面级类别分类后形成形如[dict1, dict2, dict3, dict4]的4个方面级商品特征字典对象组成的一维化列表,对于每个方面级商品特征字典对象,其有两个字段,分别为aspect_type和features,aspect_type字段的值分别是方面级类别,features字段的值是对应方面级类别的商品特征一维Python列表。

进一步的,所述构建商品特征库子系统中的商品特征存储模块将商品特征数据存储进Mongo DB中,在Mongo DB中创建一个名为aspectFeaturesDatabase的数据库,在aspectFeaturesDatabase数据库中创建一个名为aspectFeaturesCollection的集合,将各类型商品特征数据存储进aspectFeaturesCollection的集合中,即aspectFeaturesCollection集合为商品特征库,并为商品特征库中的特征数据文档中feature_type字段创建索引。

进一步的,所述方面级自给权重商品选品系统中的待选商品评论数据爬取模块用于爬取待选商品的评论数据,对于商品页面下部的每条评论数据具体包括评论文本、评论星级、觉得该条评论文本有用的人数,其中,待选商品由系统用户选定,系统用户选定同一商品类型的N款商品,由待选商品评论数据爬取模块爬取这N款待选商品的评论数据,记所爬取的这N款待选商品的评论数据为d数据。

进一步的,所述方面级自给权重商品选品系统中的商品特征匹配模块使用d数据对应商品类型的商品特征数据对N款待选商品分别进行商品特征匹配工作,以d数据中一款待选商品为例,记其评论数据为d1数据,从商品特征库中获取feature_type字段值为d数据对应商品类型的商品特征数据,获取商品特征数据中的aspect_features字段数据,记为u数据,遍历u数据中的方面级商品特征字典对象,记当前所遍历的方面级商品特征字典对象为j,记j字典对象中features字段值数据为v,使用v数据中的每个商品特征分别和d1数据中每条评论文本做语义相似度计算得到语义相似值,当v数据中某条商品特征和d1数据中某条评论文本的语义相似值超过预设定的阈值时,认为当前商品特征与当前评论文本匹配上,并将当前商品特征、当前评论文本、觉得当前评论文本有用的人数、商品特征情感值封装成一个特征对象,其中,商品特征情感值为从4星评价和5星评价的评论文本中匹配出的商品特征为积极商品特征,从小于4星评价的评论文本中匹配出的商品特征为消极商品特征,故商品特征情感值为positive或negative,当v数据中所有商品特征与d1所有评论文本计算完毕后,方面级商品特征匹配结果是一个Python字典,方面级商品特征匹配结果有两个字段,分别是aspect_type和feature_obj,aspect_type字段的值是j字典对象中aspect_type字段的值,feature_obj字段的值是将多个封装的特征对象形成形如[特征对象1, 特征对象2, 特征对象3, 特征对象4, ......]的一维化Python列表,至u数据中所有方面级商品特征字典对象遍历结束,得到d1数据商品特征匹配结果,d1数据商品特征匹配结果的数据结构是Python字典,d1数据商品特征匹配结果有两个字段,分别是product_asin和product_features,其中,product_asin字段值的数据类型是字符串,是d1商品的特殊编码标识,product_features字段值是将各方面级商品特征匹配结果形成形如[商品特征匹配结果1, 商品特征匹配结果2, 商品特征匹配结果3, 商品特征匹配结果4]的一维化Python列表。

进一步的,所述方面级自给权重商品选品系统中的待选商品资质值计算模块用于计算N款待选商品的资质值,遍历所有待选商品的商品特征匹配结果字典对象,记当前待选商品的商品特征匹配结果字典对象为e,记e字典对象中product_features字段的列表数据为g,遍历g列表中的方面级商品特征匹配结果字典对象,记当前方面级商品特征匹配结果字典对象为h,记h字典对象中feature_obj字段的特征对象列表为i,计算i列表中各特征对象中的商品特征的资质值,其中,对于某个特征对象,其内商品特征与其内评论文本为匹配状态,即该商品特征基础资质为1,其内评论文本有多少人觉得有用的人数为该商品特征的附加资质值,故该商品特征的总资质值为基础资质值加附加资质值,遍历i列表中各特征对象,先累加所有特征对象中的商品特征的资质值记为tts,再累加所有商品特征情感值为positive的特征对象中的商品特征的资质值记为pts,方面级资质值计算结果的数据结构是Python字典,有三个字段,分别是aspect_type、total_talent_score和positive_talent_score,aspect_type字段值的数据类型是字符串,由h字典对象中的aspect_type字段值决定,total_talent_score字段的值是tts,positive_talent_score字段的值是pts,至g列表中所有方面级商品特征匹配结果字典对象遍历结束,得到当前待选商品资质值计算结果,待选商品资质值计算结果有两个字段,分别是product_asin和aspect_talent_score,product_asin字段值的数据类型是字符串,是待选商品的特殊编码标识,aspect_talent_score字段值是将各方面级资质值计算结果形成形如[资质值计算结果1, 资质值计算结果2, 资质值计算结果3, 资质值计算结果4]的一维化Python列表。

进一步的,所述方面级自给权重商品选品系统中的待选商品选品值计算排序模块用于计算各待选商品的选品值并对各待选商品的选品值进行排序,遍历所有待选商品的资质值计算结果字典对象,记当前待选商品资质值计算结果字典对象为k,记k字典对象中aspect_talent_score字段的列表数据为l,遍历l列表中的方面级资质值计算结果字典对象,记当前方面级资质值计算结果字典对象为m,由m计算得方面级选品值的计算公式为:100/total_talent_score*positive_talent_score*自给权重,其中,自给权重由系统用户指定,用户根据本次选品所侧重的方面级类别,自由为各方面级类别指定方面级权重,自给权重的值大于0且小于1,且各方面级自给权重之和为1,至l列表中的方面级资质值计算结果字典对象遍历结束,当前待选商品的选品值为各方面级选品值之和。所述对各待选商品的选品值进行排序是将各待选商品的选品值按照从大到小进行排序,将排序前n的待选商品作为优选商品。

一种基于关键词提取的方面级自给权重商品选品方法,需要构建商品特征库,所述构建商品特征库包括以下步骤:

爬取代表商品的评论数据,

使用代表商品的部分评论数据生成关键词种子数据,

使用代表商品的剩余评论数据生成商品特征数据,

将商品特征数据存储进Mongo DB中。

进一步的,所述爬取代表商品的评论数据具体包括:

对于商品页面下部的每条评论数据具体包括评论文本、评论星级、觉得该条评论文本有用的人数,其中,代表商品由系统维护人员选定,系统维护人员选定某商品类型多款销售情况良好且商品评论条数多的商品作为代表商品,不同商品类型的多款代表商品的评论数据将会生成不同类型的商品特征数据,如由水杯类型多款代表商品评论数据生成水杯类型商品特征数据,故系统维护人员需要选定多商品类型的代表商品,然后爬取各商品类型代表商品的评论数据,记每种商品类型的所有代表商品的评论数据为a数据。

进一步的,所述使用代表商品的部分评论数据生成关键词种子数据具体包括:

从a数据中每款代表商品评论数据划分40%的数据用于生成关键词种子,记为b数据,对b数据中每条评论文本做关键词提取,所提取的每个关键词都来自b数据中的评论文本,系统维护人员从所提取的关键词中人工筛选出与商品有关的、可读性好的关键词作为关键词种子,最终生成的关键词种子数据的数据结构是Python字典,该字典有两个字段,分别是seed_type和keyword_seeds,其中,seed_type字段值的数据类型是字符串,由a数据所对应的商品类型决定,keyword_seeds字段的值是将关键词种子形成形如[关键词种子1,关键词种子2, 关键词种子3, ......]的N个字符串组成的一维化列表。

进一步的,所述使用代表商品的剩余评论数据生成商品特征数据具体包括:

将a数据中剩余的60%数据记为c数据,使用b数据生成的关键词种子对c数据中的每条评论文本做关键词提取,提取出与关键词种子类似的关键词,所提取的每个关键词都来自c数据中的评论文本,系统维护人员先从所提取的关键词中人工筛选出与商品有关的、可读性好的关键词作为商品特征,再对商品特征进行方面级分类,具体方面级类别有:质量、价格、可用性、其他,系统维护人员可根据a数据所对应的商品类型对方面级类别进行细微调整,如在生成咖啡商品类型的商品特征时,可以将可用性方面级类别修改为口感,最终生成的商品特征数据的数据结构是Python字典,该字典有两个字段,分别是feature_type和aspect_features,其中,feature_type字段值的数据类型是字符串,由a数据所对应的商品类型决定,aspect_features字段的值是将商品特征按4个方面级类别分类后形成形如[dict1, dict2, dict3, dict4]的4个方面级商品特征字典对象组成的一维化列表,对于每个方面级商品特征字典对象,其有两个字段,分别为aspect_type和features,aspect_type字段的值分别是方面级类别,features字段的值是对应方面级类别的商品特征一维Python列表。

所述将商品特征数据存储进Mongo DB中具体包括:

在Mongo DB中创建一个名为aspectFeaturesDatabase的数据库,在aspectFeaturesDatabase数据库中创建一个名为aspectFeaturesCollection的集合,将各类型商品特征数据存储进aspectFeaturesCollection的集合中,即aspectFeaturesCollection集合为商品特征库,并为商品特征库中的特征数据文档中feature_type字段创建索引。

一种基于关键词提取的方面级自给权重商品选品方法,所述方面级自给权重商品选品方法包括以下步骤:

爬取待选商品的评论数据,

使用待选商品对应商品类型的商品特征数据对N款待选商品分别进行商品特征匹配工作,

计算N款待选商品的资质值,

计算各待选商品的选品值并对各待选商品的选品值进行排序,将排序前n的待选商品作为优选商品,再将优选商品推送给系统用户。

进一步的,所述爬取待选商品的评论数据具体包括:

对于商品页面下部的每条评论数据具体包括评论文本、评论星级、觉得该条评论文本有用的人数,其中,待选商品由系统用户选定,系统用户选定同一商品类型的N款商品,然后爬取这N款待选商品的评论数据,记所爬取的这N款待选商品的评论数据为d数据。

进一步的,所述使用待选商品对应商品类型的商品特征数据对N款待选商品分别进行商品特征匹配工作具体包括:

以d数据中一款待选商品为例,记其评论数据为d1数据,从商品特征库中获取feature_type字段值为d数据对应商品类型的商品特征数据,获取商品特征数据中的aspect_features字段数据,记为u数据,遍历u数据中的方面级商品特征字典对象,记当前所遍历的方面级商品特征字典对象为j,记j字典对象中features字段值数据为v,使用v数据中的每个商品特征分别和d1数据中每条评论文本做语义相似度计算得到语义相似值,当v数据中某条商品特征和d1数据中某条评论文本的语义相似值超过预设定的阈值时,认为当前商品特征与当前评论文本匹配上,并将当前商品特征、当前评论文本、觉得当前评论文本有用的人数、商品特征情感值封装成一个特征对象,其中,商品特征情感值为从4星评价和5星评价的评论文本中匹配出的商品特征为积极商品特征,从小于4星评价的评论文本中匹配出的商品特征为消极商品特征,故商品特征情感值为positive或negative,当v数据中所有商品特征与d1所有评论文本计算完毕后,方面级商品特征匹配结果是一个Python字典,方面级商品特征匹配结果有两个字段,分别是aspect_type和feature_obj,aspect_type字段的值是j字典对象中aspect_type字段的值,feature_obj字段的值是将多个封装的特征对象形成形如[特征对象1, 特征对象2, 特征对象3, 特征对象4, ......]的一维化Python列表,至u数据中所有方面级商品特征字典对象遍历结束,得到d1数据商品特征匹配结果,d1数据商品特征匹配结果的数据结构是Python字典,d1数据商品特征匹配结果有两个字段,分别是product_asin和product_features,其中,product_asin字段值的数据类型是字符串,是d1商品的特殊编码标识,product_features字段值是将各方面级商品特征匹配结果形成形如[商品特征匹配结果1, 商品特征匹配结果2, 商品特征匹配结果3, 商品特征匹配结果4]的一维化Python列表。

进一步的,所述计算N款待选商品的资质值具体包括:

遍历所有待选商品的商品特征匹配结果字典对象,记当前待选商品的商品特征匹配结果字典对象为e,记e字典对象中product_features字段的列表数据为g,遍历g列表中的方面级商品特征匹配结果字典对象,记当前方面级商品特征匹配结果字典对象为h,记h字典对象中feature_obj字段的特征对象列表为i,计算i列表中各特征对象中的商品特征的资质值,其中,对于某个特征对象,其内商品特征与其内评论文本为匹配状态,即该商品特征基础资质为1,其内评论文本有多少人觉得有用的人数为该商品特征的附加资质值,故该商品特征的总资质值为基础资质值加附加资质值,遍历i列表中各特征对象,先累加所有特征对象中的商品特征的资质值记为tts,再累加所有商品特征情感值为positive的特征对象中的商品特征的资质值记为pts,方面级资质值计算结果的数据结构是Python字典,有三个字段,分别是aspect_type、total_talent_score和positive_talent_score,aspect_type字段值的数据类型是字符串,由h字典对象中的aspect_type字段值决定,total_talent_score字段的值是tts,positive_talent_score字段的值是pts,至g列表中所有方面级商品特征匹配结果字典对象遍历结束,得到当前待选商品资质值计算结果,待选商品资质值计算结果有两个字段,分别是product_asin和aspect_talent_score,product_asin字段值的数据类型是字符串,是待选商品的特殊编码标识,aspect_talent_score字段值是将各方面级资质值计算结果形成形如[资质值计算结果1, 资质值计算结果2, 资质值计算结果3, 资质值计算结果4]的一维化Python列表。

进一步的,所述计算各待选商品的选品值并对各待选商品的选品值进行排序,将排序前n的待选商品作为优选商品,具体包括:

遍历所有待选商品的资质值计算结果字典对象,记当前待选商品资质值计算结果字典对象为k,记k字典对象中aspect_talent_score字段的列表数据为l,遍历l列表中的方面级资质值计算结果字典对象,记当前方面级资质值计算结果字典对象为m,由m计算得方面级选品值的计算公式为:100/total_talent_score*positive_talent_score*自给权重,其中,自给权重由系统用户指定,用户根据本次选品所侧重的方面级类别,自由为各方面级类别指定方面级权重,自给权重的值大于0且小于1,且各方面级自给权重之和为1,至l列表中的方面级资质值计算结果字典对象遍历结束,当前待选商品的选品值为各方面级选品值之和;

将各待选商品的选品值按照从大到小进行排序,将排序前n的待选商品作为优选商品。

与现有技术相比,本发明所达到的有益效果是:本发明通过对代表商品的评论文本做两次关键词提取,从评论文本中挖掘出由消费者点评的商品特征,以构建商品特征库,再使用商品特征库中的商品特征对N款待选商品分别进行特征匹配,再对各待选商品做资质值计算和选品值计算,最后从N款待选商品中选取n款优选商品,此发明站在消费者的角度审视商品,从众多商品中选出最被消费者认可的商品,又可以由做跨进电商的卖家自定义方面级类别权重,即更精细化的迎合消费者的喜好,从而提高收益,降低经营风险,获取更多的流量。

附图说明

附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。

图1是本发明基于关键词提取的方面级自给权重商品选品系统中构建商品特征库子系统的模块示意图。

图2是本发明基于关键词提取的方面级自给权重商品选品系统的模块示意图。

图3是本发明基于关键词提取的方面级自给权重商品选品方法中构建商品特征库的方法流程图。

图4是本发明基于关键词提取的方面级自给权重商品选品方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

请参阅图1和图2,本发明提供技术方案:一种基于关键词提取的方面级自给权重商品选品系统,所述方面级自给权重商品选品系统包括构建商品特征库子系统,所述构建商品特征库子系统包括代表商品评论数据爬取模块、关键词种子生成模块、商品特征生成模块、商品特征存储模块。所述方面级自给权重商品选品系统包括待选商品评论数据爬取模块、商品特征匹配模块、待选商品资质值计算模块、待选商品选品值计算排序模块、优选商品推送模块。

所述构建商品特征库子系统中的代表商品评论数据爬取模块用于爬取代表商品的评论数据,对于商品页面下部的每条评论数据具体包括评论文本、评论星级、觉得该条评论文本有用的人数,其中,代表商品由系统维护人员选定,系统维护人员选定某商品类型多款销售情况良好且商品评论条数多的商品作为代表商品,不同商品类型的多款代表商品的评论数据将会生成不同类型的商品特征数据,如由水杯类型多款代表商品评论数据生成水杯类型商品特征数据,故系统维护人员需要选定多商品类型的代表商品,使用代表商品评论数据爬取模块爬取各商品类型代表商品的评论数据,记每种商品类型的所有代表商品的评论数据为a数据。

所述构建商品特征库子系统中的关键词种子生成模块从部分a数据中生成关键词种子数据,从a数据中每款代表商品评论数据划分40%的数据用于生成关键词种子,记为b数据,对b数据中每条评论文本做关键词提取,所提取的每个关键词都来自b数据中的评论文本,系统维护人员从所提取的关键词中人工筛选出与商品有关的、可读性好的关键词作为关键词种子,最终生成的关键词种子数据的数据结构是Python字典,该字典有两个字段,分别是seed_type和keyword_seeds,其中,seed_type字段值的数据类型是字符串,由a数据所对应的商品类型决定,keyword_seeds字段的值是将关键词种子形成形如[关键词种子1,关键词种子2, 关键词种子3, ......]的N个字符串组成的一维化列表。

所述构建商品特征库子系统中的商品特征生成模块从部分a数据中生成商品特征数据,将a数据中剩余的60%数据记为c数据,使用b数据生成的关键词种子对c数据中的每条评论文本做关键词提取,提取出与关键词种子类似的关键词,所提取的每个关键词都来自c数据中的评论文本,系统维护人员先从所提取的关键词中人工筛选出与商品有关的、可读性好的关键词作为商品特征,再对商品特征进行方面级分类,具体方面级类别有:质量、价格、可用性、其他,系统维护人员可根据a数据所对应的商品类型对方面级类别进行细微调整,如在生成咖啡商品类型的商品特征时,可以将可用性方面级类别修改为口感,最终生成的商品特征数据的数据结构是Python字典,该字典有两个字段,分别是feature_type和aspect_features,其中,feature_type字段值的数据类型是字符串,由a数据所对应的商品类型决定,aspect_features字段的值是将商品特征按4个方面级类别分类后形成形如[dict1, dict2, dict3, dict4]的4个方面级商品特征字典对象组成的一维化列表,对于每个方面级商品特征字典对象,其有两个字段,分别为aspect_type和features,aspect_type字段的值分别是方面级类别,features字段的值是对应方面级类别的商品特征一维Python列表。

所述构建商品特征库子系统中的商品特征存储模块将商品特征数据存储进MongoDB中,在Mongo DB中创建一个名为aspectFeaturesDatabase的数据库,在aspectFeaturesDatabase数据库中创建一个名为aspectFeaturesCollection的集合,将各类型商品特征数据存储进aspectFeaturesCollection的集合中,即aspectFeaturesCollection集合为商品特征库,并为商品特征库中的特征数据文档中feature_type字段创建索引。

所述方面级自给权重商品选品系统中的待选商品评论数据爬取模块用于爬取待选商品的评论数据,对于商品页面下部的每条评论数据具体包括评论文本、评论星级、觉得该条评论文本有用的人数,其中,待选商品由系统用户选定,系统用户选定同一商品类型的N款商品,由待选商品评论数据爬取模块爬取这N款待选商品的评论数据,记所爬取的这N款待选商品的评论数据为d数据。

所述方面级自给权重商品选品系统中的商品特征匹配模块使用d数据对应商品类型的商品特征数据对N款待选商品分别进行商品特征匹配工作,以d数据中一款待选商品为例,记其评论数据为d1数据,从商品特征库中获取feature_type字段值为d数据对应商品类型的商品特征数据,获取商品特征数据中的aspect_features字段数据,记为u数据,遍历u数据中的方面级商品特征字典对象,记当前所遍历的方面级商品特征字典对象为j,记j字典对象中features字段值数据为v,使用v数据中的每个商品特征分别和d1数据中每条评论文本做语义相似度计算得到语义相似值,当v数据中某条商品特征和d1数据中某条评论文本的语义相似值超过预设定的阈值时,认为当前商品特征与当前评论文本匹配上,并将当前商品特征、当前评论文本、觉得当前评论文本有用的人数、商品特征情感值封装成一个特征对象,其中,商品特征情感值为从4星评价和5星评价的评论文本中匹配出的商品特征为积极商品特征,从小于4星评价的评论文本中匹配出的商品特征为消极商品特征,故商品特征情感值为positive或negative,当v数据中所有商品特征与d1所有评论文本计算完毕后,方面级商品特征匹配结果是一个Python字典,方面级商品特征匹配结果有两个字段,分别是aspect_type和feature_obj,aspect_type字段的值是j字典对象中aspect_type字段的值,feature_obj字段的值是将多个封装的特征对象形成形如[特征对象1, 特征对象2, 特征对象3, 特征对象4, ......]的一维化Python列表,至u数据中所有方面级商品特征字典对象遍历结束,得到d1数据商品特征匹配结果,d1数据商品特征匹配结果的数据结构是Python字典,d1数据商品特征匹配结果有两个字段,分别是product_asin和product_features,其中,product_asin字段值的数据类型是字符串,是d1商品的特殊编码标识,product_features字段值是将各方面级商品特征匹配结果形成形如[商品特征匹配结果1,商品特征匹配结果2, 商品特征匹配结果3, 商品特征匹配结果4]的一维化Python列表。

所述方面级自给权重商品选品系统中的待选商品资质值计算模块用于计算N款待选商品的资质值,遍历所有待选商品的商品特征匹配结果字典对象,记当前待选商品的商品特征匹配结果字典对象为e,记e字典对象中product_features字段的列表数据为g,遍历g列表中的方面级商品特征匹配结果字典对象,记当前方面级商品特征匹配结果字典对象为h,记h字典对象中feature_obj字段的特征对象列表为i,计算i列表中各特征对象中的商品特征的资质值,其中,对于某个特征对象,其内商品特征与其内评论文本为匹配状态,即该商品特征基础资质为1,其内评论文本有多少人觉得有用的人数为该商品特征的附加资质值,故该商品特征的总资质值为基础资质值加附加资质值,遍历i列表中各特征对象,先累加所有特征对象中的商品特征的资质值记为tts,再累加所有商品特征情感值为positive的特征对象中的商品特征的资质值记为pts,方面级资质值计算结果的数据结构是Python字典,有三个字段,分别是aspect_type、total_talent_score和positive_talent_score,aspect_type字段值的数据类型是字符串,由h字典对象中的aspect_type字段值决定,total_talent_score字段的值是tts,positive_talent_score字段的值是pts,至g列表中所有方面级商品特征匹配结果字典对象遍历结束,得到当前待选商品资质值计算结果,待选商品资质值计算结果有两个字段,分别是product_asin和aspect_talent_score,product_asin字段值的数据类型是字符串,是待选商品的特殊编码标识,aspect_talent_score字段值是将各方面级资质值计算结果形成形如[资质值计算结果1, 资质值计算结果2, 资质值计算结果3, 资质值计算结果4]的一维化Python列表。

所述方面级自给权重商品选品系统中的待选商品选品值计算排序模块用于计算各待选商品的选品值并对各待选商品的选品值进行排序,遍历所有待选商品的资质值计算结果字典对象,记当前待选商品资质值计算结果字典对象为k,记k字典对象中aspect_talent_score字段的列表数据为l,遍历l列表中的方面级资质值计算结果字典对象,记当前方面级资质值计算结果字典对象为m,由m计算得方面级选品值的计算公式为:100/total_talent_score*positive_talent_score*自给权重,其中,自给权重由系统用户指定,用户根据本次选品所侧重的方面级类别,自由为各方面级类别指定方面级权重,自给权重的值大于0且小于1,且各方面级自给权重之和为1,至l列表中的方面级资质值计算结果字典对象遍历结束,当前待选商品的选品值为各方面级选品值之和。所述对各待选商品的选品值进行排序是将各待选商品的选品值按照从大到小进行排序,将排序前n的待选商品作为优选商品。

请参阅图3,一种基于关键词提取的方面级自给权重商品选品方法,需要构建商品特征库,所述构建商品特征库包括以下步骤:

爬取代表商品的评论数据,具体包括:

对于商品页面下部的每条评论数据具体包括评论文本、评论星级、觉得该条评论文本有用的人数,其中,代表商品由系统维护人员选定,系统维护人员选定某商品类型多款销售情况良好且商品评论条数多的商品作为代表商品,不同商品类型的多款代表商品的评论数据将会生成不同类型的商品特征数据,如由水杯类型多款代表商品评论数据生成水杯类型商品特征数据,故系统维护人员需要选定多商品类型的代表商品,然后爬取各商品类型代表商品的评论数据,记每种商品类型的所有代表商品的评论数据为a数据;比如,系统维护人员选定水杯商品类型,并选定了销售情况良好且商品评论条数多的20款水杯作为代表商品,然后爬取这20款代表商品的评论数据,记为a数据。

使用代表商品的部分评论数据生成关键词种子数据,具体包括:

从a数据中每款代表商品评论数据划分40%的数据用于生成关键词种子,记为b数据,对b数据中每条评论文本做关键词提取,所提取的每个关键词都来自b数据中的评论文本,系统维护人员从所提取的关键词中人工筛选出与商品有关的、可读性好的关键词作为关键词种子,最终生成的关键词种子数据的数据结构是Python字典,该字典有两个字段,分别是seed_type和keyword_seeds,其中,seed_type字段值的数据类型是字符串,由a数据所对应的商品类型决定,keyword_seeds字段的值是将关键词种子形成形如[关键词种子1,关键词种子2, 关键词种子3, ......]的N个字符串组成的一维化列表。

使用代表商品的剩余评论数据生成商品特征数据,具体包括:

将a数据中剩余的60%数据记为c数据,使用b数据生成的关键词种子对c数据中的每条评论文本做关键词提取,提取出与关键词种子类似的关键词,所提取的每个关键词都来自c数据中的评论文本,系统维护人员先从所提取的关键词中人工筛选出与商品有关的、可读性好的关键词作为商品特征,再对商品特征进行方面级分类,具体方面级类别有:质量、价格、可用性、其他,系统维护人员可根据a数据所对应的商品类型对方面级类别进行细微调整,如在生成咖啡商品类型的商品特征时,可以将可用性方面级类别修改为口感,最终生成的商品特征数据的数据结构是Python字典,该字典有两个字段,分别是feature_type和aspect_features,其中,feature_type字段值的数据类型是字符串,由a数据所对应的商品类型决定,aspect_features字段的值是将商品特征按4个方面级类别分类后形成形如[dict1, dict2, dict3, dict4]的4个方面级商品特征字典对象组成的一维化列表,对于每个方面级商品特征字典对象,其有两个字段,分别为aspect_type和features,aspect_type字段的值分别是方面级类别,features字段的值是对应方面级类别的商品特征一维Python列表。

将商品特征数据存储进Mongo DB中,具体包括:

在Mongo DB中创建一个名为aspectFeaturesDatabase的数据库,在aspectFeaturesDatabase数据库中创建一个名为aspectFeaturesCollection的集合,将各类型商品特征数据存储进aspectFeaturesCollection的集合中,即aspectFeaturesCollection集合为商品特征库,并为商品特征库中的特征数据文档中feature_type字段创建索引;比如,将a数据经上述流程处理后所得的水杯类型商品特征数据存储进商品特征库中。

请参阅图4,一种基于关键词提取的方面级自给权重商品选品方法,所述方面级自给权重商品选品方法包括以下步骤:

爬取待选商品的评论数据,具体包括:

对于商品页面下部的每条评论数据具体包括评论文本、评论星级、觉得该条评论文本有用的人数,其中,待选商品由系统用户选定,系统用户选定同一商品类型的N款商品,然后爬取这N款待选商品的评论数据,记所爬取的这N款待选商品的评论数据为d数据;比如,系统用户指定30款待选水杯商品,然后爬取系统用户所指定的这30款待选水杯商品的评论数据,记为d数据。

使用待选商品对应商品类型的商品特征数据对N款待选商品分别进行商品特征匹配工作,具体包括:

以d数据中一款待选商品为例,记其评论数据为d1数据,从商品特征库中获取feature_type字段值为d数据对应商品类型的商品特征数据,获取商品特征数据中的aspect_features字段数据,记为u数据,遍历u数据中的方面级商品特征字典对象,记当前所遍历的方面级商品特征字典对象为j,记j字典对象中features字段值数据为v,使用v数据中的每个商品特征分别和d1数据中每条评论文本做语义相似度计算得到语义相似值,当v数据中某条商品特征和d1数据中某条评论文本的语义相似值超过预设定的阈值时,认为当前商品特征与当前评论文本匹配上,并将当前商品特征、当前评论文本、觉得当前评论文本有用的人数、商品特征情感值封装成一个特征对象,其中,商品特征情感值为从4星评价和5星评价的评论文本中匹配出的商品特征为积极商品特征,从小于4星评价的评论文本中匹配出的商品特征为消极商品特征,故商品特征情感值为positive或negative,当v数据中所有商品特征与d1所有评论文本计算完毕后,方面级商品特征匹配结果是一个Python字典,方面级商品特征匹配结果有两个字段,分别是aspect_type和feature_obj,aspect_type字段的值是j字典对象中aspect_type字段的值,feature_obj字段的值是将多个封装的特征对象形成形如[特征对象1, 特征对象2, 特征对象3, 特征对象4, ......]的一维化Python列表,至u数据中所有方面级商品特征字典对象遍历结束,得到d1数据商品特征匹配结果,d1数据商品特征匹配结果的数据结构是Python字典,d1数据商品特征匹配结果有两个字段,分别是product_asin和product_features,其中,product_asin字段值的数据类型是字符串,是d1商品的特殊编码标识,product_features字段值是将各方面级商品特征匹配结果形成形如[商品特征匹配结果1, 商品特征匹配结果2, 商品特征匹配结果3, 商品特征匹配结果4]的一维化Python列表。

计算N款待选商品的资质值,具体包括:

遍历所有待选商品的商品特征匹配结果字典对象,记当前待选商品的商品特征匹配结果字典对象为e,记e字典对象中product_features字段的列表数据为g,遍历g列表中的方面级商品特征匹配结果字典对象,记当前方面级商品特征匹配结果字典对象为h,记h字典对象中feature_obj字段的特征对象列表为i,计算i列表中各特征对象中的商品特征的资质值,其中,对于某个特征对象,其内商品特征与其内评论文本为匹配状态,即该商品特征基础资质为1,其内评论文本有多少人觉得有用的人数为该商品特征的附加资质值,故该商品特征的总资质值为基础资质值加附加资质值,遍历i列表中各特征对象,先累加所有特征对象中的商品特征的资质值记为tts,再累加所有商品特征情感值为positive的特征对象中的商品特征的资质值记为pts,方面级资质值计算结果的数据结构是Python字典,有三个字段,分别是aspect_type、total_talent_score和positive_talent_score,aspect_type字段值的数据类型是字符串,由h字典对象中的aspect_type字段值决定,total_talent_score字段的值是tts,positive_talent_score字段的值是pts,至g列表中所有方面级商品特征匹配结果字典对象遍历结束,得到当前待选商品资质值计算结果,待选商品资质值计算结果有两个字段,分别是product_asin和aspect_talent_score,product_asin字段值的数据类型是字符串,是待选商品的特殊编码标识,aspect_talent_score字段值是将各方面级资质值计算结果形成形如[资质值计算结果1, 资质值计算结果2, 资质值计算结果3, 资质值计算结果4]的一维化Python列表。

计算各待选商品的选品值并对各待选商品的选品值进行排序,将排序前n的待选商品作为优选商品,再将优选商品推送给系统用户,具体包括:

遍历所有待选商品的资质值计算结果字典对象,记当前待选商品资质值计算结果字典对象为k,记k字典对象中aspect_talent_score字段的列表数据为l,遍历l列表中的方面级资质值计算结果字典对象,记当前方面级资质值计算结果字典对象为m,由m计算得方面级选品值的计算公式为:100/total_talent_score*positive_talent_score*自给权重,其中,自给权重由系统用户指定,用户根据本次选品所侧重的方面级类别,自由为各方面级类别指定方面级权重,自给权重的值大于0且小于1,且各方面级自给权重之和为1,至l列表中的方面级资质值计算结果字典对象遍历结束,当前待选商品的选品值为各方面级选品值之和;

将各待选商品的选品值按照从大到小进行排序,将排序前n的待选商品作为优选商品。

最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

相关技术
  • 一种基于关键词提取的情感分析方法及系统
  • 基于优先级规则的拣货仓商品选品系统以及使用方法
  • 基于方面级细粒度的商品评论情感分析方法和系统
技术分类

06120116061681