掌桥专利:专业的专利平台
掌桥专利
首页

整合跨平台商品数据的方法、系统和计算机可读介质

文献发布时间:2023-06-19 09:35:27


整合跨平台商品数据的方法、系统和计算机可读介质

技术领域

本发明主要涉及数据处理领域,尤其涉及一种整合跨平台商品数据的方法、系统和计算机可读介质。

背景技术

随着商品订单平台的增多,同一个商户可能需要在多个商品订单平台上经营,每个平台都有自己的商品系统。这些商品系统之家的数据是异构的,难以统一。这给商户处理它自身的商品数据造成了很大困难。

发明内容

本发明要解决的技术问题是提供一种整合跨平台商品数据的方法、系统和计算机可读介质,可以整合多个商品平台的商品数据,以便统一进行分析。

为解决上述技术问题,本发明提供了一种整合跨平台商品数据的方法,包括以下步骤:从多个商品平台拉取商品清单数据,存入流处理平台;监听所述流处理平台拉取到的商品清单数据,并将所述商品清单数据存入原始数据库中;对所述商品清单数据进行数据清洗,获得结构化的平台元数据,并存储在结构化数据库中;以及将所述平台元数据与商户数据关联,获得带映射关系的映射元数据,并存储在异构结果数据库中。

在本发明的一实施例中,对所述商品清单数据进行数据清洗的步骤包括:去除所述商品清单数据中的特殊字符;去除所述商品清单数据中的重复数据;对所述商品清单数据进行一致性检查;根据业务要求过滤所述商品清单数据中的无效数据;以及解析所述商品清单数据中的特殊格式,以获得所述结构化的平台元数据。

在本发明的一实施例中,将所述平台元数据与商户数据关联,获得带映射关系的映射元数据的步骤包括:a.判断当前商品是否存在映射的本地商品标识,如果存在则结束,否则进入步骤b;b.判断所述当前商品是否支持外部商品标识,如果是,如果则进入步骤c,否则进入步骤d;c.判断所述当前商品是否已配置外部商品标识,如果是则进入步骤e,否则进入步骤d; d.根据关键字搜索相关本地商品标识,将所述当前商品与搜索到的本地商品标识关联。

在本发明的一实施例中,将所述平台元数据与商户数据关联,获得带映射关系的映射元数据的步骤还包括:当所述步骤d中未搜索到相关本地商品标识时,生成包括未映射商品的异常事件;将所述异常事件提醒用户。

在本发明的一实施例中,将所述平台元数据与商户数据关联,获得带映射关系的映射元数据的步骤还包括:接收用户对未映射商品与本地商品标识的人工绑定。

在本发明的一实施例中,根据关键字搜索相关本地商品标识的方法包括确定有穷自动机算法。

在本发明的一实施例中,对所述商品清单数据进行一致性检查的步骤包括:根据每个变量的合理取值范围和相互关系,检查商品清单数据是否符合要求。

在本发明的一实施例中,上述方法还包括利用所述异构结果数据库中的映射元数据对所述商品清单数据进行聚合分析。

本发明的另一方面提出一种整合跨平台商品数据的系统,包括:存储器,用于存储可由处理器执行的指令;以及处理器,用于执行所述指令以实现如上所述的方法。

本发明的另一方面提出一种存储有计算机程序代码的计算机可读介质,所述计算机程序代码在由处理器执行时实现如上所述的方法。

与现有技术相比,本发明在获取多个商品平台的商品数据后,通过数据清洗、建立映射关系等步骤,抽象出统一的商品整合系统,从而能在此基础上进行统一分析,大幅提高了商户的数据处理效率。

附图说明

包括附图是为提供对本申请进一步的理解,它们被收录并构成本申请的一部分,附图示出了本申请的实施例,并与本说明书一起起到解释本发明原理的作用。附图中:

图1是本申请一实施例的整合跨平台商品数据的系统框图。

图2是本申请一实施例的整合跨平台商品数据的方法示意图。

图3是本申请一实施例的关系映射过程示意图。

图4是本申请一实施例的处理未映射数据的过程示意图。

图5是本申请一实施例的商品数据分析过程示意图。

图6是本申请一实施例的整合跨平台商品数据的系统硬件实施环境。

具体实施方式

为了更清楚地说明本申请的实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用于其他类似情景。除非从语言环境中显而易见或另做说明,图中相同标号代表相同结构或操作。

如本申请和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其他的步骤或元素。

除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本申请的范围。同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为授权说明书的一部分。在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。

在本申请的描述中,需要理解的是,方位词如“前、后、上、下、左、右”、“横向、竖向、垂直、水平”和“顶、底”等所指示的方位或位置关系通常是基于附图所示的方位或位置关系,仅是为了便于描述本申请和简化描述,在未作相反说明的情况下,这些方位词并不指示和暗示所指的装置或元件必须具有特定的方位或者以特定的方位构造和操作,因此不能理解为对本申请保护范围的限制;方位词“内、外”是指相对于各部件本身的轮廓的内外。

本申请中使用了流程图用来说明根据本申请的实施例的系统所执行的操作。应当理解的是,前面或下面操作不一定按照顺序来精确地执行。相反,可以按照倒序或同时处理各种步骤。同时,或将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。

图1是本申请一实施例的整合跨平台商品数据的系统逻辑框图。参考图1所示,系统100与多个商品系统200及客户端300耦接,以便与这些设备交互。多个商品平台200例如可以是各种商业化平台,例如美团、饿了么、京东、饿百等。系统100可包括数据层模块110、应用模块120和配置中心130。数据层模块120可从商品系统200拉取商品清单数据,并在内部进行数据处理,从而得到结构化的商品数据,并存储在数据库中。应用模块120包括商品整理模块121和业务模块122。商品整理模块121对结构化的商品数据进行整理,得到经映射的商品数据,并存储在数据库中。业务模块122可利用经映射的商品数据进行各类分析,得到有价值的结果。这些结果可通过web服务123的方式供客户端300查询。配置中心130可对数据层模块110、应用模块120的运作进行配置。在本发明的一实施例中,商品例如是菜品。

图2是本申请一实施例的整合跨平台商品数据的方法示意图。根据此方法,配置了流处理平台211、原始数据库212、结构化数据库212及异构结果数据库213,以便于在各个步骤间实现数据的换成。

参考图2所示,本实施例的一种整合跨平台商品数据的方法,包括以下步骤:

在步骤201,从多个商品系统拉取商品清单数据,存入流处理平台。

多个商品平台200例如可以是各种商业化平台,例如美团、饿了么、京东、饿百等。每个商品系统中都包括商品清单数据、订单数据等业务数据。通常而言,各个商品系统中的数据在字段命名和数据格式等方面是不一致的,即异构数据。

流处理平台211可以存储拉取到的商品清单数据,供流程的后续步骤使用。流处理平台211可以缓解系统的性能压力,并且将商品系统200和整合系统100解耦。举例来说,流处理平台211可以是kafka平台。

在步骤202,监听流处理平台拉取到的商品清单数据,并将商品清单数据存入原始数据库中。

在此步骤中,系统通过监听流处理平台,消费其抓取到的商品清单数据并作为原始数据,存储到原始数据库212中。商品清单数据作为原始数据存储便于追查数据问题。

在步骤203,对商品清单数据进行数据清洗,获得结构化的平台元数据,并存储在结构化数据库中。

在此步骤中,为保证数据稳定性,将原始数据进行清洗并将清洗后的数据存储。数据清洗的目标如下:清除可能影响程序运行以及准确性的特殊字符、清理无效数据及错误数据、检查一致性。

在一个实施例中,数据清洗的步骤包括去除商品清单数据中的特殊字符。部分特殊字符,如\,emoji等特殊字符对于系统稳定性是毁灭性的,会导致系统错误,同时也会影响部分数据的比对。因此需要去除这些特殊字符。

在一个实施例中,数据清洗的步骤包括去除商品清单数据中的重复数据。具体地说,将数据采集过程中重跑、补跑等情况导致的重复数据进行删除,否则会导致计算的数据不准确。需要指出的是,不同的业务去重逻辑不同,因此可以根据业务来设置去重逻辑。

在一个实施例中,数据清洗的步骤包括对商品清单数据进行一致性检查,防止平台更新或者偶发性错误导致数据出现不合乎要求的情况。一致性检查主要包括根据每个变量的合理取值范围和相互关系,检查商品清单数据是否符合要求。不一致的情况包括:数据超出正常范围、数据逻辑上不合理及数据相互矛盾等情况。

在一个实施例中,数据清洗的步骤包括根据业务要求过滤商品清单数据中的无效数据。具体地说,根据业务要求过滤掉不需要的数据。如在后续商品分析过程中,餐盒不属于商品但是会被一起采集到整合系统100中,影响统计,则在此处直接进行过滤操作。

在一个实施例中,数据清洗的步骤包括解析商品清单数据中的特殊格式,以获得结构化的平台元数据。具体地说,来自商品系统的原始数据可能会有各种格式如xml、json、字符串、文件等等,业务无法直接使用,则需要将这些原始数据进行解析,得到结构化数据。

经过上述处理的结构化数据,作为平台元数据,存储在结构化数据库 212中。结构化数据库212可以在整合系统100离线的情况下被使用。

在步骤204,将平台元数据与商户数据关联,获得带映射关系的映射元数据,并存储在异构结果数据库中。

在此步骤中,进行了关系映射,即是将清洗后的平台元数据与整合系统100中原有的商户数据进行关联,变成带映射关系的映射元数据,从而方便进行数据分析。

图3是本申请一实施例的关系映射过程示意图。参考图3所示,在获取异构关系数据后,首先在步骤301,判断当前商品是否存在映射的本地商品标识,如果存在则结束,否则进入步骤302。在步骤302,判断当前商品是否支持外部商品标识,如果是,如果则进入步骤303,否则进入步骤304。在步骤303,判断当前商品是否已配置外部商品标识,如果是则直接进行机器整理,例如标识映射,否则进入步骤304。在步骤304,根据关键字搜索相关本地商品标识。在步骤305,判断是否搜索到匹配本地商品标志,如果是,进入步骤306,将当前商品与搜索到的本地商品标识关联。否则进入步骤307,生成包括未映射商品的异常事件,并将异常事件提醒用户。

在一个实施例中,根据关键字搜索相关本地商品标识的方法包括确定有穷自动机(DFA)算法。

在一个实施例中,将平台元数据与商户数据关联,获得带映射关系的映射元数据的步骤接收用户对未映射商品与本地商品标识的人工绑定。图4 是本申请一实施例的处理未映射数据的过程示意图。参考图4所示,在步骤401,系统100获取到未映射商品的异常数据,在步骤402,系统通知相关用户进行人工绑定。在步骤403,用户登录系统拉取异常商品,逐一比对未映射商品与本地商品。在步骤404,判断是否存在未映射商品和同名的本地商品,若是则在步骤405将其进行人工绑定,由系统记录映射关系。若不存在同名或者同类型商品,则在步骤406,用户创建系统商品,跳转至步骤405重新操作,直至全部平台商品映射关系绑定完成。

图5是本申请一实施例的商品数据分析过程示意图。参考图5所示,在步骤501,获取商品清单数据,商品清单数据来自各个商品系统200且是异构数据。在步骤502,获取商品映射关系,映射关系来自前述步骤204 整理的结果。在步骤503,判断是否有映射关系,如果有映射关系则在步骤 504将平台300的商品转化为系统100的商品,若无映射关系则直接放弃该商品,结束流程。转化为系统商品后,可进行多种聚合分析。例如在步骤 505计算系统商品的每日销量并存储。系统商品日销为该商品当日销量累加值。又如,可在步骤506计算系统商品的单均实收并存储。示例性单均实收计算公式如下:

((商品销量*商品原价)/订单总价)*订单实收

在步骤507,判定该系统商品是否存在成本,有则计算毛利润并存储,若无成本则结束。示例性的毛利润计算公式:

(销量*单据实收)-(销量*(商品成本+包装成本))

在一个实施例中,通过图1的web服务123将计算的毛利润数据按需要进行加总呈现给用户则为利润分析。在一个实施例中,通过web服务123 将计算的销量按需要进行加总呈现给用户则为销量分析。

图6是本申请一实施例的整合跨平台商品数据的系统硬件实施环境。整合系统600可包括内部通信总线601、处理器(Processor)602、只读存储器(ROM)603、随机存取存储器(RAM)604、以及通信端口605。当应用在个人计算机上时,整合系统600还可以包括硬盘607。内部通信总线 601可以实现整合系统600组件间的数据通信。处理器602可以进行判断和发出提示。在一些实施例中,处理器602可以由一个或多个处理器组成。通信端口605可以实现整合系统600与外部的数据通信。在一些实施例中,整合系统600可以通过通信端口605从网络发送和接受信息及数据。整合系统600还可以包括不同形式的程序储存单元以及数据储存单元,例如硬盘 607,只读存储器(ROM)603和随机存取存储器(RAM)604,能够存储计算机处理和/或通信使用的各种数据文件,以及处理器602所执行的可能的程序指令。处理器执行这些指令以实现方法的主要部分。处理器处理的结果通过通信端口传给用户设备,在用户界面上显示。

上述的整合跨平台商品数据的方法可以实施为计算机程序,保存在硬盘607中,并可记载到处理器602中执行,以实施本申请的整合跨平台商品数据的方法。

本申请还提供了一种存储有计算机程序代码的计算机可读介质,所述计算机程序代码在由处理器执行时实现如上所述的整合跨平台商品数据。

上文已对基本概念做了描述,显然,对于本领域技术人员来说,上述发明披露仅仅作为示例,而并不构成对本申请的限定。虽然此处并没有明确说明,本领域技术人员可能会对本申请进行各种修改、改进和修正。该类修改、改进和修正在本申请中被建议,所以该类修改、改进、修正仍属于本申请示范实施例的精神和范围。

同时,本申请使用了特定词语来描述本申请的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本申请至少一个实施例相关的某一特征、结构或特点。因此,应强调并注意的是,本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一替代性实施例”并不一定是指同一实施例。此外,本申请的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。

本申请的一些方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。处理器可以是一个或多个专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理器件(DAPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器或者其组合。此外,本申请的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品,该产品包括计算机可读程序编码。例如,计算机可读介质可包括,但不限于,磁性存储设备(例如,硬盘、软盘、磁带……)、光盘(例如,压缩盘CD、数字多功能盘DVD……)、智能卡以及闪存设备(例如,卡、棒、键驱动器……)。

计算机可读介质可能包含一个内含有计算机程序编码的传播数据信号,例如在基带上或作为载波的一部分。该传播信号可能有多种表现形式,包括电磁形式、光形式等等、或合适的组合形式。计算机可读介质可以是除计算机可读存储介质之外的任何计算机可读介质,该介质可以通过连接至一个指令执行系统、装置或设备以实现通讯、传播或传输供使用的程序。位于计算机可读介质上的程序编码可以通过任何合适的介质进行传播,包括无线电、电缆、光纤电缆、射频信号、或类似介质、或任何上述介质的组合。

同理,应当注意的是,为了简化本申请披露的表述,从而帮助对一个或多个发明实施例的理解,前文对本申请实施例的描述中,有时会将多种特征归并至一个实施例、附图或对其的描述中。但是,这种披露方法并不意味着本申请对象所需要的特征比权利要求中提及的特征多。实际上,实施例的特征要少于上述披露的单个实施例的全部特征。

一些实施例中使用了描述成分、属性数量的数字,应当理解的是,此类用于实施例描述的数字,在一些示例中使用了修饰词“大约”、“近似”或“大体上”来修饰。除非另外说明,“大约”、“近似”或“大体上”表明所述数字允许有±20%的变化。相应地,在一些实施例中,说明书和权利要求中使用的数值参数均为近似值,该近似值根据个别实施例所需特点可以发生改变。在一些实施例中,数值参数应考虑规定的有效数位并采用一般位数保留的方法。尽管本申请一些实施例中用于确认其范围广度的数值域和参数为近似值,在具体实施例中,此类数值的设定在可行范围内尽可能精确。

虽然本申请已参照当前的具体实施例来描述,但是本技术领域中的普通技术人员应当认识到,以上的实施例仅是用来说明本申请,在没有脱离本申请精神的情况下还可作出各种等效的变化或替换,因此,只要在本申请的实质精神范围内对上述实施例的变化、变型都将落在本申请的权利要求书的范围内。

相关技术
  • 整合跨平台商品数据的方法、系统和计算机可读介质
  • 基于大数据的商品推荐方法、系统及计算机可读存储介质
技术分类

06120112222908