掌桥专利:专业的专利平台
掌桥专利
首页

一种数据预处理方法及装置

文献发布时间:2023-06-19 09:58:59


一种数据预处理方法及装置

技术领域

本申请涉及数据处理技术领域,尤其涉及一种数据预处理方法及装置。

背景技术

ERP(Enterprise Resource Planning)系统是指建立在信息技术基础上,集信息技术与先进管理思想于一身,以系统化的管理思想,为企业员工及决策层提供决策手段的管理平台。ERP系统实际应用中更重要的是应该体现其“管理工具”的本质,其主要宗旨是对企业所拥有的人、财、物、信息、时间和空间等综合资源进行综合平衡和优化管理。

如图1所示,以电商平台与经销商为例,安装了ERP系统的终端设备200通常设在经销商一端,当用户在电商平台下单后,电商平台产生订单信息并保存在电商平台数据系统100中,经销商需要从电商平台数据系统100中获取单据并录入自己的ERP系统,以方便对商品销售情况进行管理。经销商一方从电商平台拿到单据后,通常需要人工将信息录入ERP系统,然而,人工录入信息很难保证数据录入的准确性,并且一旦订单量巨大,想要完全靠人工的方式快速实时的录入单据也是很难实现的。为了避免人工录入存在的浪费人力和录入错误率高的问题,目前企业都在开发接口,使得ERP系统和类似于电商平台这种数据系统对接起来,进而实现数据系统的单据可以自动进入ERP系统。

事实上,部分电商平台所提供的订单数据主要由人工填写,填写人员经常为了填写方便,省略一些文字描述,或者利用更简单的文字替代原文字,而每个电商平台对于同一个商品的命名也存在差异,例如:A商家用纯甄牛奶,B商家用纯甄,均用来指代纯甄牛奶;而且电商平台的订单填写顺序也各不相同,与ERP系统所提供的标准数据清单的填写顺序也会存在差异,上述问题均会为电商平台的订单数据写入EPR系统的工作造成麻烦,影响写入速度和准确度。

发明内容

本申请提供了一种数据预处理方法及装置,以解决现有电商平台的订单数据与ERP系统不对应的问题。

本申请第一方面提供了一种数据预处理方法,包括:

获取电商平台的待写入订单数据;

确定与标准数据清单不匹配的所述待写入订单数据中的问题数据;

标准化所述问题数据,得到修改后订单数据;

将所述待写入订单数据中的所述问题数据替换为所述修改后订单数据,得到标准化订单数据;

利用转换脚本,转换所述标准化订单数据为可执行订单数据;

根据所述可执行订单数据,对应所述标准数据清单的写入顺序,生成数据队列。

可选地,所述确定与标准数据清单不匹配的所述待写入订单数据中的问题数据的具体步骤包括:

解析所述待写入订单数据,得到活跃数据,其中,所述活跃数据为待写入订单中存在字符的名头下的数据;

匹配所述活跃数据所对应的名头与所述标准数据清单的全部名头;

确定与所述标准数据清单中相匹配名头下的预设写入格式不匹配的所述相匹配名头所对应的活跃数据为问题数据。

可选地,所述方法还包括:

根据与所述标准数据清单中不匹配名头所对应的活跃数据,建立新增别称关系。

可选地,所述标准化问题数据,得到修改后订单数据的具体步骤包括:

获取所述问题数据的代表字段;

根据所述标准数据清单的预设写入格式和所述代表字段,确定所述活跃数据的问题类型,所述问题类型包括:缺少字段和字段错误;

如果所述问题类型为缺少字段,则填充所缺少的字段至代表字段;

如果所述问题类型为字段错误,则根据所述预设写入格式,修改代表字段。

可选地,所述利用转换脚本,转换所述标准化订单数据为可执行订单数据之前还包括:

按照预设账套拆分规则,将标准化订单数据拆分为子订单数据;

标记所述子订单数据。

本申请第二方面提供了一种数据预处理装置,包括:

订单数据获取单元,用于获取电商平台的待写入订单数据;

问题数据确定单元,用于确定与标准数据清单不匹配的所述待写入订单数据中的问题数据;

标准化单元,用于标准化所述问题数据,得到修改后订单数据;

替换单元,用于将所述待写入订单数据中的所述问题数据替换为所述修改后订单数据,得到标准化订单数据;

转换单元,用于利用转换脚本,转换所述标准化订单数据为可执行订单数据;

队列生成单元,用于根据所述可执行订单数据,对应所述标准数据清单的写入顺序,生成数据队列。

可选地,所述问题数据确定单元包括:

解析单元,用于解析所述待写入订单数据,得到活跃数据,其中,所述活跃数据为待写入订单中存在字符的名头下的数据;

匹配单元,用于匹配所述活跃数据所对应的名头与所述标准数据清单的全部名头;

确定单元,用于确定与所述标准数据清单中相匹配名头下的预设写入格式不匹配的所述相匹配名头所对应的活跃数据为问题数据。

可选地,所述装置还包括:

建立单元,用于根据与所述标准数据清单中不匹配名头所对应的活跃数据,建立新增别称关系。

可选地,所述标准化单元包括:

字段获取单元,用于获取所述问题数据的代表字段;

问题类型确定单元,用于根据所述标准数据清单的预设写入格式和所述代表字段,确定所述活跃数据的问题类型,所述问题类型包括:缺少字段和字段错误;

填充单元,用于如果所述问题类型为缺少字段,则填充所缺少的字段至代表字段;

修改单元,用于如果所述问题类型为字段错误,则根据所述预设写入格式,修改代表字段。

可选地,所述装置还包括:

拆分单元,用于按照预设账套拆分规则,将标准化订单数据拆分为子订单数据;

标记单元,用于标记所述子订单数据。

由以上技术可知,本申请提供了一种数据预处理方法及装置,其中,所述方法包括:获取电商平台的待写入订单数据;确定与标准数据清单不匹配的所述待写入订单数据中的问题数据;标准化所述问题数据,得到修改后订单数据;将所述待写入订单数据中的所述问题数据替换为所述修改后订单数据,得到标准化订单数据;利用转换脚本,转换所述标准化订单数据为可执行订单数据;根据所述可执行订单数据,对应所述标准数据清单的写入顺序,生成数据队列。使用时,经销商用户将电商平台的订单数据的接入授权给第三方数据监管平台,例如数据通等,第三方数据监管平台获取电商平台的订单数据,并将电商平台的订单数据写入ERP系统,第三方数据监管平台将电商平台的待写入订单数据写入ERP系统之前,先与ERP系统所提供的标准数据清单进行匹配,并筛选出与标准数据清单所不匹配的待写入订单数据,作为问题数据。根据预设ERP填写标准,将问题数据标准化为符合预设ERP填写标准的修改后订单数据,用修改后订单数据替换待写入订单数据中的问题数据,令整体待写入订单数据均符合标准数据清单的写入格式。为了实现数据的自动写入,利用写入脚本对待写入订单数据进行写入操作,此时,需要利用转换脚本将标准化订单数据转换为符合脚本执行格式的数据。由于电商平台所提供的订单数据的填写顺序与标准数据清单的填写顺序存在差异,为了方便、快速地写入,将可执行订单数据生成与标准数据清单的写入数据相同的数据队列,能够省去写入过程中的数据对应步骤,进而有效提高写入数据速度和准确度。

附图说明

为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本申请提供的电商平台数据系统与ERP系统对接的示意图;

图2为本申请实施例提供了一种数据预处理方法的流程图;

图3为本申请实施例提供的一种确定问题数据的方法流程图;

图4为本申请实施例提供的电商平台的订单数据信息;

图5为本申请实施例提供的标准数据清单示意图;

图6为本申请实施例所提供的修改问题数据的方法流程图;

图7为本申请实施例所提供的拆分账套的方法流程图;

图8为本申请实施例提供的一种数据预处理装置的结构示意图;

图9为本申请实施例提供的一种问题数据确定单元的结构示意图;

图10为本申请实施例提供的一种建立单元的结构示意图;

图11为本申请实施例提供的一种标准化单元的结构示意图;

图12为本申请实施例提供的一种账套拆分装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

参见图2,本申请实施例提供了一种数据预处理方法的流程图,所述方法包括:

S101、获取电商平台的待写入订单数据;

S102、确定与标准数据清单不匹配的所述待写入订单数据中的问题数据;

S103、标准化所述问题数据,得到修改后订单数据;

S104、将所述待写入订单数据中的所述问题数据替换为所述修改后订单数据,得到标准化订单数据;

S105、利用转换脚本,转换所述标准化订单数据为可执行订单数据;

S106、根据所述可执行订单数据,对应所述标准数据清单的写入顺序,生成数据队列。

使用时,经销商用户将电商平台的订单数据的接入授权给第三方数据监管平台,例如数据通等,第三方数据监管平台获取电商平台的订单数据,并将电商平台的订单数据写入ERP系统,第三方数据监管平台将电商平台的待写入订单数据写入ERP系统之前,先与ERP系统所提供的标准数据清单进行匹配,并筛选出与标准数据清单所不匹配的待写入订单数据,作为问题数据。

具体地,参见图3,为本申请实施例提供的一种确定问题数据的方法流程图。

本申请实施例所提供的一种确定问题数据的方法包括:

S201、解析所述待写入订单数据,得到活跃数据,其中,所述活跃数据为待写入订单中存在字符的名头下的数据;

S202、匹配所述活跃数据所对应的名头与所述标准数据清单的全部名头;

S203、确定与所述标准数据清单中相匹配名头下的预设写入格式不匹配的所述相匹配名头所对应的活跃数据为问题数据。

通常各个电商平台在销售时为了方便记录,会定制适合自己的订单模板,参见图4,为本申请实施例提供的电商平台的订单数据信息,该电商平台用户根据表中的名头顺序对订单数据信息进行录入,通过对待写入订单数据的解析,可以获得待写入订单数据中的字段,即从整体待写入订单数据中按照名头提取有效字段信息,需要注意的是,此处所提取的活跃数据所对应的名头为存在字符的名头,可见,人员信息没有对应的字符,则不需要提取字段信息。当然,活跃数据也可以是根据历史经验或者实际需要所设定的名头所对应的数据,例如,“门店、产品、交易数量、交易时间、产品单位、仓库信息、进货时间”为设定的活跃数据所对应的名头,那么即使人员信息下存在字符,也不对其进行提取操作。

将提取到的活跃数据所对应的名头与标准数据清单的名头进行匹配,如图5所示,与电商平台的提供的名头相比,标准数据清单缺少部分名头,例如“交易数量、交易时间、进货时间、人员信息”,可以确定的是,“门店、产品、产品单位、仓库信息”为与标准数据清单相匹配的名头,因此,可以将相匹配的名头所对应的活跃数据与预设写入格式进行匹配,例如产品,从待写入订单数据中提取的活跃数据为“甄”,而标准数据清单中的预设写入格式为“纯甄牛奶”,显然“甄”就是问题数据,需要进行写入前预处理。同上,可以确定出问题数据还有“佳佳商店”。

进一步地,对于待写入订单数据中无法与标准数据清单的名头相匹配的名头,本申请实施例提供了一种建立新增别称关系的方法,进而保证电商平台所提供的待写入订单数据中的全部有效数据均能够被有效记录。

根据与所述标准数据清单中不匹配名头所对应的活跃数据,建立新增别称关系。

可以直接在当前标准数据清单中直接添加所缺少的名头,从而完善标准数据清单,进一步地,在添加所缺少的名头时,将名头标准化,例如,待写入订单数据中的“人员信息”标准化为“操作人员信息”之后,再添加至标准数据清单中。

本实施例还提供另一种建立新增别称关系的方法,将所缺少的名头归类至当前标准数据清单的名头中,例如,将“进货时间”归类至“仓库信息”中,即建立“进货时间”与“仓库信息”的别称关系。

根据本实施例所提供的建立新建别称关系的方法,能够有效完善和维护标准数据清单,令后续数据的写入过程更加顺畅、便捷。

为了提高记录速度,或者适应操作人员的业务水平,待写入订单数据中经常存在一些问题,例如,用一些同音字等代替原版字,比如,用“纯真牛奶”代替“纯甄牛奶”,或者用“甄”代替“纯甄牛奶”;或者,用同义词代替,再或者,输入格式存在差异,比如,用“.”代替“/”来书写时间等。在针对问题数据进行修改之前,需要确定问题数据的问题类型,才能有针对性的进行修正。

参见图6,为本申请实施例所提供的修改问题数据的方法流程图,所述方法包括:

S301、获取所述问题数据的代表字段;

S302、根据所述标准数据清单的预设写入格式和所述代表字段,确定所述活跃数据的问题类型,所述问题类型包括:缺少字段和字段错误;

S303、如果所述问题类型为缺少字段,则填充所缺少的字段至代表字段;

S304、如果所述问题类型为字段错误,则根据所述预设写入格式,修改代表字段。

通常电商平台所提供的待写入订单数据中包含大量的无效信息,例如,产品中会录入“无添加剂的纯甄牛奶”,此时,需要从中获取能够表示产品的代表字段“纯甄牛奶”,剔除无效信息“无添加剂的”,从而保证数据的处理及写入速度。

标准数据清单的每一项都有预设的写入格式,例如,时间采用“年/月/日”的写入格式,可见,图4中的交易时间即为字段错误;再如,门店采用“佳佳便利店”的写入格式,而图4中的门店将“便利店”进行了同义词替换,替换为“商店”,也为字段错误;再如,产品采用“纯甄牛奶”的写入格式,图4中的产品仅采用“甄”来代表,即为缺少字段。可见,在进行问题类型确定的过程中,需要搭配语义分析,即需要分析代表字段的语义是否与标准数据清单中的所需要写入的数据的语义相同,例如,通过语义分析可知,“商店”等同于“便利店”,因此,可以对“佳佳商店”进行对应的修改,而“林林便利店”就与“佳佳便利店”语义不同,所以无法进行自动修改,则需要进行订单核查。

在确定了问题类型之后,就可以对问题数据进行有针对性的修改。例如,将“甄”填充至“纯甄牛奶”;将“佳佳商店”修改至“佳佳便利店”。

用修改后订单数据替换待写入订单数据中的问题数据,令整体待写入订单数据均符合标准数据清单的写入格式。

为了实现数据的自动写入,利用写入脚本对待写入订单数据进行写入操作,此时,需要利用转换脚本将标准化订单数据转换为符合脚本执行格式的数据。

如图4和图5所示,由于电商平台所提供的订单数据的填写顺序与标准数据清单的填写顺序存在差异,为了方便、快速地写入,将可执行订单数据生成与标准数据清单的写入数据相同的数据队列,例如将原有的待写入订单数据调整为“纯甄牛奶、海淀区大仓、蒙牛、佳佳便利店”之后,再进行写入。这样能够省去写入过程中的数据对应步骤,进而有效提高写入数据速度和准确度。

参见图7,为本申请实施例所提供的拆分账套的方法流程图。

在利用转换脚本,转换所述标准化订单数据为可执行订单数据之前还包括:

S401、按照预设账套拆分规则,将标准化订单数据拆分为子订单数据;

S402、标记所述子订单数据。

通常第三方数据监控平台会从不同电商平台处获取大量订单数据,其中,每一个电商平台也包含大量订单数据,如果将这些订单数据混杂在一起进行处理,则极易出现错误,造成处理器拥堵等问题。

在数据处理之间,先根据预设账套拆分规则,对标准化订单数据进行拆分。其中,预设账套拆分规则可以根据订单数据内容,例如产品、仓库、经销商等进行拆分,也可以订单格式,例如写入顺序、名头等进行拆分。为了防止拆分后的子订单数据再次混杂,对子订单数据进行标记,同时也能够方便查找、定位相关的子订单数据。

参见图8,为本申请实施例提供的一种数据预处理装置的结构示意图,所述装置包括:

订单数据获取单元1,用于获取电商平台的待写入订单数据;

问题数据确定单元2,用于确定与标准数据清单不匹配的所述待写入订单数据中的问题数据;

标准化单元3,用于标准化所述问题数据,得到修改后订单数据;

替换单元4,用于将所述待写入订单数据中的所述问题数据替换为所述修改后订单数据,得到标准化订单数据;

转换单元5,用于利用转换脚本,转换所述标准化订单数据为可执行订单数据;

队列生成单元6,用于根据所述可执行订单数据,对应所述标准数据清单的写入顺序,生成数据队列。

参见图9,为本申请实施例提供的一种问题数据确定单元的结构示意图,包括:

解析单元21,用于解析所述待写入订单数据,得到活跃数据,其中,所述活跃数据为待写入订单中存在字符的名头下的数据;

匹配单元22,用于匹配所述活跃数据所对应的名头与所述标准数据清单的全部名头;

确定单元23,用于确定与所述标准数据清单中相匹配名头下的预设写入格式不匹配的所述相匹配名头所对应的活跃数据为问题数据。

参见图10,为本申请实施例提供的一种建立单元的结构示意图,所述装置包括:

建立单元7,用于根据与所述标准数据清单中不匹配名头所对应的活跃数据,建立新增别称关系。

参见图11,为本申请实施例提供的一种标准化单元的结构示意图,包括:

字段获取单元31,用于获取所述问题数据的代表字段;

问题类型确定单元32,用于根据所述标准数据清单的预设写入格式和所述代表字段,确定所述活跃数据的问题类型,所述问题类型包括:缺少字段和字段错误;

填充单元33,用于如果所述问题类型为缺少字段,则填充所缺少的字段至代表字段;

修改单元34,用于如果所述问题类型为字段错误,则根据所述预设写入格式,修改代表字段。

参见图12,为本申请实施例提供的一种账套拆分装置的结构示意图,所述装置包括:

拆分单元8,用于按照预设账套拆分规则,将标准化订单数据拆分为子订单数据;

标记单元9,用于标记所述子订单数据。

由以上技术方案可知,本申请提供了一种数据预处理方法及装置,其中,所述方法包括:获取电商平台的待写入订单数据;确定与标准数据清单不匹配的所述待写入订单数据中的问题数据;标准化所述问题数据,得到修改后订单数据;将所述待写入订单数据中的所述问题数据替换为所述修改后订单数据,得到标准化订单数据;利用转换脚本,转换所述标准化订单数据为可执行订单数据;根据所述可执行订单数据,对应所述标准数据清单的写入顺序,生成数据队列。使用时,经销商用户将电商平台的订单数据的接入授权给第三方数据监管平台,例如数据通等,第三方数据监管平台获取电商平台的订单数据,并将电商平台的订单数据写入ERP系统,第三方数据监管平台将电商平台的待写入订单数据写入ERP系统之前,先与ERP系统所提供的标准数据清单进行匹配,并筛选出与标准数据清单所不匹配的待写入订单数据,作为问题数据。根据预设ERP填写标准,将问题数据标准化为符合预设ERP填写标准的修改后订单数据,用修改后订单数据替换待写入订单数据中的问题数据,令整体待写入订单数据均符合标准数据清单的写入格式。为了实现数据的自动写入,利用写入脚本对待写入订单数据进行写入操作,此时,需要利用转换脚本将标准化订单数据转换为符合脚本执行格式的数据。由于电商平台所提供的订单数据的填写顺序与标准数据清单的填写顺序存在差异,为了方便、快速地写入,将可执行订单数据生成与标准数据清单的写入数据相同的数据队列,能够省去写入过程中的数据对应步骤,进而有效提高写入数据速度和准确度。

值得注意的是,具体实现中,本发明还提供一种计算机存储介质,其中,该计算机存储介质可存储有程序,该程序执行时可包括本发明提供的用户身份的服务提供方法或用户注册方法的各实施例中的部分或全部步骤。所述的存储介质可为磁碟、光盘、只读存储记忆体(英文:read-only memory,简称:ROM)或随机存储记忆体(英文:random accessmemory,简称:RAM)等。

本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。

应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

相关技术
  • 一种数据预处理方法、剧情显示方法、装置、介质及设备
  • 一种飞行器表面热流辨识装置温度测量数据预处理方法
技术分类

06120112374355