掌桥专利:专业的专利平台
掌桥专利
首页

一种数据处理方法和装置,电子设备和存储介质

文献发布时间:2024-04-18 19:58:21


一种数据处理方法和装置,电子设备和存储介质

技术领域

本申请涉及计算机应用技术领域,具体涉及一种数据处理方法和装置。本申请同时涉及一种计算机存储介质和电子设备。

背景技术

聚合任务可以理解为将不同平台产生的执行任务进行聚合,再由第三方进行后续任务执行,如:聚合配送、聚合打车等。所谓聚合配送可以理解为通过第三配送方进行最终配送目的地的配送任务。聚合配送目前产生的场景主要包括学校、医院,即具有一定规划范围区域的配送场景,在该些配送场景下,通常需要将配送任务配送到规划范围的外围边界,再通过规划范围内部的第三方配送运力进行配送,再配送任务执行完毕后,会根据配送模式进行后续的配送任务结算。

发明内容

本申请提供一种数据处理方法,以解决现有技术中因为配送模式判断错误而导致结算错误的技术问题。

本申请提供一种数据处理方法,包括:

获取资源提供方数据和资源获取方面数据;其中,所述资源获取方面数据为与资源获取方位置对应的信息面数据;

根据所述资源提供方数据和所述资源获取方面数据之间的关系数据,确定所述资源提供方与所述资源获取方面数据之间的位置关系;

根据所述位置关系生成标签数据,其中,所述标签数据用于表征所述资源提供方相对于所述资源获取方面数据的位置属性信息;

根据所述标签数据,对所述资源提供方进行标注。

在一些实施例中,所述获取资源提供方数据和资源获取方面数据,包括:

根据所述资源获取方面数据,选取满足距离要求的候选资源提供方数据。

在一些实施例中,所述根据所述资源提供方数据和所述资源获取方面数据之间的关系数据,确定所述资源提供方与所述资源获取方面数据之间的位置关系,包括:

根据所述候选资源提供方数据和所述资源获取方面数据,确定候选资源提供方与资源获取方之间的距离关系数据和匹配关系数据;

根据所述匹配关系数据和所述距离关系数据,确定所述候选资源提供方与所述资源获取方面数据之间的位置关系。

在一些实施例中,所述根据所述候选资源提供方数据和所述资源获取方面数据,确定候选资源提供方与资源获取方之间的距离关系数据,包括:

根据所述候选资源提供方数据中的位置数据到所述资源获取方面数据中的边界数据的距离,确定所述候选资源提供方与所述资源获取方之间的距离关系数据。

在一些实施例中,所述根据所述候选资源提供方数据中的位置数据到所述资源获取方面数据中的边界数据的距离,确定所述候选资源提供方与所述资源获取方之间的距离关系数据,包括:

当所述候选资源提供方的位置到所述资源获取方面数据边界位置或中心位置的距离大于或等于所述候选资源提供方的位置到所述边界数据的距离,确定所述候选资源提供方位于所述资源获取方面数据的范围内;

当所述候选资源提供方的位置到所述资源获取方面数据边界位置或中心位置的距离小于所述候选资源提供方的位置到所述边界数据的距离,确定所述候选资源提供方位于所述资源获取方面数据的范围外。

在一些实施例中,所述当所述候选资源提供方的位置到所述资源获取方面数据边界位置或中心位置的距离小于所述候选资源提供方的位置到所述边界数据的距离,确定所述候选资源提供方位于所述资源获取方面数据的范围外,还包括:

在所述候选资源提供方与所述边界数据之间的距离数据范围内,选取最小距离数据;

根据所述最小距离数据确定所述候选资源提供方与所述资源获取方之间的距离关系数据。

在一些实施例中,所述根据所述候选资源提供方数据和所述资源获取方面数据,确定候选资源提供方与资源获取方之间的匹配关系数据,包括:

根据所述候选资源提供方数据中的名称信息和所述资源获取方面数据中的名称信息的重复字符比例,确定第一相似度;

根据所述候选资源提供方数据中的名称信息和所述资源获取方面数据中地址信息的重复字符比例,确定第二相似度;

根据所述候选资源提供方数据中的地址信息和所述资源获取方面数据中的名称信息的重复字符比例,确定第三相似度;

根据所述候选资源提供方数据中的地址信息和所述资源获取方面数据中地址信息的重复字符比例,确定第四相似度;

根据所述候选资源提供方数据中的地址信息和所述资源获取方面数据中的名称信息的最长公共子串的字符数比例,确定第五相似度;

根据所述候选资源提供方数据中的地址信息和所述资源获取方面数据中的名称信息的最长公共子序列的字符数比例,确定第六相似度;

根据所述候选资源提供方数据中的地址信息和所述资源获取方面数据中地址信息的最长公共子串的字符数比例,确定第七相似度;

根据所述述候选资源提供方数据中的地址信息和所述资源获取方面数据中地址信息的最长公共子序列的字符数比例,确定第八相似度;

根据所述第一相似度、所述第二相似度、所述第三相似度、所述第四相似度、所述第五相似度、所述第六相似度、所述第七相似度以及所述第八相似度中的一种或多种组合,确定所述候选资源提供方数据与所述资源获取方面数据之间的匹配关系数据。

在一些实施例中,所述根据所述匹配关系数据和所述距离关系数据,确定所述候选资源提供方与所述资源获取方面数据之间的位置关系,包括:

将所述匹配关系数据和所述距离关系数据输入到置信度模型中,获取所述候选资源提供方与所述资源获取方面数据之间的位置关系概率值;

根据所述位置关系概率值,确定所述候选资源提供方与所述资源获取方面数据之间的位置关系。

在一些实施例中,所述根据所述位置关系概率值,确定所述候选资源提供方与所述资源获取方面数据之间的位置关系,包括:

确定所述位置关系概率值是否满足置信度阈值要求;

若否,则根据经验参数确定所述位置关系概率值是否符合要求;

若是,则执行所述根据所述位置关系生成标签数据的步骤。

在一些实施例中,所述根据所述匹配关系数据和所述距离关系数据,确定所述资源提供方与所述资源获取方面数据之间的位置关系,包括:

根据所述匹配关系数据和所述距离关系数据,结合置信度经验参数,确定所述候选资源提供方与所述资源获取方面数据之间的位置关系概率值;

根据位置关系概率值,确定所述位置关系。

在一些实施例中,所述根据所述位置关系生成标签数据,包括:

根据所述位置关系概率值,生成所述标签数据。

在一些实施例中,所述根据所述资源提供方数据和所述资源获取方面数据之间的关系数据,确定所述资源提供方与所述资源获取方面数据之间的位置关系,还包括:

根据所述资源提供方数据和所述资源获取方面数据之间的关系数据、所述资源提供方数据中的资源提供方属性数据、所述资源获取方面数据中面数据的属性数据,确定所述资源提供方与所述资源获取方面数据之间的位置关系。

在一些实施例中,还包括:

将所述资源提供方进行标注的所述标签数据进行输出。

本申请还提供一种数据处理装置,包括:

获取单元,用于获取资源提供方数据和资源获取方面数据;其中,所述资源获取方面数据为与资源获取方位置对应的信息面数据;

确定单元,用于根据所述资源提供方数据和所述资源获取方面数据之间的关系数据,确定所述资源提供方与所述资源获取方面数据之间的位置关系;

生成单元,用于根据所述位置关系生成标签数据,其中,所述标签数据用于表征所述资源提供方相对于所述资源获取方面数据的位置属性信息;

标注单元,用于根据所述标签数据,对所述资源提供方进行标注。

本申请还提供一种计算机存储介质,用于存储计算机程序;

所述程序执行如上述数据处理方法。

本申请还提供一种电子设备,包括:

处理器;

存储器,用于存储计算机程序,所述程序执行如上述数据处理方法。

与现有技术相比,本申请具有以下优点:

本申请提供的一种数据处理方法能够根据资源提供方数据和资源获取方面数据中的空间数据,例如地址位置等,并结合二者的相对位置关系,从而能够提高识别资源提供方与资源获取方面数据相对位置关系的准确性,即资源提供方位于所述资源获取方面数据之内还是之外,并基于该相对位置关系生成标签数据,以标注二者之间的位置关系,进一步为后续根据不同位置关系,确定结算方式提供可靠的基础数据,避免因为位置关系错误而导致整个结算链路出现错误。

附图说明

图1是本申请提供的一种数据处理方法实施例的流程图;

图2是本申请提供的一种数据处理方法实施例中位置关系确定方式一的流程图;

图3是本申请提供的一种数据处理方法实施例中位置关系确定方式二的流程图;

图4是本申请提供的一种数据处理装置实施例的结构示意图;

图5是本申请提供的一种电子设备实施例的结构示意图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。

本申请中使用的术语是仅仅出于对特定实施例描述的目的,而非旨在限制本申请。在本申请中和所附权利要求书中所使用的描述方式例如:“一种”、“第一”、和“第二”等,并非对数量上的限定或先后顺序上的限定,而是用来将同一类型的信息彼此区分。

基于上述背景技术可知,本实施例的应用场景可以是配送任务,具体而言可以是聚合配送任务。聚合配送任务可以采用聚单分拣、取送分离的模式,实现批量取餐、配送等任务,进而在提高配送任务效率的同时降低物流成本。根据不同需求场景,可以存在例如校外商户送校内,校内商户送校内的配送模式,当然,并不限该两种模式,不同的需求场景可以对应不同的配送模式。配送中执行方也不限于第三方,具体配送执行方可以根据不同需求或者服务确定。基于上述聚合配送场景,在本实施例中,对于不同类型的配送模式在结算时采用不同的结算方式,以学校为例,在聚合配送场景下,对于校内和校外会存在不同的配送模式,进行对于校内和校外的配送模式会存在不同结算金额。具体而言,现有高校存在聚合配送的场景,在该场景下可以根据服务商家(或称为商户)是校内还是校外来判定结算的模式,校外商户配送和校内商户配送结算的单均价格不同,以实现更加合理化的结算方式。

但服务商户并没有能够表征该服务商户属于校内还是校外标签,因此,校内/校外模式的判定方式要么没有依据要么依据不准确,例如:根据商户的食堂标签进行判断,但食堂标签并不能表征商户属于校内还是校外,因此通过食堂标签对配送模式判定会存在错误,而该判定的错误结果将会影响后续配送任务的结算,如将校外商户判定为校内商户,则导致结算金额减少;将校内商户判定为校外商户,则导致结算金额增加等,当然,此处为举例,具体校内外的配送结算金额将根据实际需求确定。

鉴于聚合配送场景下,商户与配送目的地之间位置关系的准确性,能够避免后续结算执行过程产生的错误率,因此,需要一种能够对体现商户与配送目的地之间位置关系的方法,故此,本申请提供一种数据处理方法,以解决在聚合配送场景下,当然也可以包括任何一种分段式结算场景下,准确表征资源提供方与资源获取方之间位置关系的技术方案。下面将对本申请提供的一种数据处理方法进行详细描述。

如图1所示,图1是本申请提供的一种数据处理方法实施例的流程图,该数据处理方法可以包括:

步骤S101:获取资源提供方数据和资源获取方面数据;其中,所述资源获取方面数据为与资源获取方位置对应的信息面数据;

步骤S102:根据所述资源提供方数据和所述资源获取方面数据之间的关系数据,确定所述资源提供方与所述资源获取方面数据之间的位置关系;

步骤S103:根据所述位置关系生成标签数据,其中,所述标签数据用于表征所述资源提供方相对于所述资源获取方面数据的位置属性信息;

步骤S104:根据所述标签数据,对所述资源提供方进行标注。

下面对上述各个步骤进行详细描述。

关于步骤S101:获取资源提供方数据和资源获取方面数据;其中,所述资源获取方面数据为与资源获取方位置对应的信息面数据。

所述步骤S101的目的在于获取任务的提供方和获取方的相关信息。为更好的理解该步骤的内容,下面先对该步骤中涉及的技术术语进行解释。

本实施例中,所述资源获取方的信息可以是面数据,即AOI数据,所谓AOI(Area ofInterest),可以理解为互联网电子地图中的兴趣面,可以包括四项基本信息,主要用于在地图中表达区域状的地理实体,如一个居民小区、一所大学、一个写字楼、一个产业园区、一个综合商场、一个医院、一个景区或一个体育馆等等;在上述描述中,为了便于理解,以学校为例进行说明,实际上资源获取方面数据还可以是上述AOI中的任意一种,因为,聚合配送的需求并不限于学校、医院等,同样也存在于产业园区、居民住宅区域等。

所述资源提供方可以理解为是提供资源的提供方,所述资源可以是服务资源,例如:线上物品、线下物品等。线上物品可以是通过应用平台购买的商品,并且需要将商品配送到资源获取方的指定位置,同样,线下物品也可以是通过线下商家购买的商品,并需要配送到资源获取方的指定位置,当然也可以是,具有配送需求的其他物品,如:闪送场景下涉及的物品等,此处不做限制。本实施例中结合餐饮场景可以将资源提供方理解为是提供餐品的商家,资源获取方可以理解为订餐用户,资源获取方面数据则是订餐用户地址对应的AOI信息。

所述步骤S101中的资源提供方数据和资源获取方面数据可以基于现有数据库进行获取。

为提高数据处理的效率,避免计算资源的浪费,所述步骤S101具体可以包括:

步骤101-1:根据所述资源获取方面数据,选取满足距离要求的候选资源提供方数据;

所述步骤S101-1在本实施例中可以是,根据设定的到所述资源获取方面数据边界的某个距离范围内的候选资源提供方数据,比如:距离学校AOI边界500米范围内的商户,作为候选商户。

关于步骤S102:根据所述资源提供方和所述资源获取方面数据之间的关系数据,确定所述资源提供方与所述资源获取方面数据之间的位置关系。

所述步骤S102的目的在于确定资源提供方和资源获取方面数据之间的位置关系,即资源提供方位于面数据范围内还是范围外,即相对位置关系。在本实施例中,所述关系数据可以包括:距离关系数据和匹配关系数据,具体可以包括:

步骤S102-1:根据所述候选资源提供方数据和所述资源获取方面数据,确定候选资源提供方与资源获取方之间的距离关系数据和匹配关系数据;

步骤S102-2:根据所述匹配关系数据和所述距离关系数据,确定所述候选资源提供方与所述资源获取方面数据之间的位置关系。

下面分别对两种关系数据的具体实现过程详细描述,其中步骤S102-1中根据所述候选资源提供方数据和所述资源获取方面数据,确定候选资源提供方与资源获取方之间的距离关系数据,具体实现过程可以包括:

所述步骤S101-11:根据所述候选资源提供方数据中的位置数据到所述资源获取方面数据中的边界数据的距离,确定所述候选资源提供方与所述资源获取方之间的距离关系数据。

本实施例中,所述距离关系数据的确定可以包括:

当所述候选资源提供方的位置到所述资源获取方面数据边界位置或中心位置的距离大于或等于所述候选资源提供方的位置到所述边界数据的距离,确定所述候选资源提供方位于所述资源获取方面数据的范围内;

当所述候选资源提供方的位置到所述资源获取方面数据边界位置或中心位置的距离小于所述候选资源提供方的位置到所述边界数据的距离,确定所述候选资源提供方位于所述资源获取方面数据的范围外。本实施例中,主要以边界位置为例进行说明。

以学校为例,所述距离关系数据可以是位于学校AOI范围内或外,当位于AOI范围外时,距离关系数据可以包括:0-5米(不包括0,即大于0小于或等于5)、5-30米(大于或等于5,小于或等于30)、30-50米等等;当位于AOI范围内时,距离关系数据可以为0米,以表示商户与AOI之间的相对位置关系,即商户位于AOI范围内;当然,不排除其他用于表示商户位于AOI范围内的方式,比如商户坐标与AOI边界点的坐标关系,或者以建立AOI范围内参照物与商户相对位置距离的表示方式等。

因为AOI为一个区域范围,通常,该区域范围包括多条边界,而区域范围也可能为不规则形状,商户位置到AOI边界的距离存在多个相同或者不同的距离值,因此,为提高后续确定所述资源提供方与所述资源获取方面数据之间位置关系的准确性,当商户位于学校AOI范围之外时,还可以包括:

在所述候选资源提供方与所述边界数据之间的距离数据范围内,选取最小距离数据;

根据所述最小距离数据确定所述候选资源提供方与所述资源获取方之间的距离关系数据。

也就是,计算所述商户和学校AOI范围边界之间的最小距离,进而确定商户与学校AOI之间的距离数据。在本实施例中,所述距离关系数据可以包括所述商户位于所述学校AOI范围内(包括位于AOI范围边界上)的距离关系数据,例如:距离值为0;也可以包括所述商户位于所述学校AOI范围外的距离关系数据,例如:距离值为0-5米(不包括0,即大于0小于或等于5)、5-30米(大于或等于5,小于或等于30)、30-50米等等。距离关系数据的确定可以根据所述商户的空间位置坐标与学校AOI范围边界的距离进行确定,学校AOI范围边界可以根据现有数据库进行获取。

以上是对距离关系数据的说明,下面对匹配关系数据进行说明,即步骤S102中根据所述候选资源提供方数据和所述资源获取方面数据,确定候选资源提供方与资源获取方之间的匹配关系数据;

所述步骤S102中的匹配关系数据可以是所述候选资源提供方数据与所述资源获取方面数据之间文本相似度,例如:对所述候选资源提供方的名称和/或地址等文本信息进行自然语言处理中的命名实体识别(NER:Named Entity Recognition),主要用于提取时间、地点、人物、组织机构名等文本信息,从而能够得到商户名称文本数据,商户地址文本数据、学校AOI名称文本数据、学校AOI地址文本数据等。例如:下表所示的文本识别对应关系。

举例而言:商户名称为ABCDE(某某店),识别后:I为ABCDE(某某店);商户地址为某某街道某某路123号1幢ABC号三层307室,识别后:R为某某路;N为123号;AOI名称为ABC大学,识别后:I为ABC大学;AOI地址为某某路123号某某医院对面,识别后:I为某某医院,R为某某路,N为123号(此处仅为举例说明命名实体识别的识别含义,由于该技术属于现有技术此处不再详细描述)。之后将商户数据和学校AOI数据进行比较,确定相似度,具体可以包括:

步骤S102-21:根据所述候选资源提供方数据中的名称信息和所述资源获取方面数据中的名称信息的重复字符比例,确定第一相似度;

步骤S102-22:根据所述候选资源提供方数据中的名称信息和所述资源获取方面数据中地址信息的重复字符比例,确定第二相似度;

步骤S102-23:根据所述候选资源提供方数据中的地址信息和所述资源获取方面数据中的名称信息的重复字符比例,确定第三相似度;

步骤S102-24:根据所述候选资源提供方数据中的地址信息和所述资源获取方面数据中地址信息的重复字符比例,确定第四相似度;

步骤S102-25:根据所述候选资源提供方数据中的地址信息和所述资源获取方面数据中的名称信息的最长公共子串的字符数比例,确定第五相似度;

步骤S102-26:根据所述候选资源提供方数据中的地址信息和所述资源获取方面数据中的名称信息的最长公共子序列的字符数比例,确定第六相似度;

步骤S102-27:根据所述候选资源提供方数据中的地址信息和所述资源获取方面数据中地址信息的最长公共子串的字符数比例,确定第七相似度;

步骤S102-28:根据所述述候选资源提供方数据中的地址信息和所述资源获取方面数据中地址信息的最长公共子序列的字符数比例,确定第八相似度;

步骤S102-29:根据所述第一相似度、所述第二相似度、所述第三相似度、所述第四相似度、所述第五相似度、所述第六相似度、所述第七相似度以及所述第八相似度中的一种或多种组合,确定所述候选资源提供方数据与所述资源获取方面数据之间的匹配关系数据。

可以理解的是,重复字符比例越大说明相似度越高,即相似度值越大。

在对名称或地址进行识别过程中还可以包括:方位词的识别,比如:东边、对面、西面、南侧、附件等等。当识别结果中包括方位词,且商户坐标不再学校AOI范围内,则相似度低,即不匹配。

所述最长公共子串(Longest Common Substring)和所述最长公共子序列(Longest Common Subsequence),二者的区别在于:子串要求在原字符串中是连续的,而子序列则只需保持相对顺序一致,并不要求连续。例如X={a,Q,1,1};Y={a,1,1,d,f}那么,{a,1,1}是X和Y的最长公共子序列,但不是它们的最长公共字串。同样地,最长公共子串的字符数比例越大,则相似度越高;最长公共子序列的字符数比例越大,则相似度越高。

可以理解的是,相似度越高则说明匹配度越高,可将相似度看作为匹配度。

如图2所示,图2是本申请提供的一种数据处理方法实施例中位置关系确定方式一的流程图,所述步骤S102-2的具体实现过程可以包括至少两种实现方式,方式一包括:

步骤S102-2-11:将所述匹配关系数据和所述距离关系数据输入到置信度模型中,获取所述资源提供方与所述资源获取方面数据之间的位置关系概率值;

步骤S102-2-12:根据所述位置关系概率值,确定所述资源提供方与所述资源获取方面数据之间的位置关系。

所述步骤S102-2-11的具体实现过程可以是:将所述距离关系数据,即商户到学校AOI的距离值,如:0、0-5、5-30、30-50米等等,以及匹配关系数据,如:第一相似度为0.4,第二相似度为0.1,第三相似度为0.25,第四相似度为0.25,第五相似度为0.5,第六相似度为0.7,第七相似度为0.85,第八相似度为0.6等,输入到LR(Logistic Regression)逻辑回归模型中,确定商户属于学校AOI范围内的置信度或者确定上述属于学校AOI范围外的置信度。逻辑回归模型是预先进行训练的模型,将相似度特征数据和距离特征数据等输入逻辑回归模型中得到位置关系概率值。本实施例中,以所述相似度特征数据和距离特征数据输入到逻辑回归模型,进一步为了提高位置关系的准确性还可以包括:将资源提供方属性数据、所述资源获取方面数据中面数据的属性数据等属性数据作为特征数据输入到所述逻辑回归模型中,例如:商户属性(如:所属区域属性、餐品类型属性,提供餐品时段属性,等级属性、评分属性等等),学校AOI属性(如:所属区域属性,);所述逻辑回归模型属于现有技术此处不再详述。

如图2所示,所述步骤S102-2-12具体实现过程可以包括:

步骤S102-2-1211:确定所述位置关系概率值是否满足置信度阈值要求;

步骤S102-2-1212:若否,则根据经验参数确定所述位置关系概率值是否符合所述置信度阈值要求;若是,则执行步骤S103。

所述步骤S102-2-1212中若根据经验参数确定所述位置关系概率值不符合置信度阈值要求,则执行步骤S103。也就是说,不论位置关系概率值是否满足置信度要求,均会根据位置关系概率值生成标签数据,用于标注商家位于学校AOI范围内还是外。所述步骤S102-2-1212的目的在于当位置关系概率值表征商家位于学校AOI范围外时再进行一次核实,反之亦然。

如图3所示,图3是本申请提供的一种数据处理方法实施例中位置关系确定方式二的流程图,方式二所述步骤S102-2-12的具体实现过程可以包括:

步骤S102-2-1221:根据所述匹配关系数据和所述距离关系数据,结合置信度经验参数,确定所述资源提供方与所述资源获取方面数据之间的位置关系概率值。本实施例中,对于置信度经验参数可以是以专家打分方式获取的经验参数,比如:经验参数可以是专家打分值0.1、0.2、06、0.8等。

步骤S102-2-1222:根据位置关系概率值,确定所述位置关系。

关于步骤S103:根据所述位置关系生成标签数据。

具体实现过程可以包括:根据所述位置关系概率值,生成所述标签数据。所述标签数据可以是表征所述资源提供方位于所述资源获取方面数据之内还是之外,即商家地址位于学校AOI范围内还是外的标识信息。可以以商家属性的形式体现在表示商家信息的数据中,也可以是记录在结算服务器中,或者是中台后台服务器中。

为了便于资源提供方或者第三方了解所述资源提供方与资源获取方面数据之间的位置关系,还可以将所述资源提供方进行标注的所述标签数据进行输出,从而便于参看资源提供方与资源获取方面数据之间的位置关系。

以上是对本申请提供的一种数据处理方法实施例的描述,该实施例能够根据资源提供方和资源获取方面数据的空间数据,并结合二者的文本信息数据确定二者相对位置关系,从而能够提高识别资源提供方与资源获取方面数据相对位置关系的准确性,并基于该相对位置关系生成标签数据,以标注二者之间的位置关系,进一步为后续根据不同位置关系,确定结算方式提供可靠的基础数据,避免因为位置关系错误而导致结算错误。

需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准,并提供有相应的操作入口,供用户选择授权或者拒绝。例如:本申请实施例中,商家地址数据、学校AOI数据等均为授权后合法获得的相关数据。

以上是对本申请提供的一种数据处理方法实施例的具体描述,与前述提供的一种数据处理方法实施例相对应,本申请还公开一种数据处理装置实施例,请参看图4,由于装置实施例基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。

如图4所示,图4本申请提供的一种数据处理装置实施例的结构示意图,该实施例包括:

获取单元401,用于获取资源提供方数据和资源获取方面数据;其中,所述资源获取方面数据为与资源获取方位置对应的信息面数据;

确定单元402,用于根据所述资源提供方数据和所述资源获取方面数据之间的关系数据,确定所述资源提供方与所述资源获取方面数据之间的位置关系;

生成单元403,用于根据所述位置关系生成标签数据,其中,所述标签数据用于表征所述资源提供方相对于所述资源获取方面数据的位置属性信息;

标注单元404,用于根据所述标签数据,对所述资源提供方进行标注。

所述获取单元401具体可以用于根据所述资源获取方面数据,选取满足距离要求的候选资源提供方数据。

所述确定单元可以包括:第一确定子单元和第二确定子单元;

所述第一确定子单元,用于根据所述候选资源提供方数据和所述资源获取方面数据,确定候选资源提供方与资源获取方之间的距离关系数据和匹配关系数据;

所述第二确定子单元,用于根据所述匹配关系数据和所述距离关系数据,确定所述候选资源提供方与所述资源获取方面数据之间的位置关系。

所述第一确定子单元在确定所述距离关系数据时,可以具体用于根据所述候选资源提供方数据中的位置数据到所述资源获取方面数据中的边界数据的距离,确定所述候选资源提供方与所述资源获取方之间的距离关系数据。本实施例中可以具体用于当所述候选资源提供方的位置到所述资源获取方面数据边界位置或中心位置的距离大于或等于所述候选资源提供方的位置到所述边界数据的距离,确定所述候选资源提供方位于所述资源获取方面数据的范围内;当所述候选资源提供方的位置到所述资源获取方面数据边界位置或中心位置的距离小于所述候选资源提供方的位置到所述边界数据的距离,确定所述候选资源提供方位于所述资源获取方面数据的范围外。

所述当所述候选资源提供方的位置到所述资源获取方面数据边界位置或中心位置的距离小于所述候选资源提供方的位置到所述边界数据的距离,确定所述候选资源提供方位于所述资源获取方面数据的范围外,进一步还可以包括:选取子单元和确定子单元;

所述选取子单元,用于在所述候选资源提供方与所述边界数据之间的距离数据范围内,选取最小距离数据;

所述确定子单元,用于根据所述最小距离数据确定所述候选资源提供方与所述资源获取方之间的距离关系数据。

所述第一确定子单元在确定所述匹配关系数据时,可以具体用于:

根据所述候选资源提供方数据中的名称信息和所述资源获取方面数据中的名称信息的重复字符比例,确定第一相似度;

根据所述候选资源提供方数据中的名称信息和所述资源获取方面数据中地址信息的重复字符比例,确定第二相似度;

根据所述候选资源提供方数据中的地址信息和所述资源获取方面数据中的名称信息的重复字符比例,确定第三相似度;

根据所述候选资源提供方数据中的地址信息和所述资源获取方面数据中地址信息的重复字符比例,确定第四相似度;

根据所述候选资源提供方数据中的地址信息和所述资源获取方面数据中的名称信息的最长公共子串的字符数比例,确定第五相似度;

根据所述候选资源提供方数据中的地址信息和所述资源获取方面数据中的名称信息的最长公共子序列的字符数比例,确定第六相似度;

根据所述候选资源提供方数据中的地址信息和所述资源获取方面数据中地址信息的最长公共子串的字符数比例,确定第七相似度;

根据所述述候选资源提供方数据中的地址信息和所述资源获取方面数据中地址信息的最长公共子序列的字符数比例,确定第八相似度;

根据所述第一相似度、所述第二相似度、所述第三相似度、所述第四相似度、所述第五相似度、所述第六相似度、所述第七相似度以及所述第八相似度中的一种或多种组合,确定所述候选资源提供方数据与所述资源获取方面数据之间的匹配关系数据。

所述第二确定子单元可以包括两种实现方式,方式一包括:概率值获取子单元和位置关系确定子单元;

所述概率值获取子单元,用于将所述匹配关系数据和所述距离关系数据输入到置信度模型中,获取所述候选资源提供方与所述资源获取方面数据之间的位置关系概率值;

所述位置关系确定子单元,用于根据所述位置关系概率值,确定所述候选资源提供方与所述资源获取方面数据之间的位置关系。

所述位置关系确定子单元可以包括:阈值要求确定子单元、经验值确定子单元;

所述阈值要求确定子单元,用于确定所述位置关系概率值是否满足置信度阈值要求,若否,所述经验值确定子单元则用于根据经验参数确定所述位置关系概率值是否符合要求;若是,则进入所述生成单元403。当然,所述阈值要求确定子单元的确定结果为是时,也可以进入所述生成单元403。具体内容参考上述方法实施例部分,此处不再详述。

方式二包括:概率值确定子单元,位置关系确定子单元;所述概率值确定子单元,用于根据所述匹配关系数据和所述距离关系数据,结合置信度经验参数,确定所述候选资源提供方与所述资源获取方面数据之间的位置关系概率值。所述位置关系确定子单元,用于根据位置关系概率值,确定所述位置关系。

所述生成单元403具体可以用于根据所述位置关系概率值,生成所述标签数据。

本实施例中,确定单元402中具体可以根据所述资源提供方数据和所述资源获取方面数据之间的关系数据、所述资源提供方数据中的资源提供方属性数据、所述资源获取方面数据中面数据的属性数据,确定所述资源提供方与所述资源获取方面数据之间的位置关系。

进一步包括:输出单元,用于将所述资源提供方进行标注的所述标签数据进行输出。

以上是对本申请提供的一种数据处理装置实施例的描述,关于该装置的实施例具体内容可以参考上述方法实施例的内容,此处不再详细阐述。

基于上述内容,本申请还提供一种计算机存储介质,用于存储计算机程序;

所述程序可以执行如上述数据处理方法实施例中描述的步骤。

基于上述内容,如图5所示,本申请还提供一种电子设备,包括:

处理器501;

存储器502,用于存储计算机程序,所述程序执行如上述数据处理方法实施例中描述的步骤。

在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

1、计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitory media),如调制的数据信号和载波。

2、本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请虽然以较佳实施例公开如上,但其并不是用来限定本申请,任何本领域技术人员在不脱离本申请的精神和范围内,都可以做出可能的变动和修改,因此本申请的保护范围应当以本申请权利要求所界定的范围为准。

相关技术
  • 一种方控数据处理方法、装置、电子设备及存储介质
  • 一种材质的数据处理方法、装置、电子设备及存储介质
  • 一种数据处理方法、装置、电子设备及存储介质
  • 一种消息处理方法、装置、电子设备及存储介质
  • 一种应用程序处理方法、装置、电子设备及可读存储介质
  • 数据加密处理方法、数据解密处理方法、装置、电子设备及可读存储介质
  • 一种数据存储系统、数据处理方法、电子设备和存储介质
技术分类

06120116481081