掌桥专利:专业的专利平台
掌桥专利
首页

数据处理方法、装置、计算机系统及可读存储介质

文献发布时间:2023-06-19 09:49:27


数据处理方法、装置、计算机系统及可读存储介质

技术领域

本公开涉及计算机技术领域/互联网技术领域,更具体地,涉及一种数据处理方法、装置、计算机系统及可读存储介质。

背景技术

随着互联网技术的发展,线上购物成为一个非常重要的消费渠道。而现如今电商网站种类繁多,商品多种多样,商品信息维度多,信息维护不健全不统一,而且各个电商网站下的商品价格不等,因此存在消费者购买商品难免会出现买贵买错的情况。为了给消费者最好的购物体验,买到优质便宜的商品,比价系统应运而生。

在实现本公开构思的过程中,发明人发现相关技术中至少存在如下问题:不同电商网站描述同一商品信息时一般以各自的描述喜好或习惯进行描述,描述方式具有个性化特点,导致在匹配相似商品时匹配结果不准确。

发明内容

有鉴于此,本公开提供了一种用于物品匹配的数据处理方法、装置、计算机系统及计算机可读存储介质。

本公开的一个方面提供了一种用于物品匹配的数据处理方法,包括:

获取多个物品的物品特征信息;其中,所述物品特征信息包括物品文本信息和物品图像信息;

将所述多个物品的物品特征信息进行标准化转换,得到标准化物品特征信息;其中,标准化物品特征信息与待匹配物品的物品特征信息的描述方式一致;

建立与所述待匹配物品对应的匹配规则,其中,所述匹配规则包括基于目标物品特征信息进行匹配的规则;

基于所述匹配规则,根据所述多个物品的标准化物品特征信息与所述待匹配物品的物品特征信息,从所述多个物品中确定与所述待匹配物品相匹配的相似物品。

根据本公开的实施例,在基于所述匹配规则,根据所述多个物品的标准化物品特征信息与所述待匹配物品的物品特征信息,从所述多个物品中确定与所述待匹配物品相匹配的相似物品之后,所述方法还包括:

确定与所述待匹配物品相匹配的相似物品的第一数量;

从所述与所述待匹配物品相匹配的相似物品中,确定与所述待匹配物品正确匹配的相似物品的第二数量;

根据所述第二数量和所述第一数量确定所述待匹配物品的正确匹配率;

若所述正确匹配率大于或等于预设阈值,生成匹配数据库;其中,所述匹配数据库包含有与所述待匹配物品的物品特征信息相匹配的相似物品的标准化物品特征信息和所述待匹配物品的物品特征信息;

若所述正确匹配率小于预设阈值,则动态调整所述匹配规则;以及

基于调整后的匹配规则,根据所述多个物品的标准化物品特征信息与所述待匹配物品的物品特征信息,从所述多个物品中确定与所述待匹配物品相匹配的相似物品。

根据本公开的实施例,所述建立与所述待匹配物品对应的匹配规则包括:

根据不同物品的物品特征信息,建立不同物品分别对应的匹配规则;并将所述不同物品分别对应的匹配规则加载至不同的缓存中,以便在基于所述匹配规则,根据所述多个物品的标准化物品特征信息与所述待匹配物品的物品特征信息,从所述多个物品中确定与所述待匹配物品相匹配的相似物品时从对应缓存中调用所述匹配规则;

所述动态调整所述匹配规则包括:

分别对所述加载至不同的缓存中的不同匹配规则进行更新。

根据本公开的实施例,所述物品文本信息包括物品品类信息、物品价格信息、物品属性信息和物品品牌信息。

根据本公开的实施例,所述将所述多个物品的物品特征信息进行标准化转换,得到标准化物品特征信息包括:

将所述多个物品的物品品类信息进行标准化转换,得到标准化物品品类信息;

将所述多个物品的物品属性信息进行标准化转换,得到标准化物品属性信息;

将所述多个物品的物品品牌信息进行标准化转换,得到标准化物品品牌信息;以及

将所述多个物品的物品图像信息进行标准化转化,得到物品图像hash值。

根据本公开的实施例,所述基于所述匹配规则,根据所述多个物品的标准化物品特征信息与所述待匹配物品的物品特征信息,从所述多个物品中确定与所述待匹配物品相匹配的相似物品包括:

基于所述匹配规则,根据所述多个物品的标准化物品品类信息与所述待匹配物品的物品品类信息,利用搜索引擎从所述多个物品中确定与所述待匹配物品相匹配的初始相似物品;

基于所述匹配规则,根据所述多个物品的除标准化物品品类信息之外的其他标准化物品特征信息与所述待匹配物品的除物品品类信息之外的其他物品特征信息,从所述初始相似物品中确定与所述待匹配物品相匹配的相似物品。

根据本公开的实施例,所述获取多个物品的物品特征信息包括:

利用爬虫技术,基于目标物品品类信息,获取多个物品的物品特征信息。

本公开另一方面还提供了一种用于物品匹配的数据处理装置,包括:

获取模块,用于获取多个物品的物品特征信息;其中,所述物品特征信息包括物品文本信息和物品图像信息;

转换模块,用于将所述多个物品的物品特征信息进行标准化转换,得到标准化物品特征信息;其中,标准化物品特征信息与待匹配物品的物品特征信息的描述方式一致;

建立模块,用于建立与所述待匹配物品对应的匹配规则,其中,所述匹配规则包括基于目标物品特征信息进行匹配的规则;

确定模块,用于基于所述匹配规则,根据所述多个物品的标准化物品特征信息与所述待匹配物品的物品特征信息,从所述多个物品中确定与所述待匹配物品相匹配的相似物品。

根据本公开的实施例,所述建立模块,还用于根据不同物品的物品特征信息,建立不同物品分别对应的匹配规则;并将所述不同物品分别对应的匹配规则加载至不同的缓存中,以便在基于所述匹配规则,根据所述多个物品的标准化物品特征信息与所述待匹配物品的物品特征信息,从所述多个物品中确定与所述待匹配物品相匹配的相似物品时从对应缓存中调用所述匹配规则;

所述装置还包括:动态调整模块,用于分别对所述加载至不同的缓存中的不同匹配规则进行更新。

本公开的再一方面还提供了一种计算机系统,包括:

一个或多个处理器;

存储器,用于存储一个或多个程序,

其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如上所述的方法。

本公开的再一方面还提供了一种计算机可读存储介质,其上存储有可执行指令,所述指令被处理器执行时使处理器实现如上所述的方法。

根据本公开的实施例,因为采用了获取多个物品的物品特征信息;其中,所述物品特征信息包括物品文本信息和物品图像信息;将所述多个物品的物品特征信息进行标准化转换,得到标准化物品特征信息;其中,标准化物品特征信息与待匹配物品的物品特征信息的描述方式一致;建立与所述待匹配物品对应的匹配规则,其中,所述匹配规则包括基于目标物品特征信息进行匹配的规则;基于所述匹配规则,根据所述多个物品的标准化物品特征信息与所述待匹配物品的物品特征信息,从所述多个物品中确定与所述待匹配物品相匹配的相似物品的技术手段,所以至少部分地克服了从各个电商网站上匹配出相似物品的难度大、效率低、准确度不高的技术问题,进而达到了自动匹配,匹配效率高且准确度高的技术效果。

附图说明

通过以下参照附图对本公开实施例的描述,本公开的上述以及其他目的、特征和优点将更为清楚,在附图中:

图1示意性示出了可以应用本公开的用于物品匹配的数据处理方法和装置的示例性系统架构;

图2示意性示出了根据本公开实施例的用于物品匹配的数据处理方法的流程图;

图3示意性示出了根据本公开实施例的标准化物品特征信息数据库建立的示意图;

图4示意性示出了根据本公开另一实施例的用于物品匹配的数据处理方法的流程图;

图5示意性示出了根据本公开另一实施例的用于物品匹配的数据处理方法的流程图;

图6示意性示出了根据本公开另一实施例的用于物品匹配的数据处理方法的流程图;

图7示意性示出了根据本公开实施例的动态调整匹配规则的方法的流程图;

图8示意性示出了根据本公开实施例的用于物品匹配的数据处理装置800的框图;以及

图9示意性示出了根据本公开实施例的适于实现用于物品匹配的数据处理方法的计算机系统900的框图。

具体实施方式

以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本公开实施例的全面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。

在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。

在使用类似于“A、B和C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。在使用类似于“A、B或C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B或C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。

本公开的实施例提供了一种用于物品匹配的数据处理方法。该方法包括获取多个物品的物品特征信息;其中,物品特征信息包括物品文本信息和物品图像信息;将多个物品的物品特征信息进行标准化转换,得到标准化物品特征信息;其中,标准化物品特征信息与待匹配物品的物品特征信息的描述方式一致;建立与待匹配物品对应的匹配规则,其中,匹配规则包括基于目标物品特征信息进行匹配的规则;基于匹配规则,根据多个物品的标准化物品特征信息与待匹配物品的物品特征信息,从多个物品中确定与待匹配物品相匹配的相似物品。

图1示意性示出了根据本公开实施例的可以应用用于物品匹配的数据处理方法和装置的示例性系统架构100。需要注意的是,图1所示仅为可以应用本公开实施例的系统架构的示例,以帮助本领域技术人员理解本公开的技术内容,但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。

如图1所示,根据该实施例的系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线和/或无线通信链路等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如设置匹配规则及策略应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端和/或社交平台软件等(仅为示例)。

终端设备101、102、103可以是具有显示屏并且支持网页浏览以及搜索的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器,例如对用户利用终端设备101、102、103所配置的匹配规则及策略提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理,并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给终端设备。

需要说明的是,本公开实施例所提供的用于物品匹配的数据处理方法一般可以由服务器105执行。相应地,本公开实施例所提供的用于物品匹配的数据处理装置一般可以设置于服务器105中。本公开实施例所提供的用于物品匹配的数据处理方法也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地,本公开实施例所提供的用于物品匹配的数据处理装置也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。

例如,可以利用服务器或服务器集群获取不同电商网站上的多个物品的物品特征信息,以及将从不同电商网站上获取到的多个物品的物品特征信息存储在服务器或服务器集群之中。然后,服务器或服务器集群来执行本公开实施例所提供的用于物品匹配的数据处理方法。

应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。

图2示意性示出了根据本公开实施例的用于物品匹配的数据处理方法的流程图。

如图2所示,该方法包括操作S201~S204。

在操作S201,获取多个物品的物品特征信息;其中,物品特征信息包括物品文本信息和物品图像信息。

根据本公开的实施例,可以利用爬虫技术获取不同电商网站上的多个物品的物品特征信息,根据获取到的多个物品的物品特征信息建立一个初始物品特征信息数据库。

根据本公开的实施例,物品特征信息包括但不限于物品文本信息和物品图像信息。

根据本公开的实施例,物品文本信息包括但不限于物品品类信息、物品价格信息、物品属性信息和物品品牌信息。

根据本公开的实施例,物品品类信息用于描述物品类别,例如电视机、洗衣机、冰箱等为电子类物品。

根据本公开的实施例,物品属性信息具体包括物品规格、物品名称以及物品性能描述等信息。

根据本公开的实施例,可以利用爬虫技术,基于目标物品品类信息,获取多个物品的物品特征信息。

根据本公开的实施例,利用爬虫技术,基于目标物品品类信息,从各个电商网站爬取信息,以便获得更多数量的物品,从而在源头上避免了因爬取范围限定太窄而导致的获取数据不全面的问题。

根据本公开的实施例,利用爬虫技术从各电商网站抓取到的物品特征信息,存在维护混乱,叫法各异的问题。例如,同一品牌的洗衣液的含量,一些电商网站显示的为1Kg,而一些电商网站则显示的为1公斤。这些物品特征信息描述方式各异的问题,在直接进行对爬取到的各个电商网站的物品基于物品特征信息进行匹配、价格比对时,会导致人工匹配效率低下、全文本扫描准确度低、召回率低的问题。

在操作S202,将多个物品的物品特征信息进行标准化转换,得到标准化物品特征信息;其中,标准化物品特征信息与待匹配物品的物品特征信息的描述方式一致。

根据本公开的实施例,将爬取到的物品特征信息进行数据清洗,即将多个物品的物品特征信息转换为与待匹配物品的物品特征信息的描述方式一致的信息-标准化物品特征信息。例如,将该品牌的洗衣液含量全部转换为1Kg或1公斤。

该实施方式解决了各个电商网站上展示的物品种类复杂、物品特征信息非归一化、非标准化的问题。

根据本公开的实施例,其描述方式一致包括但不限于将个性化的物品特征信息标准化。将多个物品的物品特征信息进行标准化转换,可以为将多个物品的物品特征信息标准化、归一化。然后基于已经转换为与待匹配物品的物品特征信息描述方式一致的标准化物品特征信息,生成一个标准化物品特征信息数据库。

根据本公开的实施例,将多个物品的物品特征信息进行标准化转换,得到标准化物品特征信息。有利于后续比对,找到匹配的相似物品,加快匹配进度,提高匹配准确度。

在操作S203,建立与待匹配物品对应的匹配规则,其中,匹配规则包括基于目标物品特征信息进行匹配的规则。

根据本公开的实施例,不同物品的物品特征信息不同,因此,可以针对不同的待匹配物品,其匹配规则也不相同,基于目标物品特征信息,建立与待匹配物品对应的匹配规则,有利于提高匹配准确度。

在操作S204,基于匹配规则,根据多个物品的标准化物品特征信息与待匹配物品的物品特征信息,从多个物品中确定与待匹配物品相匹配的相似物品。

根据本公开的实施例,基于匹配规则,从标准化物品特征信息数据库中确定与待匹配物品的物品特征信息相匹配的相似物品。

根据本公开的实施例,其中与待匹配物品相匹配的相似物品与待匹配物品的关系具体可以指,物品特征信息中物品品类为映射关系,物品属性以及物品品牌描述一致或相近似,物品价格相近等。

根据本公开的实施例,建立与待匹配物品对应的匹配规则以及将多个物品的物品特征信息进行标准化转换,不仅提高了物品匹配的速率,而且提高了物品匹配的准确度。

下面参考图3~图7,结合具体实施例对图2所示的方法做进一步说明。

图3示意性示出了根据本公开实施例的标准化物品特征信息数据库建立的示意图。

如图3所示,将多个物品的物品特征信息进行标准化转换,得到标准化物品特征信息包括以下一种或多种。

将多个物品的物品品类信息进行标准化转换,得到标准化物品品类信息;

将多个物品的物品属性信息进行标准化转换,得到标准化物品属性信息;

将多个物品的物品品牌信息进行标准化转换,得到标准化物品品牌信息;以及

将多个物品的物品图像信息进行标准化转化,得到物品图像hash值。

根据本公开的实施例,将多个物品的物品特征信息进行标准化转换,得到标准化物品特征信息。另一个优势为,适用于搜索引擎进行匹配工作。利用搜索引擎进行物品匹配,需要对物品文本信息(物品品牌信息和物品属性信息)进行分词。将多个物品的物品特征信息进行标准化转换,得到标准化物品特征信息,有利于分词器对物品品牌信息和物品属性信息的分词统一化,进而保证最终匹配准确度。

根据本公开的实施例,将多个物品的物品特征信息进行标准化转换,得到标准化物品特征信息,有利于通过不同品类建立与待匹配物品对应的匹配规则,并且通过归一化的品类可以分品类分布式处理数据,即基于物品品类的划分,进行除物品品类信息以外的其他物品特征信息的标准化转换。

根据本公开的实施例,基于每个物品的物品图像信息生成物品图像hash值。通过对抓取的物品图像信息调用图像处理接口生成物品图像hash值,以便后续通过物品图像信息进行匹配工作。

根据本公开的实施例,将多个物品的物品属性信息进行标准化转换,得到标准化物品属性信息。其中,可以利用物品属性归一化,来增加物品匹配的准确性。

根据本公开的实施例,将多个物品的物品品牌信息进行标准化转换,得到标准化物品品牌信息。其中,可以利用对品牌归一化,利用品牌作为物品匹配关键词起到增加匹配准确性的作用。

根据本公开的实施例,各个电商网站会给电商网站上展示的物品填写标题和品牌,其中,该标题包含有物品特征信息,该品牌包含有物品品牌信息。其中,标题的作用为各个电商网站为展示物品以及用户搜索物品,标题包括物品属性信息、物品品牌信息中的部分信息。

根据本公开的实施例,将多个物品的物品特征信息进行标准化转换,得到标准化物品特征信息还包括:基于待匹配物品的物品特征信息建立品牌词典和重点词库。该品牌词典包含待匹配物品的物品特征信息相对应的品牌词;其中,每个品牌词可以为对应待匹配物品的物品品牌信息中的一个或多个关键词。该重点词库包括待匹配物品的物品特征信息相对应的重点词;其中,每个重点词可以为待匹配物品的物品属性信息中的一个或多个关键词,也可以为对应待匹配物品的物品标题信息中的一个或多个关键词。此外,在建立品牌词典和重点词库的同时,优化同义词词典。

根据本公开的实施例,品牌词典中的品牌词可以通过调用自定义电商分词器对物品品牌信息进行分词确定,保证使用搜索引擎匹配物品的可行性。重点词库中的重点词可以通过使用算法模型去提取确定,为搜索引擎搜索匹配提高匹配权重使用。

图4示意性示出了根据本公开另一实施例的用于物品匹配的数据处理方法。

如图4所示,建立与待匹配物品对应的匹配规则包括操作S401~S402。

在操作S401,根据不同物品的物品特征信息,建立不同物品分别对应的匹配规则。

在操作S402,将不同物品分别对应的匹配规则加载至不同的缓存中,以便在基于匹配规则,根据多个物品的标准化物品特征信息与待匹配物品的物品特征信息,从多个物品中确定与待匹配物品相匹配的相似物品时从对应缓存中调用匹配规则。

根据本公开的实施例,当从对应缓存中调用与待匹配物品对应的匹配规则后,会消费与调用的匹配规则相对应的消费队列的待匹配物品的物品特征信息。

根据本公开的实施例,利用缓存储存建立的匹配规则,有利于后续的动态调整更新缓存。另外,调用的匹配规则与对应的待匹配物品的物品特征信息对应消费的操作,使匹配工作准确,避免重复操作。

图5示意性示出了根据本公开另一实施例的用于物品匹配的数据处理方法。

如图5所示,基于匹配规则,根据多个物品的标准化物品特征信息与待匹配物品的物品特征信息,从多个物品中确定与待匹配物品相匹配的相似物品包括操作S501~S502。

在操作S501,基于匹配规则,根据多个物品的标准化物品品类信息与待匹配物品的物品品类信息,利用搜索引擎从多个物品中确定与待匹配物品相匹配的初始相似物品。

根据本公开的实施例,利用搜索引擎从多个物品中确定与待匹配物品相匹配的初始相似物品,保证物品品类信息的映射关系,其中,物品品类信息包括但不限于一级品类信息、二级品类信息等,在本公开的实施例中,可以首先保证一级品类信息的映射关系。

在操作S502,基于匹配规则,根据多个物品的除标准化物品品类信息之外的其他标准化物品特征信息与待匹配物品的除物品品类信息之外的其他物品特征信息,从初始相似物品中确定与待匹配物品相匹配的相似物品。

根据本公开的实施例,除保证物品品类信息的映射关系,还要保证相似物品与待匹配物品的物品属性信息和物品品牌信息相匹配,该匹配确定方式可以为利用BM25相似度匹配算法进行文本信息相似度的匹配计算;与待匹配物品的物品价格信息相匹配,该匹配确定方式可以为通过衰减函数进行价格相似度的匹配计算;以及与待匹配物品的物品图像hash值相匹配,该匹配确定方式可以为利用物品图像hash值进行物品图像相似度的匹配计算。

最终相似物品的确定,是基于文本信息相似度、价格相似度以及物品图像相似度的综合考虑。本公开的实施例中,最相似物品为三者结果乘积得分最高的物品。

根据本公开的实施例,首先基于匹配规则,从多个物品中确定与待匹配物品的物品品类信息相匹配的初始相似物品,保证品类映射关系,然后按照对应品类进行搜索,提高效率和准确率;另外,基于文本信息相似度、价格相似度以及物品图像相似度的综合考虑,从多方角度进行对比匹配,全面,保证准确度的同时避免匹配信息的遗漏。

根据本公开的其他实施例,还可以采用的方式是:基于匹配规则,利用搜索引擎从多个物品中确定与待匹配物品的部分物品特征信息相匹配的相似物品;其中,该待匹配物品的部分物品特征信息包括物品品类信息、物品属性信息、物品品牌信息、物品图像信息和物品价格信息中的一种、两种、三种或四种。

根据本公开的其他实施例,确定与待匹配物品的部分物品特征信息相匹配,可节省匹配操作的计算量,从而从另一方面提高工作效率。

图6示意性示出了根据本公开另一实施例的用于物品匹配的数据处理方法。

如图6所示,在基于匹配规则,根据多个物品的标准化物品特征信息与待匹配物品的物品特征信息,从多个物品中确定与待匹配物品相匹配的相似物品之后,方法还包括操作S610~S652。

在操作S610,确定与待匹配物品相匹配的相似物品的第一数量。

在操作S620,从与待匹配物品相匹配的相似物品中,确定与待匹配物品正确匹配的相似物品的第二数量。

在操作S630,根据第二数量和第一数量确定待匹配物品的正确匹配率。

根据本公开的实施例,该种正确匹配率的确定,可以为全部参与待匹配物品的数量;也可以为进行抽查,抽查量可以只抽查一个待匹配物品,抽查审核工作量少,但是通过随机抽查的方式,对匹配结果进行审核,保证匹配结果的匹配率和召回率。

根据本公开的其他实施例,正确匹配率还可以为对多个待匹配物品进行抽查,审核待匹配物品是否实际匹配得到相似物品,具有正确匹配的相似物品的待匹配物品的样本量占待匹配物品的抽查样本总量的比例,为获得正确匹配的相似物品的正确匹配率。该种正确匹配率的确定,待匹配物品抽查量为多个,优选适用于只考虑是否获取得到与待匹配物品相对应的相似物品的情况。

在操作S640,若正确匹配率大于或等于预设阈值,生成匹配数据库;其中,匹配数据库包含有与待匹配物品的物品特征信息相匹配的相似物品的标准化物品特征信息和待匹配物品的物品特征信息。

根据本公开的实施例,预设阈值可以为正确匹配率达到80%以上,更为优选的为正确匹配率达到85%以上。当正确匹配率大于或等于预设阈值时,作为匹配成功批次。

根据本公开的实施例,预设阈值的设定,可根据实际情况供用户自行设定。预设阈值设定的越高,匹配率和召回率越高,匹配准确度得到保证。

根据本公开的实施例,生成的匹配数据库,包含有与待匹配物品的物品特征信息相匹配的相似物品的标准化物品特征信息和待匹配物品的物品特征信息。该匹配数据库,可应用于进行物品的比价,基于本公开的实施例的匹配数据库建立的比价电商网站或系统,一方面能体现多个电商网站的同一物品的物品价格信息,实现“货比三家”的便利;另一方面该匹配数据库内的物品特征信息描述方式一致,均是经过匹配验证的相似物品,因此,其显示的物品特征信息差距小,匹配度高,真正实现价格比对“一目了然”的效果。

在操作S651,若正确匹配率小于预设阈值,则动态调整匹配规则。

根据本公开的实施例,如果正确匹配率没有达到预设阈值,则可以动态调整匹配规则,并且删除该批次匹配到的相似物品的物品特征信息,基于动态调整匹配规则重新匹配,确保每批次匹配率在预设阈值以上。

根据本公开的实施例,动态调整匹配规则包括:分别对加载至不同的缓存中的不同匹配规则进行更新。

在操作S652,基于调整后的匹配规则,根据多个物品的标准化物品特征信息与待匹配物品的物品特征信息,从多个物品中确定与待匹配物品相匹配的相似物品。

根据本公开的实施例,其匹配规则包括基于目标物品特征信息进行匹配的规则,其中,该目标物品特征信息可以为部分或全部待匹配物品对应的物品特征信息。即,该目标物品特征信息包括目标物品品类信息、目标物品价格信息、目标物品属性信息、目标物品品牌信息和目标物品图像信息中的一种或多种。

图7示意性示出了根据本公开实施例的动态调整匹配规则的方法的流程图。

如图7所示,可以预先增加调度中心和匹配中心,根据用户在调度中心网页端所配置的调度规则及策略,调度中心读取调度规则及策略,根据调度规则及策略查询匹配规则,将不同的匹配规则存入不同的缓存中。

匹配中心可以获取用户配置在调度中心网页端中的匹配任务(即待匹配物品的物品特征信息),监听机制获取该匹配任务,并将该匹配任务反馈给调度中心,调度中心基于该匹配任务将存入在缓存中的匹配规则统一下发到匹配中心,匹配中心解析匹配规则后,处理各消费队列中的与各匹配规则相对应的待匹配物品的物品特征信息。搜索引擎可以按照匹配中心解析的匹配规则从已经转换描述方式的标准物品特征信息中查询匹配相似物品,并将得到的相似物品的物品特征信息存入匹配中心以便匹配结果筛查审核。

审核结果成功的,统一收入匹配数据库,并保留匹配规则等待再次匹配使用。

审核结果失败的,通过监听机制预警通知用户,用户可以更新匹配规则,调度中心基于用户更新的匹配规则实时更新缓存内的匹配规则,完成动态调整。并抛弃失败的相似物品结果,将待匹配物品的物品特征信息重新进入消费队列用于进行再次匹配。

根据本公开的实施例,通过增加调度中心与匹配中心,将匹配规则的查询调用合理化,并通过监听机制实现匹配规则的动态调整,确保匹配召回率及准确率。

根据本公开的实施例,该更新可以为修改匹配规则或者插入新的匹配规则。

例如:初始利用的匹配规则中包括基于目标物品品类信息、目标物品价格信息和目标物品图像信息进行匹配的规则。当在基于匹配规则,根据多个物品的标准化物品特征信息与待匹配物品的物品特征信息,从多个物品中确定与待匹配物品相匹配的相似物品之后,确定待匹配物品的正确匹配率,正确匹配率小于预设阈值,则可以修改目标物品品类信息、目标物品价格信息和目标物品图像信息中的内容;也可以进一步补充待匹配物品的其他物品特征信息中的一种或多种,例如,更新后的匹配规则为基于目标物品品类信息、目标物品价格信息、目标物品图像信息和目标物品属性信息进行匹配的规则或更新后的匹配规则为基于目标物品品类信息、目标物品价格信息、目标物品图像信息、目标物品属性信息和目标物品品牌信息进行匹配的规则。

根据本公开的实施例,匹配规则与相匹配的物品特征信息相对应,有利于提高搜索匹配的速率以及准确度;通过确定待匹配物品的正确匹配率以及利用动态调整匹配规则,保证匹配准确率以及召回率。

图8示意性示出了根据本公开的实施例的一种用于物品匹配的数据处理装置的框图。

如图8所示,用于物品匹配的数据处理装置800包括获取模块810、转换模块820、建立模块830和确定模块840。

获取模块810,用于获取多个物品的物品特征信息;其中,物品特征信息包括物品文本信息和物品图像信息;

转换模块820,用于将多个物品的物品特征信息进行标准化转换,得到标准化物品特征信息;其中,标准化物品特征信息与待匹配物品的物品特征信息的描述方式一致;

建立模块830,用于建立与待匹配物品对应的匹配规则,其中,匹配规则包括基于目标物品特征信息进行匹配的规则;以及

确定模块840,用于基于匹配规则,根据多个物品的标准化物品特征信息与待匹配物品的物品特征信息,从多个物品中确定与待匹配物品相匹配的相似物品。

根据本公开的实施例,用于物品匹配的数据处理装置800还包括:

审核模块,用于确定与待匹配物品相匹配的相似物品的第一数量;

从与待匹配物品相匹配的相似物品中,确定与待匹配物品正确匹配的相似物品的第二数量;

根据第二数量和第一数量确定待匹配物品的正确匹配率;

若正确匹配率大于或等于预设阈值,生成匹配数据库;其中,匹配数据库包含有与待匹配物品的物品特征信息相匹配的相似物品的标准化物品特征信息和待匹配物品的物品特征信息;

若正确匹配率小于预设阈值,则动态调整匹配规则;以及

基于调整后的匹配规则,根据多个物品的标准化物品特征信息与待匹配物品的物品特征信息,从多个物品中确定与待匹配物品相匹配的相似物品。

根据本公开的实施例,建立模块840,还用于根据不同物品的物品特征信息,建立不同物品分别对应的匹配规则;并将不同物品分别对应的匹配规则加载至不同的缓存中,以便在基于匹配规则,根据多个物品的标准化物品特征信息与待匹配物品的物品特征信息,从多个物品中确定与待匹配物品相匹配的相似物品时从对应缓存中调用匹配规则。

根据本公开的实施例,用于物品匹配的数据处理装置800还包括动态调整模块。

动态调整模块,用于分别对加载至不同的缓存中的不同匹配规则进行更新。

根据本公开的实施例,物品文本信息包括但不限于物品品类信息、物品价格信息、物品属性信息和物品品牌信息。

根据本公开的实施例,将多个物品的物品特征信息进行标准化转换,得到标准化物品特征信息包括以下一种或多种。

将多个物品的物品品类信息进行标准化转换,得到标准化物品品类信息;

将多个物品的物品属性信息进行标准化转换,得到标准化物品属性信息;

将多个物品的物品品牌信息进行标准化转换,得到标准化物品品牌信息;以及

将多个物品的物品图像信息进行标准化转化,得到物品图像hash值。

根据本公开的实施例,基于匹配规则,根据多个物品的标准化物品特征信息与待匹配物品的物品特征信息,从多个物品中确定与待匹配物品相匹配的相似物品包括:

基于匹配规则,根据多个物品的标准化物品品类信息与待匹配物品的物品品类信息,利用搜索引擎从多个物品中确定与待匹配物品相匹配的初始相似物品;

基于匹配规则,根据多个物品的除标准化物品品类信息之外的其他标准化物品特征信息与待匹配物品的除物品品类信息之外的其他物品特征信息,从初始相似物品中确定与待匹配物品相匹配的相似物品。

根据本公开的实施例,获取多个物品的物品特征信息包括但不限于利用爬虫技术,基于目标物品品类信息,获取多个物品的物品特征信息。

根据本公开的实施例的模块、子模块、单元、子单元中的任意多个、或其中任意多个的至少部分功能可以在一个模块中实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以被拆分成多个模块来实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式的硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,根据本公开实施例的模块、子模块、单元、子单元中的一个或多个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。

例如,获取模块810、转换模块820、建立模块830和确定模块840中的任意多个可以合并在一个模块/单元/子单元中实现,或者其中的任意一个模块/单元/子单元可以被拆分成多个模块/单元/子单元。或者,这些模块/单元/子单元中的一个或多个模块/单元/子单元的至少部分功能可以与其他模块/单元/子单元的至少部分功能相结合,并在一个模块/单元/子单元中实现。根据本公开的实施例,获取模块810、转换模块820、建立模块830和确定模块840中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,获取模块810、转换模块820、建立模块830和确定模块840中的至少一个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。

需要说明的是,本公开的实施例中用于物品匹配的数据处理装置部分与本公开的实施例中用于物品匹配的数据处理方法部分是相对应的,用于物品匹配的数据处理装置部分的描述具体参考用于物品匹配的数据处理方法部分,在此不再赘述。

图9示意性示出了根据本公开实施例的适于实现上文描述的方法的计算机系统的框图。图9示出的计算机系统仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。

如图9所示,根据本公开实施例的计算机系统900包括处理器901,其可以根据存储在只读存储器(ROM)902中的程序或者从存储部分908加载到随机访问存储器(RAM)903中的程序而执行各种适当的动作和处理。处理器901例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(ASIC)),等等。处理器901还可以包括用于缓存用途的板载存储器。处理器901可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。

在RAM 903中,存储有系统900操作所需的各种程序和数据。处理器901、ROM 902以及RAM 903通过总线904彼此相连。处理器901通过执行ROM 902和/或RAM 903中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意,所述程序也可以存储在除ROM 902和RAM 903以外的一个或多个存储器中。处理器901也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。

根据本公开的实施例,系统900还可以包括输入/输出(I/O)接口905,输入/输出(I/O)接口905也连接至总线904。系统900还可以包括连接至I/O接口905的以下部件中的一项或多项:包括键盘、鼠标等的输入部分906;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分907;包括硬盘等的存储部分908;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分909。通信部分909经由诸如因特网的网络执行通信处理。驱动器910也根据需要连接至I/O接口905。可拆卸介质911,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器910上,以便于从其上读出的计算机程序根据需要被安装入存储部分908。

根据本公开的实施例,根据本公开实施例的方法流程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序物品,其包括承载在计算机可读存储介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分909从网络上被下载和安装,和/或从可拆卸介质911被安装。在该计算机程序被处理器901执行时,执行本公开实施例的系统中限定的上述功能。根据本公开的实施例,上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。

本公开还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的;也可以是单独存在,而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本公开实施例的方法。

根据本公开的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质。例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

例如,根据本公开的实施例,计算机可读存储介质可以包括上文描述的ROM 902和/或RAM 903和/或ROM 902和RAM 903以外的一个或多个存储器。

附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序物品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。本领域技术人员可以理解,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合,即使这样的组合或结合没有明确记载于本公开中。特别地,在不脱离本公开精神和教导的情况下,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。

以上对本公开的实施例进行了描述。但是,这些实施例仅仅是为了说明的目的,而并非为了限制本公开的范围。尽管在以上分别描述了各实施例,但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围,本领域技术人员可以做出多种替代和修改,这些替代和修改都应落在本公开的范围之内。

相关技术
  • 数据处理方法和装置、计算机系统和可读存储介质
  • 数据处理方法、装置、计算机系统及可读存储介质
技术分类

06120112316071