掌桥专利:专业的专利平台
掌桥专利
首页

数据处理方法、数据处理装置、计算机设备和存储介质

文献发布时间:2024-04-18 20:01:55


数据处理方法、数据处理装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域,特别是涉及一种数据处理方法、数据处理装置、计算机设备、计算机可读存储介质和计算机程序产品。

背景技术

近年来,随着智慧城市的建设发展,城市信息化由数字城市转变到智慧城市,时空数据在智慧城市建设中发挥重要的作用。房屋地址数据是一种地理空间表达方式,其是城市管理中位置信息的重要参照物,也是向用户展示房屋资源信息的核心数据,因此这对房屋地址的检索匹配技术提出了新的要求。

在当前的房屋地址匹配的过程中,常常存在用户输入的原始房屋地址的错误或者关键地址信息的缺失的问题,导致房屋地址的匹配率和正确率并不高,从而使得后续基于房屋地址所确定的房屋资源信息的数据也不够准确,这给房屋地址的精准匹配带来了一定的不便。

发明内容

针对上述问题,本公开提供一种数据处理方法、数据处理装置、计算机设备、计算机可读存储介质和计算机程序产品。本公开的技术方案如下:

根据本公开实施例的第一方面,提供一种数据处理方法,包括:

获取用户账户输入的文字信息和所述用户账户的账户信息;所述文字信息为所述用户账户以自然语言形式表达的房屋地址,所述文字信息和所述账户信息均属于大数据范畴的信息数据;

对所述文字信息进行结构化处理,得到对应标准化结构的用户地址词组;所述标准化结构基于房屋所在的省份名称-城市名称-楼盘名称-门牌地址-楼栋编号-单元编号-房间编号表征;其中,所述用户地址词组基于所述“省份名称”、所述“城市名称”、所述“楼盘名称”、所述“门牌地址”、所述“楼栋编号”、所述“单元编号”和所述“房间编号”所对应的地址单词组成;

在预设的数据库中,基于所述账户信息索引出匹配于所述用户地址词组的目标地址词组;

在预设的房屋资源信息表中,索引出关联于所述目标地址词组的房屋资源信息,并将所述房屋资源信息进行展示。

在一示例性实施例中,在所述数据库中包括历史匹配记录表;所述历史匹配记录表用于记录已匹配成功的历史词组;

所述在预设的数据库中,基于所述账户信息索引出匹配于所述用户地址词组的目标地址词组,包括:

从所述数据库中提取出所述历史匹配记录表;

在所述历史匹配记录表中,对所述用户地址词组进行相同词组匹配,得到目标地址词组。

在一示例性实施例中,在所述数据库中包括标准词组库;所述标准词组库用于存储多条标准化结构的地址词组;

所述在预设的数据库中,基于所述账户信息索引出匹配于所述用户地址词组的目标地址词组,包括:

在所述历史匹配记录表中不存在匹配于所述用户地址词组的目标地址词组的情况下,在所述标准词组库中,对所述用户地址词组进行相同词组匹配,得到目标地址词组。

在一示例性实施例中,所述方法还包括:

在所述标准词组库中,对所述用户地址词组中的各个地址单词进行同义词匹配和/或近义词匹配,得到针对所述用户地址词组的多个扩展单词;

基于所述多个扩展单词,对所述用户地址词组中的地址单词进行替换,得到对应的至少一组拓展地址词组;

在所述历史匹配记录表和/或所述标准词组库中,对所述至少一组拓展地址词组分别进行相同词组匹配,得到目标地址词组。

在一示例性实施例中,所述标准词组库中所存储的各条地址词组均携带有对应的坐标区域;所述方法还包括:

在所述历史匹配记录表和/或所述标准词组库中不存在匹配于所述用户地址词组的目标地址词组的情况下,基于预设的地图导航平台对所述房屋地址进行导航定位,确定针对所述房屋地址的坐标区域;

将所述房屋地址的坐标区域与所述标准词组库中各地址词组所对应的坐标区域进行区域匹配,确定所述房屋地址所属的第一区域地址;所述第一区域地址基于省份名称-城市名称-楼盘名称/门牌地址的结构表征;

从所述用户地址词组中提取出针对所述房屋地址所属的第二区域地址;所述第二区域地址基于楼栋编号-单元编号-房间编号的结构表征;

在所述历史匹配记录表和/或所述标准词组库中对所述房屋地址进行词组匹配,确定同时满足所述第一区域地址和所述第二区域地址的目标地址词组。

在一示例性实施例中,所述方法还包括:

在所述历史匹配记录表和/或所述标准词组库中不存在匹配于所述用户地址词组的目标地址词组的情况下,从所述用户地址词组中提取出关于所述“省份名称”、所述“城市名称”、所述“楼盘名称”和所述“门牌地址”的第一类目标地址单词,以及关于所述“楼栋编号”、所述“单元编号”和所述“房间编号”的第二类目标地址单词;

基于所述第一类目标地址单词,生成第一子类用户地址词组;所述第一子类用户地址词组基于省份名称-城市名称-楼盘名称/门牌地址的结构表征;

在所述标准词组库中,对所述第一子类用户地址词组进行词组匹配,得到满足于所述第一子类用户地址词组的第一类候选词组;

在所述第一类候选词组中,索引出满足至少一个所述第二类目标地址单词的目标候选词组;

在所述房屋资源信息表中,索引出关联于所述目标候选词组的房屋资源信息,并将所述房屋资源信息进行展示。

在一示例性实施例中,所述账户信息包括所述用户账户的位置信息;所述方法还包括:

在所述标准词组库中不存在匹配于所述第一类候选词组的情况下,确定出与所述位置信息距离最近的第二子类用户地址词组;所述第二子类用户地址词组基于省份名称-城市名称-楼盘名称/门牌地址的结构表征;

在所述标准词组库中,对所述第二子类用户地址词组进行词组匹配,得到满足于所述第二子类用户地址词组的第二类候选词组;

在所述第二类候选词组中,索引出满足至少一个所述第二类目标地址单词的目标候选词组;

在所述房屋资源信息表中,索引出关联于所述目标候选词组的房屋资源信息,并将所述房屋资源信息进行展示。

在一示例性实施例中,所述方法还包括:

在所述第一类候选词组或者所述第二类候选词组中,不存在满足至少一个所述第二类目标地址单词的目标候选词组的情况下,从所述数据库的历史匹配记录表中提取出满足预设约束规则的目标历史词组;所述目标历史词组基于楼栋编号-单元编号-房间编号的结构表征;其中,满足预设约束规则的所述目标历史词组包括所述用户账户最近一次匹配成功的历史词组,或者,由所述用户账户对应匹配成功次数最多的地址单词组成的历史词组;

在所述第一类候选词组或者所述第二类候选词组中,索引出满足所述目标历史词组的目标候选词组;

在所述房屋资源信息表中,索引出关联于所述目标候选词组的房屋资源信息,并将所述房屋资源信息进行展示。

根据本公开实施例的第二方面,提供一种数据处理装置,包括:

信息获取单元,被配置为执行获取用户账户输入的文字信息和所述用户账户的账户信息;所述文字信息为所述用户账户以自然语言形式表达的房屋地址,所述文字信息和所述账户信息均属于大数据范畴的信息数据;

信息处理单元,被配置为执行对所述文字信息进行结构化处理,得到对应标准化结构的用户地址词组;所述标准化结构基于房屋所在的省份名称-城市名称-楼盘名称-门牌地址-楼栋编号-单元编号-房间编号表征;其中,所述用户地址词组基于所述“省份名称”、所述“城市名称”、所述“楼盘名称”、所述“门牌地址”、所述“楼栋编号”、所述“单元编号”和所述“房间编号”所对应的地址单词组成;

词组匹配单元,被配置为执行在预设的数据库中,基于所述账户信息索引出匹配于所述用户地址词组的目标地址词组;

信息展示单元,被配置为执行在预设的房屋资源信息表中,索引出关联于所述目标地址词组的房屋资源信息,并将所述房屋资源信息进行展示。

根据本公开实施例的第三方面,提供一种计算机设备,包括:

处理器;

用于存储所述处理器的可执行指令的存储器;

其中,所述处理器被配置为执行所述可执行指令,以实现如上述任一项所述的数据处理方法。

根据本公开实施例的第四方面,提供一种计算机可读存储介质,所述计算机可读存储介质中包括程序数据,当所述程序数据由计算机设备的处理器执行时,使得所述计算机设备能够执行如上述任一项所述的数据处理方法。

根据本公开实施例的第五方面,提供一种计算机程序产品,所述计算机程序产品中包括程序指令,所述程序指令被计算机设备的处理器执行时,使得所述计算机设备能够执行如上述任一项所述的数据处理方法。

本公开的实施例提供的技术方案至少带来以下有益效果:

该方法先通过获取用户账户输入的文字信息和用户账户的账户信息;文字信息为用户账户以自然语言形式表达的房屋地址;对文字信息进行结构化处理,得到对应标准化结构的用户地址词组;标准化结构基于房屋所在的省份名称-城市名称-楼盘名称-门牌地址-楼栋编号-单元编号-房间编号表征;其中,用户地址词组基于“省份名称”、“城市名称”、“楼盘名称”、“门牌地址”、“楼栋编号”、“单元编号”和“房间编号”所对应的地址单词组成;在预设的数据库中,基于账户信息索引出匹配于用户地址词组的目标地址词组;在预设的房屋资源信息表中,索引出关联于目标地址词组的房屋资源信息,并将房屋资源信息进行展示。这样,一方面,本方案通过对文字信息进行结构化处理,以得到对应标准化结构的用户地址词组,从而解决了现有技术中用户输入的房屋地址存在错误或者关键信息缺失的问题,以提升了对房屋地址进行匹配的正确率,并且降低了在进行房屋匹配时的资源占用率和人力劳动成本;另一方面,在房屋匹配的过程中,先基于账户信息索引出目标地址词组,再索引出关联于目标地址词组的房屋资源信息,以将房屋资源信息进行展示,从而优化了资源信息展示的流程,从而避免了因房屋匹配的错误,影响了对房屋资源信息进行展示的效率和准确性的需求问题,提升了资源信息展示方式的灵活性和实用性。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种数据处理方法的应用环境图。

图2是根据一示例性实施例示出的一种数据处理方法的流程图。

图3是根据一示例性实施例示出的一种确定目标地址词组步骤的流程图。

图4是根据一示例性实施例示出的一种将房屋资源信息进行展示步骤的流程图。

图5是根据一示例性实施例示出的一种数据处理装置框图。

图6是根据一示例性实施例示出的一种用于数据处理的计算机设备的框图。

图7是根据一示例性实施例示出的一种用于数据处理的计算机可读存储介质的框图。

图8是根据一示例性实施例示出的一种用于数据处理的计算机程序产品的框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。

本申请实施例中的术语“和/或”指的是包括相关联的列举项目中的一个或多个的任何和全部的可能组合。还要说明的是:当用在本说明书中时,“包括/包含”指定所陈述的特征、整数、步骤、操作、元件和/或组件的存在,但是不排除一个或多个其他特征、整数、步骤、操作、元件和/或组件和/或它们的组群的存在或添加。

本申请中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

另外,本申请中尽管多次采用术语“第一”、“第二”等来描述各种操作(或各种元件或各种应用或各种指令或各种数据)等,不过这些操作(或元件或应用或指令或数据)不应受这些术语的限制。这些术语只是用于区分一个操作(或元件或应用或指令或数据)和另一个操作(或元件或应用或指令或数据)。

本申请实施例提供的数据处理方法,可以应用于如图1所示的应用环境中。其中,终端102通过通信网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可以放在云上或其他网络服务器上。

在一些实施例中,参考图1,服务器104获取用户账户输入的文字信息和用户账户的账户信息;文字信息为用户账户以自然语言形式表达的房屋地址;对文字信息进行结构化处理,得到对应标准化结构的用户地址词组;标准化结构基于房屋所在的省份名称-城市名称-楼盘名称-门牌地址-楼栋编号-单元编号-房间编号表征;其中,用户地址词组基于“省份名称”、“城市名称”、“楼盘名称”、“门牌地址”、“楼栋编号”、“单元编号”和“房间编号”所对应的地址单词组成;在预设的数据库中,基于账户信息索引出匹配于用户地址词组的目标地址词组;在预设的房屋资源信息表中,索引出关联于目标地址词组的房屋资源信息,并将房屋资源信息进行展示。

在一些实施例中,终端102(如移动终端、固定终端)可以以各种形式来实施。其中,终端102可为包括诸如移动电话、智能电话、笔记本电脑、便携式手持式设备、个人数字助理(PDA,Personal Digital Assistant)、平板电脑(PAD)等等的移动终端,终端102也可以是自动柜员机(Automated Teller Machine,ATM)、自动一体机、数字TV、台式计算机、固式计算机等等的固定终端。

下面,假设终端102是固定终端。然而,本领域技术人员将理解的是,若有特别用于移动目的的操作或者元件,根据本申请公开的实施方式的构造也能够应用于移动类型的终端102。

在一些实施例中,服务器104运行的数据处理组件可以加载正在被执行的可以包括各种附加服务器应用和/或中间层应用中的任何一种,如包括HTTP(超文本传输协议)、FTP(文件传输协议)、CGI(通用网关界面)、RDBMS(关系型数据库管理系统)等。

在一些实施例中,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。服务器104可以适于运行提供前述公开中描述的终端102的一个或多个应用服务或软件组件。

在一些实施例中,应用服务或软件组件运行的操作系统可以包括各种版本的Microsoft Windows®、Apple Macintosh®和/或Linux操作系统、各种商用或类UNIX®操作系统(包括但不限于各种GNU/Linux操作系统、Google Chrome®OS等)和/或移动操作系统,诸如iOS®、Windows®Phone、Android®OS、BlackBerry®OS、Palm®OS操作系统,以及其它在线操作系统或者离线操作系统,在这里不做具体的限制。

在一些实施例中,如图2所示,提供了一种数据处理方法,以该方法应用于图1中的服务器104为例进行说明,该方法包括以下步骤:

步骤S11:获取用户账户输入的文字信息和用户账户的账户信息。

在一些实施例中,用户在客户端中输入关于房屋地址的文字信息,然后服务器从客户端中获取该文字信息和用户登录客户端当前的账户信息。其中,该文字信息和账户信息均属于大数据范畴的信息数据。

在一实施例中,文字信息为用户账户以自然语言形式表达的房屋地址。例如,用户输入的“在北京海淀区的上地街道办事处毛纺厂小区1号楼1-201室”。

在一实施例中,账户信息包括用户账户的账户名称和位置信息。

步骤S12:对文字信息进行结构化处理,得到对应标准化结构的用户地址词组。

在一些实施例中,服务器对文字信息进行结构化处理包括步骤:①按照官方设定的标准地址分类规则,对文字信息中的房屋地址进行转换处理,得到对应标准格式的房屋地址;②利用jieba分词技术对标准格式的房屋地址进行关于前缀词的词图扫描,以生成针对房屋地址中的汉字所有可能成词的情况所构成的有向无环图(DAG);③采用动态规划方式查找有向无环图中的最大概率路径,以基于汉字的词频,确定出最大切分组合(即分词结果);④将最大切分组合逐个返回,得到对应标准化结构的用户地址词组。

其中,标准化结构基于房屋所在的省份名称-城市名称-楼盘名称-门牌地址-楼栋编号-单元编号-房间编号表征。

其中,用户地址词组基于“省份名称”、“城市名称”、“楼盘名称”、“门牌地址”、“楼栋编号”、“单元编号”和“房间编号”所对应的地址单词组成。

例如,用户输入的房屋地址为“在深圳南山区的千禧小区7号楼的2-201室”,则对应标准化结构的用户地址词组为“空值1”-深圳市-千禧小区-“空值2”-7号楼-2单元-201室,其中,“空值1”表征用户地址词组中关于“省份名称”的地址单词未知,“空值2”表征用户地址词组中关于“门牌地址”的地址单词未知。

在一些实施例中,服务器可以基于用户地址词组中已知的地址单词,对用户地址词组中未知的地址单词进行补全处理,以得到完整的标准化结构的用户地址词组。

例如,服务器基于用户地址词组中与“省份名称”相邻的“城市名称”进行关联词搜索,以对“空值1”进行补全处理,从而确定用户地址词组中关于“省份名称”的地址单词为“广东省”;以及,基于用户地址词组中与“门牌地址”相邻的“城市名称”和“楼盘名称”进行关联词搜索,以对“空值2”进行补全处理,从而确定用户地址词组中关于“门牌地址”的地址单词为“西丽街道4025号”。

步骤S13:在预设的数据库中,基于账户信息索引出匹配于用户地址词组的目标地址词组。

在一实施例中,在数据库中包括历史匹配记录表和标准词组库。

在一些实施例中,历史匹配记录表用于记录服务器中已匹配成功的历史词组,标准词组库用于存储多条标准化结构的地址词组。

在一种实施例中,服务器基于账户信息索引出匹配于用户地址词组的目标地址词组,包括:在标准词组库中,对用户地址词组进行相同词组匹配,得到目标地址词组。

具体地,服务器基于must关系,直接在标准词组库中索引是否存在与用户地址词组相同的目标地址词组。

其中,在匹配查询中,must关系指的是所有的查询条件都必须满足才能匹配成功。其是布尔查询的一个子句,用于指定多个查询条件的逻辑关系。只有当所有的must子句(包括“省份名称”、“城市名称”、“楼盘名称”、“门牌地址”、“楼栋编号”、“单元编号”和“房间编号”所对应的地址单词)都匹配成功时,才被返回相应匹配的子句作为匹配结果。如果任何一个must子句不匹配,则相应的匹配结果将被排除在结果之外。

其中,在标准词组库中存在与用户地址词组相同的目标地址词组的情况下,服务器将该目标地址词组作为用户账户已匹配成功的历史词组记录在历史匹配记录表中,用于后续使用。

在一种实施例中,服务器基于账户信息索引出匹配于用户地址词组的目标地址词组,包括步骤:首先,从数据库中提取出历史匹配记录表;然后,再在历史匹配记录表中,对用户地址词组进行相同词组匹配,得到目标地址词组。

具体地,服务器首先获取到历史匹配记录表;然后,再基于must关系,在历史匹配记录表中索引是否存在与用户地址词组相同的目标地址词组。

在另一种实施例中,服务器基于账户信息索引出匹配于用户地址词组的目标地址词组,包括:在历史匹配记录表中不存在匹配于用户地址词组的目标地址词组的情况下,在标准词组库中,对用户地址词组进行相同词组匹配,得到目标地址词组。

其中,在历史匹配记录表中记录的历史词组数量较少,服务器的索引时间较短;在标准词组库中记录的标准词组数量较多,服务器的索引时间较长。因此,为了提升匹配效率,服务器可以首先在历史匹配记录表中,索引是否存在与用户地址词组相同的目标地址词组;然后,在历史匹配记录表中不存在匹配于用户地址词组的目标地址词组的情况下,再基于must关系,在标准词组库中索引是否存在与用户地址词组相同的目标地址词组。

其中,在标准词组库中存在与用户地址词组相同的目标地址词组的情况下,服务器将该目标地址词组作为用户账户已匹配成功的历史词组记录在历史匹配记录表中,用于后续使用。

步骤S14:在预设的房屋资源信息表中,索引出关联于目标地址词组的房屋资源信息,并将房屋资源信息进行展示。

在一实施例中,房屋资源信息表中的各条房屋资源信息均与数据库中记录的全部地址词组具有绑定关系,从而在服务器索引出匹配于用户地址词组的目标地址词组之后,服务器从房屋资源信息表中,索引出关联于目标地址词组的房屋资源信息,并将房屋资源信息通过客户端向用户进行展示。

其中,房屋资源信息用于表达相应的房屋属性,例如:房租售价、房租租价、房屋朝向、有无电梯、有多少房间、厅的数量等等信息。

上述的数据处理过程中,服务器首先通过获取用户账户输入的文字信息和用户账户的账户信息;文字信息为用户账户以自然语言形式表达的房屋地址;对文字信息进行结构化处理,得到对应标准化结构的用户地址词组;标准化结构基于房屋所在的省份名称-城市名称-楼盘名称-门牌地址-楼栋编号-单元编号-房间编号表征;其中,用户地址词组基于“省份名称”、“城市名称”、“楼盘名称”、“门牌地址”、“楼栋编号”、“单元编号”和“房间编号”所对应的地址单词组成;在预设的数据库中,基于账户信息索引出匹配于用户地址词组的目标地址词组;在预设的房屋资源信息表中,索引出关联于目标地址词组的房屋资源信息,并将房屋资源信息进行展示。这样,一方面,本方案通过对文字信息进行结构化处理,以得到对应标准化结构的用户地址词组,从而解决了现有技术中用户输入的房屋地址存在错误或者关键信息缺失的问题,以提升了对房屋地址进行匹配的正确率,并且降低了在进行房屋匹配时的资源占用率和人力劳动成本;另一方面,在房屋匹配的过程中,先基于账户信息索引出目标地址词组,再索引出关联于目标地址词组的房屋资源信息,以将房屋资源信息进行展示,从而优化了资源信息展示的流程,从而避免了因房屋匹配的错误,影响了对房屋资源信息进行展示的效率和准确性的需求问题,提升了资源信息展示方式的灵活性和实用性。

本领域技术人员可以理解地,在具体实施方式的上述方法中,所揭露的方法可以通过更为具体的方式以实现。例如,以上所描述的服务器在预设的数据库中,基于账户信息索引出匹配于用户地址词组的目标地址词组的实施方式仅仅是示意性的。

在一实施例中,为了保证地址词组索引的准确性,服务器可以组建一个针对于房屋地址的数据库。具体地,包括如下步骤:

步骤一:首先,采集大量的原始房屋地址数据及其房屋信息数据;然后,再对采集数据进行格式转换,得到符合标准地址分类规则的标准房屋地址。

其中,标准房屋地址为包含省-市-区(县)-街镇-楼盘(小区)-门牌地址-楼栋号-单元号-房号的九段地址数据。

步骤二:首先,对标准房屋地址进行拆分,得到分别按照省、市、区(县)、楼盘(小区)、门牌地址、楼栋号、单元号、房号划分的词组。然后,再对关于楼盘(小区)和门牌地址的词组分别进行同义词扩充,得到对应扩充的楼盘(小区)和门牌地址。然后,再将各个词组分别与原始房屋地址数据建立关联关系,得到针对原始房屋地址数据的词组数据集合。最后,再将原始房屋地址数据、房屋信息和词组数据集合存储于elastic search数据库中。

其中,词组数据集合被存储为2种字段类型,一种为字段类型为Key word(关键词)字段;另一种字段类型为text(文本)字段。

其中,定义elastic search数据库的analyzer为ik_max_word(一种ik分词模式),其用于模糊匹配。其中,ik_max_word会将文字数据做最细粒度的拆分,比如会将“广东华南植物园中的花果园”拆分为:广东、华南、东华、植物园、园中、花果园、花果、果园等词语。

步骤三:对楼盘(小区)和门牌地址进行地址搜索,以分别确定楼盘(小区)和门牌地址所在位置的中心点及多边形范围坐标;

具体地,首先,使用地图工具提供的相关地理数据,分别获取楼盘和门牌地址的边界坐标及中心坐标;然后,再将楼盘和门牌地址的边界坐标及中心坐标存储在elasticsearch数据库中;最后,再将边界坐标及中心坐标与对应的楼盘和门牌地址建立关联关系,以用于后续检索使用。

步骤四:对拆分好的各类词组进行类型标注,得到标注后的词组。

其中,类型标注包括对词组所在的省、市、门牌地址、楼栋号、单元号、房号的类型进行标注。

步骤五:基于标注后的词组,生成分词词库。

其中,首先基于标注后的词组,生成jieba分词;再基于jieba分词,生成自定义的分词词库(即标准词组库);该分词词库用于分词工具进行分词。

在一示例性实施例中,参阅图3,图3为本申请中确定目标地址词组一实施例的流程示意图。在步骤S13中,即服务器在预设的数据库中,基于账户信息索引出匹配于用户地址词组的目标地址词组的过程,具体可以执行以下方式:

步骤a1:在标准词组库中,对用户地址词组中的各个地址单词进行同义词匹配和/或近义词匹配,得到针对用户地址词组的多个扩展单词。

其中,同义词匹配即用于匹配出与目标地址单词具有相同地址含义的地址单词。例如,用户地址词组中的一个地址单词为“魔都”,则其对应的同义词为“上海市”。

其中,近义词匹配即用于匹配出与目标地址单词具有相近地址含义的地址单词。例如,用户地址词组中的一个地址单词为“A座”,则其对应的近义词为“1号楼”;另一个地址单词为“B座”,则其对应的近义词为“2号楼”。

步骤a2:基于多个扩展单词,对用户地址词组中的地址单词进行替换,得到对应的至少一组拓展地址词组。

作为示例,一条原始的用户地址词组为“广东省-深圳市-南山大厦-A座-2单元-1201室”,则在经过扩展单词替换后,得到对应新的用户地址词组为“广东省-深圳市-南山大厦-1号楼-2单元-1201室”,或者“广东省-深圳市-西丽街道54号-A座-2单元-1201室”,或者“广东省-深圳市-西丽街道54号-1号楼-2单元-1201室”。其中,“南山大厦”对应的同义词为“西丽街道54号”,“A座”对应的近义词为“1号楼”。

步骤a3:在历史匹配记录表和/或标准词组库中,对至少一组拓展地址词组分别进行相同词组匹配,得到目标地址词组。

具体地,服务器基于must关系,在历史匹配记录表和/或标准词组库中索引是否存在与拓展地址词组相同的目标地址词组。

其中,在标准词组库中存在与拓展地址词组相同的目标地址词组的情况下,服务器将该目标地址词组作为用户账户已匹配成功的历史词组记录在历史匹配记录表中,用于后续使用。

进一步地,在历史匹配记录表和/或标准词组库中不存在匹配于用户地址词组/拓展地址词组的目标地址词组的情况下,服务器还可以在预设的数据库中,对用户地址词组进行分段/分层索引,以索引出匹配于用户地址词组的目标地址词组,具体的过程可以执行以下方式1或者方式2:

其中,方式1包括如下步骤:

步骤一:基于预设的地图导航平台对房屋地址进行导航定位,确定针对房屋地址的坐标区域。

步骤二:将房屋地址的坐标区域与标准词组库中各地址词组所对应的坐标区域进行区域匹配,确定房屋地址所属的第一区域地址。

其中,第一区域地址基于省份名称-城市名称-楼盘名称/门牌地址的结构表征。

步骤三:从用户地址词组中提取出针对房屋地址所属的第二区域地址。

其中,第二区域地址基于楼栋编号-单元编号-房间编号的结构表征。

步骤四:在历史匹配记录表和/或标准词组库中对房屋地址进行词组匹配,确定同时满足第一区域地址和第二区域地址的目标地址词组。

作为示例,一房屋地址为“在北京海淀区的上地街道办事处毛纺厂小区1号楼1-201室”,其对应的用户地址词组包括“北京市”、“海淀区”、“毛纺厂小区”、“1号楼”、“1单元”、“201室”。因此,在历史匹配记录表和/或标准词组库中不存在匹配于用户地址词组/拓展地址词组的目标地址词组的情况下,服务器对房屋地址进行导航定位,确定出对应的坐标区域P1;然后,服务器再将坐标区域P1与标准词组库中各地址词组所对应的坐标区域进行区域匹配,确定房屋地址对应所属的第一区域地址“北京市-毛纺厂小区”,以及服务器从用户地址词组中提取出针对房屋地址所属的第二区域地址“1号楼-1单元-201室”。进一步地,服务器在历史匹配记录表和/或标准词组库中对房屋地址进行词组匹配,确定同时满足“北京市-毛纺厂小区”和“1号楼-1单元-201室”的目标地址词组。

其中,方式2包括如下步骤:

步骤一:从用户地址词组中提取出关于“省份名称”、“城市名称”、“楼盘名称”和“门牌地址”的第一类目标地址单词,以及关于“楼栋编号”、“单元编号”和“房间编号”的第二类目标地址单词。

步骤二:基于第一类目标地址单词,生成第一子类用户地址词组。

其中,第一子类用户地址词组基于省份名称-城市名称-楼盘名称/门牌地址的结构表征。

步骤三:在标准词组库中,对第一子类用户地址词组进行词组匹配,得到满足于第一子类用户地址词组的第一类候选词组。

步骤四:在第一类候选词组中,索引出满足至少一个第二类目标地址单词的目标候选词组。

步骤五:在房屋资源信息表中,索引出关联于目标候选词组的房屋资源信息,并将房屋资源信息进行展示。

作为示例,一用户地址词组为“广东省-深圳市-南山大厦-1号楼-2单元-1201室”,则对应的第一类目标地址单词包括“广东省”、“深圳市”和“南山大厦”;第二类目标地址单词包括“1号楼”、“2单元”和“1201室”。从而,服务器首先生成的第一子类用户地址词组为:广东省-深圳市-南山大厦;然后,服务器在标准词组库中匹配到第一类候选词组包括词组A:广东省-深圳市-南山大厦-7号楼-2单元-2001室、词组B:广东省-深圳市-南山大厦-3号楼-1单元-2901室和词组C:广东省-深圳市-南山大厦-2号楼-1单元-1201室。从而,服务器在该三个第一类候选词组中,索引出满足至少一个第二类目标地址单词的目标候选词组包括词组A和词组C。最终,在客户端中服务器分别将关联于词组A和词组C的房屋资源信息展示于用户。

再进一步地,在标准词组库中不存在匹配于第一类候选词组的情况下,服务器还可以基于用户账户的位置信息,对用户地址词组进行分段/分层索引,以索引出匹配于用户地址词组的目标地址词组,具体的过程可以执行以下方式:

步骤一:确定出与位置信息距离最近的第二子类用户地址词组。

其中,第二子类用户地址词组基于省份名称-城市名称-楼盘名称/门牌地址的结构表征。

步骤二:在标准词组库中,对第二子类用户地址词组进行词组匹配,得到满足于第二子类用户地址词组的第二类候选词组。

步骤三:在第二类候选词组中,索引出满足至少一个第二类目标地址单词的目标候选词组。

步骤四:在房屋资源信息表中,索引出关联于目标候选词组的房屋资源信息,并将房屋资源信息进行展示。

作为示例,服务器根据用户的位置信息,确定出距离用户最近的一个地址单词包括“广东省”、“深圳市”和“南山大厦”,从而针对用户的第二子类用户地址词组为广东省-深圳市-南山大厦;然后,服务器在标准词组库中匹配到满足于第二子类用户地址词组的第二类候选词组包括词组A:广东省-深圳市-南山大厦-7号楼-2单元-2001室、词组B:广东省-深圳市-南山大厦-3号楼-1单元-2901室和词组C:广东省-深圳市-南山大厦-2号楼-1单元-1201室。从而,服务器在该三个第一类候选词组中,索引出满足至少一个第二类目标地址单词的目标候选词组。最终,在客户端中服务器将关联于目标候选词组的房屋资源信息展示于用户。

在一示例性实施例中,参阅图4,图4为本申请中将房屋资源信息进行展示一实施例的流程示意图。在步骤S13中,在第一类候选词组或者第二类候选词组中,不存在满足至少一个第二类目标地址单词的目标候选词组的情况下,服务器还可以基于用户账户的位置信息和历史匹配记录,对用户地址词组进行分段/分层索引,以索引出匹配于用户地址词组的目标地址词组,具体的过程可以执行以下方式:

步骤b1:从数据库的历史匹配记录表中提取出满足预设约束规则的目标历史词组。

其中,目标历史词组基于楼栋编号-单元编号-房间编号的结构表征。

其中,满足预设约束规则的目标历史词组包括用户账户最近一次匹配成功的历史词组,或者,由用户账户对应匹配成功次数最多的地址单词组成的历史词组。

步骤b2:在第一类候选词组或者第二类候选词组中,索引出满足目标历史词组的目标候选词组。

步骤b3:在房屋资源信息表中,索引出关联于目标候选词组的房屋资源信息,并将房屋资源信息进行展示。

这样,一方面,本方案通过对文字信息进行结构化处理,以得到对应标准化结构的用户地址词组,从而解决了现有技术中用户输入的房屋地址存在错误或者关键信息缺失的问题,以提升了对房屋地址进行匹配的正确率,并且降低了在进行房屋匹配时的资源占用率和人力劳动成本;另一方面,在房屋匹配的过程中,先基于账户信息索引出目标地址词组,再索引出关联于目标地址词组的房屋资源信息,以将房屋资源信息进行展示,从而优化了资源信息展示的流程,从而避免了因房屋匹配的错误,影响了对房屋资源信息进行展示的效率和准确性的需求问题,提升了资源信息展示方式的灵活性和实用性。

应该理解的是,虽然图2-图4的附图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-图4中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

可以理解的是,本说明书中上述方法的各个实施例之间相同/相似的部分可互相参见,每个实施例重点说明的是与其他实施例的不同之处,相关之处参见其他方法实施例的说明即可。

图5是本申请实施例提供的一种数据处理装置框图。参照图5,该数据处理装置10包括:信息获取单元11、信息处理单元12、词组匹配单元13和信息展示单元14。

其中,该信息获取单元11,被配置为执行获取用户账户输入的文字信息和所述用户账户的账户信息;所述文字信息为所述用户账户以自然语言形式表达的房屋地址,所述文字信息和所述账户信息均属于大数据范畴的信息数据;

其中,该信息处理单元12,被配置为执行对所述文字信息进行结构化处理,得到对应标准化结构的用户地址词组;所述标准化结构基于房屋所在的省份名称-城市名称-楼盘名称-门牌地址-楼栋编号-单元编号-房间编号表征;其中,所述用户地址词组基于所述“省份名称”、所述“城市名称”、所述“楼盘名称”、所述“门牌地址”、所述“楼栋编号”、所述“单元编号”和所述“房间编号”所对应的地址单词组成;

其中,该词组匹配单元13,被配置为执行在预设的数据库中,基于所述账户信息索引出匹配于所述用户地址词组的目标地址词组;

其中,该信息展示单元14,被配置为执行在预设的房屋资源信息表中,索引出关联于所述目标地址词组的房屋资源信息,并将所述房屋资源信息进行展示。

在一些实施例中,在所述数据库中包括历史匹配记录表;所述历史匹配记录表用于记录已匹配成功的历史词组;

所述在预设的数据库中,基于所述账户信息索引出匹配于所述用户地址词组的目标地址词组,包括:

从所述数据库中提取出所述历史匹配记录表;

在所述历史匹配记录表中,对所述用户地址词组进行相同词组匹配,得到目标地址词组。

在一些实施例中,在所述数据库中包括标准词组库;所述标准词组库用于存储多条标准化结构的地址词组;

所述在预设的数据库中,基于所述账户信息索引出匹配于所述用户地址词组的目标地址词组,包括:

在所述历史匹配记录表中不存在匹配于所述用户地址词组的目标地址词组的情况下,在所述标准词组库中,对所述用户地址词组进行相同词组匹配,得到目标地址词组。

在一些实施例中,所述方法还包括:

在所述标准词组库中,对所述用户地址词组中的各个地址单词进行同义词匹配和/或近义词匹配,得到针对所述用户地址词组的多个扩展单词;

基于所述多个扩展单词,对所述用户地址词组中的地址单词进行替换,得到对应的至少一组拓展地址词组;

在所述历史匹配记录表和/或所述标准词组库中,对所述至少一组拓展地址词组分别进行相同词组匹配,得到目标地址词组。

在一些实施例中,所述标准词组库中所存储的各条地址词组均携带有对应的坐标区域;所述方法还包括:

在所述历史匹配记录表和/或所述标准词组库中不存在匹配于所述用户地址词组的目标地址词组的情况下,基于预设的地图导航平台对所述房屋地址进行导航定位,确定针对所述房屋地址的坐标区域;

将所述房屋地址的坐标区域与所述标准词组库中各地址词组所对应的坐标区域进行区域匹配,确定所述房屋地址所属的第一区域地址;所述第一区域地址基于省份名称-城市名称-楼盘名称/门牌地址的结构表征;

从所述用户地址词组中提取出针对所述房屋地址所属的第二区域地址;所述第二区域地址基于楼栋编号-单元编号-房间编号的结构表征;

在所述历史匹配记录表和/或所述标准词组库中对所述房屋地址进行词组匹配,确定同时满足所述第一区域地址和所述第二区域地址的目标地址词组。

在一些实施例中,所述方法还包括:

在所述历史匹配记录表和/或所述标准词组库中不存在匹配于所述用户地址词组的目标地址词组的情况下,从所述用户地址词组中提取出关于所述“省份名称”、所述“城市名称”、所述“楼盘名称”和所述“门牌地址”的第一类目标地址单词,以及关于所述“楼栋编号”、所述“单元编号”和所述“房间编号”的第二类目标地址单词;

基于所述第一类目标地址单词,生成第一子类用户地址词组;所述第一子类用户地址词组基于省份名称-城市名称-楼盘名称/门牌地址的结构表征;

在所述标准词组库中,对所述第一子类用户地址词组进行词组匹配,得到满足于所述第一子类用户地址词组的第一类候选词组;

在所述第一类候选词组中,索引出满足至少一个所述第二类目标地址单词的目标候选词组;

在所述房屋资源信息表中,索引出关联于所述目标候选词组的房屋资源信息,并将所述房屋资源信息进行展示。

在一些实施例中,所述账户信息包括所述用户账户的位置信息;所述方法还包括:

在所述标准词组库中不存在匹配于所述第一类候选词组的情况下,确定出与所述位置信息距离最近的第二子类用户地址词组;所述第二子类用户地址词组基于省份名称-城市名称-楼盘名称/门牌地址的结构表征;

在所述标准词组库中,对所述第二子类用户地址词组进行词组匹配,得到满足于所述第二子类用户地址词组的第二类候选词组;

在所述第二类候选词组中,索引出满足至少一个所述第二类目标地址单词的目标候选词组;

在所述房屋资源信息表中,索引出关联于所述目标候选词组的房屋资源信息,并将所述房屋资源信息进行展示。

在一些实施例中,所述方法还包括:

在所述第一类候选词组或者所述第二类候选词组中,不存在满足至少一个所述第二类目标地址单词的目标候选词组的情况下,从所述数据库的历史匹配记录表中提取出满足预设约束规则的目标历史词组;所述目标历史词组基于楼栋编号-单元编号-房间编号的结构表征;其中,满足预设约束规则的所述目标历史词组包括所述用户账户最近一次匹配成功的历史词组,或者,由所述用户账户对应匹配成功次数最多的地址单词组成的历史词组;

在所述第一类候选词组或者所述第二类候选词组中,索引出满足所述目标历史词组的目标候选词组;

在所述房屋资源信息表中,索引出关联于所述目标候选词组的房屋资源信息,并将所述房屋资源信息进行展示。

图6是本申请实施例提供的一种计算机设备20的框图。例如,计算机设备20可以为一种电子设备、电子组件或者服务器阵列等等。参照图6,计算机设备20包括处理器21,其进一步处理器21可以为处理器集合,其可以包括一个或多个处理器,以及计算机设备20包括由存储器22所代表的存储器资源,其中,存储器22上存储有计算机程序,例如应用程序。在存储器22中存储的计算机程序可以包括一个或一个以上的每一个对应于一组可执行指令的模块。此外,处理器21被配置为执行计算机程序时实现如上述的数据处理方法。

在一些实施例中,计算机设备20为电子设备,该电子设备中的计算系统可以运行一个或多个操作系统,包括以上讨论的任何操作系统以及任何商用的服务器操作系统。该计算机设备20还可以运行各种附加服务器应用和/或中间层应用中的任何一种,包括HTTP(超文本传输协议)服务器、FTP(文件传输协议)服务器、CGI(通用网关界面)服务器、超级服务器、数据库服务器等。示例性数据库服务器包括但不限于可从(国际商业机器)等商购获得的数据库服务器。

在一些实施例中,处理器21通常控制计算机设备20的整体操作,诸如与显示、数据处理、数据通信和记录操作相关联的操作。处理器21可以包括一个或多个处理器组件来执行计算机程序,以完成上述的方法的全部或部分步骤。此外,处理器组件可以包括一个或多个模块,便于处理器组件和其他组件之间的交互。例如,处理器组件可以包括多媒体模块,以方便利用多媒体组件控制用户计算机设备20和处理器21之间的交互。

在一些实施例中,处理器21中的处理器组件还可以称为CPU(Central ProcessingUnit,中央处理单元)。处理器组件可能是一种电子芯片,具有信号的处理能力。处理器还可以是通用处理器、数字信号处理器(Digital Signal Processor, DSP)、专用集成电路(Application Specific Integrated Circuit, ASIC)、专用集成电路(ApplicationSpecific Integrated Circuit, ASIC)、现场可编程门阵列(Field-Programmable GateArray, FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器组件等。另外,处理器组件可以由集成电路芯片共同实现。

在一些实施例中,存储器22被配置为存储各种类型的数据以支持在计算机设备20的操作。这些数据的示例包括用于在计算机设备20上操作的任何应用程序或方法的指令、采集数据、消息、图片、视频等。存储器22可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM)、电可擦除可编程只读存储器(EEPROM)、可擦除可编程只读存储器(EPROM)、可编程只读存储器(PROM)、只读存储器(ROM)、磁存储器、快闪存储器、磁盘、光盘或石墨烯存储器。

在一些实施例中,存储器22可以为内存条、TF卡等,可以存储计算机设备20中的全部信息,包括输入的原始数据、计算机程序、中间运行结果和最终运行结果都保存在存储器22中。在一些实施例中,它根据处理器指定的位置存入和取出信息。在一些实施例中,有了存储器22,计算机设备20才有记忆功能,才能保证正常工作。在一些实施例中,计算机设备20的存储器22按用途可分为主存储器(内存)和辅助存储器(外存),也有分为外部存储器和内部存储器的分类方法。外存通常是磁性介质或光盘等,能长期保存信息。内存指主板上的存储部件,用来存放当前正在执行的数据和程序,但仅用于暂时存放程序和数据,关闭电源或断电,数据会丢失。

在一些实施例中,计算机设备20还可以包括:电源组件23被配置为执行计算机设备20的电源管理,有线或无线网络接口24被配置为将计算机设备20连接到网络,和输入输出(I/O)接口25。计算机设备20可以操作基于存储在存储器22的操作系统,例如WindowsServer,Mac OS X,Unix,Linux,FreeBSD或类似。

在一些实施例中,电源组件23为计算机设备20的各种组件提供电力。电源组件23可以包括电源管理系统,一个或多个电源,及其他与为计算机设备20生成、管理和分配电力相关联的组件。

在一些实施例中,有线或无线网络接口24被配置为便于计算机设备20和其他设备之间有线或无线方式的通信。计算机设备20可以接入基于通信标准的无线网络,如WiFi,运营商网络(如2G、3G、4G或5G),或它们的组合。

在一些实施例中,有线或无线网络接口24经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,有线或无线网络接口24还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。

在一些实施例中,输入输出(I/O)接口25为处理器21和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。

图7是本申请实施例提供的一种计算机可读存储介质30的框图。该计算机可读存储介质30上存储有计算机程序31,其中,计算机程序31被处理器执行时实现如上述的数据处理方法。

在本申请各个实施例中的各功能单元集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在计算机可读存储介质30中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机可读存储介质30在一个计算机程序31中,包括若干指令用以使得一台计算机设备(可以是个人计算机,系统服务器,或者网络设备等)、电子设备(例如MP3、MP4等,也可以是手机、平板电脑、可穿戴设备等智能终端,也可以是台式电脑等)或者处理器(processor)以执行本申请各个实施方式方法的全部或部分步骤。

图8是本申请实施例提供的一种计算机程序产品40的框图。该计算机程序产品40中包括程序指令41,该程序指令41可由计算机设备20的处理器执行以实现如上述的数据处理方法。

本领域内的技术人员应明白,本申请的实施例可提供有数据处理方法、数据处理装置10、计算机设备20、计算机可读存储介质30或计算机程序产品40。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机程序指令41(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品40的形式。

本申请是参照根据本申请实施例中的数据处理方法、数据处理装置10、计算机设备20、计算机可读存储介质30或计算机程序产品40的流程图和/或方框图来描述的。应理解可由计算机程序产品40实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序产品40到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的程序指令41产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序产品40也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机程序产品40中的程序指令41产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些程序指令41也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的程序指令41提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

需要说明的,上述的各种方法、装置、电子设备、计算机可读存储介质、计算机程序产品等根据方法实施例的描述还可以包括其他的实施方式,具体的实现方式可以参照相关方法实施例的描述,在此不作一一赘述。

本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。

应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

相关技术
  • 一种解决长材轧线步进式加热炉空步的方法
  • 一种步进式加热炉空燃比动态前馈燃烧控制方法
技术分类

06120116573870