掌桥专利:专业的专利平台
掌桥专利
首页

房屋租赁数据的处理方法、装置、设备及可读存储介质

文献发布时间:2023-06-19 10:38:35


房屋租赁数据的处理方法、装置、设备及可读存储介质

技术领域

本申请涉及数据处理技术领域,尤其涉及一种房屋租赁数据的处理方法、装置、设备及可读存储介质。

背景技术

随着房屋租赁市场的蓬勃发展,积累下了海量的房屋租赁数据,对房屋租赁数据进行处理,用于为各类业务需求的分析提供有效的数据支撑。然而,房屋租赁数据的来源是多样化的,并且海量的房屋租赁数据中包括虚假数据或垃圾数据,所以需要对房屋租赁数据进行处理。

但是,任一条房屋租赁数据中包括待租赁房屋的多项信息,现有的处理方法难以综合考虑房屋租赁数据中的所有信息,尤其,房屋租赁数据中记录的住房租赁价格会随时间的不同,出现涨跌,例如,不同时期因供求关系变化导致的住房租赁价格变化。可见,现有的房屋租赁数据的处理方法得到处理结果的准确性低,难以满足房屋租赁数据治理需求。

发明内容

本申请提供了一种房屋租赁数据的处理方法、装置、设备及可读存储介质,目的在于提高房屋租赁数据的处理效率以及数据处理结果的准确性,如下:

一种房屋租赁数据的处理方法,包括:迭代的动态过滤流程,其中,除首次迭代外的任一次迭代包括以下步骤:

获取多条第一待处理数据,任一条所述第一待处理数据包括:第一单位租金和具有所述第一单位租金的待租赁房屋的属性项;

依据目标回归系数计算每一所述第一待处理数据的第一指数,所述目标回归系数为通过将所有属于预设区域的所述第一待处理数据输入回归模型,所述回归模型输出的作为目标属性项的所述第一待处理数据的发布时间的回归系数,所述回归模型指示作为因变量的单位租金、作为自变量的所述属性项、以及所述自变量的所述回归系数之间的数值对应关系;

计算每一所述第一待处理数据的所述第一单位租金与所述第一指数比值,得到每一所述第一待处理数据的归一化租金值;

依据各个所述第一待处理数据的所述归一化租金值确定标准值,作为第一标准值;

删除所述归一化租金值不在预设范围内的所述第一待处理数据,所述预设范围依据所述第一标准值确定。

可选地,在所述删除所述归一化租金值不在预设范围内的所述第一待处理数据之后,还包括:

比较所述第一标准值与参考标准值,所述参考标准值为当前迭代过程的上一次迭代过程中确定的所述标准值,所述当前迭代过程的所述多条第一待处理数据为所述上一次迭代过程中,执行所述删除所述归一化租金值不在预设范围内的所述第一待处理数据后的结果;

响应于所述第一标准值与所述参考标准值的比较结果小于第一预设阈值,停止所述迭代的动态过滤流程。

可选地,发布时间包括预设时间段中的一个,其中,每一所述时间段对应一个所述第一指数;

所述首次迭代的标准值的确定过程包括:

获取多条历史租赁数据,任一条所述历史租赁数据包括:历史单位租金和具有所述历史单位租金的已租赁房屋的属性项;

计算每一所述历史租赁数据的所述历史单位租金与目标指数的比值,得到每一所述历史租赁数据的归一化租金值,所述目标指数为所述历史租赁数据的发布时间对应的所述第一指数;

计算所述历史租赁数据的归一化租金值的平均值,作为归一均值;

删除所述归一化租金值不在预设归一化租金值范围内的所述历史租赁数据,所述预设归一化租金值范围依据所述归一均值确定;

计算剩余的所述历史租赁数据的所述归一化租金值的平均值,作为所述首次迭代的所述标准值。

可选地,首次迭代中的第一待处理数据的获取过程包括:

获取多条第二待处理数据,任一条所述第二待处理数据包括第二单位租金以及具有所述第二单位租金的待租赁房屋的属性项;

删除所述第二单位租金不在预设租金范围内的所述第二待处理数据,得到所述首次迭代中的第一待处理数据;所述预设租金范围依据所述预设区域内的所述历史租赁数据的历史单位租金的平均值确定。

可选地,第二待处理数据的获取过程包括:

获取第三待处理数据,任一条所述第三待处理数据包括第三单位租金以及具有所述第三单位租金的待租赁房屋的属性项;

计算每一所述第三待处理数据的所述第三单位租金与预估售价的比值,作为所述第三待处理数据的租售比,所述预估售价为预先估计的所述待租赁房屋的出售单价;

删除所述租售比不在预设租售比范围内的所述第三待处理数据,得到所述第二待处理数据,所述预设租售比范围依据所述预设区域的所述历史租赁数据的所述租售比确定。

可选地,第三待处理数据的获取过程包括:

获取多条第四待处理数据,任一条所述第四待处理数据包括第四单位租金以及具有所述第四单位租金的待租赁房屋的属性项;

对多条所述第四待处理数据进行预处理,得到所述第三待处理数据;所述预处理包括:依据每一所述第四待处理数据的预设的关键属性项以及预设字段处理规则,对每一所述第四待处理数据进行删除或修改中的任一项操作。

可选地,预处理还包括以下至少一项:

对所述第四待处理数据中为空的所述属性项的数值进行补充;

去除重复的所述第四待处理数据。

一种房屋租赁数据的处理装置,包括:

数据获取模块,用于在除首次迭代外的任一次迭代中,获取多条第一待处理数据,任一条所述第一待处理数据包括:第一单位租金和具有所述第一单位租金的待租赁房屋的属性项;

第一指数获取模块,用于依据目标回归系数计算每一所述第一待处理数据的第一指数,所述目标回归系数为通过将所有属于预设区域的所述第一待处理数据输入回归模型,所述回归模型输出的作为目标属性项的所述第一待处理数据的发布时间的回归系数,所述回归模型指示作为因变量的单位租金、作为自变量的所述属性项、以及所述自变量的所述回归系数之间的数值对应关系;

归一化模块,用于计算每一所述第一待处理数据的所述第一单位租金与所述第一指数比值,得到每一所述第一待处理数据的归一化租金值;

标准值确定模块,用于依据各个所述第一待处理数据的所述归一化租金值确定标准值,作为第一标准值;

数据删除模块,用于删除所述归一化租金值不在预设范围内的所述第一待处理数据,所述预设范围依据所述第一标准值确定。

一种房屋租赁数据的处理设备,包括:存储器和处理器;

所述存储器,用于存储程序;

所述处理器,用于执行所述程序,实现如上所述的房屋租赁数据的处理方法的各个步骤。

一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如上所述的房屋租赁数据的处理方法的各个步骤。

由上述技术方案可以看出,本申请实施例提供的房屋租赁数据的处理方法、装置、设备及可读存储介质,包括:迭代的动态过滤流程,其中,除首次迭代外的任一次迭代包括:获取多条第一待处理数据,任一条第一待处理数据包括:单位租金和具有单位租金的待租赁房屋的属性项。依据目标回归系数计算每一第一待处理数据的第一指数。计算每一第一待处理数据的单位租金与第一指数比值,得到每一第一待处理数据的归一化租金值。依据各个第一待处理数据的归一化租金值确定标准值,作为第一标准值。删除归一化租金值不在预设范围内的第一待处理数据,预设范围依据第一标准值确定。由于,回归模型指示作为因变量的单位租金、作为自变量的属性项、以及自变量的回归系数之间的数值对应关系,且,目标回归系数为通过将所有属于预设区域的第一待处理数据输入回归模型,回归模型输出的作为目标属性项的第一待处理数据的发布时间的回归系数,所以,归一化租金值指示将发布时间不同的自变量进行归一化后的结果。也即,将发布时间对单位租金的影响消除。所以,依据各个归一化租金值确定的第一标准值指示在预设区域内的第一待处理数据的单位租金的水平,预设范围指示在预设区域内的第一待处理数据的合理的单位租金的参考范围。因此,依据预设范围能够筛选出,具有合理的单位租金水平的第一待处理数据。可见,除首次迭代之外的任一次迭代均可以再提高数据处理的效率的同时,考虑所有属性项对于单位租金的影响,迭代后的结果的准确性高。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。

图1为本申请实施例提供的一种房屋租赁数据的处理方法的具体实施方式的流程示意图;

图2为本申请实施例提供的一种第一预处理流程的流程示意图;

图3示例了本申请实施例提供的一种首次迭代的标准值的获取方法的流程示意图;

图4为本申请实施例提供的一种房屋租赁数据的处理方法的流程示意图;

图5为本申请实施例提供的一种房屋租赁数据的处理装置的结构示意图;

图6为本申请实施例提供的一种房屋租赁数据的处理设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。

本申请实施例提供的房屋租赁数据的处理方法应用在但不限于对各种房屋用途的房屋租赁数据的处理流程,可选的一种应用场景为,对民用房屋的房屋租赁数据进行数据处理,包括但不限于对房屋租赁数据的筛选及修改,基于自动处理流程,提高数据处理的效率的同时,得到合理的、准确性高的房屋租赁数据。

图1为本申请实施例提供的一种房屋租赁数据的处理方法的流程示意图,如图1所示,具体可以包括下述S101~S115。

S101、获取原始租赁数据。

本实施例中,通过对从多个数据源中获取的租赁数据进行数据处理,得到原始租赁数据,其中,数据处理的过程包括但不限于:数据的采集交换、数据结构转换、数据整合和数据挖掘分析,具体的数据处理的方法参见现有技术。

可选地,每一条原始租赁数据指示待租赁房屋的租赁信息,每一条原始租赁数据包括待租赁房屋的单位租金和待租赁房屋的属性项,待租赁房屋的属性项包括多个数值,待租赁房屋的单位租金表示待租赁房屋每月每平米的租金。可选地,待租赁房屋的单位租金的数值单位为(元/平米/月)。需要说明的是,获取单位租金的方法包括多种,例如,直接获取单位租金,或者通过月租金(月租金的数值单位为元/月)、或年租金(年租金的数值单位为元/年),计算得到单位租金。

可选地,待租赁房屋的属性项包括但不限于:房屋结构字段、面积字段、层高字段、总层高字段、房屋用途字段、建筑类型字段、区域字段、小区名称字段、小区地址字段、装修样式字段、时间字段、朝向字段以及租赁方式字段。

其中,房屋结构字段记录待租赁房屋的房屋结构,可选地,房屋结构字段包括:卧室的数量、厅的数量、厨房的数量、以及卫生间的数量,例如,待租赁房屋的房屋结构字段为:三室两厅一厨一卫。区域字段记录待租赁房屋属于的区域,区域字段包括:城市字段、行政区字段、片区字段中的至少一项,例如,待租赁房屋的区域字段为北京市丰台区花乡街道。

需要说明的是,获取的任意原始租赁数据中的单位租金或任意属性项可以为空,为空的单位租金或为空的属性项均表示属性项的数值缺失。

本实施例中,将原始租赁数据作为本申请提供的房屋租赁数据的处理方法中的第四待处理数据。也即,第四待处理数据为数据格式统一且字段完整的租赁数据。

S102、对原始租赁数据进行第一预处理,得到第一预处理后的租赁数据。

本实施例中,对每一条原始租赁数据进行第一预处理的具体实现方法为:依据原始租赁数据的预设的关键属性项以及预设字段处理规则,对原始租赁数据进行删除或修改中的任一项操作。

本实施例中,关键属性项和字段处理规则至少依据应用场景以及原始租赁数据的属性项进行预设,例如,本实施例的应用场景为对民用房屋的房屋租赁数据进行处理,所以关键属性项包括:房屋用途字段和建筑类型字段。

可选地,若原始租赁数据的属性项中,房屋用途字段不属于预设房屋用途,则删除原始租赁数据,若原始租赁数据的属性项中,建筑类型字段不属于预设建筑类型,则删除原始租赁数据。预设房屋用途为符合民用建筑的房屋用途,预设建筑类型为符合民用建筑的建筑类型。

需要说明的是,具体的一种可选的对原始租赁数据执行第一预处理的具体方法参见图2所示的流程,本实施例在此不做赘述。

S103、对第一预处理后的租赁数据进行第二预处理,得到第二预处理后的租赁数据。

需要说明的是,第一预处理之后的租赁数据包括多条数据,第二预处理的方法具体可以包括下述A1和/或A2。

A1、为空的属性项的数值进行补充。

本实施例中,可选的两种补充属性项的数值的方法包括:

1、将属性项的数值补充为属性项的统计均值,需要说明的是,属性项的均值的获取方法包括多种,例如,将第一预处理后的租赁数据中属性项的数值的均值,作为统计均值,具体可以参见现有技术。

2、利用训练好的预测模型,将包括缺失属性项的第一预处理后的租赁数据的其它属性项的数值输入至预测模型,得到预测模型输出的预测数值,作为缺失属性项的数值。

本实施例中,预测模型用于预测缺失属性项的数值,在模型训练过程中,对于每一样本租赁数据,预测模型的目标输出为第一属性项的数值,输入为第二属性项的数值,训练好的预测模型用于预测第一属性项的数值。其中,第二属性项包括样本租赁数据中除第一属性项之外的其它多个属性项。具体的预测模型训练过程参见现有技术。

A2、保留重复的第一预处理后的租赁数据中的任意一条租赁数据。

本实施例中,若第一预处理后的租赁数据中单位租金相同,且预设属性项的数值均相同,则确定第一预处理后的租赁数据为重复的租赁数据。

需要说明的是,预设属性项包括第一预处理后的租赁数据中的所有属性项,或者,预设属性项包括第一预处理后的租赁数据中的可选的多个属性项。例如,若三条第一预处理后的租赁数据(分别记为数据A、数据B、和数据C)的单位租金相同,并且,数据A、数据B、和数据C的房屋结构字段、面积字段、层高字段、总层高字段、房屋用途字段、建筑类型字段、区域字段、小区名称字段、小区地址字段、以及租赁方式字段均对应相同,所以,数据A、数据B、和数据C为重复的租赁数据,保留数据A即可。

由上可见,第二预处理过程通过补充缺失值以及去除重复数据,一方面保证租赁数据中属性项的完整性,另一方面能够去除冗余数据,提高数据处理的效率。需要说明的是,第二预处理还可以包括其它实现方法,例如,A1和A2为两个可选的步骤,并且本实施例不限定A1和A2的执行顺序。

进一步需要说明的是,S102和S103为对原始租赁数据进行预处理的可选的两种方法,用于对原始租赁数据进行预处理,得到预处理后的租赁数据,可以理解的是,预处理后的租赁数据包括多条,预处理方法不限于S102和S103,并且,本实施例不限定S102和S103的执行顺序。本实施例中,将对多条原始租赁数据进行预处理后得到的多条租赁数据作为本申请实施例提供的房屋租赁数据的处理方法中的第三待处理数据。

S104、计算每一预处理后的租赁数据的租售比,将租售比不在预设租售比范围内的租赁数据删除,得到租售比清洗后的租赁数据。

本实施例中,任意一条租赁数据的租售比为该租赁数据的单位租金与待租赁房屋的预估售价的比值,本实施例中,预估售价为单位平米的售价(单位为元/平米)。需要说明的是,预估售价的获取方法包括多种,例如在历史出售数据中获取与待租赁房屋位于同一区域(例如同一片区)的房屋在时间字段所属于的预设时间段(例如,发布时间所属的月份)内的售价均值,具体可以参见现有技术。

本实施例中,租售比清洗的过程包括B1~B3,如下:

B1、计算历史租赁数据的租售比的平均值,作为区域租售比。

B2、依据区域租售比,确定预设租售比范围为a1倍*区域租售比~b1倍*区域租售比。可选地,a1为小于1的正数,b为大于于1的正数。例如,a1=0.4,b1=2。

B3、删除租售比不在预设租售比范围内的租赁数据。

需要说明的是,历史租赁数据为预设时间段内的、与预处理后的租赁数据的区域字段相同的租赁数据,获取历史租赁数据的方法参见现有技术,例如,预处理后的租赁数据的区域字段为西城区,从预设的租赁网站获取西城区的两年内已成交的租赁数据,作为历史租赁数据。

由上可见,租售比能体现预设区域中租金和售价的对应关系,是判断单位租金是否合理的重要指标,并且,由于预设租售比范围依据预设范围内的历史租赁数据确定,所以准确性高。所以本实施例通过删除租售比不在预设租售比范围内的租赁数据,能够准确且快速地去除租售比异常的租赁数据,提高了房屋租赁数据的处理过程的效率和准确性。需要说明的是,B1~B3为可选的一种对预处理后的租赁数据进行租售比清洗,以得到租售比清洗后的租赁数据的方法,本实施例中,将租售比清洗后的租赁数据作为本申请实施例提供的房屋租赁数据的处理方法中的第二待处理数据。

S105、将单位租金不在预设租金范围内的租售比清洗后的租赁数据删除,得到静态清洗后的租赁数据。

本实施例中,预设租金范围至少依据预设区域的租金均值确定,其中,预设区域的租金均值为预设区域的历史租赁数据的单位租金的平均值。可选地,预设区域包括城市、行政区、片区或小区中的至少一项。

具体地,将单位租金不在预设租金范围内的租赁数据删除的方法包括C1~C4中的至少一项:

C1、将单位租金不在预设城市租金范围内的租赁数据删除,预设城市租金范围为a2*城市租金均值~b2*城市租金均值。a2和b2为预设的数值,可选的,a2=0.8,b2=8。

C2、将单位租金不在预设行政区租金范围内的租赁数据删除,预设行政区租金范围为a3*行政区租金均值~b3*行政区租金均值。a3和b3为预设的数值,可选的,a3=0.4,b3=4。

C3、将租金市数值不在预设片区租金范围内的租赁数据删除,预设片区租金范围为a4*片区租金均值~b4*片区租金均值。a4和b4为预设的数值,可选的,a4=0.2,b4=2。

C4、将租金市数值不在预设小区租金范围内的租赁数据删除,预设小区租金范围为(小区租金均值-a5*小区租金标准差)~(小区租金均值+b5小区租金标准差)。a5和b5为预设的数值,可选的,a5=b5=1.5。

需要说明的是,小区租金标准差为小区的历史租赁数据的单位租金的标准差,具体的预设区域的租金均值和小区租金标准差的计算方法参见现有技术。

由上可见,预设租金范围至少依据预设区域的租金均值确定,且租金均值为预设区域的历史租赁数据的单位租金的平均值,所以,预设租金范围指示预设区域内的待租赁房屋的合理租金水平,所以静态清洗的过程可以去除单位租金不合理的租赁数据,提高了房屋租赁数据的处理过程的效率和准确性。需要说明的是,C1~C4为可选的一种对租售比清洗后的租赁数据进行静态清洗,以得到静态清洗后的租赁数据的方法,本实施例中,将静态清洗后的租赁数据作为本申请实施例提供的房屋租赁数据的处理方法中的第一待处理数据。

由上可见,本实施例通过上述S101~S105,对租赁数据进行初步的处理,得到用于迭代的动态过滤流程的租赁数据,也即静态清洗后的租赁数据。

接下来,本实施例以静态清洗后的租赁数据为首次迭代的第一待处理数据为例,对可选的一种进行迭代的动态过滤流程的具体实现方式进行说明。需要说明的是,首次迭代的过程包括S106~S109:

S106、依据目标回归系数计算第一待处理数据的第一指数。

其中,目标回归系数为通过将预设区域所有第一待处理数据输入回归模型,回归模型输出的第一待处理数据的发布时间的回归系数,回归模型指示作为因变量的单位租金、作为自变量的属性项、以及自变量的回归系数之间的数值对应关系。

需要说明的是,作为自变量的属性项依据第一待处理数据中的属性项划分得到,具体包括:面积自变量(由面积字段划分得到的多个面积区间)、装修样式自变量(由装修样式字段划分得到的多个装修样式)、层高自变量(由层高字段划分得到的多个层高)、朝向自变量(由朝向字段划分得到的多个朝向)、房屋结构自变量(由房屋结构字段划分得到的多个房屋结构)、以及时间自变量(由时间字段划分得到的多个月份,具体为12个月份)。需要说明的是,时间字段划分得到的一个时间自变量称为发布时间,发布时间包括12个时间自变量中的一个,每一时间自变量对应于一个预设的时间段。

具体的属性项的划分处理可以参见现有技术。

本实施例中,预设区域可以为小区、行政区、或城市中的任一项。以预设区域为小区为例。将小区名称字段相同的第一待处理数据中的:单位租金字段、面积字段、装修样式字段、层高字段、朝向字段、房屋结构字段、以及时间字段输入至回归模型,得到单位租金字段、各个自变量、以及各个自变量的回归系数之间的数值对应关系。

需要说明的是,将单位租金归一化后取对数,作为回归模型的因变量,得到的回归系数准确性高,可选的一种归一化方法为,单位租金除以小区单位租金均价(所有待租赁房屋的单位租金的平均值),具体参见现有技术。回归模型的类型和训练过程可以参见现有技术。

以预设区域为xx小区为例,将xx小区的所有第一待处理数据输入回归模型,回归模型的因变量(归一化后的单位租金取对数)、自变量、以及自变量的回归系数之间的数值对应关系,如公式(1)所示。

公式(1)中,In(P)为自变量,其中,P为归一化的单位租金,β预设的参数值,X为连续型自变量,α为X的回归系数。本实施例中,仅以自变量为X为例,实际应用中,连续型自变量包括多个,例如面积、楼层等,每一连续型自变量都对应于一个回归系数。

公式(1)中,D

公式(1)中,T

由上述的公式(1)作为示例,回归模型指示作为因变量的单位租金In(P)、作为自变量的属性项(X、D

进一步,将每一第一待处理数据的时间字段的回归系数作为目标回归系数,依据目标回归系数计算第一指数的方法可以参见公式(2),如下:

公式(2)中,Y为预设基期指数,例如预设基期为2019年1月,预先为2019年1月设置第一指数为Y=100,σ

可以理解的是,由于目标回归系数为目标属性项的回归系数,若多条第一待处理数据的发布时间属于相同的自变量,则多条第一待处理数据第一指数相同,基于此,本方法可以获取所有发布时间的回归系数,进一步依据公式(2)得到每一发布时间对应的第一指数,针对任一第一待处理数据,依据第一待处理数据直接获取发布时间对应的第一指数即可。例如,首先获取1~12月份的第一指数分别为Index

本实施例中,在小区的预设月份的第一待处理数据数量低于100条时,本申请实施例还提供了下述两种可选的获取第一指数的方法。

1、依据两个小区的建成年代和经纬度距离计算两个小区的小区相似度。

本实施例中,建成年代和经纬度距离的获取方法参见现有技术,将建成年代和经纬度距离作为计算欧式距离的两个维度,计算欧氏距离。

依据欧式距离确定小区相似度,欧式距离越小,小区相似度越高,将高于预设相似度的小区作为候补小区,将候补小区的在预设月份的第一待处理数据作为正在处理的小区在预设月份的第一待处理数据,将正在处理的小区在预设月份的第一待处理数据的数量补充至100条。

2、将行政区作为预设区域,计算第一指数,作为待处理的小区的第一指数。或者,将城市作为预设区域,计算第一指数,作为待处理的小区的第一指数。

需要说明的是,将行政区作为预设区域,计算第一指数,或将城市作为预设区域,计算第一指数的方法可以参见上述将小区作为预设区域,第一指数的计算方法,本实施例在此不做赘述。

为描述方便,本实施例以第一指数为目标小区在目标月份的第一指数为例,对迭代的动态过滤流程进行介绍。

S107、依据历史租赁数据以及第一指数,计算首次迭代的标准值。

具体地,计算首次迭代的标准值的具体方法可以参见图3所示的流程。本实施例在此不做赘述。

S108、计算每一第一待处理数据的单位租金与第一指数的比值,得到每一第一待处理数据的归一化租金值。

S109、删除归一化租金值不在预设范围内的第一待处理数据,得到第二次迭代的第一待处理数据。

本实施例中,预设范围为依据首次迭代的标准值确定的数值区间,可选地,首次迭代的预设范围为:a6*首次迭代的标准值~b6*首次迭代的标准值。其中,a6和b6为预设的数值,可选的,a6=0.7,b6=1.3。

需要说明的是,S106~S109为迭代的动态过滤流程中的首次迭代的具体执行过程,上述可见,首次迭代的标准值依据历史租赁数据以及第一指数计算得到,历史租赁数据的准确性较高,所以,首次迭代的准确值的参考性较高,因此,首次迭代后的结果的准确性较高。

本实施例中,将首次迭代后的结果作为第二次迭代的第一待处理数据,进行下述S110~S115的第二次迭代流程。

S110、获取每一第一待处理数据的第一指数。

本实施例中,第二次迭代中每一第一待处理数据的第一指数的计算方法可以参见上述首次迭代中每一第一待处理数据的第一指数计算方法,其中,将首次迭代的第一待处理数据替换为第二次迭代的第一待处理数据即可。本实施例在此不做赘述。

需要说明的是,在计算第二次迭代的第一指数时,小区相似度的计算方法为:首次迭代的标准值、建成年代和经纬度距离计算欧氏距离,并依据欧氏距离确定小区相似度,具体的计算方法参见现有技术。

S111、分别计算每一第一待处理数据的单位租金与第一指数的比值,得到每一第一待处理数据的归一化租金值。

S112、依据第一待处理数据的归一化租金值确定标准值,作为第一标准值。

本实施例中,将除首次迭代之外的任一迭代中的标准值记为第一标准值,可选的一种第一标准值的计算方法为:将各个第一待处理数据的归一化租金值的平均值作为第一标准值。

S113、删除归一化租金值不在预设范围内的第一待处理数据。

本实施例中,预设范围为依据第一标准值确定的数值区间。可选地,预设范围为:a7*第一标准值~b7*第一标准值。其中,a7和b7为预设的数值,可选的,a7=0.7,b7=1.3。

S114、若第一标准值与参考标准值的比较结果小于第一预设阈值,停止迭代的动态过滤流程。

本实施例中,第二次迭代的参考标准值为首次迭代的标准值。比较第一标准值与参考标准值得到比较结果的一种可选的方法为:计算第一标准值与参考标准值的差值的绝对值作为比较结果。

本实施例中,停止迭代的动态过滤流程后,将第二次迭代中删除归一化租金值不在预设范围内的第一待处理数据后的结果作为最终的数据处理结果。

S115、若第一标准值与参考标准值的比较结果大于第一预设阈值,以删除归一化租金值不在预设范围内的第一待处理数据后的结果作为第一待处理数据,进行下一次迭代。

需要说明的是,通过比较第一标准值与参考标准值,确定迭代是否继续,目的在于,在比较结果指示第一标准值的数值的变化趋于平缓时,结束动态过滤的迭代流程。

需要说明的是,第二次迭代以后的每一次迭代的流程均可参见第二次迭代的流程S110~S115,在执行第二次以后的任一次迭代时,将S110~S115中的第一待处理数据替换为上一次迭代删除归一化租金值不在预设范围内的第一待处理数据后的结果即可。

可见,在除首次迭代的任一迭代过程中,归一化租金值指示将发布时间(具体为年/月)不同的自变量归一化得到的结果。也即,将发布时间对单位租金的影响消除。进一步,依据各个归一化租金值确定的第一标准值指示将其它属性项的对单位租金平均化后,在预设区域内的第一待处理数据的单位租金的平均水平,预设范围指示在预设区域内的第一待处理数据的合理的单位租金的参考范围。因此,第二次迭代的标准值将发布时间的对单位租金的影响消除,不仅能避免时间跨度大造成的租金波动对筛选的不利影响,并且由于考虑所有其它属性项对于单位租金的影响,得到能指示平均水平的标准值,所以依据预设范围能够筛选出,具有合理的单位租金水平的第一待处理数据,迭代后的结果的准确性高。

需要说明的是,任一小区在任一月份的房屋租赁数据的处理流程均可参见图1,本实施例不做赘述。

图2为本申请实施例提供的一种第一预处理方法的流程示意图,具体可以包括S201~S207。

S201、若原始租赁数据的属性项中,房屋用途字段不属于预设房屋用途,则删除原始租赁数据。

本实施例中,预设房屋用途包括:住宅和普通公寓。

需要说明的是,判断房屋用途字段是否属于预设房屋用途的方法包括下述可选的两种。

1、依据房屋用途与用途编号的对应关系,判断房屋用途字段是否属于预设房屋用途。

具体地,房屋用途字段以预设的用途编号记录房屋用途,可选的一种用途编号和房屋用途的对应关系参见表1所示。

表1

本实施例中,若房屋用途字段包括用途编号“11”和/或“12”,则确定房屋用途字段属于预设房屋。

2、依据属性项中的小区名称字段,查询小区名称字段是否包括预设词,若是,则确定房屋用途字段属于预设房屋。

本实施例中,预设词指示非民用房屋,例如,“中心”、“机构”、“酒店”、或“宾馆”等。

S202、若原始租赁数据的属性项中,建筑类型字段不属于预设建筑类型,则删除原始租赁数据。

本实施例中,预设建筑类型包括:别墅。

需要说明的是,判断建筑类型字段是否属于预设建筑类型的方法包括下述可选的两种。

1、依据建筑类型与类型编号的对应关系,判断建筑类型字段是否属于预设建筑类型。

具体地,建筑类型字段以预设的类型编号记录建筑类型,可选的一种类型编号和建筑类型的对应关系参见表2所示。

表2

本实施例中,若建筑类型字段包括用途编号“0104”、“0105”、“0106”、或“0107”中任一项,则确定房屋用途字段不属于预设房屋。

2、依据属性项中的小区名称字段,查询小区名称字段是否包括预设词,若是,则确定房屋用途字段属于预设房屋。

本实施例中,预设词指示建筑类型为别墅,例如,“别墅”。

S203、若原始租赁数据的属性项中,区域字段不符合预设区域规则,则按照区域规则,修改区域字段。

具体地,区域规则中包括区域名称的合并对照关系、拆分对照关系、以及变更对照关系,以区域为行政区为例,指示合并前后行政区名称的对应关系,例如,“南市区”和“北市区”共同对应于“莲池区”,表示“南市区”和“北市区”合并后的行政区名称为“莲池区”,拆分对照关系指示拆分前后行政区名称的对应关系,变更对照关系指示变更前后行政区名称的对应关系。

本实施例中,若区域字段包括合并前的区域名称、拆分前的区域名称、或更改前的区域名称,按照合并对照关系、拆分对照关系、或变更对照关系将区域字段修改为正确的区域名称。例如,区域字段为“北市区”,则按照合并对照关系,将“北市区”修改为合并后的行政区名称“莲池区”。

需要说明的是,将文本错误的区域字段按照区域规则中记录的区域名称修改为正确的区域名称,例如,若区域字段包括“黄埔区”,则将“黄埔区”修改为正确的区域名称“黄浦区”。

进一步需要说明的是,查找小区名称字段相同但区域字段不同的原始租赁数据,从中保留一条原始租赁数据。

S204、若原始租赁数据中,存在多条原始租赁数据的小区名称字段相同,但小区地址字段不同,则在多条原始租赁数据的小区地址字段中,查找最小小区地址,并依据最小小区地址,修改多条原始租赁数据的小区地址字段。

本实施例中,将最小小区地址按照预设的格式规范化后,将多条原始租赁数据的小区地址字段修改为规范化后的最小小区地址。

需要说明的是,最小小区地址为对地址的描述最详细的小区地址字段。

S205、若原始租赁数据中层高字段小于1和/或大于总层高字段,将层高字段修改为空。

S206、若原始租赁数据中总层高字段小于1和/或大于预设总层高阈值,则将总层高字段修改为空。

S207、若原始租赁数据中,房屋结构字段与面积字段不符合预设面积规则,则,将原始租赁数据删除。

需要说明的是,面积规则包括总面积合理范围以及分户型面积合理范围本实施例中,面积规则根据实际场景预先配置,例如,北京市的民营房屋的总面积合理范围为:20-260平米,分户型面积合理范围如表3所示。

表3

本实施例中,根据原始租赁数据中房屋结构字段确定待租赁房屋的户型,并判断面积字段是否在户型对应的分户型面积合理范围之内,若否,则删除原始租赁数据。例如,原始租赁数据中房屋结构字段包括:“三室两厅一厨一卫”,待租赁房屋的户型为“三室”,面积字段包括“50平米”,“50平米”超出“三室”对应的分户型面积合理范围“60平米-260平米”,则将原始租赁数据删除。

由上可以看出,第一预处理流程通过预设的各个预设字段处理规则,每个字段处理规则至少包括预设的关键属性项的合理数值。所以第一预处理过程中,对第四待处理数据进行删除或修改中的任一项操作,能够对具有不合理的属性项的租赁数据进行处理,得到数据处理的结果。需要说明的是,图2仅为可选的一种对原始租赁数据执行第一预处理流程,本申请实施例提供的房屋租赁数据的处理方法还可以包括其它的第一预处理流程,例如,本申请实施例不限定S201~S207的执行顺序,并且S201~S207中的任意步骤为可选的步骤。

图3示例了本申请实施例提供的一种首次迭代的标准值的获取方法,具体可以包括S301~S305。

S301、计算各条历史租赁数据的历史单位租金与目标指数的比值,得到各个历史租赁数据的归一化租金值。

本实施例中,作为自变量的发布时间包括预设时间段中的一个,例如,预设时间段为由时间字段哑元化划分得到的12个月份,则,发布时间包括12个月份中的一个,每一月份对应于一个第一指数。目标指数指的是历史租赁数据的发布时间对应的第一指数。历史租赁数据的发布时间依据历史租赁数据的时间字段确定。

本实施例中,历史租赁数据为目标小区已成交的房屋的租赁数据。历史租赁数据的获取方法参见现有技术。

S302、计算各个历史租赁数据的归一化租金值的平均值,作为归一均值。

S303、若历史租赁数据的归一化租金值不在预设归一化租金值范围内,则将历史租赁数据删除。

本实施例中,预设归一化租金值范围为依据归一均值确定的数值区间,可选地,预设归一化租金值范围为1.3*归一化租金值的平均值~0.7*归一化租金值的平均值。

S304、删除归一化租金值不在预设归一化租金值范围内的历史租赁数据后,历史租赁数据的数量不低于预设的数量阈值的情况下,将剩余的历史租赁数据的归一化租金值的平均值作为首次迭代的标准值。

S305、删除归一化租金值不在预设归一化租金值范围内的历史租赁数据后,历史租赁数据的数量低于预设的数量阈值的情况下,将候选标准价作为标准价。

本实施例中,候选标准价包括下述1~4,可选地,标准价在候选标准价中,以1~4的优先次序选择。

1、计算目标小区的历史租赁数据的单位租金的归一化租金值的均值。

2、获取人工配置的评估租赁数据,评估租赁数据中的单位租金由人工预估得到,计算评估租赁数据的归一化租金值,计算得到第一待处理数据的归一化租金值的平均值。

3、计算第一待处理数据的归一化租金值,计算得到第一待处理数据的归一化租金值的平均值。

4、依据标准价预测模型生成的预测价。

本实施例中,标准价预测模型的输入数据为目标小区的挂牌率、公交、房龄、学区、医院、商场、绿化率、容积率、公园、物业费、超市、银行、交通、地铁、景观、加油站(或加气站)、工厂(或公墓)、以及经纬度。输出数据为目标小区的预测价。

需要说明的是,使用随机森林模型建立标准价预测模型,用于预测任意小区的标准价,随机森林模型建立标准价预测模型的过程可以参见现有技术。

需要说明的是,图1所示的流程仅为本申请实施例提供的房屋租赁数据的处理方法的一种可选的具体实现流程,本申请实施例还提供其它可选的具体实现流程,例如,S101~S105中的任一项为可选的步骤。

又例如,S111~S115仅为本申请实施例提供的除首次迭代外任一次迭代的一种可选的具体实现流程,本申请实施例还提供其它可选的具体实现流程,例如,确定第一标准值的方法不限于上述S112,还包括其它的可选的方法,例如,参见图3所示的S305。

综上,本申请实施例将上述S111~S115介绍的除首次迭代外任一次迭代的流程总结概括为图4所示的房屋租赁数据的处理方法,具体可以包括:

S401、获取多条第一待处理数据。

本实施例中,除首次迭代外的任意一次迭代的多条第一待处理数据为上一次迭代的结果,任一条第一待处理数据包括:单位租金和具有单位租金的待租赁房屋的属性项。

本实施例中,单位租金为待租赁房屋单位时间内单位平米的租金,具体地,单位租金的数值单位为(元/平米/月)。需要说明的是,单位租金和待租赁房屋的属性项的具体内容参见S101中对于原始租赁数据的说明。

S402、依据目标回归系数计算每一第一待处理数据的第一指数。

本实施例中,目标回归系数为通过将属于预设区域的第一待处理数据输入回归模型,回归模型输出的作为目标属性项的第一待处理数据的发布时间的回归系数。其中,例如,第一待处理数据的发布时间为目标月份,则目标属性项为目标月份,可选的,作为自变量的发布时间为由第一待处理数据包括的发布时间属性项划分得到,例如,目标月份可以为2019年1月~2019年12月中任一月份。

本实施例中,回归模型指示作为因变量的单位租金、作为自变量的属性项、以及自变量的回归系数之间的数值对应关系。其中,单位租金为因变量,作为自变量的属性项包括预设的多个属性项,具体的自变量的获取方法可以参见S106。

需要说明的时,可选的一种获取第一指数的方法参见S106,本实施例在此不做赘述。

S403、计算每一第一待处理数据的单位租金与第一指数的比值,得到每一第一待处理数据的归一化租金值。

S404、依据各个第一待处理数据的归一化租金值确定标准值,作为第一标准值。

本实施例中,可选的一种确定第一标准值的方法为:将所有第一待处理数据的归一化租金值的平均值作为第一标准值。

本实施例还包括其它确定标准值的方法,具体可以参见现有技术。

S405、删除归一化租金值不在预设范围内的第一待处理数据。

本实施例中,预设范围依据第一标准值确定,可选地,预设范围包括第一标准值,且预设范围的最小值为第一标准值的x倍,预设范围的最大值为第一标准值的y倍,其中,x和y依据实际需求进行预设,可选的,x=0.7,y=1.3。

由上述技术方案可以看出,本申请实施例提供的房屋租赁数据的处理方法、装置、设备及可读存储介质,包括:迭代的动态过滤流程,其中,除首次迭代外的任一次迭代包括:获取多条第一待处理数据,任一条第一待处理数据包括:单位租金和具有单位租金的待租赁房屋的属性项。依据目标回归系数计算每一第一待处理数据的第一指数。计算每一第一待处理数据的单位租金与第一指数比值,得到每一第一待处理数据的归一化租金值。依据各个第一待处理数据的归一化租金值确定标准值,作为第一标准值。删除归一化租金值不在预设范围内的第一待处理数据,预设范围依据第一标准值确定。由于,回归模型指示作为因变量的单位租金、作为自变量的属性项、以及自变量的回归系数之间的数值对应关系,且,目标回归系数为通过将所有属于预设区域的第一待处理数据输入回归模型,回归模型输出的作为目标属性项的第一待处理数据的发布时间的回归系数,所以,归一化租金值指示将发布时间不同的自变量进行归一化后的结果。也即,将发布时间对单位租金的影响消除。所以,依据各个归一化租金值确定的第一标准值指示在预设区域内的第一待处理数据的单位租金的水平,预设范围指示在预设区域内的第一待处理数据的合理的单位租金的参考范围。因此,依据预设范围能够筛选出,具有合理的单位租金水平的第一待处理数据。可见,除首次迭代之外的任一次迭代均可以再提高数据处理的效率的同时,考虑所有属性项对于单位租金的影响,迭代后的结果的准确性高。

图5示出了本申请实施例提供的一种房屋租赁数据的处理装置的结构示意图,如图5所示,该装置可以包括:

一种房屋租赁数据的处理装置,包括:

数据获取模块501,用于在除首次迭代外的任一次迭代中,获取多条第一待处理数据,获取多条第一待处理数据,任一条所述第一待处理数据包括:第一单位租金和具有所述第一单位租金的待租赁房屋的属性项;

第一指数获取模块502,用于依据目标回归系数计算每一所述第一待处理数据的第一指数,所述目标回归系数为通过将所有属于预设区域的所述第一待处理数据输入回归模型,所述回归模型输出的作为目标属性项的所述第一待处理数据的发布时间的回归系数,所述回归模型指示作为因变量的单位租金、作为自变量的所述属性项、以及所述自变量的所述回归系数之间的数值对应关系;

归一化模块503,用于计算每一所述第一待处理数据的所述第一单位租金与所述第一指数比值,得到每一所述第一待处理数据的归一化租金值;

标准值确定模块504,用于依据各个所述第一待处理数据的所述归一化租金值确定标准值,作为第一标准值;

数据删除模块505,用于删除所述归一化租金值不在预设范围内的所述第一待处理数据,所述预设范围依据所述第一标准值确定。

可选地,还包括标准值检验模块,用于在所述删除所述归一化租金值不在预设范围内的所述第一待处理数据之后:比较所述第一标准值与参考标准值,所述参考标准值为当前迭代过程的上一次迭代过程中确定的所述标准值,所述当前迭代过程的所述多条第一待处理数据为所述上一次迭代过程中,执行所述删除所述归一化租金值不在预设范围内的所述第一待处理数据后的结果;响应于所述第一标准值与所述参考标准值的比较结果小于第一预设阈值,停止所述迭代的动态过滤流程。

可选地,发布时间包括预设时间段中的一个,其中,每一所述时间段对应一个所述第一指数;

本装置还包括首次标准值确定模块用于确定首次迭代的标准值;

可选地,首次标准值确定模块具体用于:

获取多条历史租赁数据,任一条所述历史租赁数据包括:历史单位租金和具有所述历史单位租金的已租赁房屋的属性项;

计算每一所述历史租赁数据的所述历史单位租金与目标指数的比值,得到每一所述历史租赁数据的归一化租金值,所述目标指数为所述历史租赁数据的发布时间对应的所述第一指数;

计算所述历史租赁数据的归一化租金值的平均值,作为归一均值;

删除所述归一化租金值不在预设归一化租金值范围内的所述历史租赁数据,所述预设归一化租金值范围依据所述归一均值确定;

计算剩余的所述历史租赁数据的所述归一化租金值的平均值,作为所述首次迭代的所述标准值。

可选地,初始数据获取模块,用于获取首次迭代中的第一待处理数据;

初始数据获取模块,具体用于:

获取多条第二待处理数据,任一条所述第二待处理数据包括第二单位租金以及具有所述第二单位租金的待租赁房屋的属性项;

删除所述第二单位租金不在预设租金范围内的所述第二待处理数据,得到所述首次迭代中的第一待处理数据;所述预设租金范围依据所述预设区域内的所述历史租赁数据的历史单位租金的平均值确定。

可选地,初始数据获取模块,用于获取多条第二待处理数据,包括:

初始数据获取模块,具体用于:

获取第三待处理数据,任一条所述第三待处理数据包括第三单位租金以及具有所述第三单位租金的待租赁房屋的属性项;

计算每一所述第三待处理数据的所述第三单位租金与预估售价的比值,作为所述第三待处理数据的租售比,所述预估售价为预先估计的所述待租赁房屋的出售单价;

删除所述租售比不在预设租售比范围内的所述第三待处理数据,得到所述第二待处理数据,所述预设租售比范围依据所述预设区域的所述历史租赁数据的所述租售比确定。

可选地,初始数据获取模块,用于获取多条第三待处理数据,包括:初始数据获取模块,具体用于:

获取多条第四待处理数据,任一条所述第四待处理数据包括第四单位租金以及具有所述第四单位租金的待租赁房屋的属性项;

对多条所述第四待处理数据进行预处理,得到所述第三待处理数据;所述预处理包括:依据每一所述第四待处理数据的预设的关键属性项以及预设字段处理规则,对每一所述第四待处理数据进行删除或修改中的任一项操作。

可选地,预处理还包括以下至少一项:

对所述第四待处理数据中为空的所述属性项的数值进行补充;

去除重复的所述第四待处理数据。

图6示出了该房屋租赁数据的处理设备的结构示意图,该设备可以包括:至少一个处理器601,至少一个通信接口602,至少一个存储器603和至少一个通信总线604;

在本申请实施例中,处理器601、通信接口602、存储器603、通信总线604的数量为至少一个,且处理器601、通信接口602、存储器603通过通信总线604完成相互间的通信;

处理器601可能是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;

存储器603可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory)等,例如至少一个磁盘存储器;

其中,存储器存储有程序,处理器可执行存储器存储的程序,实现本申请实施例提供的一种房屋租赁数据的处理方法的各个步骤,如下:

一种房屋租赁数据的处理方法,包括:迭代的动态过滤流程,其中,除首次迭代外的任一次迭代包括以下步骤:

获取多条第一待处理数据,任一条所述第一待处理数据包括:第一单位租金和具有所述第一单位租金的待租赁房屋的属性项;

依据目标回归系数计算每一所述第一待处理数据的第一指数,所述目标回归系数为通过将所有属于预设区域的所述第一待处理数据输入回归模型,所述回归模型输出的作为目标属性项的所述第一待处理数据的发布时间的回归系数,所述回归模型指示作为因变量的单位租金、作为自变量的所述属性项、以及所述自变量的所述回归系数之间的数值对应关系;

计算每一所述第一待处理数据的所述第一单位租金与所述第一指数比值,得到每一所述第一待处理数据的归一化租金值;

依据各个所述第一待处理数据的所述归一化租金值确定标准值,作为第一标准值;

删除所述归一化租金值不在预设范围内的所述第一待处理数据,所述预设范围依据所述第一标准值确定。

可选地,在所述删除所述归一化租金值不在预设范围内的所述第一待处理数据之后,还包括:

比较所述第一标准值与参考标准值,所述参考标准值为当前迭代过程的上一次迭代过程中确定的所述标准值,所述当前迭代过程的所述多条第一待处理数据为所述上一次迭代过程中,执行所述删除所述归一化租金值不在预设范围内的所述第一待处理数据后的结果;

响应于所述第一标准值与所述参考标准值的比较结果小于第一预设阈值,停止所述迭代的动态过滤流程。

可选地,发布时间包括预设时间段中的一个,其中,每一所述时间段对应一个所述第一指数;

所述首次迭代的标准值的确定过程包括:

获取多条历史租赁数据,任一条所述历史租赁数据包括:历史单位租金和具有所述历史单位租金的已租赁房屋的属性项;

计算每一所述历史租赁数据的所述历史单位租金与目标指数的比值,得到每一所述历史租赁数据的归一化租金值,所述目标指数为所述历史租赁数据的发布时间对应的所述第一指数;

计算所述历史租赁数据的归一化租金值的平均值,作为归一均值;

删除所述归一化租金值不在预设归一化租金值范围内的所述历史租赁数据,所述预设归一化租金值范围依据所述归一均值确定;

计算剩余的所述历史租赁数据的所述归一化租金值的平均值,作为所述首次迭代的所述标准值。

可选地,首次迭代中的第一待处理数据的获取过程包括:

获取多条第二待处理数据,任一条所述第二待处理数据包括第二单位租金以及具有所述第二单位租金的待租赁房屋的属性项;

删除所述第二单位租金不在预设租金范围内的所述第二待处理数据,得到所述首次迭代中的第一待处理数据;所述预设租金范围依据所述预设区域内的所述历史租赁数据的历史单位租金的平均值确定。

可选地,第二待处理数据的获取过程包括:

获取第三待处理数据,任一条所述第三待处理数据包括第三单位租金以及具有所述第三单位租金的待租赁房屋的属性项;

计算每一所述第三待处理数据的所述第三单位租金与预估售价的比值,作为所述第三待处理数据的租售比,所述预估售价为预先估计的所述待租赁房屋的出售单价;

删除所述租售比不在预设租售比范围内的所述第三待处理数据,得到所述第二待处理数据,所述预设租售比范围依据所述预设区域的所述历史租赁数据的所述租售比确定。

可选地,第三待处理数据的获取过程包括:

获取多条第四待处理数据,任一条所述第四待处理数据包括第四单位租金以及具有所述第四单位租金的待租赁房屋的属性项;

对多条所述第四待处理数据进行预处理,得到所述第三待处理数据;所述预处理包括:依据每一所述第四待处理数据的预设的关键属性项以及预设字段处理规则,对每一所述第四待处理数据进行删除或修改中的任一项操作。

可选地,预处理还包括以下至少一项:

对所述第四待处理数据中为空的所述属性项的数值进行补充;

去除重复的所述第四待处理数据。

本申请实施例还提供一种可读存储介质,该可读存储介质可存储有适于处理器执行的计算机程序,计算机程序被处理器执行时,实现本申请实施例提供的一种房屋租赁数据的处理方法的各个步骤,如下:

一种房屋租赁数据的处理方法,包括:迭代的动态过滤流程,其中,除首次迭代外的任一次迭代包括以下步骤:

获取多条第一待处理数据,任一条所述第一待处理数据包括:第一单位租金和具有所述第一单位租金的待租赁房屋的属性项;

依据目标回归系数计算每一所述第一待处理数据的第一指数,所述目标回归系数为通过将所有属于预设区域的所述第一待处理数据输入回归模型,所述回归模型输出的作为目标属性项的所述第一待处理数据的发布时间的回归系数,所述回归模型指示作为因变量的单位租金、作为自变量的所述属性项、以及所述自变量的所述回归系数之间的数值对应关系;

计算每一所述第一待处理数据的所述第一单位租金与所述第一指数比值,得到每一所述第一待处理数据的归一化租金值;

依据各个所述第一待处理数据的所述归一化租金值确定标准值,作为第一标准值;

删除所述归一化租金值不在预设范围内的所述第一待处理数据,所述预设范围依据所述第一标准值确定。

可选地,在所述删除所述归一化租金值不在预设范围内的所述第一待处理数据之后,还包括:

比较所述第一标准值与参考标准值,所述参考标准值为当前迭代过程的上一次迭代过程中确定的所述标准值,所述当前迭代过程的所述多条第一待处理数据为所述上一次迭代过程中,执行所述删除所述归一化租金值不在预设范围内的所述第一待处理数据后的结果;

响应于所述第一标准值与所述参考标准值的比较结果小于第一预设阈值,停止所述迭代的动态过滤流程。

可选地,发布时间包括预设时间段中的一个,其中,每一所述时间段对应一个所述第一指数;

所述首次迭代的标准值的确定过程包括:

获取多条历史租赁数据,任一条所述历史租赁数据包括:历史单位租金和具有所述历史单位租金的已租赁房屋的属性项;

计算每一所述历史租赁数据的所述历史单位租金与目标指数的比值,得到每一所述历史租赁数据的归一化租金值,所述目标指数为所述历史租赁数据的发布时间对应的所述第一指数;

计算所述历史租赁数据的归一化租金值的平均值,作为归一均值;

删除所述归一化租金值不在预设归一化租金值范围内的所述历史租赁数据,所述预设归一化租金值范围依据所述归一均值确定;

计算剩余的所述历史租赁数据的所述归一化租金值的平均值,作为所述首次迭代的所述标准值。

可选地,首次迭代中的第一待处理数据的获取过程包括:

获取多条第二待处理数据,任一条所述第二待处理数据包括第二单位租金以及具有所述第二单位租金的待租赁房屋的属性项;

删除所述第二单位租金不在预设租金范围内的所述第二待处理数据,得到所述首次迭代中的第一待处理数据;所述预设租金范围依据所述预设区域内的所述历史租赁数据的历史单位租金的平均值确定。

可选地,第二待处理数据的获取过程包括:

获取第三待处理数据,任一条所述第三待处理数据包括第三单位租金以及具有所述第三单位租金的待租赁房屋的属性项;

计算每一所述第三待处理数据的所述第三单位租金与预估售价的比值,作为所述第三待处理数据的租售比,所述预估售价为预先估计的所述待租赁房屋的出售单价;

删除所述租售比不在预设租售比范围内的所述第三待处理数据,得到所述第二待处理数据,所述预设租售比范围依据所述预设区域的所述历史租赁数据的所述租售比确定。

可选地,第三待处理数据的获取过程包括:

获取多条第四待处理数据,任一条所述第四待处理数据包括第四单位租金以及具有所述第四单位租金的待租赁房屋的属性项;

对多条所述第四待处理数据进行预处理,得到所述第三待处理数据;所述预处理包括:依据每一所述第四待处理数据的预设的关键属性项以及预设字段处理规则,对每一所述第四待处理数据进行删除或修改中的任一项操作。

可选地,预处理还包括以下至少一项:

对所述第四待处理数据中为空的所述属性项的数值进行补充;

去除重复的所述第四待处理数据。

最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其它要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

相关技术
  • 房屋租赁数据的处理方法、装置、设备及可读存储介质
  • 房屋装修数据的处理方法、装置、电子设备及存储介质
技术分类

06120112623912