房屋租价预测模型的构建方法、装置、设备及存储介质
文献发布时间:2024-04-18 19:59:31
技术领域
本发明涉及计算机技术领域,具体涉及房屋租价预测模型的构建方法、装置、设备及存储介质。
背景技术
在人们的日常生活中,出于工作方便的考虑,大多数人往往会选择在工作地点附近租房。一般地,人们可以在租房平台上进行浏览,找到合适的房源。在这些租房平台中,通常会给出每个房源的月租金、年租金等不同类型的租价。
这些租价可以是专业人员根据房源所在小区的情况确定出的价格,也可以是使用房源价格预测模型通过房源的房屋属性信息和房源所在楼盘的出租市场均价预测出的。
在相关技术中,对于属于同一楼盘的房源,通过使用相同的出租市场均价进行租价预测,会导致预测出的租价不准确。
发明内容
有鉴于此,本发明提供了一种房屋租价预测模型的构建方法、装置、设备及存储介质,以解决预测租价准确性较低的问题。
第一方面,本发明提供了一种房屋租价预测模型的构建方法,所述方法包括:
获取多条房源数据,其中,多条所述房源数据中的每条所述房源数据均包括房源属性、销售周期、与所述销售周期对应的上个销售周期的实际租价、距离目标地铁站预设距离范围内的房屋月均租价,所述目标地铁站为距离房源预设距离范围内的地铁站;
获取每条所述房源数据对应的房源在所述销售周期的实际租价;
将多条所述房源数据输入到预设编码模型中,得到多条所述房源数据中每条所述房源数据对应的编码;
在当前迭代周期内,将每条所述房源数据对应的编码、与每条所述房源数据对应的实际租价输入待训练的房屋租价预测模型中,获取每一条所述房源数据对应的预测租价;
当根据多条所述房源数据对应的预测租价和实际租价确定满足停止训练条件时,将完成训练的房屋租价预测模型确定为目标租价预测模型;
或者,当根据多条所述房源数据对应的预测租价和实际租价确定不满足停止训练条件时,进入下一轮迭代周期,直至根据任一迭代周期的多条所述房源数据对应的预测租价和实际租价确定满足停止训练条件时,停止训练,并将最终完成训练时的房屋租价预测模型确定为所述目标租价预测模型。
本发明提供的一种房屋租价预测模型的构建剩余寿命预测方法,具有如下优点:
由于销售周期的长短可以体现房源定价的合理性,距离目标地铁站预设距离范围内的房屋月均租价可以体现房源周边的市场特点,房源在上个销售周期的实际租价可以体现房源本身的市场特点,房源属性表示房源自身的特点。因此,通过将房源属性、销售周期、距离目标地铁站预设距离范围内的房屋月均租价和房源在上个销售周期的实际租价进行结合作为训练数据,可以得到更准确的房屋租价预测模型,可以预测出更准确的房屋租价。
在一种可选的实施方式中,所述房源属性包括房屋属性、楼盘属性、楼栋属性和单元属性,所述房屋属性包括户型结构、房屋类型、房屋面积、所在楼层、有无阳台、房屋朝向和装修次数中的一个或多个,所述楼盘属性包括楼栋数量、房屋数量、建筑开始和结束年代、绿化率、容积率、距离楼盘预设距离范围内的地铁线数量中的一个或多个,所述楼栋属性包括建筑类型、总楼层、楼栋所在经度和纬度中的一个或多个,所述单元属性包括电梯数量、有无门禁卡、客梯货梯是否分离中的一个或多个。
具体地,房源属性可以从多个维度体现房源的价值,因此,通过将不同维度的房源属性作为房源数据的组成部分,可以考虑到房源各个维度的特点,使得训练得到的目标租价预测模型可以根据房源属性,预测较为准确的租价。
在一种可选的实施方式中,所述将多条所述房源数据输入到预设编码模型中,得到多条所述房源数据中每条所述房源数据对应的编码之前,所述方法还包括:
根据预设清洗规则,对多条所述房源数据进行数据清洗,得到清洗后的房源数据。
具体地,由于获取房源数据过程中网络等因素的干扰,或者,在上架房源时有部分房源属性没有填写,导致房源数据存在脏数据。因此,需要对获取到的房源数据进行清洗后,才能用于模型的训练过程。
在一种可选的实施方式中,所述根据预设清洗规则,对多条所述房源数据进行数据清洗,得到清洗后的房源数据,包括:
在多条所述房源数据中,确定缺失至少一种房源属性的目标房源数据;
对于每一条所述目标房源数据,根据与每一条所述目标房源数据已缺失的房源属性对应的清洗规则,对其进行删除或填补,得到所述清洗后的房源数据。
具体地,由于不同的目标房源数据中缺失的房源属性不同,不同的房源属性对租价预测结果的影响也不同。因此,根据已缺失的房源属性对应的清洗规则,进行数据清洗,可以保证清洗后的房源数据的质量和数量。进一步,通过高质量和多数量的房源数据进行模型训练,可以得到较为准确的目标租价预测模型,预测出更为准确的房屋租价。
在一种可选的实施方式中,所述对于每一条所述目标房源数据,根据与每一条所述目标房源数据已缺失的房源属性对应的清洗规则,对其进行删除或填补,得到所述清洗后的房源数据,包括:
对于每一条所述目标房源数据,确定已缺失的房源属性中每种房源属性的等级;
当存在至少一种房源属性的等级为第一级别时,对所述目标房源数据进行删除;
或者,
当所述已缺失的房源属性的等级均为第二级别时,根据每种已缺失房源属性对应的填补规则,对每种房源属性进行填补,得到所述清洗后的房源数据。
具体地,由于第一级别房源属性为对房屋租价影响较大的因素,如果不对目标房源数据进行删除,而是填充一个默认值,则会造成最终训练得到的目标租价预测模型不准确,进一步,使得预测出的房屋租价不准确。由于第二级别房源属性为对房屋租价影响较小的因素,在房源数据不多的情况下,如果对缺失房源属性的房源数据全都删除的话,可能会导致训练数据较少,使得训练得到的目标租价预测模型不准确,进一步,造成预测出的房屋租价不准确。综上所述,对缺失第一级别房源属性的目标房源数据进行删除,对缺失房源属性全部为第二级别的目标房源数据进行填充操作,可以提高房屋租价预测的准确性。
在一种可选的实施方式中,所述当根据多条所述房源数据对应的预测租价和实际租价确定满足停止训练条件时,将完成训练的房屋租价预测模型确定为目标租价预测模型,包括:
对于多条所述房源数据中的每一条房源数据,将每一条房源数据对应的预测租价和实际租价输入到目标损失函数中,得到每一条房源数据对应的目标损失值;
根据多条所述房源数据分别对应的目标损失值,确定总损失值;
当根据所述总损失值确定满足训练条件时,将完成训练的房屋租价预测模型确定为所述目标租价预测模型。
具体地,由于每一条房屋数据都对应一个真实租价和一个预测租价,预测租价越接近真实租价,表明模型越真实,因此,可以根据真实租价和预测租价,确定是否满足训练条件。这样,可以确定出较为准确的目标租价预测模型。进一步,使用目标租价预测模型进行租价预测,可以得到较为准确的租价。
在一种可选的实施方式中,所述目标损失函数采用如下表达式:
L=max(0,A*y+(1-A)*c1*y-y1)+max(0,y1-(1-A)*y+A*c2*y)
其中,L为所述目标损失值,A为销售周期指标,当所述销售周期小于所述销售周期对应的房源的销售周期中位数时,A=0,当所述销售周期大于或等于所述销售周期对应的房源的销售周期中位数时,A=1,c1为第一预设系数,y为所述实际租价,y1为所述预测租价,c2为第二预设系数。
具体地,由于销售周期可以体现定价的合理性,因此,根据销售周期构建目标损失函数,根据目标损失函数计算损失值,可以确定出较为准确的损失值,进一步,根据损失值确定是否满足训练条件,可以确定出准确的目标租价预测模型,最终确定出较为合理的预测租价。
第二方面,本发明提供了一种房屋租价预测模型的构建装置,所述装置包括:
获取模块,用于获取多条房源数据,其中,多条所述房源数据中的每条所述房源数据均包括房源属性、销售周期、与所述销售周期对应的上个销售周期的实际租价、距离目标地铁站预设距离范围内的房屋月均租价,所述目标地铁站为距离房源预设距离范围内的地铁站;获取每条所述房源数据对应的房源在所述销售周期的实际租价;
编码模块,用于将多条所述房源数据输入到预设编码模型中,得到多条所述房源数据中每条所述房源数据对应的编码;
训练模块,用于在当前迭代周期内,将每条所述房源数据对应的编码、与每条所述房源数据对应的实际租价输入待训练的房屋租价预测模型中,获取每一条所述房源数据对应的预测租价;当根据多条所述房源数据对应的预测租价和实际租价确定满足停止训练条件时,将完成训练的房屋租价预测模型确定为目标租价预测模型;或者,当根据多条所述房源数据对应的预测租价和实际租价确定不满足停止训练条件时,进入下一轮迭代周期,直至根据任一迭代周期的多条所述房源数据对应的预测租价和实际租价确定满足停止训练条件时,停止训练,并将最终完成训练时的房屋租价预测模型确定为所述目标租价预测模型。
第三方面,本发明提供了一种计算机设备,包括:存储器和处理器,存储器和处理器之间互相通信连接,存储器中存储有计算机指令,处理器通过执行计算机指令,从而执行上述第一方面或其对应的任一实施方式的房屋租价预测模型的构建方法。
第四方面,本发明提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机指令,计算机指令用于使计算机执行上述第一方面或其对应的任一实施方式的房屋租价预测模型的构建方法。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例的房屋租价预测模型的构建方法的流程示意图;
图2是根据本发明实施例的另一房屋租价预测模型的构建方法的流程示意图;
图3是根据本发明实施例的房屋租价预测模型的构建装置的结构框图;
图4是本发明实施例的计算机设备的硬件结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在租房平台中,通常会展示出各个房源的房源属性以及租价。用户可以根据自身需求,选择适合自己的房源进行租用。租房平台给出的各个房源的租价可以是通过房屋租价预测模型确定出的。
本发明实施例提供了一种房屋预测模型的构建方法,通过在训练数据加入销售周期、与销售周期对应的上个销售周期的实际租价、距离目标地铁站预设距离范围内的房屋月均租价,对房屋预测模型进行训练,以提高房屋租价预测的准确性。
根据本发明实施例,提供了一种房屋租价预测模型的构建方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
在本实施例中提供了一种房屋租价预测模型的构建方法,可用于计算机设备,例如终端和服务器等,终端可以是台式电脑,也可以是笔记本电脑等。图1是根据本发明实施例的房屋租价预测模型的构建方法的流程图,如图1所示,该流程包括如下步骤:
步骤S101,获取多条房源数据。
其中,多条房源数据中的每一条房源数据均包括房源属性、销售周期、与销售周期对应的上个销售周期的实际租价、距离目标地铁站预设距离范围内的房屋月均租价。目标地铁站为距离房源预设距离范围内的地铁站。
在实施中,计算机设备可以从租房平台的数据库中获取到第一预设数量的房源数据。在获取到这些房源数据后,计算机设备可以对其进行分组,得到训练组房源数据和测试组房源数据。其中,训练组房源数据用于后续步骤中的房屋租价预测模型的训练过程,测试组房源数据用于测试目标租价预测模型是否准确。例如,计算机设备可以将获取到的房源数据中70%的房源数据分到训练组房源数据,将30%的房源数据分到测试组房源数据。或者,计算机设备也可以不对获取到的房源数据进行分组,即使用全部获取到的房源数据对房屋租价预测模型进行训练。
步骤S102,获取每一条房源数据对应的房源在销售周期的实际租价。
其中,每一条房源数据可以是训练组房源数据中的每一条房源数据,也可以是获取到的第一预设数量的房源数据中的每一条房源数据。
在实施中,每一条房源数据对应一个房源,该房源可以通过房源标识指示。由于一个房源可能被销售多次,因此,每一条房源数据还可以对应销售时间(即被出租出去的日期)。计算机设备可以根据房源标识和销售时间,从租房平台的数据库中获取到每一条房源数据对应的房源在销售周期的实际租价。
步骤S103,将多条房源数据输入到预设编码模型中,得到多条房源数据中每一条房源数据对应的编码。
其中,预设编码模型可以包括第一级编码模型和第二级编码模型。第一级编码模型中可以为包含房源属性中非数值型属性与数值编码的对应关系的模型。第一级编码模型也可以是为机器训练模型,例如,神经网络模型等。第二级编码模型可以为包含数值编码和二值编码的对应关系的模型,例如,嵌入层(Embedding)模型。
在实施中,计算机设备可以将多条房源数据分别输入到第一级编码模型中,得到每一条房源数据对应的一级编码,再将每一条房源数据对应的一级编码分别输入到第二级编码模型中,得到每条房源数据对应的编码。计算机设备也可以同时将多条房源数据输入到第一级编码模型中,得到每一条房源数据对应的一级编码,再同时将每一条房源数据对应的一级编码输入到第二级编码模型中,得到每一条房源数据对应的编码。
步骤S104,在当前迭代周期内,将每一条房源数据对应的编码、与每一条房源数据对应的实际租价输入待训练的房屋租价预测模型中,获取每一条房源数据对应的预测租价。
其中,待训练的房屋租价预测模型可以为深度学习模型,深度学习模型主要包括由全连接层(Linear)组成的四层网络和数据的标准化处理(BatchNorm1d)算法。每一层网络使用的激活函数为线性整流(ReLU,Rectified Linear Unit)激活函数。激活函数采用的表达式可以为g(z)=max(0,z),其中,z为上层网络的输出,g(z)为当前层网络的输出。
在实施中,技术人员可以进行编写代码的操作,构建待训练的房屋租价预测模型,部分构建代码可以如下:
在构建好待训练的房屋租价预测模型之后,计算机设备可以将每一条房源数据对应的编码、与每一条房源数据对应的实际租价输入待训练的房屋租价预测模型中,得到每一条房源数据对应的预测租价。
步骤S105,当根据多条房源数据对应的预测租价和实际租价确定满足停止训练条件时,将完成训练的房屋租价预测模型确定为目标租价预测模型。
在实施中,对于每一条房源数据,计算机设备可以根据每一条房源数据对应的预测租价和实际租价,确定损失值。进一步,计算机设备可以确定损失值是否小于预设阈值,当确定损失值小于预设阈值时,确定满足停止训练条件,此时,可以停止训练,并将完成训练的房屋租价预测模型确定为目标租价预测模型。
步骤S106,当根据多条房源数据对应的预测租价和实际租价确定不满足停止训练条件时,进入下一轮迭代周期,直至根据任一迭代周期的多条房源数据对应的预测租价和实际租价确定满足停止训练条件时,停止训练,并将最终完成训练时的房屋租价预测模型确定为目标租价预测模型。
在实施中,当确定损失值大于或等于预设阈值时,确定不满足停止训练条件,此时,可以进入下一轮迭代周期,对待训练的房屋租价预测模型继续进行训练,直到根据每一条房源数据对应的预测租价和实际租价确定满足停止训练条件时,停止训练,并将完成训练的房屋租价预测模型确定为目标租价预测模型。
在得到目标租价预测模型之后,计算机设备可以对测试组房源数据中的每一条房源数据进行步骤S102到步骤S103的操作,得到每一条房源数据对应的编码。进一步,计算机设备可以将每一条房源数据对应的编码输入到目标租价预测模型中,得到每一条房源数据对应的预测租价。然后,计算机设备可以确定每一条房源数据对应的实际租价和预测租价的差值绝对值。当差值绝对值小于预设阈值的房源数据的数量大于或等于第二预设数量时,确定目标租价预测模型是准确的,可以进行房屋租价预测。当差值绝对值小于预设阈值的房源数据的数量小于第二预设数量时,确定目标租价预测模型存在误差的,可以对目标租价预测模型进行训练,也即将目标租价预测模型确定为待训练的房屋租价预测模型,再次进行上述步骤S103到步骤S106的处理。
本实施例提供的房屋租价预测模型的构建方法,由于销售周期的长短可以体现房源定价的合理性,距离目标地铁站预设距离范围内的房屋月均租价可以体现房源周边的市场特点,房源在上个销售周期的实际租价可以体现房源本身的市场特点,房源属性表示房源自身的特点。因此,通过将房源属性、销售周期、距离目标地铁站预设距离范围内的房屋月均租价和房源在上个销售周期的实际租价进行结合作为训练数据,可以得到更准确的房屋租价预测模型,可以预测出更准确的房屋租价。
在本实施例中提供了一种房屋租价预测模型的构建方法,可用于计算机设备,例如终端和服务器等,终端可以是台式电脑,也可以是笔记本电脑等。图2是根据本发明实施例的房屋租价预测模型的构建方法的流程图,如图2所示,该流程包括如下步骤:
步骤S201,获取多条房源数据。
其中,多条房源数据中的每一条房源数据均包括房源属性、销售周期、与销售周期对应的上个销售周期的实际租价、距离目标地铁站预设距离范围内的房屋月均租价,目标地铁站为距离房源预设距离范围内的地铁站。
房源属性可以包括房屋属性、楼盘属性、楼栋属性和单元属性,房屋属性包括户型结构(例如,卧室数量、卫生间数量、餐厅数量、客厅数量等)、房屋类型(例如,大平层、别墅等)、房屋面积、所在楼层、有无阳台、房屋朝向和装修次数中的一个或多个,楼盘属性包括楼栋数量、房屋数量、建筑开始和结束年代、绿化率、容积率、距离楼盘预设距离范围内的地铁线数量中的一个或多个,楼栋属性包括建筑类型(例如,塔楼、板楼等)、总楼层、楼栋所在经度和纬度中的一个或多个,单元属性包括电梯数量、有无门禁卡、客梯货梯是否分离中的一个或多个。
步骤S202,获取每一条房源数据对应的房源在销售周期的实际租价。
步骤S201到步骤S202的具体处理与步骤S101到步骤S102的具体处理类似,此处不再赘述。
步骤S203,根据预设清洗规则,对多条房源数据进行数据清洗,得到清洗后的房源数据。
在实施中,计算机设备可以通过以下多种方式对房源数据进行数据清洗:
对于方式一,上述步骤S203包括:
步骤S2031,在多条房源数据中,确定缺失至少一种房源属性的目标房源数据。
具体地,计算机设备可以以房源属性名单为基准,对每一条房源数据中包括的房源属性进行比较,确定每一条房源数据是否缺少房源属性名单中记录的属性。例如,房源属性名单中包括房屋类型、房屋面积、房屋朝向、总楼层、电梯数量和绿化率,某一房源数据中包括房屋类型、房屋面积、总楼层、电梯数量和绿化率,通过对比可知该房源数据缺失的房源属性为房屋朝向。这样,可以确定出缺失至少一种房源属性的目标房源数据。
或者,计算机设备也可以确定出房源属性为空值或特殊符号的目标房源数据。例如,多条房源数据可以如表1所示。
表1
其中,房源001、房源002、房源003和房源004均缺失房源属性。
由于不同租房平台数据格式不同,或者,在步骤S201中获取房源数据的方式不同,因此,这里提供了两种方式确定目标房源数据的方式,可以根据实际情况择一使用,比较方便。
步骤S2032,对于每一条目标房源数据,根据与每一条目标房源数据已缺失的房源属性对应的清洗规则,对其进行删除或填补,得到清洗后的房源数据。
在一些可选的实施方式中,上述步骤S2032包括:
步骤a1,对于每一条目标房源数据,确定已缺失的房源属性中每种房源属性的等级。
在实施中,计算机设备中可以存储有房源属性和等级的对应关系,进一步,可以根据该对应关系,确定每一条目标房源数据中已缺失的房源属性中每个房源属性的等级。或者,计算机设备可以确定每一条目标房源数据中已缺失的房源属性中每个房源属性是数值型还是非数值型,进一步,将数值型的房源属性确定为第一级别,将非数值型的房源属性确定为第二级别。
步骤a2,当存在至少一种房源属性的等级为第一级别时,对目标房源数据进行删除。
在实施中,对于每一条目标房源数据,计算机设备可以确定已缺失的房源属性中第一级别房源属性的数量,进一步,确定该数量是否为零。当该数量不为零时,对目标房源数据进行删除。
由于第一级别房源属性为对房屋租价影响较大的因素,如果不对目标房源数据进行删除,而是填充一个默认值,则会造成最终训练得到的目标租价预测模型不准确,进一步,使得预测出的房屋租价不准确。因此,本方案中对缺失第一级别房源属性的目标房源数据进行删除,对缺失房源属性全部为第二级别的目标房源数据进行填充操作,可以提高房屋租价的准确性。
步骤a3,当已缺失的房源属性的等级均为第二级别时,根据每种已缺失房源属性对应的填补规则,对每种房源属性进行填补,得到清洗后的房源数据。
在实施中,当该数量为零时,即该目标房源数据中已缺失的房源属性全都为第二级别时,可以根据每个已缺失房源属性,获取该已缺失房源属性对应的填补规则。进一步,根据获取到的填补规则,对目标房源数据进行填补。例如,目标房源数据中已缺失的房源属性为房屋朝向,房屋朝向对应的填补规则为“默认填充东向”,此时,即可将目标房源数据中的房屋朝向填充为“东”。
由于第二级别房源属性为对房屋租价影响较小的因素,在房源数据不多的情况下,如果对缺失房源属性的房源数据全都删除的话,可能会导致训练数据较少,使得训练得到的目标租价预测模型不准确,进一步,造成预测出的房屋租价不准确。因此,本方案在缺失房源属性全部为第二级别时,进行填充操作。这样,可以提高房屋租价的准确性。
对于方式二,上述步骤S203包括:
确定多条房源数据中目标房源数据的第一数量,并确定第一数量是否小于第三预设数量。其中,目标房源数据为缺失房源属性的房源数据。当第一数量小于第三预设数量时,将所有的目标房源数据进行删除。或者,当第一数量大于或等于第三预设数量时,对于每一条目标房源数据,根据至少一种已缺失的房源属性对应的清洗规则,对每一条目标房源数据进行删除或填补,得到清洗后的房源数据(具体处理可以和步骤a1到步骤a3类似,此处不再赘述)。
对于方式三,上述步骤S203包括:
确定多条房源数据的每一条房源数据中已缺失的房源属性的数量,确定该房源数据中已缺失的房源属性的数量是否大于第四预设数量,当该房源数据中已缺失的房源属性的数量大于或等于第四预设数量时,将该房源数据进行删除,得到清洗后的房源数据。
如果某一条房源数据中已缺失的房源属性较多,那么说明该房源数据对训练的意义不大。因此,对缺失房源属性较多的房源数据进行删除,可以提高模型训练的有效性。
步骤S204,将多条房源数据输入到预设编码模型中,得到多条房源数据中每一条房源数据对应的编码。
其中,预设编码模型可以包括第一级编码模型和第二级编码模型。第一级编码模型中可以为包含房源属性中非数值型属性与数值编码的对应关系的模型。例如,对于上述房屋属性中的房屋朝向,对应关系可以是(东-1,南-2,西-3,北-4,东南-5……)。第一级编码模型也可以是为机器训练模型,例如,神经网络模型等。第二级编码模型可以为包含数值编码和二值编码的对应关系的模型,例如,嵌入层(Embedding)模型。
第一级编码模型也可以是为机器训练模型,例如,神经网络模型等。第二级编码模型可以为包含数值编码和二值编码的对应关系的模型,例如,嵌入层(Embedding)模型。
在实施中,计算机设备可以将多条房源数据(如表2所示)分别输入到第一级编码模型中,得到每一条房源数据对应的一级编码(如表3所示),再将每一条房源数据对应的一级编码分别输入到第二级编码模型中,得到每条房源数据对应的编码。计算机设备也可以同时将多条房源数据输入到第一级编码模型中,得到每一条房源数据对应的一级编码,再同时将每一条房源数据对应的一级编码输入到第二级编码模型中,得到每一条房源数据对应的编码。
表2
表3
步骤S205,在当前迭代周期内,将每一条房源数据对应的编码、与每一条房源数据对应的实际租价输入待训练的房屋租价预测模型中,获取每一条房源数据对应的预测租价。
步骤S205具体处理与步骤S104的具体处理类似,此处不再赘述。
步骤S206,当根据多条房源数据对应的预测租价和实际租价确定满足停止训练条件时,将完成训练的房屋租价预测模型确定为目标租价预测模型。
具体地,上述步骤S206包括:
步骤S2061,对于多条房源数据中的每一条房源数据,将每一条房源数据对应的预测租价和实际租价输入到目标损失函数中,得到每一条房源数据对应的目标损失值。
在实施中,目标损失函数可以采用如下表达式:
L=max(0,A*y+(1-A)*c1*y-y1)+max(0,y1-(1-A)*y+A*c2*y)
其中,L为目标损失值,A为销售周期指标,当销售周期小于销售周期对应的房源的销售周期中位数时,A=0,当销售周期大于或等于销售周期对应的房源的销售周期中位数时,A=1,c1为第一预设系数(例如,c1=0.95),y为实际租价,y1为预测租价,c2为第二预设系数(例如,c2=1.05)。
对于每个房源,可以从该房源对应的多条房源数据中的销售周期,确定出销售周期中位数。这样,对于每一条房源数据,可以根据该房源数据中的销售周期以及与该房源数据对应的房源的销售周期中位数。
第一预设系数和第二预设系数的准确性涉及到最终训练完成的目标租价预测模型的准确性。因此,在进行模型训练之前,可以先确定第一预设系数和第二预设系数的具体取值,具体处理方式为:
在当前迭代周期内,将每一条房源数据对应的编码、与每一条房源数据对应的实际租价输入待训练的房屋租价预测模型中,获取每一条房源数据对应的预测租价。对于多条房源数据中的每一条房源数据,将每一条房源数据对应的预测租价和实际租价输入到目标损失函数中,得到每一条房源数据对应的目标损失值。根据每一条房源数据对应的目标损失值,对第一预设系数和第二预设系数进行更新。当连续多个周期(可以是技术人员预设的周期个数)确定出的目标损失值趋于稳定时,根据最后一个迭代过程更新的第一预设系数和第二预设系数,构建目标损失函数。
步骤S2062,根据多条房源数据分别对应的目标损失值,确定总损失值。
在实施中,计算机设备可以对多条房源数据分别对应的目标损失值进行求和或求均值,得到总损失值。
步骤S2063,当根据总损失值确定满足训练条件时,将完成训练的房屋租价预测模型确定为目标租价预测模型。
在实施中,计算机设备可以对每次训练得到的总损失值和预设阈值进行比较,当总损失值小于预设阈值时,停止训练。或者,计算机设备可以对每次训练得到的总损失值和预设阈值进行比较,当确定连续m次训练得到的总损失值都小于预设阈值时,停止训练。m为技术人员根据经验预设的,为大于零的整数。又或者,计算机设备可以确定每次训练得到的总损失值和预设阈值的差值绝对值,当确定连续n次训练得到的差值绝对值在预设范围内时,停止训练。n为技术人员根据经验预设的,为大于零的整数。
最后,将完成训练的房屋租价预测模型确定为目标租价预测模型。
在一些可能的实现方式中,在每次迭代训练过程中,计算机设备可以确定目标损失值小于预设阈值的房源数据的数量,当该数量大于或等于第五预设数量时,确定满足停止训练条件。
步骤S207,当根据多条房源数据对应的预测租价和实际租价确定不满足停止训练条件时,进入下一轮迭代周期,直至根据任一迭代周期的多条房源数据对应的预测租价和实际租价确定满足停止训练条件时,停止训练,并将最终完成训练时的房屋租价预测模型确定为目标租价预测模型。
本步骤的具体处理可以和步骤S106类似,此处不再赘述。
本实施例提供的房屋租价预测模型的构建方法,由于获取房源数据过程中网络等因素的干扰,或者,在上架房源时有部分房源属性没有填写,导致房源数据存在脏数据。因此,需要对获取到的房源数据进行清洗后,才能用于模型的训练过程。
在本实施例中还提供了一种房屋租价预测模型的构建装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
本实施例提供一种房屋租价预测模型的构建装置,如图3所示,该装置包括:
获取模块301,用于获取多条房源数据,其中,多条房源数据中的每条房源数据均包括房源属性、销售周期、与销售周期对应的上个销售周期的实际租价、距离目标地铁站预设距离范围内的房屋月均租价,目标地铁站为距离房源预设距离范围内的地铁站;获取每条房源数据对应的房源在销售周期的实际租价;
编码模块302,用于将多条房源数据输入到预设编码模型中,得到多条房源数据中每条房源数据对应的编码;
训练模块303,用于在当前迭代周期内,将每条房源数据对应的编码、与每条房源数据对应的实际租价输入待训练的房屋租价预测模型中,获取每一条房源数据对应的预测租价;当根据多条房源数据对应的预测租价和实际租价确定满足停止训练条件时,将完成训练的房屋租价预测模型确定为目标租价预测模型;或者,当根据多条房源数据对应的预测租价和实际租价确定不满足停止训练条件时,进入下一轮迭代周期,直至根据任一迭代周期的多条房源数据对应的预测租价和实际租价确定满足停止训练条件时,停止训练,并将最终完成训练时的房屋租价预测模型确定为目标租价预测模型。
在一种可选的实施方式中,房源属性包括房屋属性、楼盘属性、楼栋属性和单元属性,房屋属性包括户型结构、房屋类型、房屋面积、所在楼层、有无阳台、房屋朝向和装修次数中的一个或多个,楼盘属性包括楼栋数量、房屋数量、建筑开始和结束年代、绿化率、容积率、距离楼盘预设距离范围内的地铁线数量中的一个或多个,楼栋属性包括建筑类型、总楼层、楼栋所在经度和纬度中的一个或多个,单元属性包括电梯数量、有无门禁卡、客梯货梯是否分离中的一个或多个。
在一种可选的实施方式中,该装置还包括:
清洗模块304,根据预设清洗规则,对多条房源数据进行数据清洗,得到清洗后的房源数据。
在一种可选的实施方式中,清洗模块304,用于:
在多条房源数据中,确定缺失至少一种房源属性的目标房源数据;
对于每一条目标房源数据,根据与每一条目标房源数据已缺失的房源属性对应的清洗规则,对其进行删除或填补,得到清洗后的房源数据。
在一种可选的实施方式中,清洗模块304,用于:
对于每一条目标房源数据,确定已缺失的房源属性中每种房源属性的等级;
当存在至少一种房源属性的等级为第一级别时,对目标房源数据进行删除;
或者,
当已缺失的房源属性的等级均为第二级别时,根据每种已缺失房源属性对应的填补规则,对每种房源属性进行填补,得到清洗后的房源数据。
在一种可选的实施方式中,训练模块303,用于:
对于多条房源数据中的每一条房源数据,将每一条房源数据对应的预测租价和实际租价输入到目标损失函数中,得到每一条房源数据对应的目标损失值;
根据多条房源数据分别对应的目标损失值,确定总损失值;
当根据总损失值确定满足训练条件时,将完成训练的房屋租价预测模型确定为目标租价预测模型。
在一种可选的实施方式中,目标损失函数采用如下表达式:
L=max(0,A*y+(1-A)*c1*y-y1)+max(0,y1-(1-A)*y+A*c2*y)
其中,L为目标损失值,A为销售周期指标,当销售周期小于销售周期对应的房源的销售周期中位数时,A=0,当销售周期大于或等于销售周期对应的房源的销售周期中位数时,A=1,c1为第一预设系数,y为实际租价,y1为预测租价,c2为第二预设系数。
上述各个模块和单元的更进一步的功能描述与上述对应实施例相同,在此不再赘述。
本实施例中的房屋租价预测模型的构建装置是以功能单元的形式来呈现,这里的单元是指ASIC(Application Specific Integrated Circuit,专用集成电路)电路,执行一个或多个软件或固定程序的处理器和存储器,和/或其他可以提供上述功能的器件。
本发明实施例还提供一种计算机设备,具有上述图3所示的房屋租价预测模型的构建装置。
请参阅图4,图4是本发明可选实施例提供的一种计算机设备的结构示意图,如图4所示,该计算机设备包括:一个或多个处理器10、存储器20,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相通信连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在计算机设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在一些可选的实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个计算机设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图4中以一个处理器10为例。
处理器10可以是中央处理器,网络处理器或其组合。其中,处理器10还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路,可编程逻辑器件或其组合。上述可编程逻辑器件可以是复杂可编程逻辑器件,现场可编程逻辑门阵列,通用阵列逻辑或其任意组合。
其中,所述存储器20存储有可由至少一个处理器10执行的指令,以使所述至少一个处理器10执行实现上述实施例示出的方法。
存储器20可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据计算机设备的使用所创建的数据等。此外,存储器20可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些可选的实施方式中,存储器20可选包括相对于处理器10远程设置的存储器,这些远程存储器可以通过网络连接至该计算机设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
存储器20可以包括易失性存储器,例如,随机存取存储器;存储器也可以包括非易失性存储器,例如,快闪存储器,硬盘或固态硬盘;存储器20还可以包括上述种类的存储器的组合。
该计算机设备还包括输入装置30和输出装置40。处理器10、存储器20、输入装置30和输出装置40可以通过总线或者其他方式连接,图4中以通过总线连接为例。
输入装置30可接收输入的数字或字符信息,以及产生与该计算机设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、一个或者多个鼠标按钮、等。输出装置40可以包括显示设备等。上述显示设备包括但不限于液晶显示器,发光二极管,显示器和等离子体显示器。在一些可选的实施方式中,显示设备可以是触摸屏。
本发明实施例还提供了一种计算机可读存储介质,上述根据本发明实施例的方法可在硬件、固件中实现,或者被实现为可记录在存储介质,或者被实现通过网络下载的原始存储在远程存储介质或非暂时机器可读存储介质中并将被存储在本地存储介质中的计算机代码,从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件的存储介质上的这样的软件处理。其中,存储介质可为磁碟、光盘、只读存储记忆体、随机存储记忆体、快闪存储器、硬盘或固态硬盘等;进一步地,存储介质还可以包括上述种类的存储器的组合。可以理解,计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件,当软件或计算机代码被计算机、处理器或硬件访问且执行时,实现上述实施例示出的方法。
虽然结合附图描述了本发明的实施例,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。
- 基于规则引擎的验证方法、验证设备、存储介质及装置
- 风控系统的验证方法、装置、设备及存储介质
- 交易系统的交易验证方法、装置和存储介质
- 智能终端、票务验证系统、方法及计算机可读存储介质
- 基于RPKI的证书链局部验证方法、系统及存储介质
- 一种基于虹膜与私钥证书链连接存储结构的身份验证方法