掌桥专利:专业的专利平台
掌桥专利
首页

一种基于多模态信息融合的仓租价格预测方法

文献发布时间:2023-06-19 09:35:27


一种基于多模态信息融合的仓租价格预测方法

技术领域

本发明涉及数据预测技术领域,尤其是一种基于多模态信息融合的仓租价格预测方法。

背景技术

仓储需求增加。随着国家经济高速发展,企业对仓储的需求也越来越高。如果能够快速而准确的评估出仓租的价格,有利于在交易中进行更好的交易判断,消除信息不对称对市场造成的影响,同时也有利于帮助企业降低仓储成本,选择一个成本最低、收益最大的仓储方案,开展经营。

结构化信息中易存在虚假信息。目前,关于价格预测的方法有很多,传统方法多是仅根据结构化信息进行预测,但是在仓租价格预测的问题上,传统方法并不适用,因为仓租价格不像一般房屋价格似的比较透明,有些出租方可能会发布虚假信息以获得更高利益,比如虚报消防等级、停车的便利性等等,因此这些虚假信息会大大影响仅根据结构化信息构建的价格预测模型的准确度。

仓库租赁中介网站的信息多模态化。随着计算机技术的不断发展,仓库租赁中介网站的信息也在不断增多,不仅包含了仓库面积、价格、层高等传统结构化信息,还包括了仓库地理位置、仓库实景图像等多模态信息,如果能合理的处理这些多模态信息,就能得到更丰富的特征,从而构建更加精准的预测模型。

组合学习算法应用火热。组合学习就是组合多个弱监督模型以期得到一个更好更全面的强监督模型,本文主要应用的是一种基于决策树(GBDT)的组合学习算法——XGBoost(eXtreme Gradient Boosting)算法,该算法是由陈天奇博士在2016年提出的,XGBoost的根本思想是训练多个弱决策树并使之串联形成一个较强决策树,每个决策树的分类效果可能不是特别好,但是多个决策树串联肯定会得到更准确的结果。因此基于它效果好、对于输入要求不敏感等优点,往往是从统计学家到数据科学家必备的工具之一,它同时也是kaggle比赛优胜选手最常用的工具之一。

发明内容

本发明技术解决问题:克服现有技术的不足,提供一种基于多模态信息融合的仓租价格预测方法,相较于传统价格预测方法,本方法精准度更高、拟合效果更好,具有精确度高、泛化能力强的优点。

本发明解决其技术问题所采用的技术方案是:一种基于多模态信息融合的仓租价格预测方法,包括以下步骤:

步骤1:利用网络爬虫程序从仓库租赁中介网站中获取多模态信息,所述多模态信息包括:仓库结构化信息、仓库地理位置信息和仓库实景图像;

步骤2:数据预处理:对仓库结构化信息进行去重、缺失值处理、异常数据剔除、独热编码处理,结构化信息中的仓库租金单价采用离散区间表示,提取出结构化特征;

步骤3:根据仓库地理位置信息,获取仓库经纬度,并对经纬度数据进行K-means聚类分析,以提取出地理位置特征;

步骤4:对于仓库实景图像,利用二阶段CNN(Two-stage CNN)模型对仓库实景图像进行分类,以提取出实景图像特征;

步骤5:将步骤2的结构化特征、步骤3的地理位置特征和步骤4实景图像特征进行特征数据整合,构建包括仓库结构化信息、仓库地理位置信息、仓库实景图像的多模态信息的特征数据集,并利用XGBoost模型进行训练拟合,获得仓租价格的预测结果。

步骤1具体过程如下:

步骤1.1:仓库结构化信息包括:仓库编号、仓库名称、仓库租金单价、仓库面积、是否可环评、是否可注册、是否有产证、有无排污证、消防等级、最大用电量、最小分割面积、最短租期、房源结构、共几层、所在层、所在层高、物业费、是否有停车位、有无办公区和有无卸货平台;

步骤1.2:仓库地理位置信息以经度、纬度的形式保存;

步骤1.3:仓库实景图像按照仓库编号储存在对应文件夹内,方便后续模型的使用。

步骤2具体过程如下:

仓库结构化信息中重复的数据进行删除;特征缺失在30%以下的数据采用众数填充,如果特征缺失在50%以上,则删除特征;剔除价格为0、面积为0的数据;对于字符型变量,包括是否可环评、是否可注册、是否有产证、有无排污证、房源结构、是否有停车位、有无办公区和有无卸货平台,采用独热编码处理,转变为数值型变量;为了提高模型预测的精准度,仓库租金单价采用离散区间表示,分成n个仓租价格等级,在具体实施方案中可合理设置仓租价格等级n的数值。

步骤3具体过程如下:

仓库地理位置信息以经度、纬度的形式保存后,将数据代入K-means聚类算法中,从而提取出地理位置特征,实现流程如下:

步骤3.1:设输入的数据样本为S={s

步骤3.2:随机选择k个聚类中心{a

其中,s

步骤3.3:依次比较每个样本到聚类中心的距离,并选择最小值作为该样本的所属类别;

步骤3.4:在每个类簇中,计算数据对象的均值从而得到新的聚类中心,即:

其中m为样本属性;

步骤3.5:重复上述步骤3.3与步骤3.4,直到结果趋于收敛。

终止条件:迭代次数,簇中心变化率,最小平方误差MSE。

步骤4具体过程如下:

对于仓库实景图像,利用渐进式卷积神经网络对其进行图像分类,以提取出实景图像特征,算法流程如下:

所述步骤4中,对于仓库实景图像,利用二阶段CNN模型对仓库实景图像进行分类,以提取出实景图像特征,算法流程如下:

为了训练卷积神经网络,需要大量高质量的标记图像。然而,在仓库实景图像的分类问题上,这可能太具有挑战性。收集如此庞大、高质量的图像数据库是很困难的。有鉴于此,我们选择利用二阶段CNN(Two-stage CNN)模型来完成图像特征提取工作。

步骤4.1:将仓库实景图像数据输入进卷积神经网络CNN中进行训练拟合,得到第一阶段模型的仓租价格等级n的预测结果。具体步骤为:首先将仓库实景图像作为网络的输入,其次卷积层通过不同的卷积核对输入图像进行卷积得到不同的特征图,以达到降噪的目的,卷积之后的结果通过激活函数作用输出构成该层的特征图,然后采样层进一步对特征图进行二次提取,最后通过全连接层将所有特征图展开得到一维向量输入进分类器进行分类,最终得出仓租价格等级n的预测结果。

步骤4.2:根据步骤4.1得到的仓租价格等级n的预测结果使用概率抽样算法过滤数据,然后将这些新选择的训练数据再次输入到CNN模型中进行拟合训练,获得二阶段CNN(Two-stage CNN)模型,最终得到更精准的图像分类结果,获得仓库实景图像特征。概率抽样算法具体步骤如下:

设n

P

当训练数据的仓租价格等级n的差值大于或等于1时,该训练数据将保留在训练集中,进入二阶段CNN模型;否则,从训练集中删除该训练数据。

该模型的核心思想是逐步过滤训练集的子集,以减少对训练集的噪音影响。

步骤5具体过程如下:

步骤5.1:将步骤2的结构化特征、步骤3的地理位置特征和步骤4实景图像特征进行归一化处理,并构建包括仓库结构化信息、仓库地理位置信息、仓库实景图像的多模态信息的特征数据集。归一化处理公式如下:

其中,x

步骤5.2:将步骤5.1中的特征数据集按照7:3的比例随机划分为训练集和测试集,选择XGBoost算法进行训练拟合,该算法是一种基于决策树的组合学习算法,主要思想是将多个弱决策树串联起来形成一个强决策树,适用于分类和回归问题,相比传统算法有着训练快、开销小、模型泛化误差小的明显优势,具体算法流程如下:

步骤5.2.1:设特征数据集D={(x

步骤5.2.2:将A个弱回归树的评分值求和作为预测值:

式中,

步骤5.2.3:损失函数选用RMSE,公式:

步骤5.2.4:引入目标函数Obj:

公式(7)中第一部分为损失函数,第二部分为正则化项;

步骤5.2.5:根据式(5),XGBoost模型训练时,回归树f是逐步增加的。假定第t步时对第i个样本的预测值是

步骤5.2.6:记:

步骤5.2.7:最终目标函数为:

式中,w表示回归树权重,j表示第j棵回归树,I

步骤5.3:基于步骤5.2,在XGBoost模型中,以均方根误差RMSE作为模型效果的评价标准,利用网络搜索对objective、colsample_bytree、learning_rate、max_depth、n_estimators、alpha、reg_lambda参数进行遍历,选出最优参数,形成预测模型;

步骤5.4:为了进一步说明本发明较传统的基于单模态信息的预测模型更优,以均方根误差RMSE作为评价标准,构建一个仅包含结构化信息的单模态仓租价格预测模型的对比试验,结果显示本发明的均方根误差更小、精确度更高。

本发明与现有技术相比的优点在于:

(1)本发明针对以往价格预测模型中数据模态单一、精准度差的缺陷,提出了一种基于多模态信息(结构化信息、仓库地理位置信息、仓库实景图像)融合并利用XGBoost模型进行建模和训练的仓租价格预测方法,相比于传统价格预测模型,能更好的处理结构化信息中信息造假问题,预测结果更精确、泛化能力更强。

(2)本发明一方面能够帮助企业尤其是中小型企业快速的了解到更全面的仓租信息、进行更优的决策、租赁到更适宜的仓库,节约仓储成本;另一方面,也能够帮助仓库出租者制定合理的租价、风险控制;此外,政府部门也能够根据仓租价格波动及时从微观方面掌控我国仓储发展情况,进而做好宏观调控。

附图说明

为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步的详细描述,其中:

图1是本发明的总体方法流程图;

图2是本发明中二阶段CNN(Two-stage CNN)模型结构图。

具体实施方式

以下将结合附图说明,对本发明实施例中的技术方案进行清楚、完整的描述,应当理解,所描述的实施例仅是示例性的,基于本发明中的实施例,本领域的普通技术人员在不付出创造性劳动的前提下所获得的所有其他实施例,都属于本发明的保护范围。

本发明在价格预测模型的基础上,试验了各种已有预测方法的特点,利用网络爬虫有针对性地搜集仓库租赁中介网站上的结构化信息、地理位置信息和仓库实景图像多模态信息,分别运用K-means聚类分析和二阶段CNN(Two-stage CNN)模型来处理地理位置信息和仓库实景图像信息,从而提取到包含结构化特征、地理位置特征、实景图像特征的多模态特征,最后运用XGBoost模型对仓租价格进行预测。采用多模态信息融合的方法构建仓租价格的预估模型,使误差更小,泛化能力更强。实践表明本发明为仓库出租者和租赁者提供科学的参考依据。

如图1所示,本发明一种基于多模态信息融合的仓租价格预测方法,包括以下步骤:

步骤1:利用网络爬虫程序从仓库租赁中介网站中获取多模态信息,所述多模态信息包括:仓库结构化信息、仓库地理位置信息和仓库实景图像;

步骤2:数据预处理:对仓库结构化信息进行去重、缺失值处理、异常数据剔除、独热编码处理,结构化信息中的仓库租金单价采用离散区间表示,提取出结构化特征;

步骤3:根据仓库地理位置信息,获取仓库经纬度,并对经纬度数据进行K-means聚类分析,以提取出地理位置特征;

步骤4:对于仓库实景图像,利用二阶段CNN(Two-stage CNN)模型对仓库实景图像进行分类,以提取出实景图像特征;

步骤5:将步骤2的结构化特征、步骤3的地理位置特征和步骤4实景图像特征进行特征数据整合,构建包括仓库结构化信息、仓库地理位置信息、仓库实景图像的多模态信息的特征数据集,并利用XGBoost模型进行训练拟合,获得仓租价格的预测结果。

步骤1具体过程如下:

步骤1.1:仓库结构化信息包括:仓库编号、仓库名称、仓库租金单价、仓库面积、是否可环评、是否可注册、是否有产证、有无排污证、消防等级、最大用电量、最小分割面积、最短租期、房源结构、共几层、所在层、所在层高、物业费、是否有停车位、有无办公区和有无卸货平台;

步骤1.2:仓库地理位置信息以经度、纬度的形式保存;

步骤1.3:仓库实景图像按照仓库编号储存在对应文件夹内,方便后续模型的使用。

步骤2具体过程如下:

仓库结构化信息中重复的数据进行删除;特征缺失在30%以下的数据采用众数填充,如果特征缺失在50%以上,则删除特征;剔除价格为0、面积为0的数据;对于字符型变量,包括是否可环评、是否可注册、是否有产证、有无排污证、房源结构、是否有停车位、有无办公区和有无卸货平台,采用独热编码处理,转变为数值型变量;为了提高模型预测的精准度,仓库租金单价采用离散区间表示,本实施例中,设n=5,分为5个仓租价格等级。

步骤3具体过程如下:

仓库地理位置信息以经度、纬度的形式保存后,将数据代入K-means聚类算法中,从而提取出地理位置特征,算法流程如下:

步骤3.1:设输入的数据样本为S={s

步骤3.2:随机选择k个聚类中心{a

其中,s

步骤3.3:依次比较每个样本到聚类中心的距离,并选择最小值作为该样本的所属类别;

步骤3.4:在每个类簇中,计算数据对象的均值从而得到新的聚类中心,即:

其中m为样本属性;

步骤3.5:重复上述步骤3.3与步骤3.4,直到结果趋于收敛。

终止条件:迭代次数,簇中心变化率,最小平方误差MSE。

步骤4具体过程如下:

对于仓库实景图像,利用二阶段CNN模型对仓库实景图像进行分类,如图2所示,以提取出实景图像特征,算法流程如下:

步骤4.1:将仓库实景图像数据输入进卷积神经网络CNN中进行训练拟合,得到第一阶段模型的仓租价格等级n的预测结果。具体步骤为:首先将仓库实景图像作为网络的输入,其次卷积层通过不同的卷积核对输入图像进行卷积得到不同的特征图,以达到降噪的目的,卷积之后的结果通过激活函数作用输出构成该层的特征图,然后采样层进一步对特征图进行二次提取,最后通过全连接层将所有特征图展开得到一维向量输入进分类器进行分类,最终得出仓租价格等级n的预测结果。

步骤4.2:根据步骤4.1得到的仓租价格等级n的预测结果使用概率抽样算法过滤数据,然后将这些新选择的训练数据再次输入到CNN模型中进行拟合训练,获得二阶段CNN(Two-stage CNN)模型,最终得到更精准的图像分类结果,获得仓库实景图像特征。概率抽样算法具体步骤如下:

设n

P

当训练数据的仓租价格等级n的差值大于或等于1时,该训练数据将保留在训练集中,进入二阶段CNN模型;否则,从训练集中删除该训练数据。

该模型的核心思想是逐步过滤训练集的子集,以减少对训练集的噪音影响。

步骤5具体过程如下:

步骤5.1:将步骤2的结构化特征、步骤3的地理位置特征和步骤4实景图像特征进行归一化处理,并构建包括仓库结构化信息、仓库地理位置信息、仓库实景图像的多模态信息的特征数据集。归一化处理公式如下:

其中,x

步骤5.2:将步骤5.1中的特征数据集按照7:3的比例随机划分为训练集和测试集,选择XGBoost算法进行训练拟合,具体算法实现流程如下:

步骤5.2.1:设特征数据集D={(x

步骤5.2.2:将A个弱回归树的评分值求和作为预测值:

式中,

步骤5.2.3:损失函数选用RMSE,公式:

步骤5.2.4:引入目标函数Obj:

公式(7)中第一部分为损失函数,第二部分为正则化项;

步骤5.2.5:根据式(5),XGBoost模型训练时,回归树f是逐步增加的。假定第t步时对第i个样本的预测值是

步骤5.2.6:记:

步骤5.2.7:最终目标函数为:

式中,w表示回归树权重,j表示第j棵回归树,I

步骤5.3:基于步骤5.2,在XGBoost模型中,以均方根误差RMSE作为模型效果的评价标准,利用网络搜索对objective、colsample_bytree、learning_rate、max_depth、n_estimators、alpha、reg_lambda参数进行遍历,选出最优参数,形成预测模型。参数含义如下:

objective:定义损失函数,默认为线性回归reg:linear;

colsample_bytree:用来控制每棵随机采样的列数的占比,设置为0.5-0.8;

learning_rate:学习率,每一步迭代的步长,设置为0.1-0.3;

max_depth:树的最大深度,设置为3-10;

n_estimators:生成的最大树的数目,默认设置为100;

alpha:权重的L1正则化项,默认为0;

reg_lambda:权重的L2正则化项,默认为1。

步骤5.4:为了进一步说明本发明较传统的基于单模态信息的预测模型更优,以均方根误差RMSE作为评价标准,构建一个仅包含结构化信息的单模态仓租价格预测模型的对比试验,结果显示本发明的均方根误差更小、精确度更高。

尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,且应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。

相关技术
  • 一种基于多模态信息融合的仓租价格预测方法
  • 一种基于机器学习及多源信息的房屋租价预测方法
技术分类

06120112224343