房地产清单中的图片真的可以帮助我们估算标价吗?
房地产清单中的图片真的可以帮助我们估算标价吗?
估计住房房地产价格是一个相当普遍的话题,有重要的文献基于一组描述房产特征的数字和分类特征来估计价格,例如位置、表面、土地大小、卧室数量、年龄建设……这些享乐方法通常足以估计价格范围,但缺乏精确度。
然而,很少有人研究其他类型的数据是否带有补充信息,从而能够进行更精确的价格估算。在我们的 以前的帖子 , 我们表明,该物业的文字描述使我们能够达到与表格数据相似的标价估算性能 .在本文中,我们将探索属性的照片,看看它们是否有助于提高通常基于特征的模型的性能。
为此,我们测试了两种方法,第一种是使用传统计算机视觉技术提取一组明确的特征,第二种是依靠卷积神经网络嵌入图像携带的信息,然后将每种方法的性能与简单的基准模型进行比较完全基于表格特征集。
有关更多详细信息,您可以查看 为本文开发的代码在这里 .
数据集
本文中使用的数据集与我们之前的文章中使用的数据集相同。数据集包括 46K 列表 我们为此收集了 27 个数字和分类特征 (位置、表面、房间数量、展览......)、文字描述和 1 到 6 张照片 .这些数据是为法国房地产网站抓取的。
收集的照片是列表网页上显示的照片。在大多数情况下,它们是显示房产不同景观的照片,主要是公寓的室内景观,以及房屋和较大房产类型的特定房间的宽阔室外景观和室内景观的混合。这些照片通常突出该物业最显着的特征(游泳池、阳台、大窗户……)。也就是说,角度、照明和主题可能会因列表而异,有些照片甚至包含水印、文本或徽标。
Screenshot of a typical French real estate listing
从这些图像中提取有价值的信息并不是一项简单的任务。为了简化一点,我们选择将我们的研究限制在价格在 20K 到 200 万欧元之间且卧室少于 10 间的公寓和房屋。这给我们留下了原始 46K 列表中的 69% (32K)。
然后将该数据集随机分成包含 80% 的列表 (26K) 的训练集和保留剩余 20% (6K) 的列表的测试集,以评估不同模型的性能。
基准
在深入研究照片之前,我们专门根据描述属性的数字和分类特征创建了一个模型。该模型的价格预测性能将成为我们的基准。我们将使用它作为参考点来评估当从列表的照片中提取的信息也被输入到模型中时性能受到的影响。
模型
该模型由预处理转换管道和最终回归估计器组成。预处理步骤处理异常值,并通过主成分分析 (PCA) 将指定房间、浴室和卧室数量的列减少为单个特征。对于最终估计器,我们使用 CatBoost 回归模型,这是一种有监督的基于树的增强模型,专门适用于具有分类变量的数据集。该模型在训练集的 17 个数字和分类变量上进行了训练,并使用 5 倍网格搜索交叉验证来优化模型的参数。
Variable distributions as observed in the train set
结果
然后在测试集上评估基准模型的性能。预测值平均相差 7.32 万欧元或 25.8%。 4.15 万欧元或 16.9% 的相对误差中值优于平均绝对误差,这表明该模型有时会为一些属性产生异常大的误差。 R 平方得分达到 0.79,表明我们的模型解释了价格变量中 79% 的可变性,这是非常令人满意的。
Benchmark model performance scores on the test set (left) and top 5 variables by feature importance (right)
与大多数基于决策树的集成学习模型(随机森林、XGBoost……)一样,CatBoost 提供了“特征重要性”的度量,用于衡量每个特征对模型预测的平均贡献。在解释这些值时,必须牢记“特征重要性”在相关特征之间按比例共享。
我们的基准模型最具辨别力的特征是有意义的财产的位置和大小。然而,在上图中,我们不应解释为尺寸不如位置重要。事实上,由于它们的相关性,房间大小、房间数量和土地大小变量的特征重要性被略微低估了。
用简单的图像特征提取技术
对于每个列表,我们有 1 到 6 张照片,其中大多数(70%)有 6 张照片。由于超过 99% 的照片是 JPEG 彩色图像,因此它们可以很容易地表示为 RGB 格式 其中每个像素的颜色由对应于红色、绿色和蓝色数量的三元组值表示。照片也可以在 HSV 色彩空间 ,RGB 模型的另一种格式,其中每个像素颜色的三元组值描述其色调(“色调”)、饱和度和亮度(“亮度”或“值”)。
因此,这个想法是从这些表示中提取一组简单的特征,将它们附加到以前使用的数字和分类特征中,看看它们是否使模型能够更好地预测标价。
提取的特征
对于每张照片,我们选择提取与形状相关的特征,例如方向(人像、正方形或风景)和纵横比(4/3、16:9…)和颜色相关特征(主色、RGB 偏度、饱和度、亮度) ……)。然后根据特征的性质,通过平均值、频率或其他统计措施将这些图像级别的特征聚合到列表级别。
Extracted image feature distributions aggregated at listing level as observed on the train set
虽然这些特征没有明确描述照片的主题,但它们确实携带了一些信息。例如,我们注意到公寓的照片往往不如黄色少而红色的房屋照片明亮和饱和。与公寓相比,房屋的纵向照片也更多。但是,这足以提高我们模型的性能吗?
模型
我们使用与基准模型相同的 Catboost 回归器以及相同的训练和测试观察结果,但将从图像中提取的 18 个特征添加到原始数据集中。与基准模型一样,该模型的参数通过 5 倍随机网格搜索交叉验证程序进行了优化。
结果
这种新模型的预测现在与绝对平均值相差 7.58 万欧元或 26.3% 的相对值。相对而言,中位数绝对误差为 43.4K 或 17.6%,仍然好于平均值。 R 平方也保持不变,为 0.78。因此,从图像中提取的特征并没有提高模型的性能,甚至可能降低了模型的性能。也就是说,性能差异很小,这可能只是由于模型的固有可变性。
查看特征重要性图,我们看到最具影响力的特征与基准测试中的特征相同。从照片中提取的特征在模型的决策过程中似乎没有任何重要性。
Image model performance scores on the test set (left) and top 5 variables by feature importance (right)
通过深度学习
使用 CNN 嵌入图像
我们的第一个深度学习方法与之前的方法一样,但我们使用微调的 CNN 从照片中提取特征。与 26K 训练列表相关的 138K 照片用于优化由 ResNet34 和几个回归层组成的 CNN 的参数。 CNN 的权重根据从每张图像中预测相应商品价格的任务进行了微调。
在微调步骤之后,我们意识到预测可能会因一张图像而异。为了缓解这种情况,我们决定仅保留来自同一列表照片的三个中值预测的平均值。我们将这个平均预测作为新变量附加到基准数据集。然后使用该数据按照与之前相同的程序训练 Catboost 模型。
结果
已经在微调步骤中,我们注意到 CNN 很难从个人照片中做出良好的定价预测。尽管我们试图通过去除异常值、仅聚合中值预测来减轻 CNN 预测的可变性,但我们的 CNN 输出未能提高整体价格预测性能。
CNN based image model performance scores on the test set (left) and top 5 variables by feature importance (right)
7.3 万欧元的 MAE 和 25.8% 的 MAPE 与基准没有显着差异。 41.8K 的中位绝对误差和 16.8% 的中位百分比误差也并不优于基准。此外,从照片中提取的平均价格预测的特征重要性较低,这表明它对模型的预测贡献不大。
端到端神经网络
我们尝试了第二种深度学习方法,它包含一个双分支神经网络,其中一个分支执行照片的嵌入,另一个执行数字和分类变量的嵌入,一个公共部分执行两个连接的回归嵌入。
Schematic representation of the end to end deep learning model
为了使整个网络收敛,首先分别对图像嵌入和表格分支的架构和参数进行优化。对于图像分支,我们重用了之前优化的 ResNet34 CNN 参数。最后优化网络的公共回归部分,冻结两个预训练分支的参数。
结果
在嵌入分支的训练过程中,我们立即注意到,网络可以从表格数据中很好地学习预测价格,但与上一节一样,在处理照片时更加困难。当我们将所有内容放在双分支网络中时,从图像中学习的嵌入似乎只会给训练过程增加噪音。实际上,双分支模型学习速度较慢,并且不优于表格分支的简单前馈网络。
结论、局限性和后续步骤
我们从不同尝试中得出的主要结论是,从与房地产清单一起发布的照片中提取有见地的信息是一项具有挑战性的任务。我们提出的实现中没有一个能够利用图像来改进仅依赖于数字和分类特征的基准模型。
此外,不同于我们的 以前使用文本数据的工作 ,我们目睹了即使在优化 CNN 以直接从照片中预测标价时也缺乏性能。这表明,不仅难以提高基准的性能,而且从照片中提取有用信息本质上也很困难。
因此,从房产照片中预测标价的任务是一项艰巨的任务,即使对于人类来说也是如此。与文本描述或表格数据集不同,图像不会明确突出列表的关键事实和价值驱动因素,最常见的是房产的大小和位置。图像似乎也比其他数据类型携带更多的噪音和多余的信息。主题和角度的多样性可能使算法难以准确地概括和预测价格。
也就是说,从某些突出房产特定价值驱动特征的照片中肯定可以提取一些价值。仅凭这些信息可能还不够,但我们可以期待它与通常的住房变量相辅相成。
下次我们应该考虑的一个改进是在选择用于训练我们模型的照片时更加具体。半监督学习在这里可以派上用场,帮助我们自动选择人类认为对预测价格有用的图像。另一个想法是使用领域专业知识来识别表格数据集中不存在的属性的某些价值驱动特征(游泳池的存在、草坪、房间的亮度……),然后构建分类器以从相片。
致谢
我要感谢并特别感谢 查内斯·乔巴 表彰她对本文内容的重大贡献 路易斯巴切利埃研究所 计算机实验室。
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明