`

Using Images as Covariates: Measuring Curb Appeal with Deep Learning

创建于 更新于

摘要

本报告提出了一种创新方法,将房屋外观图片经多种深度学习编码器处理后作为协变量,结合传统房产经济计量模型,提高二手房价格预测精度。使用多编码器集成比单一编码器表现更优,图像特征单独就具备显著的解释力,最终实现约3%的样本外预测准确率提升,为经济学中图像等非结构化数据的利用提供实证范例 [page::0][page::3][page::7][page::9][page::10]

速读内容

  • 研究背景与创新点 [page::0][page::1][page::3]

- 传统房价估计多基于可观察结构化数据,存在重要但不可观测的房屋视觉特征缺失。
- 本文首次采用多编码器组合(ResNet50、VGG16、Inception、MobileNet等)对单张房屋外观图像进行深度编码,将图像信息引入经济计量模型。
- 融合全景分割技术(panoptic segmentation)识别图中具体物体,有效提取图像层面丰富特征。
  • 数据与样本描述 [page::2][page::3]

- 使用多伦多6887处独栋住宅的销售和房屋属性数据,销售价格范围广,样本具代表性。
- 样本含卧室数、卫生间数、车库、地下室等多种传统特征,均与售价呈相关。
- 每处房产匹配撮合了房屋外观正面照片。
  • 多编码器图像特征提取与建模策略 [page::3][page::4][page::6]




- 单图像经过六种神经网络编码器提取特征向量,编码器架构各异,捕捉不同视觉信息。
- 三种价格预测模型对比:惩罚OLS回归、神经网络模型及“卷积”混合模型(神经网络预测与OLS回归结合)。
- 采用LASSO惩罚筛选变量,避免自变量过多导致的过拟合。
  • 量化模型性能与结果分析 [page::7][page::8][page::9][page::10]

| 模型类别 | 输入数据类型 | 最小MSE | 说明 |
|-------------|----------------|-------|-----------------------------|
| 惩罚OLS | MLS属性 | 0.0370 | 仅属性基线 |
| 惩罚OLS | 图像 | 0.1212 | 单独图像MSE较大 |
| 惩罚OLS | 属性 + 图像 | 0.0361 | 最优MSE,实现2.4%提升 |
| 神经网络 | MLS属性 | 0.1932 | 性能较差 |
| 神经网络 | 图像 | 0.1259 | 结合多编码器提升显著 |
| 神经网络 | 属性 + 图像 | 0.1259 | 最佳组合不同于OLS卓越表现 |
| 卷积混合模型 | 图像 | 0.0359 | “tout ensemble”编码器最佳 |
| 卷积混合模型 | 属性 + 图像 | 0.0443 | 属性在神经网阶段无增益 |
- 所有模型中,使用“tout ensemble”(多编码器全集成)效果最佳,显著提升预测准确性。
- 图像特征在无MLS数据辅助时依然对售价有明显解释力,体现出视觉数据价值。
- 结合传统属性与多编码器图像信息的模型表现最优,增益约3%。
  • 多编码器优势分析 [page::10]

- 单编码器各自识别类别截然不同,不存在强相关冗余,组合后大幅丰富信息。
- 多编码器捕获图像中更多独立视觉特征,用于预测更精确。
  • 研究贡献与局限 [page::0][page::10]

- 首次将多编码器集成方法系统应用于房价预测。
- 仅聚焦于预测,未考察因果关系,不同房产类型及市场的适用性有待拓展。
- 为经济学结合深度学习提取非结构化信息提供范式。

深度阅读

金融研究报告详尽分析报告


报告名称: Using Images as Covariates: Measuring Curb Appeal with Deep Learning
作者: Ardyn Nordstrom, Morgan Nordstrom, Matthew D. Webb
机构: Carleton University(加拿大卡尔顿大学)
发布日期: 2024年4月1日
主题范围: 应用深度学习技术,将房屋外观照片图像信息作为协变量,结合传统经济计量模型,改进房地产销售价格预测

---

元数据与概览



本报告提出了一种创新方法,将图像数据作为协变量引入传统计量经济模型,重点应用于住宅房产销售价格的预测。作者利用了深度学习的卷积神经网络(CNN)技术,融合多种预训练的深度学习模型(ResNet-50、VGG16、MobileNet、Inception V3)生成图像编码,进一步通过全景语义分割(panoptic segmentation)提取图像中的独特视觉特征,最终以神经网络预测结果作为新的协变量与传统的房产特征结合,从而提升房价的预测准确度。
报告核心论点是图像数据隐含的非结构化信息,能够补充标准房产数据难以捕捉的视觉特征,显著提升房价预测效果,尤其是融合多模型编码的“tout ensemble”方案效果最佳。[page::0,1]

---

逐节深度解读



1. 引言



报告开篇指出,经济学研究面临“不可观测变量”难题,深度学习可以挖掘图像等非结构化数据中的隐含信息,将之转化为计量模型可用的协变量。文献回顾涵盖多个学科应用(医学、卫星图像经济指标预测、司法领域外貌影响刑罚判决等),凸显深度学习的跨学科应用价值。作者强调本研究在房产价格预测中,引入多编码器处理单张住宅外观照片,发现多编码器能明显提高模型预测能力,这一点在现有经济学图片分析文献中尚属首次。[page::0,1]

2. 相关文献与贡献



本节明确本研究与前人工作的区别与贡献:
  • 方法论创新: 同时比较OLS、神经网络和多模型混合方法(convoluted model),并广泛采用多编码器组合,而非单一编码器。

- 信息捕捉新范式: 类比声音语调和文本信息捕捉不可观测因素,本研究首次将多元深度学习编码应用于经济计量,捕获图像中可影响房价的隐含特征。
  • 实证贡献: 利用多编码器+房产实际交易数据,展示多编码器相比单一编码器可实现约3%的预测准确度提升。[page::2]


3. 数据



数据基于加拿大多伦多2018年12月至2020年2月期间的独栋住宅销售数据,涵盖房屋结构化信息(卧室数量、浴室数量、房屋类型等)及对应的出售价格。数据反映较大价格差异(4万至1300万加元),且特征变量与价格呈现合理正相关。每个房产均采集了房屋正面照片,经筛选后构建了6887个样本的图像+结构化数据的联合数据集。
此数据为模型训练和测试提供了丰富且真实的基础样本。[page::2,3]

4. 方法论



模型设计分为三类:
  • OLS回归模型(带LASSO罚项):使用经过卷积神经网络编码的图像特征和传统MLS属性变量作为回归解释变量,侧重检验图像特征对价格提升的增量贡献。

- 神经网络模型:搭建了三层隐藏层(128-64-32节点)网络,以编码后的图像特征及可能的传统房产特征做为输入,直接预测价格,适应模型面对大量特征维度。
  • 混合模型(Convoluted model):将图像编码送入神经网络得到预测价格,再将该神经网络预测结果与传统结构化属性一起作为OLS回归的解释变量,实现深度学习特征与传统经济计量方法的结合平衡。


采用六个独特编码器(ResNet50、VGG16、Inception、MobileNet及组合形式)进行图像特征提取,多编码器融合用于测试信息增量效应。此外,利用COCO、ADE20K两个预训练数据集引入的panoptic segmentation技术,进一步将图像按语义和实例进行分割编码,丰富图像特征空间,约有450个编码影像特征变量。深度学习编码模型均为ImageNet预训练版本。

整体方法实现了图像到结构化数据的“黑盒”转换,并提供三种预测途径中对图像信息利用的对比验证。[page::3,4,5]

---

图表深度解读



图1:ResNet50架构及卷积层输出示意图 [page::4]


该图清晰展示了ResNet50的残差网络结构特点,包括跳跃连接(Skip connections)的设计,解决深层卷积网络梯度消失问题。图下方展示了“Home Alone”著名房屋照片经多个卷积层转换后的特征图,展示了网络如何逐层提取抽象的视觉特征。此图直观展示了编码器如何转换输入像素成为神经网络后续可用的紧凑特征编码。

图2:两个著名房屋图像的全景分割示范 [page::5]


该图展示两套房屋外观照片的全景语义分割结果,采用COCO和ADE20k数据集预训练模型对图片进行像素级类别标注,如“树木”、“道路”、“屋顶”等。颜色编码表明每个区域所属类别。
此外图上方显示编码器对图像的Top5类别预测及对应置信度(如“宫殿”“星象馆”等不一定字面对应,但揭示模型特征模式)。
此图突显图像在细粒度类别识别和实例分割方面的潜力,支持后续多维特征诠释与预测分析。

图3:模型架构设计比较图 [page::6]


该图分为3部分:
  • (a) 纯神经网络模型架构,编码器将图像转成特征,结合属性输入神经网络,输出房价预测。

- (b) 纯OLS模型,图像编码特征和属性输入OLS回归,实现线性回归。
  • (c) 混合模型,先由神经网络基于编码器输出预测价格,再将该预测变量与传统属性一起输入OLS回归,得到最终价格预测。

该示意图清晰说明不同方法在整合图像和属性数据的流程差异。

表1:房价预测的样本内拟合结果 [page::8]


表格通过四个面板呈现不同模型设定下图像编码器预测价格(pmodel)与实际销售价格的关系和R²。
  • Panel 1:仅使用图像编码特征预测价格,无传统属性输入,最高R²为0.262(tout ensemble组合编码器),显示多编码器组合比单一编码器有显著优势。

- Panel 2:图像编码器预测价格含有MLS属性输入,拟合度和系数均提升,最高R²升至0.424。
  • Panel 3:MLS属性加入OLS回归使用,图像编码器预测价格作为回归变量,价格系数下降但均显著,R²大幅提升至0.872左右。

- Panel 4:MLS属性同时进入神经网络预测与OLS回归,拟合变化较小但部分编码器系数显著为负,表明高度复杂下变量间可能存多重共线性或解释力竞争。
表明图像编码器有效捕捉到与房价相关的重要视觉信息,多编码器优势显著,同时MLS结构化属性依旧是不可或缺的重要信息源。

表2:模型预测性能(均方误差MSE) [page::9]


使用5折交叉验证,评价不同模型及特征组合的预测效果:
  • 分别对惩罚OLS、神经网络、混合模型在仅属性,图像,仅属性+图像的情形下计算最小、均值、最大MSE。

- 结果显示:
- 仅属性的惩罚OLS具有较低MSE(0.0370),单独使用图像编码特征预测表现远逊。
- 不论模型,最佳MSE往往来源于多编码器(tout ensemble)组合。
- 图片+属性混合输入在所有模型中均带来预测性能提升,惩罚OLS和混合模型表现尤为明显。
- 神经网络模型单独使用图像预测表现最差,加入属性后提升显著。
- 在混合模型中,仅在OLS阶段使用MLS属性比同时在神经网络中引入MLS属性预测性能更优,可能与模型复杂度和过拟合有关。
这一系列结果量化了图像数据带来的增量价值及模型间的差异,强调了多编码器融合及适度属性结合策略的效果。

---

估值分析



本报告的估值不涉及企业估值或证券定价,而是聚焦于房产价格预测模型的构建与优化。核心在于通过结合深度学习生成的图像特征,为原本基于属性的线性或非线性模型带来增量预测能力,实现对房价的更精确估计。关键变量均为房价对数,模型中利用LASSO进行变量筛选控制过拟合,神经网络内部则设计有固定层数和节点的三层隐藏层结构。混合模型采用神经网络预测与传统OLS回归叠加,实现高效信息融合。估值的准确性在此展示为均方误差(MSE)的降低。所有建模均采用交叉验证保证评估稳健性。[page::3,6,7,9]

---

风险因素评估



报告虽未专门设立风险章节,但间接揭示了若干潜在风险和限制:
  • 图像数据源局限:仅取房屋前侧单张照片,缺乏全面视觉信息,可能遗漏重要特征。

- 编码器选择偏差:不同编码器对图像的表征存在差异,极端情况下甚至负向关联,需谨慎选择和融合。
  • 模型复杂度与解释性权衡:多编码器混合可能带来多重共线性,导致部分系数出现符号异常,解释性减弱。

- 短期数据与区域局限:样本仅限多伦多独栋住房,时间仅19个月,可能影响结果泛化。
  • 无因果识别:本研究仅为预测提升,未涉及因果推断,图像特征的经济含义解释仍不充分。


上述风险需在实际应用和进一步研究中被关注并缓解。[page::10]

---

批判性视角与细微差别



报告整体论据逻辑严密,方法创新,数据充分,但仍有若干可深化之处:
  • 对于“多编码器组合提升预测”的解释,作者假设不同模型类别迥异,欠缺定量分析编码器间信息重叠程度及其冗余风险。

- Panel 4中部分编码器出现负系数且统计显著,报告仅简单陈述现象,未深究变量间可能的多重共线性或模型识别问题。
  • 神经网络模型表现普遍较差,与传统OLS和混合模型相比未体现其在非线性复杂特征提取上的优势,是否与训练设置、超参配置、或数据样本特征有关,尚待探讨。

- 报告未涉及图像质量、拍摄角度、光照变化等对预测的影响,或可进一步讨论。
  • 报告中提及多伦多房价长期走势及房市环境背景略显薄弱,对模型迁移性与实际应用场景未展开。


综上,本报告为图像经济计量分析提供了坚实基础,但部分假设和结果的解释仍需后续研究完善。[page::7,10]

---

结论性综合



本研究创新性地将多种预训练深度学习模型编码融入传统和现代经济计量预测框架,利用房屋正面单张照片图像信息,补充了传统房产结构化变量中难以观测的视觉细节,显著提升房价预测准确度。利用多编码器集成显著优于单一编码器,尤其在结合MLS房产属性特征时表现最佳,模型拟合度和预测误差均有提升。全景语义分割进一步丰富了图像特征维度,开辟了对精细屋外景物影响价格的定量识别路径。

实证数据基于6,887套多伦多独栋房屋,跨度2018年底至2020年初,兼顾丰富结构属性和高质量图像。基于5折交叉验证的均方误差比较清晰体现:多编码器配置与传统属性联用的惩罚OLS和混合模型均达到最低误差,且相较传统模式预测准确提升约3%。

该研究不仅助推房地产价格预测数据维度创新,也为经济学借助异构非结构数据开展更广泛的实证研究开拓新技术路径。尤其在遥感、街景、社交媒体等非结构化大数据资源日渐丰富的当下,深度学习编码器及融合策略为捕捉人类传统难以量化的视觉信号提供了稳健工具,实现预测能力与解释性的有效平衡。

然而,当前工作以预测为主,未触及因果关系识别,且局限于具体城市和房屋类型,未来研究可探讨图像信息的因果效应、样本扩展、多角度图像等,以提升外推能力和政策含义。

总体而言,报告展示了深度学习结合经济计量模型将图像数据作为协变量成功应用于房产价格预测领域的显著成效,且通过系统比较多种模型与编码器组合,为后续相关研究奠定了坚实基础。[page::0–10]

---

注: 此分析严格基于报告全文内容与图表信息,所有结论均具备明确溯源标记,确保学术严谨和事实透明。

报告