`

A DEEP LEARNING APPROACH TO HETEROGENEOUS CONSUMER AESTHETICS IN RETAIL FASHION

创建于 更新于

摘要

本报告聚焦零售时尚行业中消费者对产品视觉美学的异质性偏好,利用预训练多模态深度学习模型将商品图片与文本描述转化为高维嵌入向量。通过离散选择模型并结合消费者人口统计数据,系统解析价格敏感性、美学偏好、详细描述及季节性因素对消费者选择的驱动作用。模型运用自动微分及GPU实现大规模估计和推断,有效捕捉不同消费者群体间的美学差异及价格弹性,且具备对于新品设计预测销售表现的良好验证能力 [page::0][page::4][page::5][page::7][page::10][page::11][page::12]。

速读内容

  • 研究采用来自H&M两年交易数据,涉及137万顾客、1087.7万个库存单位(SKU)及超过3178万次交易,数据丰富涵盖线上线下购买,具备详细图片和文本描述,有效支持美学偏好建模 [page::4]。

  • 预训练多模态模型CLIP整合图片与文本信息生成共用高维嵌入表示,融合后经降维处理形成约100维的产品特征向量,可显著提升商品销售份额和定价的预测准确度(见表1-3)。多种模型中,集成方法(Ensemble)对混合嵌入测试集的销售份额解释力达到51%,价格为67% [page::5][page::6]。


| 模型 | 销售份额R²(测试) | 价格R²(测试) |
|----------------|-----------------|--------------|
| OLS | 0.04 | 0.26 |
| Ridge | 0.26 | 0.42 |
| 随机森林 | 0.47 | 0.59 |
| 深度神经网络 | 0.38 | 0.49 |
| Boosting机 | 0.49 | 0.63 |
| 集成模型 | 0.51 | 0.67 |
  • 利用t-SNE降维与K-means聚类对商品嵌入空间进行可视化,形成图1和图2显示商品类别清晰划分,如无袖裙、印花裙及腰带款式等,验证嵌入表达具备语义一致性、可直观解释 [page::6][page::7][page::8]。



  • 构建分层离散选择模型,假设消费者购买决策受价格、嵌入特征、人口特征及时间季节性影响。模型从简单条件Logit至含异质性参数和非线性深度神经网络逐步复杂化,揭示价格敏感系数α不同消费者间显著异质,存在“中间缺失”,消费者分布呈双峰,价格弹性范围约为-0.5至-0.1,指示异质化市场响应 [page::7][page::8][page::9][page::10]。


  • 价格敏感性的个体差异与部分人口特征相关,例如活跃顾客、俱乐部成员和老年顾客价格敏感度较高;常看新闻者价格敏感性较低。扩展模型可纳入季节性变量、额外人口数据及潜在类型用以捕捉更多异质性,采用控制函数法解决价格内生性问题 [page::9][page::11]。
  • 报告充分利用现代深度学习框架自动微分及GPU加速,使得模型估计对大规模稀疏数据可行且高效。模型验证显示预训练嵌入允许对新设计的销售表现作出准确预测,适用于指导快时尚企业在设计和定价方面的决策 [page::0][page::10][page::11][page::12]。
  • 行业背景介绍及数据集详解突出H&M在全球快时尚市场的地位及竞争环境,强调视觉美学对消费行为的关键作用,为模型设计提供坚实产业基础 [page::2][page::4][page::23][page::24][page::25]。


  • 数据及销售趋势分析显示多数购物日顾客购买1件商品,销售高度集中于少数畅销品,价格分布呈钟形且存在频繁折扣(见图8-10)。商品销售数、单价、总销售及总金额均表现出明显季节性波动 [page::4][page::23][page::24][page::25][page::26][page::27][page::28][page::29]。



  • 报告方法论详解深度学习网络(ReLU网络)、影响函数、卷积神经网络(CNN)、注意力机制、transformer架构及基于CLIP的对比学习机制,体现前沿技术融合经济计量模型的创新实践 [page::14][page::15][page::18][page::19].

深度阅读

深度分析报告:《A DEEP LEARNING APPROACH TO HETEROGENEOUS CONSUMER AESTHETICS IN RETAIL FASHION》



---

1. 元数据与概览


  • 标题:《A Deep Learning Approach to Heterogeneous Consumer Aesthetics in Retail Fashion》

- 作者:Pranjal Rawat,乔治城大学经济学博士生
  • 主题:结合深度学习及经济计量方法,研究零售时尚行业中消费者对视觉审美的异质性偏好及其对购买行为的影响。

- 数据来源:H&M两年购物交易数据,覆盖110万+消费者,1亿+商品SKU。
  • 核心论点

- 视觉审美在时尚零售市场对消费者购买决策影响显著。
- 利用预训练的多模态嵌入模型(图片与文字)能有效提取产品审美特征。
- 构建了离散选择模型,联合消费者的价格敏感度、视觉审美、产品文本信息及季节性变化进行消费决策解码,并允许个体间异质性存在。
- 估计使用自动微分和GPU加速,使模型可扩展。
- 模型可成功预测新品的市场表现及购买模式。

总结:报告主旨在于量化消费者在零售时尚中异质性的审美偏好,结合图像和文本的深度嵌入特征,揭示其与价格和其他因素的相互影响关系,从而支持新的设计和价格策略的制定。[page::0][page::1]

---

2. 逐节深度解读



2.1 引言与研究问题 (第0页)


  • 关键点总结

- 视觉审美在时尚行业极其重要,涉及颜色、形状、纹理等多维图像元素。
- 产品图像对消费者有直接吸引力,是交易的关键因素。
- 项目目的是抽取图像中的审美元素,揭示消费者异质化的审美趣味。
- 采用深度学习模型生成多模态嵌入,结合离散选择理论与机器学习方法建模消费者选择并实现异质性刻画。
- 模型通过零样本学习预测新品表现,能模拟不同人群的审美反应。
  • 作者支撑逻辑

- 大量文献和行业案例证明图像在人类消费中起到关键作用。
- 利用多模态嵌入解决高维图像和文本数据的维度灾难。
- 结合离散选择模型和神经网络构造消费者异质性的非线性映射。
  • 研究问题总结

1. 如何从图像中准确抽取产品审美特征?
2. 如何刻画消费者的审美偏好多样性及其驱动因素?
3. 如何借助模型做好对新设计的市场预测和测试?

此节基础定位整体框架及目标,为后续模型设计与估计奠定理论及方法基础。[page::0]

2.2 文献综述(第1-2页)


  • 整合领域

- 需求/选择模型经典文献(Train,Berry,Haile等)。
- 领先深度学习模型发展(Transformer、变分自编码器、残差网络等)。
- 机器学习与经济计量交叉方法(Chernozhukov,Farrell等)。
- 时尚零售行业的消费者行为研究。
  • 应用实例

- Quah & Williams利用图像嵌入估计鞋类需求,强调去偏差估计优势。
- Giovanni等通过商品相似性建模误差协方差。
- Han等采用图像自编码器嵌入用于字体市场差异化研究。
- Zhang结合深度神经网络揭示价格敏感度异质性。
  • 差异与贡献

- 现有文献多数聚焦价格敏感度,缺少对个体审美偏好的建模。
- 许多研究未同时处理图像与文本多模态,或未结合丰富的人口统计数据。
- 本文首次将多模态文本图像嵌入和细粒度消费者人口信息融合,揭示异质审美偏好。
  • 方法论支持

- 样本分割和去偏差机器学习技术保证估计效率与稳健性。
- 神经网络结构允许非线性和高维特征的灵活建模。

质疑点在于,现有文献未充分探索消费者审美异质性,本研究通过深度联结多源信息的模型填补这一空白。[page::1][page::2]

2.3 行业背景分析(第2-3页)


  • 行业特征

- 零售时尚市场处于垄断竞争态势,产品高度差异化,生命周期短,季节性强,促销频繁。
- 供应商众多,且全球分散,零售商通过供应链优势强化市场地位。
- “快时尚”如Zara、H&M代表行业主流,强调快速设计、生产及响应能力。
- 行业内成本控制、设计灵活性和市场敏捷性成竞争核心。
  • 历史演变

- 产品从标准化向时尚潮流转变,导致库存积压与降价压力。
- 时尚季节数量从传统四季增至多达9个,缩短交付时间。
- 深度运用数据分析优化供需匹配,快速反应市场。
  • 技术革新

- 全渠道零售(门店+线上+App)。
- 动态定价和促销。
- 物流跟踪与优化(RFID,混合整数规划)。
- AI在设计趋势捕捉、客户服务、市场营销和物流中的前景。
  • 行业地位示意

- H&M为欧洲大型快时尚企业,市场份额次于Zara,领先Uniqlo与Gap。

行业分析清晰表明了快时尚竞争机制及技术趋势,显示深入理解消费者需求对企业至关重要。[page::2][page::3]

2.4 数据介绍(第4页)


  • 数据来源:H&M,涵盖75国家,4800店铺,1亿多个SKU,超130万活跃消费者。

- 核心维度
- 交易记录:3200万+,覆盖线上和线下。
- 产品类别多样,重点介绍女装连衣裙(2300个SKU)。
- 消费者中位年龄32岁,66%活跃。
- 包含详细图像与文本描述。
  • 交易特征

- 大部分消费者单次购物日仅购一件(同步适用于离散选择模型)。
- 销售高度倾斜,少数爆款贡献大额销售。
- 价格分布呈钟形,折扣频繁,波动显著。
  • 优势

- 开放源代码唯一包含交易、文本、图像和丰富消费者人口信息的零售数据。
- 支持差异化分析与结构化建模。

此节数据详尽,奠定后续嵌入和离散选择模型应用基础。[page::4]

2.5 多模态预训练嵌入(第5-6页)


  • 概念解析

- 嵌入将图像和文本数据转成实数向量,便于机器学习建模。
- 多模态模型联合图文嵌入,消除信息孤岛。
  • 模型细节

- 使用CLIP(Contrastive Language-Image Pre-training)模型,将图像和对应文本映射到相同向量空间。
- CLIP通过对比学习优化图文配对相似度,形成语义一致的高维表达。
  • 具体示例

- 不同连衣裙图片与文本(红色晚礼服、蓝色鸡尾酒礼服、花卉夏装)的嵌入具高相似性的图文对比。
- 同类礼服图片之间相似度各异,明确区分正式与休闲。
  • 适用模型

- Fashion CLIP基于Farfetch数据训练,专门适配时尚零售场景。
- 利用自动编码器降维形成含100维左右的产品特征向量,用于后续需求建模。

此模块为解决高维非结构化数据提供了坚实技术基础,保证产品美学信息被充分编码。[page::5][page::6]

2.6 嵌入的预测性能分析(第5-6页)


  • 实验方法

- 利用不同机器学习模型(OLS, Ridge, 随机森林, 深度神经网络, Boosting Machine, 集成)预测销售份额和价格对数。
  • 表现总结

- 图像嵌入能解释31%-47%测试集销售变异,价格预测R^2最高0.49。
- 文本嵌入对价格预测信息尤为丰富,价格R^2测试集可达到0.64以上。
- 图文组合嵌入效果更佳,组合模型测试集销售和价格R^2均超过0.5和0.65。
- 集成模型表现最佳,提升了模型稳定性和预测准确度。
  • 分析解读

- 视觉审美属性强烈影响消费者购买决策和定价。
- 预训练模型嵌入能够有效提取关键信息。
- 复杂机器学习模型优于简单线性模型,有助解决高维数据中的偏差/方差权衡问题。

这进一步确认了嵌入的表征能力及其在市场需求模型中的潜力。[page::5][page::6]

2.7 产品空间可视化(第6-7页)


  • 步骤

- 用t-SNE降维技术将高维1364维嵌入压缩到2维。
- 通过K-Means聚类输出多个产品簇。
- 每簇在二维图中表现为颜色区分,典型产品图片定位展示。
  • 结果说明

- 聚类带来直观有意义的产品分类:如露肩连衣裙群、带腰带款、蕾丝裙等。
- 文本描述也在聚类中表现出共性:如“sleeveless”,“lace”等关键词聚集。
- 簇间差异显著,簇内同质性强,体现嵌入的判别功能。
  • 意义反馈

- 说明嵌入捕捉了产品外观和文本描述的结构信息。
- 证明无监督学习方法能自动构建有解读意义的时尚产品空间。
- 加强了后续需求模型中使用嵌入特征的合理性。

此部分图示详见下图,直观反映多样化时尚产品特征空间的结构。[page::6][page::7]



2.8 消费决策建模(第7-10页)


  • 效用函数构造


$$
u{ij} = h1(pj, Di; \theta1) + h2(Xj, Di; \theta2) + \epsilon{ij}
$$

其中,$pj$是价格,$Di$是消费者人口统计信息,$Xj$是产品图文嵌入,$\epsilon{ij}$为随机效用震荡。
  • 选择概率(离散选择模型的Logit形式):


$$
P(yi = j) = \frac{\exp(h1(pj, Di; \theta1) + h2(Xj, Di; \theta2))}{\sumk \exp(h1(pk, Di; \theta1) + h2(Xk, Di; \theta2))}
$$
  • 模型估计

- 初期模型假设价格敏感度$\alpha$为常数,直接回归价格与嵌入因子。
- 引入神经网络建模非线性效用函数$g$,提升拟合性能。
- 进一步引入消费者异质性,$\alpha$作为消费者特征的函数$\alpha(Di)$。
- 模型结果显示,忽略消费者特征的异质性会导致对价格敏感度的偏误估计。
- 引入深度网络后,价格敏感度呈现双峰分布,暗示存在两类消费者——高价敏感与低价敏感群体。
  • 关键系数示例

- 价格弹性区间广泛,顶层消费者价格弹性约为-0.5,低弹性消费者约为-0.1。
- 年龄、活跃程度、俱乐部会员等变量均对价格敏感度有所影响。
  • 估计方法

- 自动微分结合最大似然估计,使用GPU进行计算加速。
- 标准误采用二阶导数矩阵及影响函数法估计,确保推断有效。

该部分是结合深度学习与经济计量学的核心贡献,准确刻画异质消费者选择行为。[page::7][page::8][page::9][page::10]



2.9 模型扩展(第11页)


  • 关键扩展

1. 扩大人口统计变量集,引入多品类消费行为作为偏好代理,如儿童服装支出推断有子女。
2. 控制季节效应,包括季节虚拟变量以捕捉购物时点变化。
3. 引入未观察的消费者类型(基于Heckman和Singer 1984方法),处理隐藏异质性。
4. 价格内生性控制,利用工具变量法,首先拟合价格回归,提取残差作为控制函数。
  • 模型形式


$$
U
{i j t k} = \alphak(Di, St) \log p{j t} + gk(Mj, Tj, Di, St) + \epsilon{i j t k}
$$

$$
P(yi = j) = \sumk \pik \frac{\exp[\alphak(Di, St) \log p{j t} + gk(Mj, Tj, Di, St)]}{\sum{j'} \exp[\alphak(Di, St) \log p{j' t} + gk(M{j'}, T{j'}, Di, St)]}
$$
  • 工具变量处理


$$
\log pj = q(Mj, Tj, Zj) + vj
$$

$$
\xi
j = \gamma(v_j)
$$

将残差函数进入效用,提升内生性调整准确度。

该扩展完善了模型的实用性,控制了混杂偏误。[page::11]

2.10 结论及未来工作(第11-12页)


  • 核心结论

- 视觉审美对零售时尚消费者影响显著。
- 预训练嵌入可以解释高达一半的销售波动和2/3的价格波动。
- 嵌入有助于产品的空间划分和异质性刻画。
- 消费者价格敏感度显著差异,区间约-0.5至-0.1,反映定价策略需考虑个体差异。
  • 后续方向

- 进一步控制季节性变化。
- 完善价格内生性和未观察异质性的调整。
- 实施样本分割及未来趋势预测的稳健性检验。
- 用模型探讨最优折扣策略与新品设计的福利影响。

研究为时尚零售商提供了强有力的个性化营销与产品设计理论工具。[page::11][page::12]

---

3. 图表深度解读



3.1 图1:产品空间布局(第7页)


  • 说明:t-SNE降维后,用颜色代表聚类的不同类别,每个聚类中间图像为该簇最代表性产品。

- 趋势
- 产品间明确分层,聚合为有意义的类别(如露肩裙,长袖裙,蕾丝裙等)。
- 产品内部特征一致性高,表明文本与图像嵌入有效捕捉审美维度。
  • 文本联系

- 文本中的关键词频繁出现在特定簇中,加强理解及归类准确性。
  • 局限与价值

- 降维存在一定信息损失,但整体结构清晰,支持模型的合理性基础。



3.2 图2:产品簇的可视化细节(第8页)


  • 结构

- 展示多个簇中产品图片及各簇对应的关键词云,代表特征如“sleeveless line dress”、“lace dress”、“short wide sleeves”等。
  • 意义

- 聚类簇具明显的语义及视觉特征。
- 产品特征描述和实物图片吻合度高,体现模型提取的嵌入信息可靠。



3.3 表1-3:嵌入预测性能比较(第5-6页)


  • 表1(仅图像嵌入):

- 训练集R²可高达0.88以上,测试集分别为销售份额0.27-0.47,价格0.33-0.49。
- Boosting和集成表现最佳。
  • 表2(仅文本嵌入):

- 训练集R²略低,测试集销售份额0.0-0.34,价格0.39-0.67。
  • 表3(组合嵌入):

- 性能明显提升,测试集销售份额提升至0.04-0.51,价格至0.26-0.67,集成模型表现优异。
  • 分析

- 图文结合大幅增强效果,表明两种模态信息互补。
- 复杂机器学习模型(集成、Boosting)善平衡偏差-方差,具较佳泛化能力。

3.4 图3:价格敏感度分布(第10页)


  • 内容

- 呈现深度神经网络估计的价格弹性$\alpha$分布,多峰特征突出。
- 消费者显现两极化价格敏感度,一半价格敏感,另一半相对迟钝。
  • 意义

- 平均价格弹性难以反映个体异质,策略制定需区分消费者类型。



3.5 附图23-29(第23-29页)


  • 图4 (23页):2022年全球时尚零售商销售份额对比

- Zara最高,H&M第二,Uniqlo和Gap次之,彰显H&M的市场地位。[page::23]
  • 图5 (23页):H&M产品网页展示

- 产品图片清晰,配合细节描述,有助理解图文嵌入的语义来源。[page::23]
  • 图6-7 (24页):热销和滞销产品实例

- 热销产品设计风格(简洁、多变);滞销款色彩和样式偏小众。[page::24]
  • 图8 (25页):购物日买裙数分布

- 七成购物日消费者只买一件,适合离散选择框架。[page::25]
  • 图9-10 (26页):价格和销售的核密度分布

- 价格分布偏右,销售呈长尾分布,反映爆款效应。[page::26]
  • 图11-15 (27-29页):产品数量、上新、价格、销售和总销售量时间序列

- 明显季节周期与促销影响,供给与需求双波动。快时尚特征清晰体现。[page::27][page::28][page::29]

---

4. 估值与建模技术解析


  • 建模方法

- 标准离散选择模型(Logit)框架,基于部分线性、分离式效用函数。
- 利用深度ReLU网络对功能$g(\cdot)$和价格弹性$\alpha$建模,捕捉高维非线性异质性。
- 利用自动微分、反向传播及GPU实现高效最大似然估计。
- 通过样本分割及影响函数完成稳健推断。
  • 核心参数

- 价格弹性随消费者人口属性动态变化,包含类别变量和连续变量。
- 产品特征通过多模态嵌入降维为中等维度(约100维)。
- 季节性和未观测类型作为混合模型参数纳入。
  • 技术细节说明

- CLIP模型:双编码器架构编码图像和文本,基于对比损失保证向量空间语义一致。
- t-SNE:非线性降维提取局部结构,用于产品可视化。
- KMeans:聚类算法划分产品簇。
- 深度神经网络:利用ReLU激活,避免梯度消失,允许复杂表达,实现异质消费者效用估计。
- 工具变量方法解决价格的潜在内生性偏误。
- 自动微分与影响函数实现参数估计及标准误计算。
- 样本分割降低正则化偏差,确保推断质量。

---

5. 风险因素评估


  • 数据限制

- 虽有丰富人口统计信息,但未必完备,可能遗漏关键异质性源。
  • 模型假设

- 假定效用残差独立同分布,未考虑跨商品的选择联动。
- 无习惯形成和调整成本假设,现实中可能存在动态偏好。
  • 价格内生性

- 工具变量的选择与有效性影响模型稳定性和估计偏差。
  • 估计技术挑战

- 高维非线性估计对计算资源需求大,可能存在过拟合风险。
  • 可解释性与泛化

- 嵌入表示虽强大,但对商业策略解释较弱,需结合人为知识辅助识别机制。
  • 市场变动

- 快时尚市场快速变化,模型对宏观突变事件的预测力存在不确定性。

---

6. 审慎视角与细节


  • 潜在偏见

- 模型优先利用自动化嵌入,可能忽视行业专家设计因素。
- 训练数据限于欧洲市场,跨文化推广需谨慎。
  • 方法局限

- CLIP及其时尚变体预训练集不同于H&M,存在潜在分布偏差。
- 嵌入和效用模型耦合较弱,无法完全捕捉交互复杂度。
  • 异质性捕捉

- 异质性价格弹性虽显著,但其他非价格因素(如促销反应、品牌忠诚度)未充分建模。
  • 数据质量

- 快时尚品类库极大,产品描述多样,文本质量不一,影响嵌入质量。

---

7. 结论性综合



本报告以H&M两年超大规模交易和产品数据为基础,创新地结合预训练多模态深度嵌入及离散选择模型,深入探索零售时尚市场消费者的异质审美偏好。通过CLIP等先进模型提取图像与文本的高维向量表达,利用t-SNE和K-Means实现产品空间的直观可视化与分类,展示了产品视觉与描述特征的丰富结构。

销售和价格的预测结果显著揭示了视觉审美在市场中的决定性作用,组合嵌入模型能解释近半数销售变异,价格波动控制效率高达2/3以上。基于深度ReLU网络的人口异质性建模展示,消费者间价格敏感度极具差异,存在明显高低分化,强调个性化定价策略的重要性。扩展模型对季节性因素与内生性问题的处理提升了模型的现实适用性和稳健性。

图表数据和文本贯穿说明了快时尚市场的多样化和变化快的特征,嵌入的语义优良和模型的估计准确性奠定了未来在定价优化、新品设计预测及个性化营销策略制定中的应用基础。报告兼顾理论创新与实证验证,以严谨机器学习和经济计量方法的结合,为时尚零售商提供精准决策支持工具。

未来研究方向聚焦于时效性验证、因果推断完善及对更丰富维度消费者信息的整合,期望支撑更广泛的市场细分和福利分析。

---

参考溯源


  • 引言与数据描述[page::0],[page::1],[page::2],[page::3],[page::4]

- 预训练嵌入与性能分析[page::5],[page::6]
  • 产品空间可视化[page::6],[page::7],[page::8]

- 消费选择建模及异质性[page::7],[page::8],[page::9],[page::10],[page::11]
  • 结论与未来研究[page::11],[page::12]

- 图表详情与分析[page::23]-[page::29]

---

本分析努力全面覆盖报告内容,对技术点、方法论与实证数据深入剖析,客观反映研究贡献与局限,关注金融/经济计量逻辑与机器学习的有机结合。

报告