`

Forecasting Company Fundamentals

创建于 更新于

摘要

本报告系统地评估了22种经典统计方法及现代深度学习模型在公司基本面(Company Fundamentals,CF)预测任务中的表现。研究显示深度学习模型在准确性和不确定性估计方面优于传统模型,且其预测质量与人类分析师相当。通过将CF预测应用于因子投资,回测结果证实高质量预测有助于构建优质投资组合,特别是在金融稳定时期表现突出。报告还探讨了专家知识融入和模型可解释性方法,为后续研究和应用提供指南与展望 [page::0][page::1][page::8][page::9][page::10][page::11][page::12][page::15]。

速读内容

  • 报告涵盖22个公司基本面预测模型,包括局部模型(如ARMA、Prophet)、全局统计模型(线性回归、随机森林)以及多种深度学习模型(LSTM、GRU、Transformer、N-BEATS等),并将其进行系统比较 [page::3][page::4][page::5][page::6].

- 数据选择涵盖2527家市值≥10亿欧元的上市公司,从2009 Q1到2023 Q3,每季度公开报表数据整合及严格预处理,选取20个关键指标作为上下文,预测5个最关键目标变量(如总收入、运营利润、净利润等) [page::6].
  • 采用模块标准化策略,将收入类指标按总收入归一,资产类指标按总资产归一,并进行零均值单位方差标准化,有效缓解数据极端偏态和高非平稳性问题(仅12.2%的时间序列被判定为平稳)[page::6][page::21][page::22]。

- 各模型定量评测结果(图表、误差指标)表明:全局深度学习模型(尤其是LSTM与GRU)在均方误差(MSE)、对称平均绝对百分比误差(sMAPE)和连续秩概率得分(nCRPS)上表现领先;局部统计模型表现波动大,部分如ARMA(4,4)、Prophet预测不稳定且误差高;简易模型ARMean(1)在sMAPE指标上表现优秀 [page::8][page::9][page::11].
  • 深度学习模型在不确定性量化预测(nCRPS指标)方面明显优于传统方法,能更好地估计预测置信区间,尤其是LSTM、GRU和TiDE模型表现突出 [page::9].

  • 预测不同财务指标难度存在显著差异,总股本(Total Equity)较易预测而经营利润(Operating Income)较难;总收入(Total Revenues)凭借相关协变量表现出较好的可预测性 [page::9][page::11].

  • 典型预测实例展示(使用GRU模型):模型成功捕捉财务指标整体趋势和波动,同时合理估计不确定区间。COVID-19疫情等黑天鹅事件导致某些时间段预测误差增大,显示模型面临动态环境适应挑战 [page::10][page::12].


  • 投资实证中,基于GRU模型预测的因子投资策略,在以运营利润或总收入做因子并构建50只股票组合后,超过了MSCI世界指数的收益表现,特别是采用每年调仓方法时运营利润因子组合收益显著提升(收益提升超过10个百分点),但波动率及Beta系数提升较明显,且疫情期间优势减弱 [page::11][page::12][page::13].

| 组合策略 | 调仓周期 | 预测类型 | 组合末值(%) | CAGR(%) | 波动率(%) | Beta |
|--------------------------|--------|------------|-----------|-------|--------|-------|
| MSCI世界参考指数 | n.a. | n.a. | 247.25 | 14.69 | 12.50 | 1.00 |
| 运营利润/企业价值(季度调仓) | 3个月 | Clairvoyant GRU | 315.42 | 16.97 | 15.41 | 1.13 |
| 运营利润/企业价值(年度调仓) | 12个月 | Clairvoyant | 287.81 | 14.17 | 15.81 | 1.07 |
| 运营利润/企业价值(年度调仓) | 12个月 | GRU | 257.51 | 15.06 | 15.39 | 1.13 |
| 总收入/企业价值(季度调仓) | 3个月 | Clairvoyant | 272.74 | 15.59 | 16.89 | 1.24 |
| 总收入/企业价值(季度调仓) | 3个月 | Analyst | 312.13 | 16.87 | 15.81 | 1.17 |
| 总收入/企业价值(季度调仓) | 3个月 | GRU | 238.48 | 14.37 | 16.27 | 1.19 |
| 总收入/企业价值(年度调仓) | 12个月 | Analyst | 278.89 | 15.80 | 16.47 | 1.20 |
| 总收入/企业价值(年度调仓) | 12个月 | GRU | 212.76 | 13.38 | 16.23 | 1.19 |
  • 自动预测与人类分析师预测对比中,自动模型在绝大多数指标上优于人类分析师,但人类预测在衡量相对误差(MAPE、sMAPE)方面表现更优,提示人类分析师预测误差更符合实际业务规模分布,可能具备更合理的不确定性估计 [page::10][page::23].

- 模型可解释性方面,Prophet等局部模型支持专家规则定制,如趋势变点、季节性;深度学习模型常结合SHAP、Integrated Gradients以及Transformer注意力机制等方法解释预测机制;TFT模型能够量化输入变量相对重要性,有助于理解驱动因素 [page::13][page::14].
  • 数据特点具有强偏态、厚尾且显著非平稳性,部分时间序列表现季节性(42.2%),周期多样,给时间序列预测带来挑战,报告提出对归一化及分解建模的调整以降低难度 [page::21][page::22].

- 可提高性能的技巧包括:使用反向实例归一化(RevIN)方法对非循环神经网络普遍有正面贡献,尤其是TCN和Transformer模型;针对小样本、非平稳和多变量依赖,深度学习方法显示出较强的泛化能力 [page::3][page::23].

深度阅读

金融研究报告详尽分析报告:《Forecasting Company Fundamentals》



---

1. 元数据与报告概览


  • 标题:《Forecasting Company Fundamentals》

- 作者:Felix Divo, Eric Endress, Kevin Endler, Kristian Kersting, Devendra Singh Dhami
  • 机构:德国达姆施塔特工业大学(TU Darmstadt)计算机科学部门、ACATIS Investment(德国法兰克福)、荷兰埃因霍温理工大学等

- 发布时间:未明确指出具体日期,但数据截至2023年第三季度,具备较新时效性。
  • 主题:提出并系统评估多种统计与机器学习模型用于预测公司财务基本面(Company Fundamentals,简称CF),考察其在投资领域特别是因子投资中的应用价值。


核心论点

本报告系统比较了22种经典统计与现代机器学习模型(包括深度学习模型)对公司财务基本面的预测能力,强调深度学习模型在预测准确性和不确定性估计上的优势,且这些模型对投资策略(特别是基于因子模型的股票配置)具有显著提升潜力。同时,将机器自动预测与人类分析师预期相比较,表明预测质量可匹敌人类专家,并提出结合领域专家知识提升模型可靠性的思路。

---

2. 逐节深度解读



2.1 引言与研究背景


  • 公司基本面定义:CF指公司的关键财务指标集合,如总收入、利润、资产总额等,是评估公司财务健康与未来表现的重要指标。

- 投资相关意义:在价值投资和因子投资哲学中,CF预测至关重要,决定了对内在价值的评估和选股决策。
  • 研究动机:使用机器学习预测CF,可以增强因子投资策略准确率,提高投资回报,但现有研究结果尚不一致,缺少对各种模型系统而全面的实证比较。[page::0,1]

- 数据的复杂性与挑战
- 公司和行业差异巨大,导致数据动态多样。
- 时间序列非平稳,指标间有复杂相互依赖,例如收入和利润比率会随时间变化。
- 指标数据量相对有限,季度频率,历史跨度不足二十年。
- 过拟合风险高,模型配置难确定。[page::1]

2.2 关键贡献与研究结构(Section 2 & 3)


  • 贡献总结

- 设计针对财务指标预处理与归一化方法。
- 平衡考察22种模型,涵盖经典统计与前沿深度学习。
- 系统评价预测质量、与人类分析师对比及投资应用表现。
- 探讨解释性与专家知识融合技巧。[page::2]
  • 模型分类

- 局部模型(Local Models):对每家公司单独拟合模型,简便但计算资源需求高,包含经典的平均值预测、自回归均值、ARMA、ARIMA、Theta模型、Prophet等。
- 全局模型(Global Models):通过整合所有公司数据训练单一模型,提升泛化。典型代表包括多元线性回归、随机森林、以及多种深度学习方法如LSTM、GRU、TCN、Transformer系列、N-BEATS、N-HiTS及TiDE等。[page::3-6]

2.3 详细模型介绍与技术手段(Section 3)


  • 局部模型如ARMA和ARIMA依赖于平稳假设,自回归和移动平均成分捕捉时间序列的短期自相关。

- Prophet针对趋势、季节性及假日效应分解时间序列,但本数据中季节及假日成分被弱化以适应季度国际数据。
  • 全局深度学习模型基于序列建模思想,利用循环神经网络(RNN,尤以LSTM、GRU)、卷积网络(TCN)、Transformer注意力机制及其变种(TFT)实现更复杂的时序依赖捕获。

- 复合模型如N-BEATS和N-HiTS采用残差叠加与多尺度分解,TiDE采用编码-解码结构并融合静态元数据。
  • 探讨了可逆实例归一化(RevIN)以缓解数据中的非平稳分布对模型训练的影响。[page::3-6]


2.4 数据选择与预处理(Section 4.1)


  • 数据集组成

- 2527家市值≥10亿欧元,公开交易且数据完整的公司,2009 Q1 - 2023 Q3季度数据。
- 20个上下游财务指标作为模型输入,包括成本、支出、现金流类指标等。
- 重点预测5个核心指标:总收入、营业利润、净利润、经营现金流和总股东权益(均为最近12个月LTM均值)。
  • 归一化处理

- 收入报表指标以总收入归一化,资产类指标以总资产归一化,保证特征尺度可比较。
- 标准差归一化使所有特征均值为0,方差为1。
  • 静态特征:添加行业分类(GICS)和地理区域(地区分类),但区域信息贡献较小,最终保留行业分类。[page::6-7]


2.5 模型评测与结果分析(Section 4.1.3)


  • 预测设置

- 时间序列历史滑动窗口逐步扩大,从4年开始,最终采用3年历史窗口预测未来1年季度数据。
- 训练验证分为训练样本和保留10%的公司以验证模型泛化,尤其对深度学习模型很重要。
- 使用多个误差指标评估:均方误差(MSE)、对称平均绝对百分比误差(sMAPE)、绝对误差(MAE)、决定系数(R²)等。
- 概率预测使用连续排名概率分数(CRPS),综合考虑预测的分布质量。
  • 关键结果

- 图1显示全局模型在MSE上表现优于局部模型,深度学习的LSTM和GRU等表现最佳,但在sMAPE评价下,简单局部模型ARMean(1)意外领先,说明准确可靠的预测不易获得。
- 图2概率预测结果显示深度学习模型在不确定性估计方面显著优于传统模型,深度学习模型对未见公司数据泛化良好。
- 不同指标的可预测性差异明显(图4):
- 总股东权益对ARMean(1)等局部模型容易预测;
- 营业利润相对复杂,受成本变动影响更大;
- 总收入对深度学习模型较为友好,依赖其他协变量。
- COVID-19疫情等“黑天鹅”事件极大增加预测难度,表现出不同模型在特殊期间表现差异显著(图5)。
- 预测误差随预测步长增加而增大,但每四季度(一年)预测误差显示回落,反映财务报告时点的规律性(图6)。
- 人工分析师预测与机器预测比较显示,机器学习模型整体优于人类在大部分指标上表现,但人类更善于对数据规模进行“校准”,这可能导致其MAPE、sMAPE指标较优(详细见附录A.5)。[page::7-11]

2.6 投资性能评估(Section 4.2)


  • 构建基于预测的滚动策略,用选定的财务指标/企业价值比率作为选股因子(营业利润或总收入除以企业价值)。

- 投资组合由50只股票组成,持仓权重固定,按季度或年度调整,排除房地产和金融行业以减少特殊报告影响。
  • 结果(表3)表明:

- 理想“预知”模型(Clairvoyant)表现最佳,证明CF预测方法的潜在价值。
- 人类分析师预测为投资决策提供了有力支持,可能因市场反馈与自我实现机制强化。
- 深度学习GRU模型预测构建的策略投资组合优于MSCI世界指数基准,尤其是在年度调仓下,十年累计收益高出约10个百分点。波动率和Beta指标较参考指数略高,但处于合理区间。
- 疫情期间表现波动大,提示未来需进一步提升模型应对市场剧变的能力。[page::11-13]

2.7 模型解释性与领域专家介入(Section 5)


  • 在深度学习模型普及的背景下,解释性成为实际应用重要需求。

- 局部模型如ARMA、ARIMA等参数含义明确,较易嵌入专家知识(例如设置差分阶数或确定自回归阶)。
  • Prophet具有趋势、季节、假日分解,便于人机交互具体调整。

- 深度学习模型尽管复杂,但可以应用诸如SHAP值、Integrated Gradients等解释方法。部分基于Transformer的模型(如TFT)可以通过注意力机制显式追踪输入重要性。
  • 图7展示了TFT模型对输入变量的重要性评估,反映关键财务指标尤为核心,行业类型也有较大影响。

- 强调人机交互式机器学习(Explainable Interactive Learning, XIL)可能成为提升可信度与性能的路径。[page::14]

2.8 结论与未来展望(Section 6)


  • 本报告填补了公司基本面预测领域多模型定量对比空白,揭示不同模型的优势与适用场景。

- 达成的主要结论:
- 深度学习模型(尤其RNN系列)在预测准确性和不确定性估计上优于经典方法。
- 尽管整体数据不足且复杂,CF预测可实现接近人类专家水平。
- CF预测可应用于实际股票组合构建,实现相对指数的超额收益。
- 疫情、行业变化等宏观事件极大挑战模型稳定性,需开发稳定性更强的技术。
- 未来关注点包括集成学习、融合文本情感等多源信息、因果推断及持续学习。
  • 项目由德国联邦教育研究部与产业投资方ACATIS资助完成。[page::15]


---

3. 重要图表深度解读



3.1 图1与表2:模型确定性预测性能对比


  • 图示内容:各模型在预测归一化财务指标时的均方误差(MSE)和对称平均绝对百分比误差(sMAPE)。

- 数据解读
- 局部简单模型如ARMA(4,4)和Prophet表现不稳定,高误差且波动大。
- 深度学习LSTM、GRU全局模型在MSE最低,表现最佳。
- 有趣的是,简易局部模型ARMean(1)在sMAPE指标排名第一,表明某些极简模型能规避大幅度错误,但整体精度不及深度模型。
  • 意义

- MSE更敏感于大幅误差,sMAPE考虑了比例意义。
- 作者强调利用概率预测来提升模型的可靠性。[page::8]

3.2 图2与表2:概率预测性能比较


  • 内容:基于连续排名概率评分(nCRPS)评价模型概率预测准确度,nCRPS越低越好。

- 解读
- 深度学习模型(LSTM、GRU)显著优于传统计量模型和其他机器学习模型,展现更精准的预测分布估计。
- 强调深度模型跨公司学习能力带来的泛化优势。
  • 联系:概率预测对于投资风险管理尤为关键。[page::8]


3.3 图3:某公司多指标未来时序预测示例(GRU模型)


  • 内容:黄金线为实际观测值,蓝线为预测,中间阴影为68%置信区间。

- 解读
- 模型较好捕获总体趋势,尤其是收入和股东权益。
- 预测随远期延长误差增大,但不确定性区间合理覆盖真实数值。
  • 启示:深度学习在复杂、多指标场景下有潜力提供可用的定量决策依据。[page::10]


3.4 图4:不同模型对不同指标预测能力热力图


  • 内容:以nCRPS/MAE量化模型对五项核心指标的预测误差。

- 解读
- 经营利润与股东权益为最难预测指标。
- 深度学习模型在较难指标上表现较优,特别是现金流和总收入预测均较好。
  • 意义:不同行业财务指标难度差异显著,需针对性选用模型。[page::11]


3.5 图5与图6:时间序列预测误差随时间及预测步长变化


  • 图5

- 明显疫情期间误差激增(2020年蓝色区域)。
- 不同模型期间表现差异大。
  • 图6

- 预测误差随着预测步长增加总体上升,但每4季度(1年)后误差显著下降,反映年报信息规律。
  • 意义:周期性与异常事件对模型预测影响巨大,提示未来需动态模型调整机制。[page::12]


3.6 表3:基于CF预测的投资组合绩效及比较


  • 内容:测试不同策略(Clairvoyant理想预测、人类分析师、深度学习GRU模型)基于预测财务指标选择股票后的组合累计收益、复合增长率(CAGR)、波动率与Beta。

- 解读
- Clairvoyant模型表现最优,验证预测潜力上限。
- 分析师模型表现优于基准指数,显示专业认知价值。
- 深度学习GRU模型策略超越MSCI指数10个百分点收益,但波动率略增。
- 操作频率与选择指标对最终绩效有显著影响。
  • 启示:CF预测可直接驱动投资策略优化,但实际应用须平衡收益与风险。[page::12-13]


3.7 图7:TFT模型对输入变量的重要性分析


  • 描述:基于注意力与特征贡献评估变量影响,行业类别和重要财务指标贡献最大。

- 分析:强化了模型可解释性,便于领域专家理解与介入模型训练。
  • 意义:可解释模型为金融决策建立信任基础,促进专家–模型协作。[page::13]


---

4. 估值分析



报告主要聚焦于预测公司基本财务指标,并未对公司进行传统的估值(如DCF或市盈率倍数法)分析。估值在此处隐含体现为通过预测财务基本面指标(如营收、利润)辅助投资决策,间接影响股票价格表现预测与投资组合优化。投资组合绩效呈现表明预测指标的投资价值。

---

5. 风险因素评估


  • 数据层面

- 样本数量有限,时间跨度不足,数据非平稳且偏态显著,严重违背部分模型假设(如ARIMA),可能导致泛化能力不强。
- 特殊事件(如COVID-19疫情)导致历史模式失效,模型预测准确度大幅下降,且伴随波动加大。
  • 模型层面

- 局部模型受限于单一序列,泛化弱。
- 过度拟合风险在高复杂模型中突出,尤其对小样本情况敏感。
  • 应用层面

- 纯CF驱动投资策略忽视宏观环境变化、事件驱动因素、市场情绪等其他重要信号。
- 预测误差造成投资风险波动增大。
  • 缓解策略

- 引入不可逆实例归一化(RevIN)减缓分布漂移影响。
- 融合专家知识,模型解释性与人机交互提高模型稳定性和自主纠错能力。
- 未来可整合多源外部信息(新闻文本、社交媒体情绪)及因果推断。

---

6. 审慎视角与细微差别


  • 模型对比视角

- 简单指标如ARMean(1)在特定评价指标下表现优,表明复杂模型靶向提升准确性时需警惕评估指标和业务需求匹配。
- 一些局部模型(ARIMA变种等)在金融基本面数据中的表现欠佳,提示其假设与实际数据特性不符。
  • 数据偏见与限制

- 选择标准限定了大型公开交易公司,限制了模型在中小市值或非公开市场的泛化适用性。
  • 预测范围

- 本文主要预测1年内的财务指标,长期预测的有效性尚需进一步研究。
  • 人类预测对比

- 机器模型整体表现可比人类,但专家预测在一定程度上带有市场反馈、自我实现效应,不可完全替代。
  • 不确定性处理

- 虽然深度学习模型展现较好不确定度量估,但实际预测不确定性评估仍需强化,提升投资决策中风险评估能力。

---

7. 结论性综合



本报告系统性评估了22种传统统计与现代机器学习模型在公司财务基本面时间序列预测任务上的性能。主要发现如下:
  • 模型性能总结

- 深度学习模型(尤以LSTM、GRU)在预测准确性和不确定性量化方面优于经典统计模型和简单基线。
- 局部模型如ARMean(1)在某些误差指标(如sMAPE)表现优异,但整体精度及不确定估计逊于深度模型。
- Prophet及部分ARIMA基模型,在高波动和非平稳数据下性能不稳定。
  • 数据特征与挑战

- 财务数据非平稳、分布偏态和季节性特征复杂,导致建模难度较大。
- COVID-19疫情等异常时期造成预测误差激增,提示需要增强模型的鲁棒性和适应性。
  • 概率预测优势

- 深度模型通过量化预测不确定性提升了可靠性和泛化能力,尤其是在少见或异常数据上。
  • 人类-机器对比

- 机器预测整体表现优于人类分析师,部分因模型能从跨公司数据中学习复杂关系,但人类模型在错误尺度匹配上存在优势。
  • 投资应用实证

- 基于深度学习CF预测构建的投资组合十年回报超过基准指数约10个百分点,体现实用价值。
- 理想模型和人类专家预测提供了较高收益说明CF预测投资价值上限。
  • 解释性与专家协作

- 通过特征重要性和注意力机制实现一定程度的透明度,促进专家模型反馈。
- 建议借助解释性交互式学习(XIL)提升模型可信度和稳定性。
  • 未来方向

- 融合文本情绪、行业新闻等非结构化数据以提升预测。
- 探索因果关系建模区分真正驱动因素与数据噪声。
- 实施持续学习,适应市场与财务指标模式的动态变化。
- 发展更强鲁棒、具备异常检测和调适能力的预测模型。

综上,本研究为公司财务基本面预测领域提供了详细的模型评估框架及实证结论,支持结合机器学习预测提升投资决策质量,且强调解释性和专家协作的重要性,对金融时间序列预测及量化投资研究都具备显著价值与启示。[page::0-15]

---

致谢



研究由ACATIS投资机构和德国联邦教育部支持,部分作者获得荷兰埃因霍温理工大学及德国人工智能中心资助,完全对内容负责。[page::15]

---

附录重要补充


  • 数据统计显示CF数据存在显著偏度和峰度,严重非高斯分布,挑战传统统计模型假设。

- 仅12.2%的时间序列被检测为平稳,超过40%显示季节性特征,且季节性周期多样(图8~9)。
  • RevIN方法在大部分非循环深度模型中优化了性能,但对DLinear、NLinear等已有正常化机制模型作用有限。

- 详尽的训练细节、参数与超参配置支持结果复现。
  • 人工分析师预测与机器模型对比说明两者各有优势,提示可互补融合机会。[page::21-23]


---

总结



本研究全面而细致地对公司财务基本面预测建模进行了剖析,系统说明了模型构建、数据特征、评价指标和投资应用的联系,通过实证数据支持机器学习模型(特别是深度学习)在预测准确性和不确定性估计上的优势,兼顾实际投资效果验证和解释性需求,极富前瞻性和实用价值。阅读本报告后,投资者及金融科技研究人员可明确当前CF预测的最佳实践指南及未来研发重点方向。


图表示例Markdown
















报告