Option Return Predictability with Machine Learning and Big Data
创建于 更新于
摘要
本论文利用1996年至2020年逾1200万条美股单只股票期权数据,通过包括梯度提升树等非线性机器学习模型,发现模型能显著提升期权超额收益的横截面预测能力,并构建基于机器学习预测的多空套利组合展现月均2.63%的经济收益且交易成本调整后依然有效。期权本身特征是最重要的预测变量,股票相关特征亦提供额外预测力。研究还揭示期权收益预测性背后涉及信息不对称、交易者成本和期权定价错误等机制,为期权定价与定量投资提供理论和实证指引 [page::2][page::3][page::5][page::6][page::7][page::35][page::50]
速读内容
机器学习模型预测性能及非线性优势 [page::19][page::20][page::25]

- 非线性模型如梯度提升树(GBR)与带Dropout的Dart显著优于线性模型,最高期权超额收益的out-of-sample $R^2$超2.5%。
- 线性模型预测效果几乎无统计显著性,非线性模型预测稳定且时序持续良好。
- 非线性模型组合(N-En)覆盖单模型优势且显著超过线性组合(L-En),样本中71.2%月份表现更优。
机器学习构建的期权多空交易组合 [page::27]
| 组合分组 | L-En预测 | 实际均值(%) | 夏普比率 | N-En预测 | 实际均值(%) | 夏普比率 | N-En vs L-En差异 |
|----------|--------|---------|--------|---------|---------|--------|-------------|
| 最低组 | -1.395 | -1.395 | 1.646 | -1.841 | -1.841 | 1.950 | |
| 最高组 | 0.522 | 0.711 | 1.936 | 0.786 | 0.835 | 2.286 | |
| H-L差值 | 1.917 | 1.934 | 1.237 | 2.627 | 2.555 | 1.274 | |
- N-En组合月度多空收益差达2.63%,显著领先L-En,展示非线性模型可增强套利策略经济价值。
- 高收益组包含较多长期看涨期权,低收益组则主要为短期期权及看跌期权。
交易成本影响及持续表现 [page::32][page::33]

- 交易成本按价差的15%和25%调整后,期权多空组合仍分别实现1.33%、0.47%的月均回报,显著正向盈余。
- 长期期权受交易成本冲击较大,短期期权组合表现更为稳健且显著。
- 策略收益在金融危机、货币紧缩、疫情冲击等市场震荡时段尤为突出。
关键特征及信息集贡献分析 [page::35][page::37][page::38]


- 期权合约相关特征(如隐含波动率)为最重要的预测信息,其次是流动性风险和风险特征。
- 仅用期权及合约信息即可取得较好表现,加入股票特征进一步提升预测精度;仅用股票特征预测力明显下降。
期权收益预测来源及机构投资者、市场参与者作用 [page::42][page::43][page::46][page::47][page::49]




- 预测能力在机构持股低、分析师覆盖少的股票期权中显著更强,显示信息不对称与有限注意力的重要性。
- 公开客户(零售)参与高而专业交易者参与低时预测能力最强,支持市场效率受专业投资者影响假设。
- 高流动性成本的股票对应期权展示更强的回报预测性,表明套利受限机制可能促成异常持续。
- 期权定价偏离理论“合理价”越大,预测能力越强,且买卖高估和低估期权均可获利。
深度阅读
详尽全面分析报告 —— 《Option return predictability with machine learning and big data》
---
1. 元数据与概览 (引言与报告概览)
报告标题: Option return predictability with machine learning and big data
作者: Turan G. Bali, Heiner Beckmeyer, Mathis Moerke, Florian Weigert
发布机构: University of Cologne, Centre for Financial Research (CFR)
发布时间: 2021年8月20日(最新版本)
主题: 本报告聚焦于利用机器学习和海量数据预测美国单只股票期权的收益率,重点在于非线性模型对期权收益的预测能力,以及其经济意义和潜在驱动因素。
核心论点与目标:
- 报告通过超过1200万条数据,展示非线性机器学习模型相比传统线性模型更能有效预测期权收益率。
- 运用选项和股票特征变量,构建并比较多种机器学习模型,发现非线性集成模型(非线性ensemble)在预测准确率(out-of-sample $R^2$)和投资回报率上均显著领先。
- 研究揭示,期权收益率预测的重要驱动因素包括期权合约本身的特征、股票特征,并指出信息摩擦、套利费用和期权定价错误是预测效能背后的经济机制。
- 该研究不仅在学术上扩展了资产定价和机器学习的文献,也明确了复杂非线性机器学习在金融高频大数据分析中的应用价值。[page::0,1,2,3]
---
2. 逐节深度解读
2.1 引言 (第3-7页)
- 关键论点:
- 期权市场规模快速增长,投资者对期权回报预测的需求增加。
- 传统期权定价模型(如Black-Scholes)假设期权是冗余资产。但研究证明期权回报受股票波动率风险及信息摩擦影响。
- 利用覆盖1996-2020年美国单只股票期权的超过1200万期权-月份观测,剔除方向风险(delta对冲),聚焦期权固有非线性风险。
- 萃取270个特征变量,其中77个为期权特征,193个为股票特征,使用多种线性和非线性机器学习方法进行预测。
- 采用滚动的训练(5年)、验证(2年)和测试(1年)样本,确保预测的时序稳健和避免过拟合。
- 发现非线性模型(GBR, Dart)远超线性模型,实现最高2.7%的out-of-sample $R^2$,同期线性模型则多为负值。
- 经济上的解释包括信息摩擦导致价格不能快速反映信息,套利存在成本导致价格偏离理论价值。
- COVID-19市场震荡期间,非线性模型的预测能力依旧优于线性模型,表现出较好的稳健性。[page::3,4,5,6,7]
2.2 相关文献综述 (第8-9页)
- 该文补充并扩展了个体期权收益截面预测的文献,以更大规模、更细粒度(合同级别而非组合)数据和更丰富的机器学习模型结合进行研究。
- 与 contemporaneous work Goyenko和Zhang(2021)相比,数据量远超33倍,聚焦仅为option的截面,且强调经济根源分析。
- 将机器学习预测应用拓展到资产价格领域,涵盖股票、债券、汇率等多资产,处于最前沿。
- 报告力求克服样本外测试、过拟合和模型选择偏误等机器学习在资产定价中的难点。
- 该研究首次综合利用线性和多种非线性机器学习模型,在期权收益预测中进行系统对比。[page::8,9]
2.3 方法论及评估 (第11-14页)
- 利用拟合函数 $g(z{i,s,t})$ 连接未来期权收益的条件期望和期权/股票特征。
- 对比多种ML算法,线性包括Lasso、Ridge、ElasticNet、PCR、PLS;非线性包括随机森林、梯度提升树(GBR)、带dropout的Dart及神经网络(FFN)。
- 采用等权重模型集合(ensemble)分为线性ensemble(L-En)和非线性ensemble(N-En)。【集成方法提升预测的稳定性和准确性】。
- 使用out-of-sample $R^2$指标评估预测效果,该指标对比以0收益为基准的均方误差。
- 利用Clark-West校正测试和Diebold-Mariano(DM)检验统计量,检验模型间性能差异及其显著性。
- 设计详细时间序列分割规则,滚动训练/验证/测试样本,确保模型泛化能力及避免样本内拟合偏误。
- 进一步定义cross-sectional out-of-sample $R^2$以衡量截面方向预测准确度,最关注差价组合(long-short)的盈利潜力。[page::11,12,13,14]
2.4 数据和变量说明 (第14-18页)
- 主数据源为OptionMetrics IvyDB(1996-2020),包含所有美国单只股票期权价格和隐含波动率数据,配合CRSP和Compustat股票基本面数据。
- 剔除无隐含波动率、希腊值,下单价误差,负价或零成交量,违背美国期权界限的异常合约。
- 采用每天收盘时delta对冲处理,计算净收益率,消解方向风险,专注非线性风险。
- 共有约490万期权合约,覆盖7046只标的股票,观测超过1200万次期权-月份数据。
- 样本中53%为认购期权,47%认沽期权。平均月度净收益微弱为负。
- 统计指标详细,诸如平均剩余天数(约172天)、行权比率(1.03)、平均隐含波动率(47.7%)等表明为典型美式期权市场样本。
- 构建269个指标变量,其中包括77个期权指标(基于合约、bucket、标的层次)和193个股票指标(覆盖行业哑变量、风险、盈利能力、投资等多个维度)。
- 期权指标包括流动性、到期时间、隐含借贷费用等,股票指标涵盖行业、基本面及风险特征。[page::14,15,16,17,18]
2.5 期权收益预测结果 (第19-29页)
- 预测能力对比:
- 非线性模型的out-of-sample $R^2$最高可达2.7%,明显优于线性模型(一致为负)。GBR和Dart表现优势最显著。
- 预测put期权回报较call期权效果更佳。神经网络FFN表现不佳,暗示过于复杂模型难以泛化。
- Ensemble模型进一步提升稳定性和预测效力,非线性ensemble明显优于线性ensemble。
- 时间稳定性分析:
- 预测能力波动大,非线性ensemble表现最稳健,尤其在危机如2008及新冠疫情期间表现优异。非线性模型在85%月份超越线性。
- 经济价值:
- 依赖预测组合法构造分层投资组合,买入预测回报最高的10分组期权,卖空最低的10分组,月度超额收益高达2.63%,月度Sharpe比达2.06,风险调整后依然优异。
- 非线性ensemble生成的交易策略比线性ensemble高出0.7个百分点,显著。
- 投资组合结构显示,高收益组更多长期限call选项,低收益组配置更多短期限期权,体现策略精细性。
- 风险调整及交易成本:
- 使用CAPM、Fama-French五因子+动量+流动性因子模型等多种资产定价框架评估,策略收益未因风险因子降低,说明非风险补偿来源。
- 交易成本按有效价差计入,假设为标价价差的15%和25%,策略依然维持正收益,分别为1.33%和0.47%月度收益且统计显著,15%交易成本下轮动收益正,说明实盘可行。
- 特征重要性:
- 使用SHAP值衡量特征组相对贡献,合约级(期权所处的隐含波动率曲面位置信息)为最重要组,随后为流动性、风险相关指标。
- 期权特征远比股票特征贡献大,强调期权特征不可忽视。
- 信息集合限制测试:
- 仅用期权特征预测效果次之,仅用股票特征预测性能显著下降。合约级和bucket级信息并不足以取代期权所有特征。
- 预测准确性和交易策略效果均随着信息量增加而改善,非线性模型充分利用丰富信息优于线性模型。
- 按期权bucket分组:
- 短期期权具有最高预测能力和利润,特别是OTM和ATM期权。长期期权受流动性和交易成本限制明显,预测效能弱。[page::19-29]
2.6 期权收益预测来源分析 (第41-50页)
- 信息摩擦与投资者注意:
- 期权收益预测能力在标的股票机构持仓比例较低、分析师覆盖较少的标的更强,揭示信息不对称及注意力限制导致价格调整缓慢。
- 分位数划分显示机构持有比例最低分组预测$R^2$达4.6%,最高分组降至2.2%;分析师覆盖度从高到底预测能力从0.6%升至4.4%。
- 投资组合分析确认预期收益跨层级跨持有率均显著。
- 不同交易者需求影响:
- 利用NASDAQ及CBOE的投资者交易分类数据,分为“公共客户”(C,预估散户偏多)和“专业投资者”(P,包含机构、专业客户),考察其净买卖需求。
- 预测能力在专业投资者需求低时最高,专业需求为空且公共客户有买入需求时回报预测最高,符合专业投资者作为价格发现者角色。
- 套利成本:
- 衡量标的股票的流动性代价(bid-ask spread)作为套利摩擦,流动性越差的标的期权预测能力越强,最高流动性五分位$R^2$达5%。
- 说明套利摩擦限制价格调整,促使定价偏差和预测机会长期存在。
- 定价误差:
- 用Black-Scholes模型结合高频实现波动率计算期权“理论价格”,并以其对市场价的偏差衡量期权定价误差。
- 发现预测能力呈U型分布,在过度定价和低估期权组均高,且策略在这两类期权中均有显著超额收益。
- 强调机器学习模型捕捉定价错配的能力,且响应不同错配方向。[page::41-50]
---
3. 图表深度解读
图1 (第20页)
- 内容描述:
- 9个独立ML模型以及线性/非线性两大ensemble的out-of-sample $R^2$表现,区分全部、call、put期权。
- 数据趋势:
- 线性模型均无显著正预测能力,甚至负值,PCR最差。
- 非线性树模型(GBR、Dart)表现最佳,$R^2$均逾2.5%,所有非线性模型除了FFN均统计显著优于零收益预测。
- 集成模型进一步提升准确度,非线性ensemble最高近2.7%。
- 文本关联:
- 支持非线性机器学习模型在捕捉复杂非线性关系上的优势,FFN因过拟合或架构问题泛化较差。
- 备注:
- Put期权预测优于call,符合市场复杂结构和流动性分布。
- 图片链接:

- 溯源: [page::19,20]
图2 (第21页)
- 内容:
- Cross-sectional out-of-sample $R^2{OS;XS}$,衡量跨期权截面收益差异预测的准确度,模型及ensemble同图1。
- 趋势解读:
- 非线性模型均显著正向,FFN表现回升,表明虽然整体回报预测偏弱,但对相对回报排序有效。
- 集成模型的预测能力在截面分解中更突出,非线性ensemble最高超3.3%。
- 意义:
- 截面回报差异预测对构造长短组合策略关键,模型适用性广且具有投资价值。
- 图片链接:

- 溯源: [page::21]
图3 (第23页)
- 内容:
- 18年内年度out-of-sample $R^2$和$R^2_{OS;XS}$分布箱型图展示各模型预测稳定性。
- 趋势:
- 线性模型波动极大,预测可靠性较差。
- Dart表现最佳且相对稳定,预测下限较高。
- 集成模型(尤其非线性)展现最稳定的预测能力,所有年份均有显著预测($R^2$>0)。
- 意义:
- 稳定性是实际投资应用的核心,非线性ensemble优势明显。[page::22,23]
- 图片链接:

图4 (第25-26页)
- 内容:
- 左侧散点图显示每月线性ensemble(L-En)及非线性ensemble(N-En)的$R^2$,右侧散点图比较两者表现。
- 观察点:
- N-En月度预测普遍优于L-En(71%月份超过),表现更为稳定,尤其在2008金融危机和2019-2020新冠肺炎疫情冲击下优势尤为突出。
- 新冠疫情期间非线性模型体现出更强的抗干扰能力,预测能力无明显下滑。
- 投资启示:
- 非线性模型能捕捉更加复杂的风险与信息结构,适应市场极端波动情形。
- 图片链接:

- 溯源: [page::25,26]
表3 (第27页)
- 内容:
- 基于线性和非线性ensemble预测排序构建10分组期权投资组合。展示各分组预测均值、实际收益、标准差和Sharpe比。
- 解读:
- 非线性ensemble最高分组月均收益0.835%,最低组-1.720%,高低差达2.63%,Sharpe比2.06,明显超出线性模型。
- 投资组合换手效率及风险调整后优势显著,差异统计学显著。
- 经济意义:
- 明确说明非线性集成模型的预测除统计显著外,还能产生显著超额风险调整收益。
- 溯源: [page::27]
表4 (第28页)
- 内容:
- 详细分解非线性ensemble构建的10组组合的特征,包括标的数量、行权比率、到期时间、期权类型比例、Bid-ask spread、持仓量、及希腊值(Delta、Gamma、Vega、Theta)和收益方向正确率。
- 洞察:
- 高收益组合多为持有较长期限及更多认购期权,流动性稍差,Delta值较高。
- 低收益组合倾向短期限及认沽期权,收益正向预测正确率较高。
- 策略细节:
- 策略不仅区分不同标的,还能精准识别同一标的下不同期权合约的价值偏差。
- 溯源: [page::28]
表5 (第31页)
- 内容:
- 通过多种资产定价模型对非线性ensemble构造的高减低组合收益进行风险调整分析,包括CAPM、Fama-French五因子+动量及流动性、选项市场因子、杠杆承载能力因子等。
- 结果:
- 风险调整后组合收益仍显著不减,表明该策略捕获的收益非单纯风险补偿。
- 结论:
- 定量证明了该预测策略基于非风险因素的异常收益。
- 溯源: [page::30,31]
表6 & 图5 (第32-33页)
- 内容:
- 探究交易成本对收益的侵蚀,具体加入标价价差的15%和25%有效价差假设。
- 图5展示滚动年度收益及统计显著性。
- 结果:
- 虽然收益降低,但组合仍具显著正收益,15%价差下月均达1.33%。有效价差高达25%时负收益偶现,但多月仍显著。
- 短期期权表现更佳,长期期权受成本影响明显。
- 投资实用性:
- 说明预测算法在现实交易环境中的可执行性和坚韧性。
- 溯源: [page::32,33]
图6-7 (第35-37页)
- 内容:
- 利用SHAP值解释非线性ensemble最重要的特征组及关键单特征。
- 洞察:
- 期权合约相关特征(如隐含波动率、交易量、到期时间、行权价等)为最重要组,流动性(bid-ask spread)和风险特征(风险中性矩、波动率差)次之。
- 个别重要单特征包括“隐含波动率”、“基础股票bid-ask spread”、“行业动量”等。
- 股票特征整体对预测贡献相对较小,但仍有辅助作用。
- 溯源: [page::35,36,37]
图8 & 表7-8 (第38-40页)
- 内容:
- 评估限制信息集对预测的影响:仅期权特征,期权合约+bucket特征,或仅股票特征。
- 结果:
- 全部特征模型最优,次优为期权全部特征,单独合约+bucket特征表现有限,单独股票特征表现最差。
- 非线性ensemble在限制条件下依然优于线性ensemble同类模型。
- 各期权bucket预测表现同样受信息限制影响,非线性ensemble全信息集表现最好。
- 溯源: [page::38,39,40]
图9 & 表9 (第42-44页)
- 内容:
- 按照机构投资者持股比例和分析师覆盖情况划分股票观察预测效果。
- 结果:
- 机构持股低、分析师分析覆盖少的股票,其期权收益预测能力最高,验证信息摩擦和有限注意力假设。
- 分析师覆盖最低组$R^2$达到4.4%,最高组降至0.6%以下。
- 不同持有比例内构建的多级投资组合均体现显著的回报差异。
- 溯源: [page::42,43,44]
图10 (第46页)
- 内容:
- 研究不同市场参与者(公共客户vs专业机构)对期权需求的影响。
- 结果:
- 预测能力在专业投资者需求低但公共客户需求高时最强,说明专业机构更快消化信息。
- 公共客户大量买入而专业机构做空对应高预测区,符合市场制作商做市逻辑。
- 溯源: [page::46]
图11 & 表10 (第47-48页)
- 内容:
- 考察标的股票流动性(以bid-ask spread衡量)对期权预测能力的影响。
- 发现:
- 标的流动性越差,期权收益预测能力显著越强,一致线性递增,最高组预测能力达5%。
- 投资组合的高低分组收益差异随标的流动性增加而增大,表明套利摩擦导致价格持久偏差。
- 溯源: [page::47,48]
图12 & 表11 (第49-50页)
- 内容:
- 依据期权定价误差(使用历史波动率计算Black-Scholes理论价格)划分组别,检验收益预测表现。
- 结果:
- 期权预测能力在高估和低估期权组均显著,呈U型分布。
- 高低组合收益在这两端均显著,优于“合理定价”期权。
- 机器学习模型成功捕捉定价偏差,能够利用错价带来超额收益。
- 溯源: [page::49,50]
---
4. 估值分析
本研究并未聚焦传统企业估值,而是运用机器学习模型预测期权未来收益率,并通过构造长短组合投资策略实现经济收益。
其“估值分析”体现在对预测方法的性能评估,和策略收益的风险调整分析。
通过多项资产定价模型(CAPM、FF五因子+动量、流动性因子、选项市场因子等)对策略回报进行风险调整,证明预测捕获的收益并非因风险溢价。
表明所构建的机器学习策略捕获的是市场信息不完全和定价错误,具有重要经济价值且难以被简单的风险模型解释。[page::30,31]
---
5. 风险因素评估
报告识别并探究了以下主要风险因素对预测和经济利润的影响:
- 系统性风险: 多个资产定价模型回归结果显示策略收益未被显著削弱,暗示收益与传统系统性风险无关。
- 交易成本风险: 通过引入不同水平的交易价差,策略收益虽下降但仍正,验证交易成本重要但非决定性风险。
- 信息风险: 低机构持股及分析师覆盖对应更高预测能力和收益,说明信息不对称及市场关注度影响策略表现。
- 流动性风险: 标的股票及期权的流动性恶化与高预测能力关联,体现流动性限制加重套利成本,是风险存在的一个渠道。
- 错价风险: 机器学习模型能正确捕捉错价期权,反馈错价幅度对预测及收益的作用。
整体风险分析表明,除流动性和信息摩擦外,其他传统风险因子并不能解释此策略收益,确保其投资的市场异常性。[page::30,31,32,41-50]
---
6. 批判性视角与细节
- 模型局限与复杂度:
- 虽然非线性模型优于线性模型,但神经网络(FFN)表现不佳,可能因调参、过拟合或样本结构限制。
- 机器学习虽捕获高度复杂非线性关系,但长期稳定性和结构解释性仍待增强。
- 样本与交易现实:
- 交易成本估计基于报价价差,实际可能因执行优化更低,未来需高频数据认证执行价差影响。
- 期权挪动导致moneyness和到期时间变化,模型基于bucket设计减缓此问题,但仍有不确定性。
- 信息来源:
- 多数预测力来源于期权特征,股票特征贡献有限,与此相对,有可能忽略股票市场信息动态变化的潜在贡献。
- 策略稳健性:
- 疫情和危机期间非线性ensemble表现良好,但未来市场环境变化可能扑朔迷离,实际收益仍需长期验证。
- 套利及市场效率:
- 交易策略存在可观的超额收益和正的Sharpe比,或表明市场存在套利限制,但也可能因模型未捕获所有风险因素。
- 预测指标依赖性:
- 对部分重要指标如隐含波动率依赖较重,极端市场波动可能引起模型性能波动。
- 总体结论:
- 不同机器学习方法集成使用带来更稳定预测,凸显模型选择和组合的重要性。
- 该研究有效弥补了期权收益率预测的学术空白,有较强的理论贡献与实务应用潜力。[page::19-40,41-50]
---
7. 结论性综合
本报告以美国单只股票期权大规模数据为基础,系统比较多种线性与非线性机器学习模型对期权收益的预测能力,发现:
- 非线性模型显著优于线性模型,out-of-sample $R^2$最高达2.7%。
- 构建基于预测的长短组合,交易策略月均超额收益约2.63%,Sharpe比大于2,且收益经多因子检验后仍显著,说明收益不靠传统风险因子解释。
- 交易成本考虑后,策略依然保持正收益,表明现实可行性。
- 预测特征中,以期权合约的隐含波动率及其在隐含波动率曲面的位置为关键,其次是流动性及风险相关指标,股票特征虽有贡献但次要。
- 期权收益预测能力更强的情形包括标的机构持有低、分析师覆盖少、专业投资者需求有限但散户或公共客户需求旺盛、标的股票和期权流动性低、以及期权明显错价。
- 实证证据表明信息摩擦、限套利、定价误差是驱动策略有效性的潜在机制,非线性机器学习模型有效捕获市场复杂结构并提供经济价值。
- 模型渐进性地应用集成方法增强了预测稳健性,疫情等极端市场条件下仍表现良好。
- 该报告填补当前期权资产定价领域空白,既彰显机器学习在金融大数据中的巨大潜力,也为交易策略设计提供实证支持。
---
综上,这篇报告不仅在金融机器学习和期权资产定价领域具有开创性意义,也对期权定价、市场效率、套利限制、投资者行为等多方面提供深入洞察。各主要图表和表格清晰反映模型性能、经济效益和策略机制,展示了机器学习在复杂非线性金融场景中的先进应用范例,为学术研究和实务实践均提供了极具参考价值的框架和结果。
---
注:所有结论均紧密依据源文献中的页码标注。