`

Explainable AI in Request-for-Quote

创建于 更新于

摘要

本报告建立了针对抵押贷款前市场中流动性较差资产TBA债券的请求报价(RFQ)成交率预测模型,采用包括Logistic回归、随机森林、XGBoost及Bayesian Neural Tree在内的多种可解释AI模型。通过模拟生成RFQ数据,进行特征工程及模型训练,最终构建了集成模型提升预测准确性,并利用市场制造商效用函数优化报价,提升了RFQ价格发现效率,促进抵押贷款融资市场透明与风险管理 [page::0][page::1][page::6][page::7]

速读内容

  • 研究背景与目标 [page::0][page::1]

- RFQ机制有助于低流动性资产(如TBA债券)的价格发现和透明度提升。
- 目标是预测RFQ成交概率,并据此优化市场制造商的报价以平衡效用和风险。
  • 数据生成与特征工程 [page::1][page::2][page::3]



- 采用模拟算法生成10005条RFQ数据,包含时间、债券标识、交易方向、名义本金、报价、竞争对手数量等关键特征。
- 构建动量因子(MOM5、MOM10、MOM20)、价差(Spread)、名义本金对数(LogNotional)等解释性特征。
- 核密度估计揭示成交概率与响应次数、报价偏差、动量因子之间的非线性关系。
  • 模型设计与Bayesian Neural Tree介绍 [page::3][page::4]

- 选择Lasso Logistic为基线模型,同时利用随机森林、XGBoost等非线性模型提升准确率。
- 创新提出融合神经网络与决策树结构的Bayesian Neural Tree模型,实现模型局部可解释性与概率预测。
- Bayesian Neural Tree采用软门控函数,实现从硬边界到可微分平滑分割,支持参数优化和网络修剪。
- 模型基于贝叶斯推断优化后验概率,动态分裂节点以提升未解释数据的潜力,保证结构自适应。
  • 模型训练与参数调优 [page::4][page::5]

- 使用网格搜索和时间序列交叉验证,选择Beta(1,1)先验、学习率0.05、迭代次数等超参数。
- 训练过程包括局部节点优化与整体网络微调,同时配置网络后修剪机制抑制过拟合。
  • 模型性能与结果 [page::5][page::6]





- Bayesian Neural Tree模型在测试集准确率约90%,预测成交概率高度集中于0和1。
- 重要特征包括响应次数(Response)、MOM5、MOM20和交易对手标识。
- 多个模型结合投票形成集成模型,集成1(LR + ABR2 + ABR6)取得最高准确率0.913和F1值0.914。

| 模型 | 参数描述 | 准确率 | 精准率 | 召回率 | F1值 |
|----------------|-----------------------------|---------|---------|---------|--------|
| Logistic Regression | L1正则(Lasso) | 0.90 | 0.91 | 0.896 | 0.903 |
| Reticulum 2 | Beta(1,1) / pruning=1.0 / stiffness=2 | 0.906 | 0.914 | 0.903 | 0.909 |
| Reticulum 6 | Beta(1,1) / pruning=1.0 / stiffness=6 | 0.906 | 0.94 | 0.874 | 0.906 |
| XGBoost | binarylogistic目标 | 0.891 | 0.959 | 0.824 | 0.887 |
| Random Forest | 叶子节点最小样本=2/最大深度=12 | 0.879 | 0.956 | 0.803 | 0.873 |
| Ensemble 1 | LR+ABR2+ABR6 | 0.913 | 0.939 | 0.89 | 0.914 |
| Ensemble 2 | LR+ABR6+XGB | 0.908 | 0.935 | 0.884 | 0.909 |
| Ensemble 3 | LR+ABR2+ABR6+RF+XGB | 0.907 | 0.953 | 0.863 | 0.906 |
  • 市场制造商报价与效用优化 [page::6][page::7]




- 采用线性回归模型预测下一时刻中价(NextMidPrice),拟合度达98%。
- 市场制造商的效用函数包括报价获胜、亏损惩罚及多平价竞争惩罚,目标最大化期望效用。
- 通过预测成交概率与亏损概率,基于效用函数搜索最优报价,使报价贴近真实NextMidPrice以平衡风险与竞争力。
- 模拟5个样本RFQ成功填充4个,所有均实现正效用,验证模型实用性。
  • 结论 [page::7]

- 结合XAI技术构建了透明且性能优异的RFQ成交率预测模型,Bayesian Neural Tree尤其兼顾解释与准确。
- 集成模型进一步提升预测精度。
- 利用效用函数优化报价,有助提升市场效率和定价透明度,对抵押贷款行业具实际应用价值。

深度阅读

金融研究报告详尽分析


报告标题: Explainable AI in Request-for-Quote
作者: Qiqin Zhou
发布机构: Cornell University, Department of Operations Research and Information Engineering
日期: 未明确标注(基于引用文献及研究内容,大致为2024年)
主题: 利用解释型人工智能(Explainable AI, XAI)模型预测和优化Request-For-Quote (RFQ) 执行概率,特别聚焦于To-be-Announcement (TBA) 抵押贷款支持证券的市场定价机制

---

1. 报告概览及核心论点



本报告旨在通过开发和应用多种机器学习及XAI模型(包括Logistic回归、随机森林、XGBoost和Bayesian Neural Tree,BNT)对RFQ填单概率进行预测,并基于预测结果及对下一个中间价的估计,帮助市场做市商定价,从而最大化其效用并最小化库存风险。作者希望通过XAI赋予模型透明性,提高金融交易中的信任与合规性,同时促进TBA市场的定价效率,有助于抵押贷款行业更好服务借款人。报告主要贡献在于:
  • 提出模拟生成公开不可用的RFQ数据方法(解决真实数据隐私限制问题)。

- 构建详尽的数据特征工程,提炼填单相关特征。
  • 设计和比较多种可解释与性能兼顾的模型,创新性引入并优化BNT。

- 提出基于预测概率和利润边际的市场做市商效用函数,指导报价优化。

[page::0,1,2,3,4,5,6,7]

---

2. 逐节深度解读



2.1 引言 (Introduction)



关键论点:
  • RFQ机制在定价流动性较差的资产(如TBA)中重要,有利于市场透明度和精准估值。

- 两大核心问题:(a) 如何预测给定报价时RFQ是否被成交;(b) 如何基于此确定市场做市商应报出的最优报价。
  • 报告结构安排:数据模拟(Section III)、特征工程(Section IV)、填单概率预测(Section V)、报价策略(Section VI)。

- XAI模型(特别是BNT)提升了预测准确性与可解释性的结合,符合金融合规需求。

逻辑支撑: 通过引入模拟数据解决监管限制,保证方法实操性;利用多模型比较强化结论可信度;关注模型透明帮助金融机构合规且提升风险管理。

2.2 文献综述



报告回顾了RFQ流程的交易特点,指出市场做市商面对报价之后风险敞口需动态管理;同时详细介绍XAI发展和分类,包括后验解释模型(如LIME、SHAP)与内在解释模型(Logistic回归、决策树、朴素贝叶斯等),揭示二者的利弊权衡。然后提出创新的Bayesian Neural Tree (BNT) 框架,结合神经网络的表现力和决策树的结构解释力,辅以贝叶斯推理处理不确定性。

数据生成过程与特征工程(Section III-IV)运用模拟算法:
  • 样本数据量为10005条,含时间戳、债券标识、买卖方向、交易规模等变量,并通过几何布朗运动建模价格演变,生成有针对性的特征如动量因子(MOM5/MOM10/MOM20)、报价价差(Spread)、对数交易规模(LogNotional)。

- 状态变量(成交与否)基于混合随机分布模拟,确保样本具备现实交易复杂性与非线性特征。

[page::0,1,2]

2.3 概率预测模型构建(Section V)


  • 模型选择: 采用Lasso Logistic回归建立基线,结合随机森林、XGBoost等树型模型提升预测表现,同时解决非线性与多维复杂关系问题。

- BNT的设计与训练: 将决策树节点定义为神经网络子网络,通过软门控函数(sigmoid代替硬分割)实现概率连续划分,结合贝叶斯更新机制,模型既具备解释性又支持梯度优化。
  • 训练机制: 融合局部(节点)与全局参数优化,节点扩展与剪枝机制基于“未解释潜力”指标动态调整网络结构,防止过拟合。

- 超参数调优: 利用时间序列交叉验证和网格搜索确定合理先验分布、剪枝因子、学习率及节点“柔韧性”等参数。

[page::2,3,4,5]

2.4 模型性能与特点分析(Section V-D)


  • 结果表现:

- BNT与不同初始刚度参数(2与6)均实现约90%预测准确率。
- 模型表现以“精确率”、“召回率”和“F1值”为衡量标准,BNT和Logistic模型基线表现接近,集成模型(Ensemble 1)表现最佳,达91.3%准确率和0.914 F1。
- 错误类型分析显示假阳性(预测为成交实际未成交)多于假阴性,且竞争参与者越多误判概率越高。
  • 重要特征解释:

- 影响最大特征依次是MOM5(5周期动量)、Responses(响应次数)、MOM20、Spread和Counterparty。
- 结合决策边界和概率分布图(Figure 6)验证响应频率与动量是区分成交与未成交的关键因素。

[page::5,6]

2.5 报价策略构建(Section VI)


  1. 下一期中间价预测:

- 利用当前MidPrice与Side线性回归,验证两者高度相关性及对NextMidPrice的预测能力(调整后$R^2=98\%$)。
- 利用Q-Q图确认价格差异符合对数正态分布。
  1. 市场做市商效用函数设计:

- 对亏损RFQ定罚-1分,最高竞争报价获+1分,同价竞价需分摊罚0.5分。
- 目标为最大化预期收益(即成交概率得分 - 超限概率罚分)。
- 报价优化转换为最大化期望效用,忽略同价多竞模型复杂性,用“加价/减价”限额方式调节。
  1. 实际定价效果:

- 利用模型预测概率和NextMidPrice的分布,针对特定RFQ计算报价-超限概率曲线(详见Figure 10)。
- 经过经验调节后的报价实际落在合理区间内,5个样本RFQ中获得4单成交且均获正效用。
- 报价决策辅助市场做市商提升报价的科学性与竞争力。

[page::6,7]

---

3. 图表深度解读



图1与图2(Kernel Probability Distributions - 第3页)


  • 展示了各特征(例如Responses, MidPrice-Quote, LogNotional, Momentum5)与成交概率的非线性关系概率分布。

- 例如,Responses增加导致成交概率下降,Momentum5与成交率相关但非线性且受Responses影响。
  • 支持特征工程设计和模型变量选择,验证变量与目标相关性。


图3(Confusion Matrix - 第5页)


  • 表明模型对填单和未填单分类的准确分布。

- 可见“Missed”类样本的预测准确率较高,而“Done”类存在一定假阳性。

图4(Execution Probability Distribution - 第5页)


  • 显示模型预测的概率集中于0和1两端,说明能够对RFQ是否成交做出强烈区分。


图5(Feature Importance - 第6页)


  • 图形量化每个变量对预测的贡献度,前四大关键特征贡献占比显著,高度符合定量分析逻辑。


图6(Decision Boundary - 第6页)


  • 直观展示模型关于Responses和MOM5维度上分类边界,红蓝区分明显。


图9(Q-Q Plot - 第7页)


  • 证实价格差异符合假设的统计分布,保障中间价预测模型基础的合理性。


图10(Fill Probability vs Quote price - 第7页)


  • 多组TBA债券报价与成交概率关系曲线,曲线陡峭,报价微调显著影响成交概率,红线为最终选择的报价位置。


图11(Market-Maker Utility - 第7页)


  • 各RFQ测试样本的报价预期效用与报价距离NextMidPrice的关系曲线,效用峰值围绕预测中间价,验证报价策略的有效性。


[page::3,5,6,7]

---

4. 估值分析



本报告并非典型公司估值研究,核心在于交易概率预测和价格优化,估值方法并不存在传统DCF或P/E计算。核心“估值”体现在对“下一期中间价”(NextMidPrice)的预测和通过概率模型计算“填单概率”及“效用最大化”的报价。此价格预测采用线性回归模型,基于当前价格和买卖方向,具备高度统计拟合度(R^2=98%)。不强调复杂价差预测,意在为效用函数决策提供稳定的中间价基准。

报告在市场效用函数的定义上创新地结合了成交概率与潜在亏损概率,设定一定罚分机制和加价/减价阈值,构成优化目标函数,具备一定的经济合理性和实用导向。

---

5. 风险因素评估



报告未明确列出专项风险章节,但隐含了以下风险考量:
  • 数据隐私与模拟偏差风险: 由于真实RFQ数据不可公开,依赖模拟数据能否真实反映市场行为存在一定不确定性。

- 模型过拟合与假设限制: 复杂模型如BNT需谨慎防止过拟合,文中通过剪枝和交叉验证尝试缓解。
  • 市况波动和模型适用性风险: 报价策略未考虑多市场参与者竞价同价场景,忽略某些多智能体竞价行为复杂性风险。

- 价格预测误差风险: 中间价线性预测虽强,但局限于统计相关性强于因果推断,短期价格波动可能导致失误。
  • 监管与合规风险: 虽强调XAI的透明合规性,但具体合规政策多变,实际落地应用需要进一步验证。


---

6. 批判性视角与细节微调


  • XAI与性能平衡: 报告强调BNT模型在性能与解释性的平衡,但模型是否在极端市场情况下仍能保持稳健并未深入探讨。

- 模拟数据的代表性问题: 虽说明模拟过程,然而生成的“成交”状态与价格结构是否能充分模仿真实市场行为尚需多维验证。
  • 竞价同价行为处理不足: 对多市场报价重合造成的效用罚分通过经验性约束,而非严密数学模型,可能导致估价偏差。

- 模型敏感性: 模型参数选择、节点柔韧度对预测和最终报价策略影响虽有所讲解,但缺乏更详细敏感性分析和鲁棒性验证。
  • 结论局限性提示不足: 实验样本数量及真实市场复杂性的巨大差异,对实盘交易的推广局限未充分警示。


---

7. 结论性综合



本报告系统地探讨了利用解释型机器学习模型预测RFQ成交概率的创新应用,特别针对TBA债券市场中低流动性资产的报价策略。通过自主设计的模拟数据生成算法和综合特征工程,结合包含贝叶斯神经树在内的多模型集成,成功建立了一个高效且透明的预测框架。预测准确率较高,关键特征识别合理。基于预测结果设计的市场做市商定价优化函数体现创新,既考虑概率成功率又内嵌风险罚分,最终实测5个测试样本中成效显著。

图表深入展现了各部分的关键关系:
  • 核密度分布证明特征与目标变量关系非线性且有交互作用;

- 混淆矩阵显示高预测准确和可接受的错误分布;
  • 预测概率分布分明,说明模型区分度强;

- 变量重要性分析确认关键因子,提升解释深度;
  • 价格与效用优化图示直观反映优化路径和收益曲线。


总体来看,作者在数字模拟、模型创新、特征解释、定价优化方面均给予丰富细节支持,突出XAI在金融交易尤其是流动性受限资产市场报价中的实用潜力,且推动了算法交易系统和合规风险管理的协同发展。该框架不仅具备理论创新价值,也为实际市场运作提供了可操作工具和思路。

[page::0-7]

报告