FinRL-DeepSeek: LLM-Infused Risk-Sensitive Reinforcement Learning for Trading Agents

创建于 2025-05-13T11:00:00.122878+08:00 更新于 2025-05-19T18:36:12.417146+08:00

摘要

本报告提出了一种结合强化学习与大型语言模型（LLM）的风险敏感交易智能体。通过将LLM生成的股票推荐与风险评估信号注入Conditional Value-at-Risk Proximal Policy Optimization (CPPO)算法，提升交易决策质量。基于Nasdaq-100指数的回测结果显示，LLM集成显著改善了CPPO表现，尤其在熊市风险管理方面更为优越。该方法利用FNSPID金融新闻数据，展示了LLM在提取风险特征和交易信号方面的潜力，为量化交易策略提供了创新思路 [page::0][page::1][page::2][page::3][page::6]

速读内容

融合LLM的风险敏感强化学习交易智能体设计 [page::0][page::1]

- 基于FNSPID金融新闻数据，利用LLM提取股票推荐评分与风险评估评分，两者分别介入交易动作与风险约束层。
- 交易动作由PPO算法生成，LLM推荐评分$Sf$用于调整动作幅度，风险由CPPO算法结合LLM风险评分$Rf$加权修正。

关键算法及创新点 [page::1]

- 采用Proximal Policy Optimization (PPO)及其风险调整版本CVaR-PPO，实现稳定训练并控制高损失路径。
- LLM-infused PPO中，动作调整因子$Sf$依据评分在0.9到1.1轻微变动，保持训练稳定。
- LLM-infused CVaR-PPO(CPPO)引入由风险评分生成的组合风险权重$Rf$，体现由新闻驱动的风险感知。

回测结果及性能分析 [page::2][page::3]

- 不同训练步数（400k、500k、2M）均测试验证，长期训练(2M步)表现最佳。
- LLM融合的CPPO模型（CPPO-DeepSeek）在年化波动和下行风险管理上表现优于基线PPO和NASDAQ-100，尤其在熊市具备较好防御能力。

LLM注入强度对策略影响分析 [page::3]

| 模型 | 信息比率 | CVaR | Rachev比率 |
|------------------|-----------|-----------|------------|
| PPO | 0.0100 | -0.0394 | 1.0637 |
| PPO-DeepSeek 10% | -0.0093 | -0.0338 | 0.9890 |
| PPO-DeepSeek 1% | -0.0252 | -0.0459 | 1.0394 |
| PPO-DeepSeek 0.1%| -0.0011 | -0.0375 | 0.9536 |

| 模型 | 信息比率 | CVaR | Rachev比率 |
|-------------------|-----------|-----------|------------|
| CPPO | -0.0148 | -0.0439 | 1.0404 |
| CPPO-DeepSeek 10% | 0.0078 | -0.0437 | 0.9818 |
| CPPO-DeepSeek 1% | -0.0032 | -0.0365 | 0.9573 |
| CPPO-DeepSeek 0.1%| -0.0060 | -0.0441 | 0.9789 |

- PPO-DeepSeek中LLM强度加大反而导致性能下降，而CPPO-DeepSeek中则呈现相反趋势，LLM强度提升有助于收益与风险平衡。

结论与未来方向 [page::3][page::4]

- LLM集成的CPPO智能体能更好地利用新闻信息进行风险管理，提升量化交易的稳健性。
- 后续工作计划优化训练内存使用，实现更长训练并提高时效性，及提升新闻信号的质量和准确性。

深度阅读

FinRL-DeepSeek: LLM-Infused Risk-Sensitive Reinforcement Learning for Trading Agents — 详尽全面分析报告

---

1. 元数据与报告概览

报告标题： FinRL-DeepSeek: LLM-Infused Risk-Sensitive Reinforcement Learning for Trading Agents
作者： Mostapha Benhenda
发布日期： 无明确标注，2024年最新研究（参考文献含2025年文献）
发布机构： 未标明具体机构，Github开源地址：https://github.com/benstaf/FinRLDeepSeek
研究主题： 将大规模语言模型（LLM）与风险敏感强化学习（RL）结合，提升自动化股票交易算法的性能，特别在纳斯达克100指数环境中验证。

核心论点摘要：
报告提出了一种结合LLM生成的股票推荐与风险评分信号的风险敏感交易代理，基于Conditional Value-at-Risk Proximal Policy Optimization（CPPO）算法扩展，实现对传统基于价格的强化学习交易策略的改进。通过引入LLM提供的新闻导向的交易信号和风险因素，提升策略的风险控制和交易效能，但实测结果显示仅使用LLM推荐不会稳定超越市场基准，而结合风险评分的改进策略则表现更佳。报告同时开源了数据与代码。

作者传达的主要信息是：传统强化学习在量化交易中忽略了新闻等另类数据与风险管理。将LLM处理的新闻信息作为信号注入强化学习，可以改进交易性能，尤其是在风险控制框架下，展现了LLM对提取复杂金融信息的潜力。[page::0,1,2,3,6]

---

2. 逐节深度解读

2.1 摘要与引言

摘要明确提出：结合LLM与强化学习，扩展CVaR-PPO算法，利用LLM从金融新闻中提取交易推荐和风险评估信号。

- 引言重点指出：市场自动交易代理多仅利用价格数据，忽略新闻等另类数据和有效风险管理的缺憾；本文贡献在于引入基于LLM的风险评分，突破传统的简单情绪分析，利用精心设计的提示语（Prompt）实现新闻深度特征提取，增强决策质量。[page::0]

2.2 相关工作

丰富的文献对比了各种RL与LLM结合的金融交易模型，强调本文方法简洁，仅使用简单Prompt调用已训练的LLM API，区别于其他复杂的模型训练或多智能体协作架构。

- 与FinGPT、FinCon等项目比较，本研究方法集成简单，且首次尝试将CVaR-PPO应用于交易。
纯LLM做交易建议的文献（如Lopez-Lira等）对比突出强化学习对交易策略风险调控的优势。[page::0]

2.3 数据与LLM提示语设计

数据选用FNSPID数据集，包括1999-2023年约1570万条金融新闻，此研究为了成本控制，采样至200万条每日代表性新闻。

- 使用三类先进LLM（DeepSeek V3, Qwen 2.5 72B, Llama 3.3 70B）生成两类评分：
- 股票推荐分数（整型1-5），取向由负极1至正极5。
- 风险评估分数（整型1-5），1极低风险，5极高风险，未明风险默认为3。
以上Prompt设计巧妙定位专门的金融专家角色，使LLM输出结构化且可用于后续交易模型的输入。[page::0]

2.4 交易算法模块

2.4.1 基础强化学习方法

采用经典PPO算法，其优势在于通过概率比率剪切技术保障策略更新稳定性（详见公式）。

- 引入CVaR-PPO（Ying et al., 2022）增加风险约束，通过对下尾损失部分的惩罚，降低尾部极端亏损概率，增强风险敏感性[page::1].

2.4.2 LLM信号注入机制

LLM推荐分数$Sf$用于调节交易动作：

- 对正向建议，买入力度强化（$Sf>1$），对负向建议和卖出动作则减弱或放缓动作（$Sf<1$）。
- 设计细节（例如分数为5且动作买入时，$Sf=1.1$）保证调整幅度较小，避免策略不稳定。[page::1]

LLM风险分数$Rf$用于调整收益函数：

- 对不同风险等级赋予近1的权重调整，用以修正轨迹收益，反映新闻驱动的风险水平，组合加权得汇总风险分数用于CVaR优化。[page::1]

2.4.3 贡献性亮点

该设计巧妙结合了文本信息的特征提取与传统价量数据驱动的RL框架，实现策略层面的动态风险调整和建议强化，是典型的多模态融合尝试。

2.5 结果分析（含图表与性能指标）

2.5.1 训练周期及数据配置

根据培训持续时间分为短期（3年训练+1年交易）和长期（6年训练+3年交易）[page::2].

2.5.2 图表及模型表现解读

图1：500k训练步，3年训练，1年交易[page::2]

显示PPO及CPPO与LLM（Qwen 2.5）信号注入后累计收益曲线。

- PPO-LLM改进策略提升了回报率，表现稳定提升于纯PPO，然未超越纳斯达克100指数基准。

CPPO表现较弱，或因风险惩罚导致回报受限。

图2：400k训练步，6年训练，3年交易[page::2]

更长训练期提升策略表现。PPO及CPPO修正策略收益率提高，但波动性仍大其中PPO波动性明显。

- DeepSeek V3稍优于Llama 3.3。

LLM信号注入在此次测试中加剧绩效恶化，表明单纯信号引入对模型优化效果受训练数据长度配置影响明显。

图3：200万训练步(100 epochs)[page::2]

PPO为整体表现最好，尤其是在牛市阶段。

- 表格数据展示四模型在信息比率（IR）、Conditional Value at Risk（CVaR）、Rachev Ratio上的量化绩效对比。PPO拥有正向IR，CVaR和Rachev Ratio表现均较优，LLM注入模型及CPPO均表现一般。

这表明无风险调整的PPO对回报最大化更有效，CPPO及LLM未能有效提升风险回报比。

图4：第二次运行（冗余验证）[page::3]

与图3趋势类似，PPO主导牛市收益，CPPO-Llama与PPO接近，CPPO-DeepSeek在熊市表现突出。

图5 & 表2：LLM调整强度对PPO的影响[page::3]

LLM注入强度从10%降至0.1%，强注入反而削弱PPO绩效，尤其在10%水平明显恶化。

- 极小注入仍未能有效提升IR或Rachev Ratio。

图6 & 表3：LLM调整强度对CPPO的影响[page::3]

与PPO相反，CPPO的表现随着LLM注入强度增强而提升，10%强注入版本IR转正且累计收益领先。

- 这表明风险敏感策略更能从LLM新闻风险信号中获益。

2.6 结论与未来方向

本研究模型成功将LLM推荐及风险信号融合至RL交易系统，提升了风险调控下的交易表现。

- LLM信号纯交易调节不稳定，风险调整后（CPPO）优势明显。

指出当前实践中的训练记忆消耗大，长时间训练对硬件要求高。

- 未来改进方向包括优化内存/计算效率、缩短决策时间尺度，以及提升新闻信号质量以捕捉市场快速反应。

代码和数据公开，利于后续验证与改进。[page::3]

---

3. 图表深度解读

3.1 图1 — 500k训练步，下属三年训练、一年交易

描述： 曲线包括四个PPO及CPPO组合，分别带无LLM和Qwen 2.5 LLM信号，较纳斯达克100指数基准的表现。横轴为2023年月度，纵轴累计收益。

- 解读趋势： 基础PPO与PPO-Qwen相比，LLM信号使得回报更平稳上涨，区别尤在下半年加速拉升；CPPO版本则表现较弱，累计收益明显低于基准。

文本联系： 证实LLM信号可以通过增强交易动作带来增益，但不保超基准。

- 局限性： 时间较短，可能未充分捕捉风险管理效益。[page::2]

3.2 图2 — 400k训练步，六年训练、三年交易

描述： 六年历史训练，有多个组合包括DeepSeek V3和Llama 3.3作为LLM。

- 解读： PPO和CPPO总体趋势向上，LLM版表现反常下滑，DeepSeek优于Llama。PPO波动剧烈但在2021年之前表现优异，之后跌幅明显。

联系论点： 长时训练提升传统RL稳定性，但LLM整合有效性复杂，表现不稳定。

- 局限： 训练周期跨度大，模型对宏观事件敏感导致结果不一，需要考虑市场结构变化影响。[page::2]

3.3 图3 — 200万训练步后（100 epochs）

描述： 长训练期后，多模型与基准累积收益对比，强调PPO优势。

- 解读： PPO曲线远超均线，CPPO和LLM-增强版本紧随其后，但LLM注入未显提升。

配套表格： 信息比率（IR）PPO最高0.01，LLM注入模型部分负值。

- 评论： 过度风险惩罚可能限制收益；LLM信号调节需更精细以避免对策略负面影响。[page::2]

3.4 图4 — 第二次运行验证

结构与图3基本一致，验证了牛市PPO表现优良，熊市CPPO表现更佳，支持“风险调节策略更适合震荡或下跌市场”这一论断。[page::3]

3.5 图5 — LLM注入强度对PPO影响

描述： 对比不同LLM注入比例（10%，1%，0.1%）的PPO累计收益。

- 趋势： 注入越强性能越差，0.1%较10%更优，但未超原生PPO。

伴随表格数据说明信息比率等指标下降趋势明显。

- 解读： 说明纯交易动作调整型LLM信号干扰原生PPO稳定性，参数调校难度高。[page::3]

3.6 图6 — LLM注入强度对CPPO影响

描述： 对比CPPO同一注入比例下收益曲线。

- 趋势： 10%注入版本回报提升最明显，甚至超越基准。

数据支持： IR从负转正，显示风险调整与LLM风险评分结合有效提高风险回报比。

- 评论： 这强调风险敏感算法对新闻风险信号更具适应力。

局限： 具体的风险权重参数对性能敏感，进一步调优仍是必要。[page::3]

---

4. 估值分析

本报告无传统意义上的财务估值（如公司估值、盈利预测等），其估值分析等同于通过信息比率（Information Ratio, IR）、CVaR、Rachev Ratio揭示RL交易策略风险调整后收益表现。

信息比率(IR): 描述单位风险获得的超额收益，越高越好。

- CVaR: 测量极端风险损失平均值，越负风险越高。

Rachev Ratio: 衡量尾部风险下收益与损失的平衡，越高越优。

报告中这些指标被用作策略性能的量化衡量，没有具体财务现金流贴现模型等估值工具。[page::2,3]

---

5. 风险因素评估

报告明确的风险因素体现在：

风险管理的缺失或不足，是传统RL策略的弱点，CVaR-PPO结合风险控制可缓解。

- LLM信号质量与可靠性风险，误导性推荐和风险评分可能降低模型效能，尤其在训练样本代表性不足时。

模型稳定性与训练资源限制，大规模长时间训练对RAM需求极高（从16GB到128GB），硬件资源限制将影响模型迭代和部署。

- 市场环境变化风险，不同市场阶段（牛市、熊市、危机时期）模型表现不同，策略可能面临适用性转变。

LLM注入的参数敏感度问题，过强或过弱的信号扰动均会降低性能，反映出调参复杂性和不确定性。

缓解策略方面，报告提出了利用风险敏感算法（CPPO）、优化运行效率和改进新闻信号质量三条未来路径以降低上述风险。[page::3]

---

6. 审慎视角与细微差别

报告主张LLM结合风险敏感RL可改善策略，但实际效果依赖训练长度和注入方式，且对于纯交易动作调整注入（PPO-LLM），实际表现常不佳，显示方法尚不成熟。

- LLM风险分数的设计创新但相对简化，未深入探讨更多维度风险影响，可能限制模型风险测度的精准度。

训练过程中硬件资源大消耗实为瓶颈，实际生产应用难度被低估。

- 实验结果部分（尤其不同模型与市场阶段表现）表明模型随机性较大，也暗示策略对时间窗口和市场周期高度敏感，存在过拟合风险。

LLM和RL结合方式较为基础，仅以简单Scaler调整交易动作，未来可深化特征融合和策略网络设计。

- 文章在评价LLM贡献时相对谨慎，未过度夸大成果，体现了适度客观立场。[page::0-3]

---

7. 结论性综合

该报告深入探讨了结合大规模语言模型（LLM）与风险敏感强化学习算法（CPPO）在股票自动交易中的应用创新。通过使用FNSPID覆盖数千万条金融新闻，设计专业的交易与风险提示Prompt，成功提取了新的多维度交易信号。

交易动作的LLM推荐信号可微调买卖权重，但纯粹靠此调节对PPO强化学习标准模型的提升有限甚至削弱性能。

- 引入LLM风险评估分数，结合CVaR风险控制框架的CPPO算法，能够更有效地降低下行风险，在熊市及不稳定期展现更稳定的收益表现，并在某些情境下超越纳斯达克100基准。

性能指标方面，PPO本身表现稳健，CPPO加LLM风险注入提升了风险调整回报（IR从负转正），显示风险管理的重要性。

- 长训练周期显著提升模型学习效果，但高昂的内存需求成为未来大规模应用的关键瓶颈。

LLM注入强度的“适度”是提高性能的关键，过大扰动会影响模型稳定性。

- 本文提供的丰富图表详细呈现了不同模型、不同时长及不同LLM注入强度下的收益和风险表现，全面支撑结论。

未来研究期待优化计算资源利用率、加快决策时间尺度及提高新闻信号的准确性和深度特征应用。

综上，FinRL-DeepSeek开创性地将文本金融信息深度融合于风险敏感强化学习交易策略，验证了LLM在量化交易风控领域的潜力，为今后混合智能交易系统奠定理论与实践的基础。[page::0,1,2,3]

---

总结： 本文立足于算法交易前沿，结合最新的LLM技术和风险评估方法，在实验验证的基础上提出了一个多元风险信号与强化学习交叉融合的交易框架。尽管目前还存在挑战与不确定性，但展示了该方向广阔的应用前景和研究价值。

FinRL-DeepSeek: LLM-Infused Risk-Sensitive Reinforcement Learning for Trading Agents

摘要

速读内容

深度阅读

FinRL-DeepSeek: LLM-Infused Risk-Sensitive Reinforcement Learning for Trading Agents — 详尽全面分析报告

1. 元数据与报告概览

2. 逐节深度解读

2.1 摘要与引言

2.2 相关工作

2.3 数据与LLM提示语设计

2.4 交易算法模块

2.4.1 基础强化学习方法

2.4.2 LLM信号注入机制