Optimizing Portfolio with Two-Sided Transactions and Lending: A Reinforcement Learning Framework
创建于 更新于
摘要
本报告提出一种基于强化学习的加密资产组合管理模型,通过引入双向交易与借贷机制及基于盈亏的奖励函数,显著提升了模型在高风险环境下的收敛性和风险管理能力。实验结果显示,该模型在波动剧烈的加密货币市场实现了超越传统回报型RL和多种经典单期优化模型的收益与风险表现,尤其在高波动期获得了更优的收益风险比和下行风险控制效果,验证了其动态多周期资本优化的有效性 [page::0][page::8][page::14][page::15][page::17]。
速读内容
- 采用强化学习中的软行为者评论家(SAC)算法,结合卷积神经网络和多头自注意力机制(CNN-MHA),提升特征提取和时序数据处理能力 [page::0][page::6][page::7]。

- 环境设计包括对12种加密货币的永续合约投资组合,使用USDT作为基础资产,同时实现了借贷功能,允许负权重及双向交易,增强策略空间 [page::0][page::8]。
- 新型奖励函数基于盈亏(PnL),同时加入交易成本与损失惩罚项,有效控制频繁交易带来的成本及下行风险,惩罚系数设为25以体现投资者风险厌恶程度 [page::8][page::9][page::13]。
- 交易频率为每4小时一次,环境状态基于最近48小时的历史开高低收价构建,数据经归一化和加噪声处理以增强模型对市场噪声的适应能力 [page::5][page::6][page::13]。
- 采用三种经典单期组合优化模型(MV、MAD、CVaR)及基于回报的强化学习作为基准进行对比 [page::9][page::10][page::13]。
- 实证测试分为两个16个月周期:高波动期(Port A)和低波动期(Port B),分别使用12个月训练和4个月测试数据,结果见下图和表格 [page::10][page::11][page::13][page::14][page::15]。


| 模型 | 总收益(%) Port A | 夏普比率 | Sortino比率 | 最大回撤(%) | 总收益(%) Port B | 夏普比率 | Sortino比率 | 最大回撤(%) |
|--------------|------------------|----------|-------------|-------------|------------------|----------|-------------|-------------|
| MV | -26.98 | -1.49 | 0.51 | 28.55 | -1.32 | -0.18 | 0.46 | 11.41 |
| MAD | -27.60 | -1.52 | 0.52 | 29.34 | -3.91 | -0.39 | 0.46 | 11.74 |
| CVaR | -24.89 | -1.33 | 0.52 | 27.68 | -5.33 | -0.52 | 0.42 | 11.54 |
| RL (基准) | 33.57 | 1.02 | 1.12 | 30.86 | 20.38 | 1.37 | 0.31 | 9.96 |
| 本文提出RL模型 | 575.59 | 10.47| 3.03 | 65.52 | 145.63 | 3.56 | 1.19 | 18.37 |
- 我们的模型在两个市场周期均显著超越其它模型,尤其高波动期总收益达到575%,回报显著,且Sortino和Calmar比率表明其下行风险管控出色。
- 尽管最大回撤较大,表明策略仍承受波动影响,但高收益完全弥补该风险,表现出良好的风险收益平衡[page::14][page::15]。
- 模型在收益分布上表现为右偏,利润峰值较突出,下行损失分布接近正态,对比基准模型回报型RL和MV等呈现左偏及厚尾损失特征,表明更有效的风险控制与利润捕获 [page::16]。


- 本文方法突破单期模型预设,动态调整权重,兼顾未来价差不确定性,集成负权重及借贷,提升投资组合灵活性与盈利潜力,特别适用于高波动的加密货币市场 [page::1][page::17]。
深度阅读
金融研究报告详尽分析报告
报告标题与元数据
标题: Optimizing Portfolio with Two-Sided Transactions and Lending: A Reinforcement Learning Framework
作者: Ali Habibnia, Mahdi Soltanzadeh
所属机构: Virginia Tech经济系、Tehran Institute for Advanced Studies经济与金融系
发布时间: 未明示具体发布日期,但文中引用至2024年文献,显为近期研究
主题: 针对金融投资组合管理问题,特别是在高风险多变市场环境中的资产组合优化,采用强化学习(Reinforcement Learning, RL)算法并结合两面交易与借贷机制进行创新研究,应用于加密货币期货市场。
---
1. 报告概览与核心论点
本报告提出了一种基于强化学习的投资组合管理模型,重点针对高风险波动环境下的投资组合优化。该模型创新地引入了“两面交易(买卖双向)”和借贷机制,结合更合理的环境状态定义和以盈亏(PnL)为基础的奖励函数,提升强化学习代理在下行风险控制及资金利用效率上的表现。具体使用Soft Actor-Critic(SAC)算法联动卷积神经网络(CNN)与多头注意力机制(Multi-Head Attention, MHA)架构,实现对12种加密货币资产的管理。模型以币安永续合约市场为实验场景,数据视窗选取前48小时行情,每4小时执行资产配置调整。通过两段16个月不同波动率时期测试表明,该模型在高波动市场中收益风险比显著优于多种基准模型,验证了其在加密货币等极端市场环境中对风险和利润的有效管理能力。[page::0] [page::1] [page::2]
---
2. 报告逐节深度解读
2.1 引言与背景(第1-2页)
报告从金融市场日益复杂、多元、全球化且高度非平稳的特性入手,阐述传统单周期或简单多周期投资组合模型在现实市场中的局限性。指出传统机器学习多依赖价格趋势预测,但学术证据显示趋势预测并不必然改善组合表现,引入无模型强化学习有望统一预测与仓位调整流程,实现综合性能最优。
强化学习核心框架定义了环境状态为历史资产数据,动作为空间中组合权重重配,奖励为盈亏利润的函数。现有研究虽取得进展,但很少利用金融市场新兴制度(如同时双边买卖、借贷)可能带来的策略优势。引入新特性易使模型训练不收敛或陷入局部最优,本文通过环境重构和基于盈利亏损的奖励函数,采用SAC算法强化学习,辅以CNN-MHA神经网络构架,突破了此类限制,达成改进的下行风险管理与资本利用效率。
SAC算法特点在于最大化奖励与行为熵并重,增加策略多样性,帮助模型适应多变不确定市场;MHA机制则通过自注意力处理序列数据,提升长期依赖关系识别能力,优于传统RNN或LSTM。
此外,选用加密货币期货市场实验,因其24小时连续交易、去中心化、低手续费、安全性高及尾部风险特征明显,成为测试强化学习策略在极端市场环境中的理想场景。[page::1] [page::2]
2.2 文献综述(第2-4页)
投资组合优化分为单期(SPPO)与多期(MPPO)两大类。SPPO静态优化,依赖历史数据且假设较多,难以适应多阶段、长期决策;MPPO利用动态规划、随机规划或强化学习,为多步调仓提供理论依据与工具,但算法复杂且实际约束如交易成本带来挑战。
强化学习模型应用历史可追溯至20世纪90年代末,经历从Q-learning向基于策略梯度的更复杂算法演进,尤其结合神经网络后赋能深度强化学习。当前RL模型关注代理定义(策略函数与学习法)、环境构造、动作空间设计、状态表示及奖励函数制定等要素持续优化。
文献指出现有研究多忽略负权重及借贷问题,因为涉及更大风险与更复杂建模需求。主流多在标准环境、经典奖励函数下优化学习算法,少有针对双向交易与借贷复杂度的环境重设计。[page::2] [page::3] [page::4]
2.3 方法论(第5-9页)
2.3.1 强化学习框架
定义状态空间S、动作空间A、即时奖励R、状态转移概率P和折扣因子γ。代理目标为寻求策略π使累计折扣奖励最大化。环境与代理形成闭环,观察状态、动作选择、奖励反馈。
2.3.2 数据预处理
为应对金融时间序列非平稳及价格尺度差异,将原始OHLC四维数据归一化,转换为时序张量输入神经网络。加入噪声增强鲁棒性,帮助模型适应市场噪声。
2.3.3 SAC代理结构
使用SAC算法设定策略网络(actor)输出正态分布参数,采用采样策略选动作,训练时兼顾最大化奖励和熵。价值网络(critic)评估状态动作价值,指导策略梯度更新。神经网路架构由两层卷积层(64与128过滤器)提取特征,接多头注意力层聚焦关键序列信息,后续全连接层进一步映射动作分布参数和价值估计。激活函数采用LeakyReLU,多层学习率因子(LRF)设计加速训练收敛。
2.3.4 环境与奖励函数设计
代理采取的动作为权重向量\(W_t\),含资产权重和借贷权重,动作空间开放至[-1,1],允许空头(负权重)和借贷操作。借贷正权重代表放贷,负权重代表借款。交易存在固定手续费,但借贷仅计息无手续费。定义交易成本和利息成本计算方式;组合价值按历史仓位调整及资产收益率更新。
奖励为收益扣除损失和交易成本的惩罚项,惩罚系数调节投资者风险偏好,强调模型应积极规避亏损及控制交易频率。
2.3.5 假设条件
假设完全流动性,市场中性(交易不影响价格),且无贷款担保品要求,简化模型计算。
2.3.6 基线模型
选用以往经典SPPO模型(均值-方差(MV)、平均绝对偏差(MAD)、条件VaR(CVaR))及RL基于收益回报奖励的模型作为对比,反映现有各流派性能表现。[page::5] [page::6] [page::7] [page::8] [page::9] [page::10]
2.4 实证与结果分析(第10-16页)
2.4.1 实验环境设定
选取币安永续合约市场12种主流加密资产,采用USDT为基准单位,纳入借贷交易。实验分为两段:
- 2021.5 - 2022.9:高波动期(Port A)
- 2022.6 - 2023.10:低波动期(Port B)
训练12个月,测试4个月,数据为4小时频次重采样,历史视窗48小时。
资产单项投资增值曲线(图3、4)展示加密币多样表现,训练阶段价格波动明显,测试阶段趋势显著分化。表1虽乱码,但推测为4小时收益分布统计。环境与SAC超参数(表2与3)精调确定,交易手续费0.05%,借贷年利率分别为3%(出借)与5%(借入),交易频率4小时以平衡交易成本与利润。惩罚系数设为25,强调高风险规避。
2.4.2 模型测试结果
图5、6显示模型与基准系统测试累计资本变化情况。具体来看:
- 本文模型(RL(Ours))高波动期总收益超过575%,在低波动期收益也达145%,远超其他模型。
- 传统SPPO模型MV、MAD、CVaR均净亏损,RL基于收益奖励模型收益正但显著低于本文模型。
- 交易成本高于其他模型,但得益于显著收益,综合表现优异。
表4量化对比多维指标包括总回报率、胜率、平均回报、标准差、夏普比率、下行偏差、索提诺比率、最大回撤及卡尔马比率。观察:
- 本文模型在夏普、索提诺、卡尔马比率上均明显领先,尤其索提诺和卡尔马比率大幅优于夏普,强调其对下行风险管理效果优越。
- 胜率各模型相近(约49%-53%),表明准确率相似,差异主要来自动态优化资产权重管理。
- 传统模型受限于静态历史权重计算,难以适应市场波动,局限显著。
图7、8显示测试期间模型策略的权重与资产收益乘积分布:
- 本文模型表现右偏收益分布,峰度适中,亏损部分瘦尾,盈利部分重尾,表明模型能更好利用盈利机会同时控制亏损风险。
- 对比基准模型亏损多呈负偏且峰度低,反映其风险控制不足。[page::10] [page::11] [page::13] [page::14] [page::15] [page::16]
---
3. 图表深度解读
3.1 图 1 (第5页)——强化学习架构图
展示了RL系统中“代理-环境”循环
- 代理接收环境状态(市场数据与组合信息),输出动作(组合权重调整)
- 环境根据动作计算新的组合收益和奖励,反馈给代理
此示意图明确了本研究中的交互思路,为设计奖励函数与状态空间奠定基础。
3.2 图 2 (第7页)——SAC网络架构
清晰阐述代理中的动作网络(actor)与价值网络(critic)结构
- 初期均用卷积层提取时序信号特征
- 中间加入多头注意力层,提升对关键时间点和资产间重点依赖捕捉效率
- 全连接层实现高维映射,输出策略动作分布均值及方差(动作采样)及价值估计
此设计有助于处理多资产、非线性、复杂时序信息,提升学习稳定性与决策质量。
3.3 图 3 & 4 (第11页)——训练测试阶段资产增值曲线
- 图3(Port A,高波动期)显示训练阶段多数资产经历大幅波动,测试阶段价值得到不同程度保持,下跌显著
- 图4(Port B,低波动期)资产波动整体平缓,且训练与测试价位趋势相对稳定
从图中可以观察到研究选取的两个市场环境特征,为模型验证创造条件。
3.4 表 2 & 3 (第13页)——环境与SAC超参数
- 环境4小时调仓频次,48小时历史窗,惩罚系数25,突出风险敏感性。
- SAC学习率、折扣等参数合理设置,保证模型训练收敛和泛化能力。
3.5 图 5 & 6 (第14页)——测试资本曲线
- 图5 (Port A) 本文模型线显著高于其他模型,收益率在8千美元上方
- 图6 (Port B) 虽收益幅度较小,但本文模型亦明显优于均等权重和传统模型
这两张图直观体现本文模型在不同波动率市场的超越性能。
3.6 表 4 (第15页)——关键绩效指标比较
| 指标 | Port A本文模型 | Port A最佳基准 | Port B本文模型 | Port B最佳基准 |
|--------------------|----------------|--------------|---------------|--------------|
| 总收益率 | 575.6% | 33.6% (RL ret)| 145.6% | 20.4% (RL ret)|
| 胜率 | 52.8% | 49.3% | 51.7% | 49.5% |
| 夏普比率 | 4.18 | 1.67 | 1.82 | 0.54 |
| 索提诺比率 | 3.03 | 1.12 | 1.19 | 0.31 |
| 最大回撤 | 65.5% | 30.9% | 18.4% | 9.96% |
| 卡尔马比率 | 18.1 | 1.50 | 9.51 | 2.01 |
此表显示,尽管最大回撤较高,但收益提升使得风险调整后指标大幅超越基准,体现优秀的下行风险管理。
3.7 图 7 & 8 (第16页)——权重×收益分布直方图
- 本文模型盈利分布呈右偏,亏损波动小,峰度较低,表明收益稳定且收益潜力较高
- 基准模型多表现为左偏亏损重尾,风险不可控
反映出论文模型权重动态优化有效在波动市场中规避风险、捕获收益。
---
4. 估值分析
本报告聚焦于算法性能及策略效果,并未直接涉及传统意义上的公司估值或资产估价。模型估值体现在通过收益回报、风险调整比率的指标体系,对不同模型组合方案进行性能优劣评估。使用的投资组合价值演化可视为隐式估值过程,借助盈亏评估与奖励函数反向传递优化策略。
---
5. 风险因素评估
报告假设市场中性和完全流动性,未考虑交易延迟和价格冲击风险,理论上可能在高频或极端压力行情触发偏差。无担保贷款假设存在现实执行上的监管及信用风险,实际应用须审慎。模型增添双向交易及借贷虽提升收益机会,但引入较高杠杆风险,交易成本累计亦不要忽视。惩罚参数设置强化下行风险规控,但仍有潜在极端风险亟需后续研究深化对冲机制。
---
6. 批判性视角与细微差别
- 报告中表面看交易成本较低(0.05%)且仓位调整频率4小时能兼顾成本与利得,但实际加密市场交易拥堵与滑点可能更复杂。
- 模型充分依赖数据质量和历史表现,尽管用CNN+MHA处理序列,但仍有限预测能力,对于极端黑天鹅事件响应能力未知。
- 借贷利率差设定适度,强制无担保,缺少对信用风险和杠杆限制细节讨论,实际应用面临监管合规问题。
- 设计了PnL为奖励函数替代传统收益函数,有效促进训练收敛,但实际收益变现受限于市场流动和执行力。
- 基准模型对比侧重传统优化与简单RL,缺少更多现代深度RL竞争模型对比。强化学习独特贡献突出但行业应用仍处探索阶段。
---
7. 结论性综合
本报告详细展示了一个创新性的强化学习投资组合管理模型,利用两面交易和借贷功能,结合基于盈亏的奖励设计与先进的深度学习架构,在复杂多变的加密货币市场环境中取得显著超越传统SPPO及常规RL模型的表现。
文章贡献点包括:
- 环境重新设计:将负仓位和借贷引入动作空间,扩展模型操作自由度,同时设计费用及利息计算机制,真实反映市场操作成本。
- PnL奖励函数创新:驱动训练收敛并强化下行风险敏感,提升组合风险调整后表现。
- 深度神经网络联合多头注意力机制:提高时间序列特征提取及长时依赖学习能力。
- 实证分析分高低波动两个时段,验证模型鲁棒性与盈利能力,尤其高波动市场表现出色。
- 比较多维风险收益指标,体现模型有效平衡收益和风险,管理下行风险优于传统模型。
模型不仅适合高度不确定和波动市场的投资需求,也为运用现代深度强化学习结合市场实务特性提供范式。未来研究方向可拓展更多实际交易限制、实时执行风险及不同资产类别融合,多样化资产流动性及杠杆风险管理。
综上,本文所提模型为投资者在复杂市场中寻求高回报与风险控制的先进工具,具有重要理论与应用价值。[page::0] [page::1] [page::2] [page::5] [page::6] [page::10] [page::13] [page::14] [page::15] [page::16] [page::17]
---
附:关键图表示例(Markdown格式)
- 图1:强化学习架构示意图

- 图2:SAC代理网络架构

- 图5:测试期Port A资产组合表现曲线

- 图7:Port A组合权重×收益分布及拟合正态曲线

---
以上为本研究报告的深度全面解析,涵盖论点、方法、实证与图标等核心内容,体现了强化学习在现代资产管理中应对高波动风险的创新能力。