如何利用AI 模型寻找日内最佳买卖点?
创建于 更新于
摘要
本报告基于深度学习和强化学习模型,探讨日内最佳交易时点选择对高频量化组合收益的增厚效果。研究表明传统线性因子难以捕捉有效交易信号,采用ALSTM深度学习模型结合集合竞价Level2因子,平均多空收益提升至0.26%。进一步引入SAC强化学习进行实时交易决策,信号多空收益提升至0.34%,在股票组合及宽基指数上均体现显著收益增厚,尤其午盘时段表现最佳,适合应用于股票及股指期货交易策略中 [page::0][page::3][page::6][page::9][page::13][page::15][page::16][page::18]。
速读内容
传统线性技术因子日内择时效果不显著 [page::4][page::5]
| 名称 | 含义 | IC均值 | 平均多空收益 |
|---------|------------|---------|--------------|
| MA24 | 移动平均线 | -0.013 | 0.02% |
| EMA24 | 指数移动平均| -0.011 | 0.02% |
| MA548 | 收益动量放大| -0.021 | 0.05% |
| VR | 成交量比率 | -0.098 | 0.06% |
| RSI | 相对强弱指数| 0.109 | 0.09% |
| Vol548| 成交量放大 | -0.073 | 0.05% |
| ADL | 能量潮 | -0.008 | -0.01% |
| MACD | MACD | -0.055 | 0.03% |
| Volstd12| 成交量波动率| -0.084 | 0.04% |
| ncskew | 负偏度系数 | 0.134 | 0.05% |
- 简单线性因子和事件策略的时序IC虽存在,但平均多空收益无法显著优于收盘价成交。
- 传统线性技术因子失效可能由信号拥挤、缺少集合竞价信息和数据粒度不足等因素导致。[page::5]
ALSTM深度学习模型+集合竞价因子改进显著提升交易信号表现 [page::6][page::7][page::9][page::10]


- 对每个交易时点单独训练ALSTM模型,预测五分钟后至收盘收益率。
- 原ALSTM模型信号时序IC平均为0.095,平均多空收益0.23%。
- 加入集合竞价Level2因子及弱有效技术因子后,信号时序IC提升至13.3%,多空收益提升至0.26%。
- 理论估算双边年化换手率10倍组合可提升约2.63%年化收益。[page::9][page::10]
SAC强化学习模型结合多头注意力进行实时交易决策 [page::11][page::12][page::13]

- 利用预训练深度学习模型输出状态及截面因子,输入多头注意力网络及SAC强化学习。
- SAC模型结合Actor-Critic结构及最大熵策略,鼓励策略探索以避免过拟合。
- 模型输出未来五分钟内买卖动作,实现动态调整仓位的交易决策。[page::11][page::12][page::13]
SAC强化学习策略回测表现优秀 [page::14][page::15]
| 年份 | 平均每笔多空收益 | 多空胜率 | 买入信号平均收益 | 卖出信号平均收益 |
|-----------|------------------|----------|------------------|------------------|
| 2019 | 0.34% | 68% | 0.34% | 0.34% |
| 2020 | 0.28% | 59% | 0.29% | 0.28% |
| 2021 | 0.32% | 63% | 0.30% | 0.35% |
| 2022 | 0.37% | 69% | 0.35% | 0.41% |
| 2023 | 0.33% | 61% | 0.29% | 0.35% |
| 2024/7/26 | 0.41% | 60% | 0.37% | 0.45% |
- SAC模型平均多空收益达0.34%,明显优于收盘价成交。
- 14:00-15:00时段胜率最高;中午至14:00时段信号收益最高。
- 不同宽基指数间信号胜率及收益差异不大。[page::14]
强化学习组合和指数交易信号回测 [page::15][page::16][page::17]


| 指数名称 | 信号平均多空收益 | 信号平均胜率 |
|---------|------------------|--------------|
| 沪深300 | 10.3bps | 61.3% |
| 中证500 | 10.9bps | 62.4% |
| 中证1000 | 11.8bps | 66.7% |
- 实际组合年化超额收益率提升至24.1%,较收盘价提升7.6%,较vwap提升5%。
- 指数日内信号午盘表现最佳,沪深300日内择时年均累计收益14.3%,最大回撤7.4%,胜率53.8%。
- 交易信号在实际应用中受成交价格、冲击成本等影响,理论收益可能有所折扣。[page::15][page::16][page::17]
风险提示与未来展望 [page::18][page::20]
- 量化模型基于历史数据,未来市场变化或导致模型失效。
- 实际交易面临滑点、冲击成本、成交价格不确定等现实问题。
- 未来将继续完善高频数据、模型稳定性与交易执行的相关研究。[page::18][page::20]
深度阅读
报告详尽分析——《如何利用AI模型寻找日内最佳买卖点?》
---
一、元数据与报告概览
- 报告标题:《如何利用AI模型寻找日内最佳买卖点?》
- 发布机构:民生证券研究院
- 发布时间:2024年10月25日
- 作者:叶尔乐(分析师),韵天雨(研究助理)
- 主题:本报告聚焦于利用人工智能特别是深度学习和强化学习模型,从分钟频数据出发寻找股票日内交易的最佳买卖时点,以提升投资组合的收益表现。
- 核心论点:
- 传统线性因子和简单事件型策略对日内择时的超额表现有限;
- 采用带注意力机制的LSTM(ALSTM)模型能够有效预测未来5分钟至收盘的收益,显著优于传统因子;
- 结合强化学习方法(特别是Soft Actor-Critic,SAC)可根据深度学习模型输出的预测状态进行实时交易决策,进一步提升组合收益;
- 实际应用在中证800多头组合及宽基指数中均显著提升了超额收益率;
- 评级/目标价:报告不涉及个股评级或目标价,主要为策略方法与模型创新解读。
- 作者意图:通过深入运用AI技术,尤其是深度序列模型和强化学习,提升日内交易时点的选取效率与准确性,进而为高换手策略实现显著收益增厚提供技术支持和理论依据。
---
二、逐章节深度解读
1. 分钟频因子的日内交易信号
1.1 交易时点选择的意义
- 关键论点:
- 传统以收盘价作为调仓成交价可能错失收益增厚机会;
- VWAP(成交量加权均价)较收盘价更能反映当日价格的加权表现,使用VWAP成交能带来更好收益;
- 统计数据显示,日内最低价到收盘价的平均涨幅为1.86%,日内最高价到收盘价的跌幅平均1.96%,存在较大收益空间;
- 推理依据:
- 以中证800内某元学习风控因子构建的组合为例,年化换手率约24次,利用VWAP成交年化超额收益率19.1%,而以收盘价成交仅16.5%(图2);
- 价差分布图(图1)也证实VWAP与收盘价差异虽小但存在策略意义;
- 关键数据点:
- VWAP与收盘价价差平均6个基点;
- 低价买入持有至收盘的平均收益约1.86%,高价卖出持有至收盘的平均亏损约1.96%;
- 结论:选择更合理的交易时点,改善交易价格,而非调整持仓组合,可显著提升投资组合收益率。[page::0,2,3]
---
1.2 5分钟频简单量价因子的日内择时效果
- 关键论点:
- 利用常见的10个技术指标(如MA、EMA、RSI、MACD等)处理5分钟频数据构建因子;
- 该类线性因子及其触发的事件对日内择时的超额收益有限,难以明显优于收盘价收益;
- 推理依据:
- 利用时序IC(因子值与未来收益相关系数)与平均多空收益评价因子效果;
- 表2显示所有因子IC虽存在一定显著性,但对应平均多空收益极小,最高只有0.09%;
- 结论:
- 传统线性因子受限于使用范围、信息拥挤、缺失集合竞价等重要信息及数据粒度不够细导致信号滞后,难以有效捕捉日内最优买卖时点收益机会。[page::4]
---
1.3 5分钟频简单K线事件的日内择时效果
- 关键论点:
- 除了因子阈值触发信号外,常见K线事件(如MACD金叉、布林带突破等)亦难实现显著超额收益;
- 推理依据:
- 回测4个事件型策略的平均多空收益均低于0.06%;
- 事件交易信号效果与线性因子类似,均难以显著优于收盘价;
- 潜在原因:
- 线性指标信号拥挤导致有效性下降;
- 漏掉集合竞价信息,遗漏日内价格跳空因素;
- 数据信号粒度粗,滞后高,未利用更细粒度逐笔委托数据;
- 结论:传统线性与事件因子在日内择时收益提升上受限,需探索更高级模型。[page::5]
---
2. 深度学习日内交易时点寻优
2.1 深度学习模型选择
- 关键论点:
- 选用带注意力机制的长短期记忆神经网络(ALSTM);
- LSTM克服传统RNN的长期依赖问题,适合处理长序列时间序列数据;
- 注意力机制动态加权序列各时刻信息,提升模型聚焦重点、预测准确度;
- 模型结构:
- LSTM内部通过输入门、遗忘门、输出门控制信息流动;
- ALSTM增加时间注意力层,按权重突出关键时间步特征;
- 选择理由:
- 输入序列较长(最多240个5分钟时间点)需具备记忆能力;
- 注意力机制辅助聚焦波动性较强的时段(如开盘半小时)以优化预测;
- 附图:
- 图5为LSTM结构示意;
- 图6为ALSTM结构示意详述注意力层工作原理。[page::6,7]
---
2.2 ALSTM模型预测交易时点
- 模型定义:
- 预测未来5分钟后至收盘的收益率,输入为过去最多240个5分钟频量价指标(开高低收成交量金额6维);
- 为保证预测一致性,将不同时间点(9:35至14:50)分别训练46个独立模型,对应不同长度预测窗口;
- 训练细节:
- 窗口长度逐渐缩短(从240逐步缩短至60);
- 使用过去3年数据滚动训练,样本外起始2019年;
- 训练设置包括MSE损失函数、Adam优化器、早停等;
- 结果表现:
- 时序IC均值约0.095,稳定且胜率超过60%;
- 平均多空收益达0.23%,显著优于传统线性因子;
- 说明:
- 模型精准捕捉日内5分钟后至收盘的超额收益率变动;
- 图示:
- 图7示ALSTM模型架构;
- 图9、图10展示模型时序IC及多空收益累计曲线。[page::7,8,9]
---
2.3 对ALSTM模型改进
- 问题:原始模型未纳入集合竞价信息,缺乏日内价格跳空的认知;
- 解决方案:采用当天集合竞价Level2数据构造特征,结合部分弱效技术因子,作为嵌入层加入ALSTM输入;
- 改善效果:
- 时序IC提升至约0.133,平均多空收益提升至0.263%(26.3个基点),增加约0.04 IC幅度和3bps收益;
- 理论上可帮助10倍换手的组合每年提升约2.63%收益;
- 模型结构:
- 图11展示改进后的ALSTM结构,增加横向特征嵌入层,将传统量价数据与新因子一同输入后融合预测;
- 因子列表(表4):
- 包括VR、RSI、MACD等技术因子及集合竞价主买率、成交率、趋势强度等多维度指标;
- 图12、图13为改进模型IC和多空收益图示。[page::9,10]
---
3. SAC强化学习日内交易时点寻优
3.1 SAC强化学习基础与模型结构
- 动机:
- 深度学习模型虽然有效,但基于单步预测存在局限性;
- 强化学习能进行更灵活的实时交易决策,适应高频数据特性,具备在线学习及优化策略能力;
- 方法:
- 采用Soft Actor-Critic(SAC)算法,结合策略梯度和Q学习;
- 策略网络(Actor)输出买入/卖出比例,价值网络(Critic)进行价值估计,训练策略最大化奖励函数包含超额收益减追踪误差和交易费用;
- 创新点:
- 结合Transformer结构构建策略与价值网络;
- 运用多头注意力机制融合深度学习预测状态及截面因子;
- 图示:
- 图14展现融合Transformer的强化学习结构;
- 图15展示SAC内部Actor-Critic网络设计细节;
- 图16为完整的SAC交易决策模型结构,融合ALSTM隐藏层及多头注意力机制;
- 数学模型:
- 详细介绍了损失函数、重参数采样策略及熵正则项动态调整方法;
- 输入信号:包含来自46个时点的深度学习模型隐藏态、集合竞价因子及分钟频技术因子。[page::11,12,13]
---
3.2 SAC强化学习表现
- 回测结果:
- 平均多空收益提升至0.34%,显著优于深度学习和传统因子模型;
- 买入信号和卖出信号收益均保持积极,长期(5年)胜率稳定60%以上;
- 2019、2022年表现尤为突出,表5详细展示各年收益及胜率情况;
- 分时段表现:
- 14:00-15:00时段胜率最高,午间至14:00收益最高,因上午波动大和数据粒度限制信号稍弱,仍有参考价值;
- 不同宽基指数间收益胜率差异有限,表6和表7详细展示;
- 组合回测验证:
- 选取中证800多头组合,按规则使用10:00-11:30卖出信号价和13:00-14:30买入信号价调仓;
- 结合资金限制,未信号时按收盘价处理;
- 结果显示交易信号使组合年化超额收益提升至24.1%,比收盘价提升7.6%、比VWAP提升5%(图18),收益提升显著但低于理论预期(因部分信号缺失和首信号的解释力不足);
- 股指信号预测:
- 将个股信号按权重加总到沪深300、中证500、中证1000,获得信号平均多空收益约10-12bps、胜率约61%-67%(表8);
- 按时间分布,午盘时段胜率和平均收益均较高(图19);
- 假设以午盘信号指导股指期货交易,年化可达14.3%累计收益,最大回撤7.4%,胜率53.8%(图20);
- 总结:
- SAC强化学习模型结合深度学习预测状态和多头注意力机制能有效指导日内交易时点,实现显著超额收益,且可以广泛应用于个股与指数投资策略中。[page::14,15,16,17]
---
4. 总结与思考
- 综合发现:
- 传统线性因子和事件策略对日内择时效果有限,原因包括信号拥挤、缺少集合竞价信息、数据粒度及滞后;
- ALSTM深度学习模型能显著提升预测准确率,日内择时平均多空收益约0.23%;加入集合竞价因子后提升至0.26%;
- SAC强化学习结合预训练深度模型和截面因子进行在线决策,日内多空收益达0.34%,进一步增厚收益;
- 强化学习信号已在高换手组合(如中证800多头)及宽基指数中实现显著超额收益,可应用于实践;
- 实际应用仍需考虑成交价格落实性、冲击成本、滑点等因素影响,预计该技术路线仍有提升空间;
- 风险提示:
- 量化模型基于历史数据,存在未来失效可能,市场环境变化可能影响策略有效性。
- 专业性:
- 报告详实结合前沿机器学习技术,数据驱动支持充足,框架合理,论证严谨,结论务实客观。[page::18,19,20]
---
三、图表深度解读(重点提炼)
| 图表编号 | 描述 | 关键数据与趋势 | 文字说明及支持 | 局限与注意点 |
|---------|-------|-------------------|----------------|-------------|
| 图1 | 2024年VWAP与收盘价价差分布 | 平均6基点价差,分布近似正态 | 证明VWAP与收盘价接近但存在有意义差距 | 价差虽小,需结合因子验证实效 |
| 图2 | VWAP成交与收盘价成交的收益区别 | VWAP年化超额19.1%,收盘价16.5% | 反映选择合理成交价对组合年化收益影响 | 仅限高换手组合背景 |
| 图3/4 | 日内最低价/最高价至收盘价的收益分布 | 平均涨幅1.86%,跌幅1.96% | 显示日内交易时点存在大幅增厚收益空间 | 理论价差,未实际成交 |
| 表1/表2 | 高频线性技术指标与表现 | IC稳定但收益低,指标最多0.09% | 传统线性因子难有效预测短期收益 | 数据粒度限制、忽略竞价信息 |
| 表3 | 高频K线事件多空收益 | 多空收益在0.02%-0.06%间 | 事件型信号无明显超额收益 | 市场拥挤,信号失效风险 |
| 图5/6/7 | LSTM与ALSTM模型及结构 | ALSTM含注意力机制强调关键时段 | 为后续模型性能奠定基础 | 计算复杂度较高 |
| 图9/10 | ALSTM时序IC与多空收益累积 | IC均值0.095,多空收益23bps持续稳健 | 表明深度学习模型比传统因子优越 | 需单独训练多模型 |
| 表4 | 集合竞价与技术因子列表 | 多维度竞价技术因子补充原始数据 | 融入更多日内价格跳空信息 | 量化因子计算复杂 |
| 图12/13 | 改进ALSTM时序IC及多空收益 | IC提升至0.133,收益26.3bps | 竞价因子对提升模型有效性关键 | 数据获取难度大 |
| 图14/15/16 | SAC模型结构及交易决策 | 多头注意力结合Transformer架构 | 实时交易决策框架完善 | 算法复杂,需大规模训练 |
| 图17 | SAC强化学习多空收益 | 平均34bps回报,较深度学习及传统因子高 | 进一步验证强化学习提升交易信号效力 | 实践成交价存在偏差可能 |
| 表5/6/7 | SAC模型按年及分时信号表现 | 均胜率60%以上,收益对比均优 | 14-15点段最佳,信号稳定可靠 | 不同年份市场环境差异影响 |
| 图18 | SAC策略交易信号组合收益提升 | 年化超额24.1%,较收盘价7.6%提升 | 实证深度学习+强化学习提升组合表现 | 取第一信号易降低收益 |
| 表8 | 强化学习指数信号表现 | 信号多空收益约10-12bps,胜率61%-67% | 说明日内择时信号可扩展至指数层面 | 收益受市场环境影响大 |
| 图19/20 | 指数信号规律与沪深300累计收益 | 午盘信号最高收益,年均14.3%收益率 | 指数层面择时有实现可能 | 期货平仓成本未计入 |
---
四、估值分析
本报告不涉及传统估值部分,而是侧重于策略因子的收益效果展示,特别是日内交易信号对组合收益的贡献。涉及:
- 年化超额收益率(高换手组合收益提升测算);
- 信号的时序信息比率(IC);
- 胜率指标等量化指标;
这些指标综合反映模型的预测能力与实际策略贡献,且多采用样本外回测验证,保证方法的稳健性。
---
五、风险因素评估
- 信号执行风险:实际成交价格未必与预测价格一致,冲击成本、滑点、成交延迟等影响收益实现。
- 市场拥挤风险:传统线性指标信号被广泛使用,导致有效性下降。
- 组合规模影响:大资金规模可能影响交易成本及市场冲击,导致回测收益与实际差异。
报告未详细给出具体缓解策略,仅提示模型风险与市场动态变化可能导致策略失效。[page::20]
---
六、批判性视角与细微差别
- 5分钟频数据虽较日频有进步,但仍低于逐笔委托的实时性,减少信号滞后可能提升交易时效;
- 强化学习模型结构复杂,实际交易风险与收益敏感,且模型“黑盒”难以解释;
- 报告采用固定未来5分钟后至收盘价计算收益,现实中难以保证成交价格与模型预测一致,可能导致收益缩水;
- 部分股票缺乏有效交易信号造成收益提升受限,实务中信号不足需设计补偿机制;
- 大资金、冲击成本、滑点未充分纳入,实际交易执行难度更高;
- 指数策略最大回撤7.4%,收益与回撤比仅约2:1,风险控制需加强;
- 日内交易策略未提及交易日外事件风险与持仓隔夜风险管理;
整体来看,报告基于严谨的数据分析与先进方法,方法论稳健,但实际应用挑战较多,特别是在模型复杂度、实时数据获取、以及交易成本控制层面存在隐忧。
---
七、结论性综合
本报告系统阐释了从传统线性因子、到深度学习模型、再到强化学习实时交易决策,三阶段不断深化对股票日内买卖时点优化的方法论及其实证效果。
- 通过使用高级时序模型ALSTM,结合集合竞价Level2信息及弱效技术因子,实现日内5分钟后至收盘收益的精准预测,单信号多空收益率达到0.26%,远超传统因子0.05%以下水平;
- 引入SAC强化学习机制,将预训练深度模型预测状态与多头注意力机制融合,生成动态交易策略,平均多空收益提升至0.34%,实现组合收益显著增厚;
- 高换手组合年化超额收益从收盘价16.5%提升至VWAP的19.1%,再通过强化学习交易规则提升至24.1%,净增7.6%;
- 在沪深300及其他宽基指数上的收益率表现首尾呼应,均展现一定的择时优势,年均约10bps以上的超额收益,并以沪深300指数期货模拟策略显示14.3%的年均累计收益;
- 深度学习与注意力机制有效捕捉了股票价量时序关键特征;
- 强化学习实现在线 adaptive 策略制定,增强模型适应性及泛化能力;
- 成交执行价格的实现难度及滑点/大资金影响需进一步研究;
- 逐笔委托级别数据的使用、模型对极端市场事件的鲁棒性尚待探索;
- 日内择时策略将成为高频量化基金、主动管理组合的有效补充。
综上,报告通过详实理论方法论结合丰富数据实证,充分证实了AI模型在股票日内交易时点择时领域巨大潜力和应用价值,为未来日内量化交易策略的发展提供了技术与思路指导。[page::0~19]
---
参考重要图表
- 图2清晰展示VWAP相较收盘价策略的年化超额优势;
- 图9、图12体现ALSTM模型及其改进版本的时序IC提升,量化证明了重大预测能力提升;
- 图17与图18佐证了强化学习信号显著超越收盘价及VWAP的交易信号表现,收益持续累计增长;
- 图20有力展示了基于日内择时信号构建的沪深300股指期货策略累计收益曲线,彰显实用价值。
报告兼顾理论、技术与实务,为量化投资者带来极具参考价值的AI驱动日内择时新工具。
---
以上为该报告的全面深入解读与评析,确保涵盖所有重要论断、关键数据、图表说明及其实际意义,体现了报告的专业性与前沿性。