【华泰金工】人工智能59：强化学习初探与DQN择时

由kaemp创建，最终由kaemp更新于2022-08-02 02:59 被浏览 100 用户

摘要

人工智能系列之59：强化学习初探与DQN择时

本文介绍强化学习基础概念和经典算法，并构建股指日频择时策略。有别于传统监督学习对真实标签的拟合，强化学习不存在标准答案，而是针对长期目标的试错学习。其核心思想是个体通过与环境交互，从反馈的奖励信号中进行学习，数学上使用马尔可夫决策过程刻画。本文围绕基于价值的方法和基于策略的方法两个方向，依次介绍蒙特卡洛、时序差分、Sarsa、Q学习、DQN、策略梯度、REINFORCE、演员-评委算法。使用DQN构建上证指数择时策略，原始超参数样本外2017年至2022年6月年化超额收益率18.2%，夏普比率1.31，年均调仓42.0次，优化后策略表现进一步提升。

强化学习的核心思想是智能体通过与环境的交互，从反馈信号中进行学习

强化学习的核心思想是智能体通过与环境的交互，从反馈信号中进行学习。智能体首先观察环境的状态，采取某种动作，该动作对环境造成影响。随后，环境下一刻的状态和该动作产生的奖励将反馈给智能体。智能体的目标是尽可能多地从环境中获取总奖励。总奖励不是下一时刻的即时奖励，而是未来每个时刻奖励的“折现”之和。强化学习的结果是某种动作选择规则，称为策略，主要采用迭代方式训练。

马尔可夫决策过程是强化学习的数学基础

马尔可夫决策过程是强化学习的数学基础。马尔可夫决策过程从马尔可夫过程、马尔可夫奖励过程出发，在状态空间、状态转移矩阵基础上，相继引入奖励函数、折扣因子、动作空间而来。状态价值函数v(s)代表状态s未来总回报的期望，动作价值函数q(s,a)代表状态s下采取动作a未来总回报的期望，可以借助贝尔曼方程求解。贝尔曼期望方程是线性方程，可以通过解析方法求解任意策略的v(s)和q(s,a)。贝尔曼最优方程是非线性方程，需要通过迭代方法求解最优策略的v*(s)和q*(s,a)。

强化学习分为基于价值的方法和基于策略的方法

强化学习分为基于价值的方法和基于策略的方法。基于价值的方法先估计动作价值函数，称为策略评估，再采用贪心策略选择动作价值最高的动作，称为策略改进。根据策略评估方法不同，分为蒙特卡洛方法和时序差分方法。时序差分方法分为同轨策略Sarsa和离轨策略Q学习。Q学习引入神经网络、经验回放、目标网络等改进得到DQN。基于策略的方法直接拟合策略函数，基础是策略梯度算法，根据动作价值函数计算方法不同，分为REINFORCE和演员-评委算法。

采用DQN构建股指日频多头择时策略

采用DQN构建股指日频多头择时策略。状态定义为回看区间内的行情数据，动作分为做多、平多、持有三种，奖励定义为预测区间内多头或空头收益。基于训练集数据训练DQN模型，多组随机数种子合成信号，基于测试集进行日频调仓回测。以上证指数为择时标的，2007至2016年为训练集，2017至2022年6月为测试集，交易费率单边0.5‰，原始超参数测试集年化超额收益率18.2%，夏普比率1.31，年均调仓42.0次。考察折扣因子、回放内存、回看区间、预测区间等超参数影响，优化后择时策略表现进一步提升。

正文

/wiki/static/upload/92/92f456f1-a4a3-4d67-9033-c13913a5ec26.pdf

【华泰金工】人工智能59：强化学习初探与DQN择时

摘 要

正 文

标签

摘要

正文