机器学习所涉及的内容实在是太多了,于是我决定挑个软柿子捏起,从最基础的一个优化算法开始聊起。这个算法就是梯度下降法,英文Gradient Descent。
作为大众耳熟能详的优化算法,梯度下降法受到的关注不要太多。梯度下降法极易理解,但凡学过一点数学的童鞋都知道,梯度方向表示了函数增长速度最快的方向,那么和它相反的方向就是函数减少速度最快的方向了。对于机器学习模型优化的问题,当我们需要求解最小值的时候,朝着梯度下降的方向走,就能找到最优值了。
那么具体来说梯度下降的算法怎么实现呢?我们先来一个最简单的梯度下降算法,最简单的梯度下降算法由两个函数,三个变量组成:
更新时间:2023-06-14 03:02
《机器学习》从零开始学 系列学习笔记 是聚宽社区用户 混沌 在聚宽社区分享的个人学习笔记,内容详实,对机器学习爱好者和新手相信有相当的借鉴与学习价值。ps:他本人并非高校师生或科研人员,而是一名电工,但工作之余仍自学量化交易、机器学习等"新潮"科技,其学习精神令人敬佩。orz
文&研究 | 混沌
所谓“从零开始”面向的对象其实仅指我本人。也就是我的学习笔记。
欢迎指出错误,我会改正的。但不要质疑我的学习路径,毕竟主要是写给我自己看的。
本系列笔记主要是理论学习(计划3个月完成)。
我力图:当前关注主题上的Python代码不使用机器学习算法包,而非当前关注主题上**可能会使用*
更新时间:2023-06-14 03:02
在本文中,我将介绍机器学习中关于异常检测的算法。
因为知乎中对于markdown的支持太差了,本文不在知乎直接排版,所以阅读体验不是很好,若想获得更好的阅读体验,请点击下文链接进行阅读。
[异常检测chrer.com ](https://link.zhihu.com/?target=http%3A//chrer.com/2018/07/27/%25E5%25BC%2582%25E5%25B8
更新时间:2023-06-14 03:02
\
更新时间:2023-06-14 03:02
机器学习量化交易策略的制定,是通过从海量历史数据中,利用计算机强大的处理能力,挖掘并分析出那些能够为投资者带来收益的各种大概率可行的投资方式来实现的。通过数学模型对这些策略进行分析并加以验证,以期望让投资者获得更高更稳定的收益,或更合理地规避风险。
长短期记忆模型通过记忆单元有效地学习长期依赖关系,在金融市场预测中具有明显优势长短期记忆网络是人工神经网络的一种,具有负责计算时间序列中各个观测值之间依赖性的能力,同时具有快速适应趋势中急剧变化的固有能力。所以,长短期记忆模型可以在波动的时间序列中很好地工作。在处理股
更新时间:2023-06-13 06:53
更新时间:2023-06-13 06:53
报告摘要:条件随机场模型及股市择时思路自1988年,西蒙斯成立了大奖章基金并在多次股灾中取得稳定的收益后,纯技术量化型的投资策略开始受到投资者的广泛关注,而机器学习正是这种技术量化型策略的中坚力量。目前使用较为成熟的模型之一是隐马尔可夫模型HMM,其与条件随机场是一对“生成判别对”。相比起HMM,条件随机场具有更加灵活等优点。事实上,条件随机场(Conditional Random Field,CRF)是描述给定一组输入随机变量条件下另一组输出变量的条件概率分布的模型。基于条件随机场,我们可以建立观测指标值和走势状态及走势状态与走势状态之间复杂的函数依赖关系,从而,当给定新的观测
更新时间:2023-06-13 06:53
传统因子表现不佳,因子择时大显身手在历史上表现良好的规模、反转和流动性因子在17年以来都出现了明显的回撤,导致主流多因子选股策略表现欠佳。在这样的大背景下,如何把握Alpha因子的风格轮动,选择最有效的风格因子,成为重要的研究课题。
基于机器学习的因子择时框架本报告选择常见的7个风格因子,通过机器学习方法,基于历史数据提炼因子风格轮动的规律,将因子IC历史信息、宏观经济变量、市场变量等信息作为特征,采用性能优良的XGBoost模型对因子未来的IC进行预测,来衡量不同风格因子未来选股的有效性。在因子配权时,赋予预期表现好的因子更高的权重,而减小预期表现不佳的因子的权重。
基
更新时间:2023-06-13 06:53
\
更新时间:2023-06-13 06:50
目前,机器学习、深度学习的日益发展,其在语音、图像、自然语言处理上均取得了很大的突破和贡献
近年来,人们对深度学习方法在图上的扩展越来越感兴趣。在多方因素的成功推动下,研究人员借鉴了卷积网络、循环网络和深度自动编码器的思想,定义和设计了用于专门处理图数据的神经网络结构 – GNN
A Gentle Introduction to Graph Neural Networks(from Google Research)
**[A Comprehens
更新时间:2023-06-07 08:32
本报告导读:机器学习寻找的是适宜交易异象的稳定周期频率,并不是寻找特定参数组下的高收益曲线(即参数过拟合)。
目前获取战胜基准指数的主要途径是从多因子模型角度来考虑的,其本质上都是通过股票间的横向比较来获取超额收益,这也是我们提出T0系列策略的初衷,希望将==个股择时与多因子模型结合==起来,给投资者带来更多思路。
深度学习在图像处理领域更加成熟,其类似于一种图像降维技术,通过提取图像中的特征值对类似图像进行匹配。本文通过深度学习的方法对参数组及胜率的多维空间进行降维,并对其分布形态进行评估,从而确定模型泛化能力。
自2015年5月至2019年5月,相对上证50指数(股票采
更新时间:2023-06-01 14:28
历史背景
长时间来,学界及业界开发了包括日内估计、GARCH、连续时间模型等近200-300种描述及预测波动率的模型。从交易信号到算法策略,这些模型为许多量化组合提供了极为重要的参考。
预测波动率的重要性
波动率模型为建立交易信号、算法策略、量化组合的分配都提供了重要参考。
波动率预测的难点
对于金融市场上不同类的资产,仅仅一类模型将很难给出一个有效的预测。我们需要对不同的资产标的针对性地使用不同种类的波动率模型来得到可靠的结果。
人工选择合适的模型是一个非常复杂且低效的方法。通过监督性学习算法,我们可以自动化这一过程。同时,通过对一些指标的监
更新时间:2023-06-01 14:28
中高频机器学习再出发
区别于传统的主观规则交易,机器学习模型可以挖掘出更多的非线性模式。我们设计的集合分类回归策略采用XGBoost机器学习模型,并使用集合学习对机器学习模型进行融合来预测日内涨幅。
日内涨幅影响因子
我们共挖掘出15个因子:隔夜涨幅,集合竞价阶段第一阶段涨幅,集合竞价阶段成交金额占比,第一阶段委比变化,第二阶段委比变化,第二阶段涨停和第二阶段持续上行与日内涨幅有正向影响;集合竞价阶段第二阶段涨幅,集合竞价阶段成交金额占当天总成交金额的比例,第一阶段涨停,第二阶段的委买一价,委卖一价均值的平均值,第二阶段的委买一价,委卖一价均值的最大值,第二
更新时间:2023-06-01 14:28
从高频到低频
机器学习在高频量化策略上应用更加容易
从线性到非线性
机器学习下的非线性比线性更能榨取数据的价值,但也更容易过度拟合,因此需要合理使用
从单次分析到推进分析
推进分析更加符合实盘状态下盘后更新模型的实际情况
从分类到回归
回归经常能优于简单的分成两类
预测值相关
好的预测值不一定带来好的交易信号
[/wiki/static/upload/92/925cb7dc-1b8c-46db-aed5-54ccb355b557.pdf](/wiki/static/upload/92/925cb7dc-1b
更新时间:2023-06-01 14:28
作为“猎金系列二十一”,我们研究雪球网负面情绪指标在择时方面的效用。研究的时间窗为2014年1月至2018年2月底,期间雪球网共计有万左右的帖子,涵盖425万用户的行为。通过机器学习的方式对帖子进行情绪判断,进一步构建周度情绪择时因子,并用该因子对主流指数进行择时,效果显著。构建相应指数的周度负面情绪比因子,观察当前负面情绪比因子与过去一年历史三分位数的位置关系,如果当前负面情绪比因子下穿历史上三分位点或者下三分位点(分别对应两种策略),那么满仓操作,否则空仓操作。
对上证50指数、中证100指数、沪深300指数、中证500指数、中证800指数、国证1000指数分别进行择时,时
更新时间:2023-06-01 14:28
在某个时点上的股票的横截面市值基本上都可以被公司的财务指标和市场因素所解释,也就是说市值解释模型依据了市场上股票的情况,给出了每个公司当期投资者认为的内生市场价值,而解释模型的残差部分,也就是当前市值和内生市值的差,代表了不可解释的部分。残差值越大,代表公司当前的市值向上偏离内生市值越多,那么公司的市值越倾向于回复到其内生市值,也就是说公司股价下跌的可能性越大,反之亦然,特异市值(残差值)是一个相对估值指标,因子值较小的股票在未来表现更好。
我们用线性模型构建了特异市值指标,发现虽然因子表现较好,但是增量信息不明显,究其原因是因为线性的方法没有办法解释市值与财务指标
更新时间:2023-06-01 14:28
在系列前期报告中,我们从不同角度探寻了分钟成交数据、TICK盘口委托数据以及逐笔数据中所包含的选股能力。研究结果表明,高频数据中包含着较为显著的选股能力。即使在剔除了常规低频因子的影响后,高频因子依旧具有显著的选股能力。考虑到系列前期报告在研究构建高频因子时,大多仅使用某一类高频数据进行因子构建,并未将相关数据搭配使用。本文从逻辑以及机器学习两个角度出发,尝试将不同类别的高频数据混合使用并构建低频选股因子。
买入意愿与主动买入的结合。总结前期研究成果可知,委托挂单数据中包含了投资者还未释放的交易意愿,而逐笔成交数据中包含了投资者已进行的交易行为。两者的结合能够更加全面地刻画投资
更新时间:2023-06-01 14:28
在历史上表现良好的规模、反转和流动性因子在17年以来都出现了明显的回撤,导致主流多因子选股策略表现欠佳。在这样的大背景下,如何把握Alpha因子的风格轮动,选择最有效的风格因子,成为重要的研究课题。
本报告选择常见的7个风格因子,通过机器学习方法,基于历史数据提炼因子风格轮动的规律,将因子IC历史信息、宏观经济变量、市场变量等信息作为特征,采用性能优良的XGBoost模型对因子未来的IC进行预测,来衡量不同风格因子未来选股的有效性。在因子配权时,赋予预期表现好的因子更高的权重,而减小预期表现不佳
更新时间:2023-06-01 14:28
基于IC、IR的单因子分析是传统多因子分析的基石。但是IC、IR分析出却不能考虑到多因子模型中因子与因子之间的相互影响。因此我们以之前报告介绍的标准神经网络回归为例,用另类线性归因对因子进行了分析
所有线性归因都是基于因子单调性(线性)的强假设。但是在机器学习的非线性世界中,这个强假设不复存在。非线性的机器学习算法需要非线性的归因方式
所有的传统归因方式都是基于相关性的而非因果性。因果分析也是机器学习未来的一个重点。我们以TMLE为例介绍机器学习下的因果
更新时间:2023-06-01 14:28
我有一个深度学习策略,我在主函数中添加了跟踪止损的逻辑没有什么用。因为某只股票达到止损条件会卖出,但是第二天机器学习策略根据算法又会将这只股票买入。所以止损策略不能发挥作用啊。请问各位高手有无办法解决?
更新时间:2023-06-01 02:13
ZScoreNorm标准化后输出全为空值?
https://bigquant.com/experimentshare/e91b4eed4f534753a3692800f33a4737
\
更新时间:2023-06-01 02:13
如何做分钟周期的标注
在Meetup10月15日有讲分钟数据标注的,你看一下:BigQuant AI量化专家Meetup(更新至12月03日) 4
https://bigquant.com/experimentshare/58f8eb3f17fe4114bcd49557ceb1902a
\
更新时间:2023-06-01 02:13
\
更新时间:2023-05-23 02:47
AI量化策略中如何选择合适的因子
https://www.bilibili.com/video/BV1J24y1f7mJ/?spm_id_from=333.999.0.0
{{membership}}
[/wiki/static/upload/42/4267409e-a9f4-42db-bb79-1321ba5e4c59.pdf](/wiki/static/upload/42/4267409e-a9f4
更新时间:2023-05-06 07:23
作者:shen1
简介:鼠、虎、主升浪等三个系列策略作者,已实现1+量化策略实盘
今年8月份,市场整体行情较差,沪指跌了1.77%,深证指数跌了4.82%,创业板指跌了3.75%,虽然沪指跌幅较低,但市场上的个股跌幅较大。于是提出猜想:是否能找到比较抗跌的策略,使其在市场下行的时候,回撤较小?
策略的特点:在大盘下跌时,策略相对大盘比较抗跌,策略回撤相对小。
策略的目标市场:中小板(波动率高,活跃度高,流动率高,做出alpha可能性高;且在反转时,上涨的幅度较大)
2个技术指
更新时间:2023-05-06 07:08