本文旨在复现方正证券的金融工程类研报,通过构建高频因子让大家学习股票分钟数据的使用。原始研报贴在文章的最后附录部分。
在股票市场中,成交量的边际变化隐含着非常重要的信息,特别是在技术分析领域,成交量被认为是股票市场的原动力。俗语“量在价先”深刻的反应了成交量的变化对于股票价格波动的预测具有指示性作用。
以利好信息为例,当一个利好信息公布后,可能会引起相应个股成交量的突然放大。如果在成交量激增的同时,价格却未发生变动,或者未能引起价格的波动,则表明这一利好消息没能得到市场广泛的认可。相反,如果成交量激增的同时,价格出现大幅上涨,则表明市场对于此利好信息反应过于趋同,
更新时间:2024-09-11 10:27
指标类型 | 指标名称 | 指标逻辑 |
---|---|---|
宽度 | 盘口价差 | 使用日内tick级别数据计算买一价与卖一价的价差再除以买一价和卖一价的算数平均值。其基本逻辑是买一卖一的价差越大,其市场宽度越大,流动性越差,和流动性为负相关;将该指标的日内高频值取标准差以体现该指标在当日均匀程度,和流动性为负相关; |
弹性 | 弹性 | 使用日内tick级别数据计算每个tick最高价与最低价的差再除以换手率的值,反映了当日价格弹性。其基本逻辑是当最高价与最低价价差越大时,股价整体弹性越大,流动性越弱。当换手率越高时,整体弹性越小,流动性越强。以日内所有tic |
更新时间:2024-08-27 06:08
更新时间:2024-06-07 10:55
非线性模型对低频因子组合(比如分析师、财务因子)和对高频因子组合(量价)训练或构造上有哪些需要注意的区别?
财务因子大部分是月频数据或者是季度数据,
在处理数据时,把财务因子和日频的量价因子进行merge然后向上填充。
通过模型选出来的股票我们一般是进行日频换仓。
如果只使用财务数据,又不填充为日频,最好是把标签也改为月频,进行选股调仓周期也对应因子的频率。
但是,这样做可能会导致数据量减少,训练出来的模型过拟合风险增加。
[https://www.bilibili.com/video/BV1XS4y1h7N
更新时间:2024-06-07 10:55
https://www.bilibili.com/video/BV1p14y1K7mp/
![{w:90}{w:100}{w:100}](/wiki/api/attachments.redirect?id=c07884e1-08b3-4073-9bf2-9ebca5efc0
更新时间:2024-06-07 10:55
您好, 新版的模拟交易中高频因子提取出错, 在编辑器里面是正常运行的...
File module2/common/modulemanagerv2.py:88, in biglearning.module2.common.modulemanagerv2.BigQuantModuleVersion.call() 88 89 File module2/common/moduleinvoker.py:370, in biglearning.module2.common.moduleinvoker.module_invoke() 90 91 File module2/common/modu
更新时间:2024-05-30 08:11
更新时间:2024-05-27 07:39
在前期报告中,我们从交易逻辑出发,使用分钟、tick以及逐笔数据构建了一系列高频因子,在2019年5月发布周报样本外跟踪以来,取得了优异稳定的表现。
在本篇报告中,我们将考察高频因子在不同周期和域下的表现,以及分析影响因子表现的因素。
/wiki/static/upload/2e/2e0b73a2-fb2e-44db-8e77-90dda5547b24.pdf
\
更新时间:2024-05-23 06:13
更新时间:2024-04-26 01:17
高频因子加工,本质上就是将日内的高频信息降频为日频,有些因子在降频为日频后,还要向前取移动平均,例如5日、20日
以20日移动平均为例,一个低效率的方式是,加工高频因子时,取数据就多取20天的,以一天5000只票240分钟为例,这种取数据就要取到5000 X 240 X 20 = 24,000,000 条数据
但是一个更高效的方法是,加工高频因子时,只取一天的数据,高频因子加工好后村一个临时表,之后在临时表中计算20日滚动平均,这样的话,取数据就只需 5000 X 240 X 1 + 5000 X 20 = 1,300,000,效率有很大提高
我们以分钟交易量方差,再取20日移动平均为例
更新时间:2024-04-25 07:37
本文档,我们会总结一些典型的高频因子,加工方式为“多只票,一天”
这种因子通常是加工时有截面运算的需求,所以必须获取全市场股票的信息
提示:加工高频因子最好将资源开大,否则Kernel容易崩溃
1. 交易量截面百分比排序的方差、偏度、峰度
2. 交易量截面百分比排序方差偏度峰度的市值与行业中性化
\
{{membership}}
[https://bigquant.com/codeshare/9097b8fb-6f8d-4eed-87ee-20695f88ce39](https://bigquant.com/codeshare/9097b
更新时间:2024-04-25 07:36
本文档,我们会总结一些典型的高频因子,加工方式为“一只票,多天”
这种因子的加工时通常不需要截面运算,因此不需要获取其他股票的信息
提示:加工高频因子最好将资源开大,否则Kernel容易崩溃
\
更新时间:2024-04-25 07:36
最近读到中金量化多因子系列中提到一些高频因子,比如50分钟K线最高与最低价相关系数平方的均值、成交量最高50根K线成交量收益率动量等等,那么根据分钟行情数据构建出来的话,应该是计算出多行的数据,那么对于我们量化爱好者来说,做因子测试的话是利用这些日内多行的数据吗?还是需要做降频处理到每日只取一行数据?之前听万老师讲课听过一般会对高频因子做降频处理,这样处理数据算力负担不会太大。所以有些疑惑,一、想确认下刚才所讲的这两个高频因子是需要取多行数据还是可以降频处理?二、如果可以做降频处理,那么采用什么方式处理比较好?比如取它们均值还是什么?
更新时间:2024-03-26 12:56
更新时间:2023-10-29 04:10
更新时间:2023-10-09 07:10
更新时间:2023-10-09 02:53
20210322-长江证券-基础因子研究(十七):高频因子(十一),高频数据的微观划分.pdf
[/wiki/static/upload/04/040703f9-7b3e-4b99-aaeb-98f5d4215274.pdf](/wiki/st
更新时间:2023-06-13 06:53
在本报告中,我们将继续探讨逐笔成交数据的Alpha潜力,报告内容包含两部分:第1部分,从分钟单笔成交金额的分布特征、时序特征、反转效应三个维度出发,提炼有效的价量因子;第2部分,测试因子在主要宽基指数和行业赛道上的选股效果。
分钟单笔成交金额的分布包含更加细化的选股信息,从单笔成交金额的分组统计结果来看,其信息分布并不是均匀的,我们基于这一现象捕捉Alpha,构造了一系列统计指标因子,如分位数、标准差、偏度和峰度。以分位数因子为例:
(1)因子表现:Rank IC为-0.072,Rank ICIR达到3.57,具备稳定有效的选股能力
更新时间:2023-06-01 14:28
20210606-长江证券-基础因子研究(十八):高频因子(十二)日内与日间
[/wiki/static/upload/af/af7aa295-f53d-4442-ade7-93f5ffa05799.pdf](/wiki/static/upload/af/af7
更新时间:2023-06-01 14:28
在系列专题报告《选股因子系列研究(五十六)——买卖单数据中的Alpha》、《选股因子系列研究(五十七)——基于主动买入行为的选股因子》、《选股因子系列研究(五十八)——知情交易与主买主卖》中,我们从不同的角度对于逐笔成交数据中的信息进行了挖掘,并得到了一些具有显著选股能力的因子。本文旨在对于筛选得到的有效因子进行梳理。
逐笔因子在正交后具有显著的全市场月度选股能力。因子月均IC在0.03~0.04之间。正交后的各逐笔因子皆呈现出了较强的稳定性。除了买单集中度之外,其余因子年化ICIR皆超过2.0。
指数范围会对因子选股能力产生影响。在中证800指数内,大买成交金额占比、盘中
更新时间:2023-06-01 14:28
在前期报告中,我们从交易逻辑出发,使用分钟、tick以及逐笔数据构建了一系列高频因子。在本篇报告中,我们将考察因子在不同周期和域下的表现,以及分析影响因子表现的因素。
高频因子计算方法
我们基于交易逻辑和投资者行为构建了高频偏度、下行波动占比、改进反转、尾盘成交占比、量价相关性、平均单笔流出金额占比、大单推动涨幅、成交委托相关性以及收盘前成交委托相关性等高频因子。因子计算方法相对统一:使用每日日内信息计算得到指标,取指标N日均值或累计值作为因子值。
月频调仓下的因子表现
在全市场中,绝大多数因子月均多空收益差在1.5%以上,rank IC均值在7%以上,其
更新时间:2023-06-01 14:28
在前期发布的行业轮动专题报告中,我们对于有效的行业轮动因子进行了总结,部分基本面因子存在较好的行业轮动能力。然而,对于技术类行业轮动因子,我们并未得到较好的结果。
本文从高频数据的角度出发,借鉴因子选股报告中的高频因子构建行业高频因子,并对于相关因子的行业轮动能力进行了回测。本文主要分为四部分,第一部分介绍了相关因子的逻辑以及计算方法,第二部分对于各高频因子的月度行业轮动能力进行了回测分析,第三部分变换了模型参数,对于相关因子的行业轮动能力进行了敏感性测试,第四部分展示了2017年以来相关因子所选出的多头行业。
可参考高频数据类选股因子构建高频数据类行业轮动因子。考虑到使用日
更新时间:2023-06-01 14:28
系列报告以量价数据为主构建高频因子高频因子的构建方式划分为三大类:单维度单层次,即仅使用量或价维度中的单一数据;多维度单层次,即综合量、价维度中各自的单一数据;多维度多层次,即综合量、价维度中多个数据。本文从单维度单层次的角度,测试了收益率、成交量两个维度,一阶矩到四阶矩的因子表现。
高阶矩因子的本质为“反常”高阶矩因子收益来源于个股交易中存在的“反常”,这种“反常”又可以分为两大类:过度反应逻辑,价格被高估并在之后回归到价值附近,以收益率均值类因子、收益率标准差类因子、成交量偏度类因子为代表;交易异常逻辑,多空博弈激烈的个股收益不确定性较强,以收益率偏度类因子、收益率峰度类因
更新时间:2023-06-01 14:28
高频因子研究框架
高频因子需要考虑的核心问题在信息增量,除此之外,因子表现的细节问题,如行为交易逻辑、收益来源,也需要从特定角度进行考虑。研究方法以线性模型为基础,从因子统计和因子回测两个方面出发,给出统计意义和选股表现上最直接的展示。
以个股日度成交额为锚,改进流动性溢价参数
本文以个股日度成交额为锚,对流动性溢价因子中的交易金额给出改进,并将溢价估计频率提高至2分钟频率,可以提供信息上的增量。Fama-MacBeth回归t值为1.98,因子IC为8.10%,IC_IR为53.59%,相比全市场等权基准年化超额收益7.24%,净值曲线排列完全呈现线性;完全
更新时间:2023-06-01 14:28
多因子系列报告之五中,我们已对集合竞价阶段的成交量占比做了详尽的解析,集合竞价成交量占比因子也具有突出的选股效果。本篇报告将分时研究成交量占比,继续挖掘日内高频数据中的有效选股因子。
股票分时成交量呈现周期性日内模式。国外股票市场的日内成交量普遍呈“U”型周期变化,即成交量在开盘和收盘阶段比其他交易时段更高,我国股市因存在午间休市,因此在下午开盘时成交量一般会存在一个小高峰,构成一个“W ”型。对股票日内的成交量分时研究,W的三个峰值前后时点的成交量值得重点关注。
不同时段成交量占比因子有效性差异明显。以5分钟为划分频率,分时研究日内49个时段的成交量占比因子,在上午10:0
更新时间:2023-06-01 14:28