【收藏】量化投资分析中常见量化投资数据源

用户成长系列
标签: #<Tag:0x00007f73ef81e470>

(小马哥) #1

什么是金融信息?

金融信息是影响金融投资行为和金融市场发展的信息,具有可度量、可处理、可存储性质,具有海量、有效性、传染性、对资产价格产生影响等特点。

金融信息的重要性

  • 量化投资成功三要素“质量、经验、运气”,量化投资对于数据的高质量要求首当其冲。

  • 数据决定了量化投资各个环节-市场、标的、策略、语言……

  • 量化投资三部曲-数据准备(50%),策略编写(30%),策略调优(20%)。

金融信息分类

  • 按照形式分类 :数字形式和文本形式。

  • 按来源分类 :政府机构、公司公告、机构和媒体信息。

  • 按内容分类:宏观经济信息、行业信息、公司信息、技术面信息、行为偏差信息、高频数据信息、金融衍生信息。

常见量化投资数据源

在金融量化投资领域,数据是人们研究金融现象的纽带和通道。策略开发人员往往先应用历史数据对策略进行历史回验,策略调整至有效后进行实盘交易。

接下来,依据上图,我们从基本面数据源,历史高频数据源,实时数据源,数据提取方法和数据提供商等五方面展开介绍。

1. 基本面数据源

基本面数据包括宏观、行业、公司、股票、基金等9大类数据。

image

  • 基本面数据主要用于择时、选股等策略构建。

  • 择时策略包括趋势追踪策略、反转策略和市场情绪等。

  • 选股策略包括多因子策略、风格轮动策略和行业轮动策略等等。

  • 配置策略包括套期保值策略和期现套利策略等。

1.1 宏观数据

宏观数据体现了一个国家经济发展的现状。 任何策略只要资产存在风险暴露,则必然要考虑金融市场行情和宏观因素的影响。

image

  • 牛市偏向成长类股票。

  • 熊市偏向资产保值类股票。

1.2 行业数据

image

行业数据代表中观市场情况

  • 牛市行情时选用强劲的周期性行业,代表:有色金属、钢铁、化工等。

  • 熊市行情时选用风险防御能力较强的非周期性行业,代表:医药行业、公用事业行业等。

  • 主题类投资策略和事件驱动类投资策略, 如战争时期人们会偏向相关行业如军工股、造船和机械等,科技繁荣时会偏向互联网、电子等。

  • 风格轮动效应,不同市场发展阶段往往呈现个别行业发展的相对优势。

1.3 公司数据

上市公司策略研究大多集中于从公司的财务指标或因子进行研究分析,如:多因子选股策略需要财务数据源。

公司行情数据一般可分为:基本面因子、技术因子、事件因子及分析师预测因子

  • 基本面因子:包括有公司财务方面的数据,如规模因子、估值因子、成长因子、盈利因子和偿债能力因子。

  • 技术因子:包括上市公司的一些交易指标,如1月动量因子,EMA,换手率和资金流量等,由于本节主要介绍上市公司财务数据,因此不详细介绍技术因子方面的数据。

  • 行为因子:需要研究消化公司的及时信息并将其转化为量化投资的信号。

  • 分析师预测因子:表征为市场情绪指标,情绪具有催化剂的作用,对于股市尤其如此。

1.4 股票数据

股票是量化投资常用品种。股票投资策略一般包括:风格轮动策略、行业轮动策略、资金流策略、动量反转策略和趋势跟踪策略等。

  • 风格轮动策略: 根据市场/个人的发展阶段以及呈现出的风格特征进行选股买卖;

  • 行业轮动: 根据不同市场周期特征选择行业进行投资;

  • 资金流策略: 根据市场的资金流向进行选股配置;

  • 动量反转趋势跟踪策略: 根据股价的回复或趋势特征进行套利。

image

1.5 基金数据

基金有广义狭义之分,人们平常说的基金主要是指证券投资基金。

基金一般可反映金融市场环境情况,如市场从业人口中的基金88魔咒是指公募基金整体仓位到达百分之88的高位时,往往大盘就会见顶回落。

image

1.6 债券数据

债券作为一种相对风险较低的品种,适合于风险规避型的投资者。

策略方法:采用债券品种进行套利,如不同到期债券之间的套利,同一公司债券股票之间的套利,可转债与股票之间的套利。

image

1.7 期货数据

期货数据可见下图:

image

期货的投资策略可分为:

  1. 单一品种策略

  2. 混合品种策略

  • 单一品种策略:趋势跟踪、动态反转和跨期套利等。

  • 跨市场策略:商品期货与现货之间的基差套利等。

  • 跨品种策略:相似品种特征的商品期货合约配对。

1.8 指数数据

image

指数数据反映其编制对象的总体情况。如:沪深300反映沪深市场的市场行情;农林牧渔行业指数反映农林牧渔行业的总体试产行情。

  • 被动型基金:利用成分股按权重复制指数以获得市场平均收益率;

  • 积极性基金:在成分股组成的股票池进行资产配置,以获得超过市场平均水平的收益。

1.9 衍生数据

image

衍生数据可以提高金融市场投资者策略构建能力、策略绩效评估及风险控制水平,能够反映和预测盈利能力。

量化投资研究常用的衍生数据库包括:量化因子仓库风控因子数据库

2. 历史高频数据源

历史高频数据即指日内的数据,主要针对以小时、分钟或秒为采集频率的数据,常见历史高频数据字段如下图所示:

image

3. 实时数据源

3.1 证券交易所

image

3.2 交易及行情数据技术

交易及行情数据处理技术有三种协议:FIX协议,STEP协议,FAST协议

FIX协议:1993年建立的金融信息交换协议(Fix, Financial Information Exchange)实现了证券市场参与主体间信息实时互换,适用于实时证券金融电子交易开发的数据通信标准。以show2003技术为代表,通过dbf文件实现交换,每6秒发布一次快照,包括5档价格。

缺点:接口单一、扩展困难,冗余度高,带宽需求大,发布Level1行情。

STEP协议:我国证券交易所于2007年7月基于FIX协议建议的新一代"证券交易数据交换协议",该协议不仅将目前证券市场上使用的操作指令和通知用标准的格式描述出来,而且完全与国际流行的FIX兼容。

优点:发布Level2行情,速度提升3-6秒以上。

FAST协议: 克服了FIX协议传输市场数据冗余度高、带宽需求大的问题,采用二进制数据流交换方式,将STEP协议的28ms行情延迟提高到20ms行情延迟,此外,通过对比测试结果显示,FAST版本的带宽占用率平均为STEP版本的24.2%,发布Level2行情。

3.3 实时数据源

实时数据源包含Level1数据和Level2数据。

Level1行情属于传统行情,Level-2行情是在Level-1行情基础上设计的具有增值内容的新行情,包括十档买卖行情、总买总卖、逐笔成交明细、买卖队列。

4. 数据提取方法

主流数据提取方法主要分为:终端提取方法API提取方法两种。

终端提取方法

  • 终端包括有网页终端和软件终端,其提取方法是利用终端界面上的行业分类和字段筛选等提取相关数据,并最终导出 Excel、DBF或TXT等格式文件。

  • 我国提供终端的主流金融数据库主要有:CSMAR数据库、Wind数据库、恒生聚源数据库、锐思数据库、中国统计局数据库、巨潮数据库和巨灵。

API提取方法

  • API提取方法主要是利用MATLAB、C++、.NET、COM和Excel等软件连接数据库服务器,并通过相关函数字段提取数据库数据。

  • 我们提供API接口的数据库主要有:国泰安数据库、Wind数据库和巨灵数据库。

5. 数据提供商

image

小结

  • 目前来说,无论是基本面数据还是高频数据,依赖个人来搜集是不现实的,所以对量化投资者来说,选择一个可靠的数据提供商是进行可靠的量化投资分析的有力保障。

  • 在国外,以彭博资讯、汤姆森金融公司、路透社这”三大“为首的数据提供商都享誉全球。

  • 而目前在国内,国泰安信息技术有限公司、Wind资讯和创建巨潮数据库的深圳证券信息有限公司都是大陆领先的金融数据服务企业。


(jiangxiaoyu610) #2

请问文中所涉及的知识有没有书籍或者论文有系统地教学?求推荐^ _ ^