风格和行业因子数据 (cn_stock_factors_exposure)

数据描述: 本文档用于说明风险因子与行业因子暴露表 `factors_exposure` 的数据内容、字段含义、处理逻辑及典型使用场景。 该表以“交易日期 + 证券代码”为主键粒度,记录股票在指定日期上的风险因子暴露值与行业因子暴露值。其中: * 风险因子主要刻画股票在市值、估值、动量、波动率、流动性、盈利能力、杠杆等维度上的风险暴露; * 行业因子采用申万 2021 年行业分类标准的一级行业,使用行业哑变量形式表示股票所属行业; * 风险因子已完成极值处理与标准化处理,便于直接用于风险模型、截面回归、组合归因和风险控制等场景。

文档
数据简介

# 风险因子与行业因子暴露表说明文档 ## 1. 数据表概述 本文档用于说明风险因子与行业因子暴露表 `factors_exposure` 的数据内容、字段含义、处理逻辑及典型使用场景。 该表以“交易日期 + 证券代码”为主键粒度,记录股票在指定日期上的风险因子暴露值与行业因子暴露值。其中: - 风险因子主要刻画股票在市值、估值、动量、波动率、流动性、盈利能力、杠杆等维度上的风险暴露; - 行业因子采用申万 2021 年行业分类标准的一级行业,使用行业哑变量形式表示股票所属行业; - 风险因子已完成极值处理与标准化处理,便于直接用于风险模型、截面回归、组合归因和风险控制等场景。 ## 2. 数据表基本信息 | 项目 | 说明 | |---|---| | 数据表名称 | `factors_exposure` | | 数据粒度 | 日频,股票维度 | | 主键字段 | `date`、`instrument` | | 标的范围 | A 股股票,具体覆盖范围以数据平台实际返回结果为准 | | 因子类型 | 风险因子、行业因子 | | 行业分类标准 | 申万 2021 年一级行业分类 | | 数据处理方式 | 风险因子经过极值处理、标准化处理;行业因子为 0/1 哑变量 | ## 3. 字段说明 ### 3.1 基础字段 | 字段名 | 字段类型 | 字段说明 | |---|---|---| | `date` | 日期 / 时间戳 | 数据对应的交易日期 | | `instrument` | 字符串 | 证券代码 | ### 3.2 风险因子字段 | 字段名 | 中文名称 | 字段说明 | |---|---|---| | `BETA` | 贝塔 | 衡量股票相对于市场组合的系统性风险暴露 | | `SIZE` | 市值 | 衡量股票市值规模相关的风险暴露 | | `SIZENL` | 非线性市值 | 衡量市值因子的非线性风险暴露 | | `BTOP` | 账面市值比 | 衡量账面价值相对于市值的估值风险暴露 | | `MOMENTUM` | 动量 | 衡量股票历史收益趋势相关的风险暴露 | | `RESVOL` | 残差波动率 | 衡量个股无法由常见风险因子解释的波动风险 | | `LIQUIDTY` | 流动性 | 衡量股票交易活跃度、换手或流动性相关风险暴露 | | `EARNYILD` | 盈利能力 | 衡量公司盈利水平相关的风险暴露 | | `GROWTH` | 成长 | 衡量公司成长性相关的风险暴露 | | `LEVERAGE` | 杠杆 | 衡量公司财务杠杆相关的风险暴露 | > 注:风险因子字段已完成极值处理和标准化处理。一般情况下,可直接用于横截面回归、因子风险暴露分析、组合风险分解等模型计算。 ### 3.3 行业因子字段 行业因子采用 0/1 哑变量形式表示股票是否属于某一申万 2021 一级行业: - 取值为 `1`:表示该股票属于对应行业; - 取值为 `0`:表示该股票不属于对应行业。 | 字段名 | 行业名称 | 字段说明 | |---|---|---| | `AGRIFOREST` | 农林牧渔 | 是否属于农林牧渔行业 | | `COAL` | 煤炭 | 是否属于煤炭行业 | | `PETRO` | 石油石化 | 是否属于石油石化行业 | | `CHEM` | 基础化工 | 是否属于基础化工行业 | | `IRONSTEEL` | 钢铁 | 是否属于钢铁行业 | | `NONFERMETAL` | 有色金属 | 是否属于有色金属行业 | | `ELECTRONICS` | 电子 | 是否属于电子行业 | | `HOUSEAPP` | 家用电器 | 是否属于家用电器行业 | | `FOODBEVER` | 食品饮料 | 是否属于食品饮料行业 | | `TEXTILE` | 纺织服饰 | 是否属于纺织服饰行业 | | `LIGHTINDUS` | 轻工制造 | 是否属于轻工制造行业 | | `HEALTH` | 医药生物 | 是否属于医药生物行业 | | `UTILITIES` | 公用事业 | 是否属于公用事业行业 | | `TRANSPORTATION` | 交通运输 | 是否属于交通运输行业 | | `REALESTATE` | 房地产 | 是否属于房地产行业 | | `COMMETRADE` | 商贸零售 | 是否属于商贸零售行业 | | `LEISERVICE` | 社会服务 | 是否属于社会服务行业 | | `CONGLOMERATES` | 综合 | 是否属于综合行业 | | `CONMAT` | 建筑材料 | 是否属于建筑材料行业 | | `BUILDDECO` | 建筑装饰 | 是否属于建筑装饰行业 | | `ELECEQP` | 电力设备 | 是否属于电力设备行业 | | `AERODEF` | 国防军工 | 是否属于国防军工行业 | | `COMPUTER` | 计算机 | 是否属于计算机行业 | | `MEDIA` | 传媒 | 是否属于传媒行业 | | `TELECOM` | 通信 | 是否属于通信行业 | | `BANK` | 银行 | 是否属于银行行业 | | `NONBANKFINAN` | 非银金融 | 是否属于非银金融行业 | | `AUTO` | 汽车 | 是否属于汽车行业 | | `MACHIEQUIP` | 机械设备 | 是否属于机械设备行业 | | `ENVP` | 环保 | 是否属于环保行业 | | `BEAUTY` | 美容护理 | 是否属于美容护理行业 | ## 4. 数据处理逻辑 ### 4.1 风险因子处理 风险因子在入表前已完成以下处理: #### 4.1.1 极值处理 为降低异常值对模型估计结果的影响,对原始风险因子值进行了极值处理。该步骤通常用于限制极端观测值的影响,使因子分布更加稳健。 极值处理后,因子值仍保留截面排序信息,但极端异常值对后续回归、风险估计和组合优化的影响会被削弱。 #### 4.1.2 标准化处理 极值处理后,对风险因子进行标准化处理,使不同风险因子之间具有更好的可比性。 标准化后的风险因子通常具有如下特点: - 不同因子的量纲被统一; - 因子暴露值可直接用于多因子模型; - 有利于进行横截面回归、风险归因和组合优化; - 降低因子取值尺度差异对模型结果的影响。 ### 4.2 行业因子处理 行业因子按照申万 2021 年一级行业分类生成。 每只股票在每个交易日通常只对应一个一级行业,因此在行业哑变量字段中: - 所属行业字段取值为 `1`; - 其他行业字段取值为 `0`。 行业因子常用于控制行业风险,避免模型结果受到行业分布差异的干扰。 ## 5. 数据使用场景 ### 5.1 风险模型构建 该表可作为股票多因子风险模型的基础输入数据,用于刻画个股在不同风险维度上的暴露情况。 常见模型形式包括: ```text 股票收益 = 风险因子暴露 × 因子收益 + 行业因子暴露 × 行业收益 + 残差收益 ``` ### 5.2 横截面回归 在进行每日横截面回归时,可将风险因子和行业因子作为解释变量,用于估计: - 风险因子收益; - 行业因子收益; - 个股特异收益; - 残差风险。 ### 5.3 组合风险控制 在组合构建和优化过程中,可使用该表约束组合相对于基准的风险暴露,例如: - 控制组合市值暴露; - 控制组合行业偏离; - 控制动量、波动率、流动性等风格偏离; - 降低组合对单一风险因子的集中暴露。 ### 5.4 业绩归因分析 该表可用于分析投资组合收益来源,将组合收益拆分为: - 风格因子贡献; - 行业因子贡献; - 个股选择贡献; - 残差收益贡献。 ### 5.5 因子研究与策略回测 在因子研究中,该表可用于: - 对目标因子进行风险中性化; - 进行行业中性化处理; - 控制常见风格风险; - 构建更稳健的多因子选股模型。 ## 6. 使用注意事项 ### 6.1 注意行业字段口径 行业因子采用申万 2021 年一级行业分类。若字段英文名与历史行业名称存在差异,应以当前数据口径中的行业含义为准。 例如: - `CHEM` 可对应基础化工; - `COMMETRADE` 可对应商贸零售; - `LEISERVICE` 可对应社会服务; - `ELECEQP` 可对应电力设备。 ### 6.2 注意日期对齐 使用该表时,应确保因子暴露日期与收益率日期正确对齐。 通常情况下: - 使用 `T` 日因子暴露解释或预测 `T+1` 日收益; - 避免在回测中使用未来数据; - 与行情、财务、行业分类等数据合并时,应统一交易日口径。 ### 6.3 注意缺失值处理 部分股票在部分日期可能存在因子缺失。使用前建议检查: - 是否存在停牌股票; - 是否存在上市初期数据不足; - 是否存在财务数据缺失; - 是否存在行业分类缺失。 常见处理方式包括: - 删除缺失样本; - 使用行业均值填充; - 使用全市场均值填充; - 在模型中单独处理缺失值。 ### 6.4 因子方向 每个因子的因子方向不完全一样,有的为正,例如盈利因子、成长因子。有的为负,例如市值因子,开发策略时需要注意。 ## 7. 示例用途 ### 7.1 查询某日股票风险暴露 ```sql SELECT date, instrument, BETA, SIZE, MOMENTUM, RESVOL, LIQUIDTY FROM factors_exposure WHERE date = '2024-01-02'; ``` ### 7.2 查询某只股票的历史风险暴露 ```sql SELECT date, instrument, BETA, SIZE, BTOP, MOMENTUM, RESVOL FROM factors_exposure WHERE instrument = '000001.SZ' ORDER BY date; ``` ### 7.3 获取行业哑变量 ```sql SELECT date, instrument, BANK, NONBANKFINAN, ELECTRONICS, COMPUTER, FOODBEVER FROM factors_exposure WHERE date = '2024-01-02'; ``` ## 8. 总结 `factors_exposure` 是一张用于刻画股票风险暴露和行业归属的数据表。该表同时包含标准化后的风险因子和基于申万 2021 一级行业分类的行业哑变量,适合用于风险模型、组合优化、行业中性化、风格归因和多因子研究等量化投资场景。 由于风险因子已完成极值处理和标准化处理,使用者可以更方便地将其接入下游建模流程。但在实际使用时,仍需注意日期对齐、缺失值处理、行业分类口径以及是否重复标准化等问题。

用例
### 查询某日股票风险暴露 ```sql SELECT date, instrument, BETA, SIZE, MOMENTUM, RESVOL, LIQUIDTY FROM factors_exposure WHERE date = '2024-01-02'; ``` ### 查询某只股票的历史风险暴露 ```sql SELECT date, instrument, BETA, SIZE, BTOP, MOMENTUM, RESVOL FROM factors_exposure WHERE instrument = '000001.SZ' ORDER BY date; ``` ### 获取行业哑变量 ```sql SELECT date, instrument, BANK, NONBANKFINAN, ELECTRONICS, COMPUTER, FOODBEVER FROM factors_exposure WHERE date = '2024-01-02'; ```
表结构
字段 字段类型 字段描述
AUTO TINYINT -
BANK TINYINT -
BETA DOUBLE -
BTOP DOUBLE -
CHEM TINYINT -
COAL TINYINT -
ENVP TINYINT -
SIZE DOUBLE -
MEDIA TINYINT -
PETRO TINYINT -
BEAUTY TINYINT -
CONMAT TINYINT -
GROWTH DOUBLE -
HEALTH TINYINT -
MINING TINYINT -
RESVOL DOUBLE -
SIZENL DOUBLE -
AERODEF TINYINT -
ELECEQP TINYINT -
TELECOM TINYINT -
TEXTILE TINYINT -
COMPUTER TINYINT -
EARNYILD DOUBLE -
HOUSEAPP TINYINT -
LEVERAGE DOUBLE -
LIQUIDTY DOUBLE -
MOMENTUM DOUBLE -
BUILDDECO TINYINT -
FOODBEVER TINYINT -
IRONSTEEL TINYINT -
UTILITIES TINYINT -
AGRIFOREST TINYINT -
COMMETRADE TINYINT -
LEISERVICE TINYINT -
LIGHTINDUS TINYINT -
MACHIEQUIP TINYINT -
REALESTATE TINYINT -
ELECTRONICS TINYINT -
NONFERMETAL TINYINT -
instrument VARCHAR -
CONGLOMERATES TINYINT -
TRANSPORTATION TINYINT -
NONBANKFINAN TINYINT -
date TIMESTAMP_NS -

表名:cn_stock_factors_exposure

起始时间:

最近更新时间: