`

构建多因子策略的工匠精神量化选股系列报告之一

创建于 更新于

摘要

本报告系统梳理多因子策略构建中的核心数据处理步骤,包括原始财务数据的时效性与可比性处理,异常值识别与修正方法,缺失值填充的多种策略对比,以及因子标准化的技术路线。通过不同股票池(沪深300、中证500及流动性1500)的构建与特征解读,保证因子研究的适用性和稳健性。报告采用多空组合法、回归法及纯因子组合检验因子有效性,并对因子衰减和调仓频率进行深入分析,强调细节把控是提高因子投资Alpha的重要保障[page::0][page::2][page::4][page::5][page::7][page::10][page::11][page::12][page::13][page::14][page::15][page::16][page::17][page::18][page::19][page::20][page::21][page::22][page::23][page::24][page::25][page::26][page::27][page::28][page::29]

速读内容


多因子策略的工匠精神与发展背景 [page::0][page::2]

  • 多因子策略趋同导致同质化,重在细节把控,实现真实Alpha。

- 现代资产定价由CAPM到APT及多因子模型演进,风险因子逐渐细化至国家、行业及风格。

原始数据处理及借壳上市样本特性分析 [page::4][page::5][page::6]


  • 两种数据更新方法回测显示采用最新财报发布时间数据效果更优。

- 借壳上市公司存在股价剧烈波动及财务数据失真,需更新上市日期并调整股票池。

股票池构造及流动性1500池稳定性分析 [page::7][page::8][page::9]




  • 沪深300、中证500及流动性1500股票池在市值及行业分布差异明显,流动性1500股票池波动较小,稳定性较好。


异常值识别方法与比较 [page::10][page::11][page::12][page::13]




  • 介绍六种异常值识别方法,MAD法异常值识别过多,推荐使用偏度调整的箱型图法平衡识别准确度与比例。

| 因子 | 3σ (%) | 百分比法 (%) | MAD (%) | BGB (%) | Boxplot (%) | 偏度调整Boxplot (%) |
|-----------|----------|-------------|----------|----------|-------------|-------------------|
| PETTM | 1.039 | 3.984 | 24.77 | 1.039 | 30.54 | 19.11 |
| PB
LF | 0.462 | 3.984 | 14.55 | 0.462 | 10.68 | 4.561 |
| PSTTM | 0.058 | 3.984 | 15.94 | 0.058 | 8.776 | 2.136 |

缺失值处理方法对比及应用建议 [page::14][page::15][page::16]




| 因子 | 市场均值填充 | 行业均值填充 | 市值均值填充 |
|-----------|--------------|--------------|--------------|
| PE
TTM | 0 | 0.11227 | 0.03930 |
| PBLF | 0 | 0.015733 | 0.14734 |
| PS
TTM | 0 | 0.11282 | 0.60041 |
  • 行业和市值均值填充普遍优于市场均值填充,实际应用应选择适合特定因子的填充方式。


因子标准化技术比较 [page::17][page::18]





  • z-score方法保持因子截面信息但影响极端值,Box-Cox对偏态数据标准化更优,但对负值不适用。


单因子检验方法与因子有效性评估 [page::19][page::20][page::21]





  • 正交化和Double-Sort均有效剔除因子相关性,正交化更适合多因子应用。

- 多空收益比例分析体现因子投资可行性。
  • 加权多空组合法比简单多空组合波动更低。


回归法与因子暴露模型对比及实证分析 [page::22][page::23]



  • 时序模型通过构造因子收益回归得到因子暴露,截面模型直接用特征回归收益率。

- 截面模型实证中表现优于时序模型。
  • 双方法优劣并存,时序模型暴露带噪声,截面模型假设线性关系。


纯因子组合的构造及回测表现 [page::24][page::25]



  • 纯因子组合使用加权最小二乘法剔除行业和市值因子影响。

- 纯因子组合波动率大幅下降,收益略逊于简单多空组合。

因子信息系数(IC)分析及因子衰减与调仓周期影响 [page::26][page::27][page::28]






  • IC值表示因子截面预测能力,绝对值越高预测效果越好。

- 不同调仓周期对因子表现影响显著,短期因子涨跌幅快速衰减,月度调仓收益显著减弱。
  • 财务类因子衰减较慢保持稳定,高频因子衰减快需高频调仓。


深度阅读

构建多因子策略的工匠精神量化选股系列报告详尽分析



1. 元数据与概览


  • 报告标题:《构建多因子策略的工匠精神量化选股系列报告之一——金融工程深度报告》

- 发布机构:民生证券研究院
  • 发布日期:2020年3月2日

- 作者:祁嫣然,民生证券金融工程首席分析师,南京大学应用统计硕士
  • 研究主题:多因子量化投资策略的细节实践及数据处理技术


核心论点及传达信息

该报告聚焦于多因子量化策略中“工匠精神”般对细节的精致处理,指出因子投资的同质化趋势背后,真正的Alpha来源于对细节的深刻理解和打磨。报告系统剖析了多因子策略从数据获取、处理、构造股票池、异常值和缺失值处理、因子检验和标准化等技术细节,完整展示了多因子投资策略的工程实施路径,旨在帮助投资者提升多因子因子的选股有效性和模型稳定性。[page::0, 2, 29]

---

2. 逐节深度解读



2.1 报告引言与多因子策略发展



报告开篇阐述了多因子策略的理论基础和演进路径,梳理了从CAPM(单因子模型)到APT再到当前广泛使用的多因子模型。体现了市场Beta、行业Beta和风格Beta构建多因子框架的思想,强调因子Alpha是不可被风险因子解释的超额收益,核心在于对Alpha的挖掘和风险理解[page::2,3]。
  • CAPM模型:单因子,以市场Beta解释资产预期收益,公式详细定义了Beta计算(协方差/方差)[page::2]

- APT模型:扩展至多因子环境,资产收益由多因子组合(因子暴露与因子收益率)解释[page::3]
  • 图1展示了CAPM与多因子模型的区别,后者将市场风险细分为国家、行业、风格三类Beta,令风险解释更充分。


结论在于,多因子模型的使用已成主流,关键在于选取和精准测度因子,从而有效区分Alpha和Beta。

---

2.2 原始数据处理



报告强调高质量数据是多因子策略的基石。详细分析了A股数据的特殊性:
  • 数据时效性:上市公司财报披露严格规定时间,需以最新可用数据(即公布真实日期)进行回测以保证信息及时性。

- 数据可比性:考虑不同公司财报发布时间的非同步性,在回测中权衡使用“最迟发布时间”确保数据横截面可比,但可能造成滞后;或使用“真实发布时间”保证时效但削弱可比性。报告回测结果显示最新数据使用方法表现更佳(图2),因此推荐采用后者[page::4,5]。
  • 借壳上市影响:借壳公司与被借壳公司的财务与市场数据会出现极大波动及失真。借壳后被看作次新股或需剔除以避免数据噪声干扰(流程图见图3),股价波动明显反映资产重组成功与否(图4、5)。因此在构建股票池时,报告不仅剔除次新股和ST股,还因流动性构造了流动性1500股票池,以降低借壳风险影响[page::5,6]。


---

2.3 股票池构造



合理的股票池定义直接影响因子测试的有效性。报告分别对沪深300、中证500和流动性1500三类股票池作了详细比较:
  • 指数成分股池:沪深300代表大盘优质股,中证500代表中小市值优质股,两者行业分布有差异(沪深300银行股暴露更高)(图6-9);

- 流动性1500股票池:通过剔除ST、次新、停牌股后选取近20日平均交易金额最高的1500只股票,具有与中证500相似的行业和市值分布(图10-11),稳定性强(日变动比例<2%)(图12),有效降低了被借壳及低流动股票的干扰;

报告认为流动性1500股票池是替代全样本池的合理选择,更贴合实操环境和Alpha策略的需要[page::7-9]。

---

2.4 异常值处理



异常值会严重扭曲回归拟合,导致模型误判。报告梳理了六种异常值识别方法及优缺点:
  • 经典的$3\sigma$方法基于正态分布假设但被极端值影响较大

- Beat G. Briner方法类似但对识别后的处理不同
  • MAD法更稳健,基于中位数和中位绝对偏差代替均值和标准差

- 固定比例法(如排除2%尾部数据)简单方便但忽略异常程度
  • 箱型图法基于上下四分位数定义界限

- 偏度调整箱型图法对偏态数据异常值识别更合理,采用MedCouple统计偏度调整界限[page::10,11]

基于实证,MAD法标记异常比例过高,三者注重剔除异常值比例适度,偏度调整箱型图被视为较优选择,灵活适应不同数据分布。

接着报告展示了常用因子(财务与技术类)的异常值分布(点图散点图)及不同异常值处理方法对因子分布的影响(图13-15)。

---

2.5 缺失值处理



因子数据缺失常见且需合理处理以降低信息丢失:
  • 剔除法:直接删除含缺失值的股票或因子、不适用于缺失较多的情形[page::14]

- 填充法:采用市场均值、行业均值或市值均值填充
  • 算法填充:基于机器学习或类似股票相似性估计填充


报告通过随机制造5%缺失,评估三种填充方法的重构相关度,结果显示行业均值和市值均值填充优于市场均值填充(表格3),不同因子适用不同填充标准,需根据因子特征进行选择(图16、17)[page::14-16]。

---

2.6 因子标准化



因子标准化处理使数据满足线性回归等统计模型的假设,主要方式:
  • z-score标准化:保留截面距离信息,数据转为均值0,方差1,较敏感极端值(图18、19);

- 排名标准化:转换为均匀分布,忽略因子绝对距离信息,免疫异常值;
  • Box-Cox变换:压缩长尾,提高正态性,尤其适合偏态数据(图20、21);

- 考虑截面差异:报告推荐使用简单z-score标准化保持因子截面真实差异,兼顾分析需要[page::17-19]。

---

2.7 单因子检验方法



重点分析因子对股票收益的预测能力,方法主要有:

2.7.1 多空组合法


  • 将股票分为高因子暴露和低因子暴露组,构建多空对冲组合,考察组合收益序列;

- 存在因子相关性干扰问题,故采用行业去均值标准化、Double-Sort、正交化等方法剔除其它因子影响(图22、23);
  • 考虑投资可行性,评估多头和空头贡献收益占比(图24);

- 建议采用全部权重加权多空组合而非简单头尾坚决组合,更高效利用信息,提升稳健性(图25)[page::19-21]。

2.7.2 回归法(Fama-MacBeth)


  • 双阶段时序回归和截面回归估算因子暴露和因子收益率;

- 区分截面模型(直接用特征作为因子暴露做截面回归)和时序模型(先构造因子收益序列);
  • 报告数据显示截面回归法在实证表现上优于时序模型,因截面法更及时响应市场变化(图26、27)[page::21-23]。


2.7.3 纯因子组合


  • Barra改进Fama-MacBeth,构建对目标因子暴露为1,其他因子暴露为0的纯因子组合;

- 采用加权最小二乘(WLS)并带行业因子约束回归,剔除行业和市值因子影响;
  • 因子组合暴露矩阵严格对角化(表4),纯因子组合净值曲线显示大幅降低波动率但略微牺牲收益(图28、29)[page::23-25]。


2.7.4 信息系数(IC)


  • 因子IC为因子暴露与未来收益的相关系数,分Pearson IC和Rank IC;

- IC值大小说明因子预测能力,持续正IC说明因子选股稳定有效;
  • 示例展示20日动量和净利润增长率因子IC时序波动(图30、31)[page::25,26]。


2.7.5 因子衰减


  • 不同因子调仓周期影响巨大,短频因子日频调仓效果最佳,长频因子月频调仓效果持久;

- 利用滞后自相关系数评估因子寿命与稳定性,日频量价类因子衰减快(图32、33),财务类因子滞后20期仍稳定(图34),指导不同因子调仓频率设定[page::26-28]。

---

2.8 结语与风险提示



报告最后强调多因子策略技术复杂,唯有“工匠精神”般专注细节才能实现真正Alpha,量化投资尚有巨大成长空间。并在风险提示中明确模型历史数据有效性及不确定性、未来表现风险等不确定因素[page::29]。

---

3. 图表深度解读


  • 图2: 两种数据更新方法(以真实发布时间与最迟发布时间)回测结果对比,实证表明采用真实发布时间数据能获得更优收益,表现更接近实际市场反应,说明数据时效性的重视有利于因子有效性提升[page::5]。
  • 图4,5: 借壳上市股价复牌前后走势切换,成功案例股价复牌后明显升高,失败案例则急跌,反映资产重组对股价信息的重要性和噪声特征,对数据处理提出要求[page::6]。
  • 图6-9: 沪深300和中证500股票池的市值及行业分布对比。沪深300市值集中偏大,银行金融暴露多;中证500偏中小市值、行业分布较均衡。为选股提供不同策略切入点[page::7-8]。
  • 图10-12: 流动性1500股票池与中证500在行业和市值分布上高度相似,且股票池稳定性(日度变动率极低)显著优于指数成分股调整频率,为构造更适用策略股票池提供保障[page::8-9]。
  • 图13-15: 因子散点图及标准化前后分布图,展示因子数据偏态及异常值分布特点,突出异常值处理必要性[page::12-13]。
  • 图16-17: 缺失值不同填充方法对结果线性拟合度对比,行业均值和市值均值填充更合理,直接反映行业与市值分类在填充中的重要作用[page::15-16]。
  • 图18-21: Z-score与Box-Cox标准化对比,Box-Cox更有效修正偏态数据,提升因子正态性假设满足度[page::17-19]。
  • 图22-23: 因子相关性剔除方法(Double-Sort与正交化)示意及实证,表明两者都能显著降低因子间相关影响,保留因子信息纯粹性,正交化适用于多因子场景更灵活[page::20-21]。
  • 图24: 多空收益率贡献比例分布,揭示因子多空两侧贡献差异,指导可投资性评估[page::21]。
  • 图25: 简单多空及加权多空组合回测净值曲线对比,权重加权有利于降低波动性,实现更稳健因子暴露[page::21]。
  • 图26-27: 时序与截面模型回测结果比较,截面模型在实际中的表现更好,提示因子暴露及时准确性的重要性[page::22-23]。
  • 表4与图28-29: 纯因子组合设计暴露矩阵和净值表现,消除因子间共线性导致的收益包袱,提升因子投资组合纯净性[page::24-25]。
  • 图30-31: IC时序序列,可量化因子预测信号强度与稳定性,辅助因子筛选决策[page::26].
  • 图32-34: 因子衰减期限与不同调仓频率影响,精细设定策略调仓周期以平衡收益与交易成本[page::27-28]。


---

4. 估值与风险



报告未涉及公司估值模型,多为方法论和模型构建技术说明,因此无估值部分。

风险方面明示:
  • 量化模型基于历史数据及统计规律,存在模型失效风险;

- 历史数据可能不可重复验证;
  • 因子有效性随市场变化可能降低。


报告虽未深入对此风险给出缓解方案,但通过强调细节处理重要性和风险识别,暗含了持续优化和动态调整策略的必要性[page::0,29]。

---

5. 批判性视角与细微差别


  • 报告在方法选择上体现谨慎,强调多种异常值与缺失值处理工具的适用性及局限,体现了对不同市场环境与数据特征差异性的敏感。

- 多因子中因子相关性处理及因子暴露计算不同模型实证及优劣,这里报告客观展示两种主流派别(时序vs截面),并未简单推崇某一方法,适合不同策略需求。
  • 细节上,报告对借壳上市股票处理强调手动补充数据,使得模型依赖一定人工注入的规则,或引入操作风险。

- 股票池构造方法偏向公开可操作指标(流动性、市值),未涉及更深层的行为金融或非线性因子,对策略多样性有一定限制。
  • 标准化及异常值处理关涉金融信号的损失与保留,偏度调整箱型图等方法较新,实证检验多依赖部分因子,是否适宜所有因子尚需市场长期检验。


总体上,报告较为严谨,重点突出“工匠精神”对细节专业化把控的强调,但仍保留了实操中一定的主观判断空间。

---

6. 结论性综合



该报告深刻解析了多因子量化策略构建全过程的关键技术细节,涵盖:
  • 数据选取:推崇使用最新公布日期数据以提升因子有效性,借壳上市股票应区别对待避免数据噪声扰动;

- 股票池构造:流动性1500股票池兼顾流动性和行业市值分布,能有效替代传统指数样本池,提高模型实操适应性;
  • 异常值与缺失值处理:应用偏度调整的箱型图等稳健异常值识别方法和行业/市值分组填充法,提高因子数据质量,强化模型稳健性;

- 因子标准化:结合z-score与Box-Cox变换,平衡保留因子截面差异与数据正态化;
  • 因子检验与构造:从多空组合、回归法到纯因子组合,逐层剖析剔除多因子相关性和提升投资可行性的关键技术;IC分析和因子衰减研究指导调仓周期确定;

- 实证验证:配合大量图表数据对比,验证各流程步骤的有效性和合理性。

报告突出细节处理的“工匠精神”理念,强调在因子同质化严重的背景下,通过严密数据处理、多维度检验和灵活策略调优,挖掘真正具备Alpha效能的因子,形成差异化竞争优势。

---

7. 规范溯源示例


本报告基于模型与历史回测数据,强调最新数据应用优于传统最迟发布时间方法(图2)[page::5],并详细阐述借壳上市特殊样本对数据噪声的影响(图4,图5)[page::6],提出流动性1500股票池优化方案(图10,图12)[page::8-9],系统评估多种异常值识别方法后推荐偏度调整箱型图法(表2)[page::14],缺失值处理优选行业均值或市值均值填充(表3)[page::16],结合z-score和Box-Cox等标准化技术改善数据分布(图18,图20)[page::17-19],采用正交化剔除因子相关性提升因子纯度(图23)[page::21],多空组合权重使用加权方法提升信息利用率(图25)[page::21],时序与截面回归方法对比展示截面法优势(图27)[page::23],纯因子组合方法构件因子暴露矩阵与投资组合(表4,图29)[page::24-25],利用IC值和因子衰减评估因子预测性和优化调仓频率(图31,图33)[page::26, 27]。整体报告强调模型风险及历史数据局限性,提示投资者谨慎参考[page::29]。


---

总结



该报告响应了量化投资界对多因子策略全流程细致打磨的需求,呈现技术成熟度和数据质量控制的深厚功底。通过严密的实证方法和全面细致的流程阐述,增强了多因子策略应用的理论深度与实战指导价值,堪称多因子策略构建领域的权威精品参考。

其“工匠精神”不仅在因子筛选,更在于数据预处理、因子标准化、检验和实证反馈上的精雕细琢,全面系统地提升了策略的风险识别与Alpha发现效率,对专业量化研究员和策略开发团队均具显著启发价值。[page::0-29]

报告