数据异常值处理:比较与实践
创建于 更新于
摘要
本报告详细比较了七种数据异常值处理方法,结合A股财务类和价量类因子实证,结果显示中位数去极值法和箱形图法更稳健。报告还介绍了基于分位数回归的稳健回归方法,有效规避极端值影响,辅助多因子模型构建及因子相关性分析可靠性提升[page::0][page::2][page::8][page::12][page::13]。
速读内容
异常值的影响与处理意义 [page::2][page::3]

- 异常值极端偏离可严重干扰多因子回归系数和相关性计算。
- 财务增长率类因子异常值更为普遍,影响显著。
七种异常值处理方法介绍与比较 [page::4][page::5][page::6][page::7][page::8]


- 方法包括均值标准差修正法、固定比率修正法、中位数去极值法(MAD)、Beat G.Briner 方法、箱形图法、排序值标准化法及无量纲化方法。
- 各方法优缺点不同,如均值标准差法适用正态分布,而中位数去极值法对极端值影响较小。
各方法对不同因子数据处理效果实证 [page::9][page::10][page::11]



- 对单季度净利润同比增长率因子及资产负债率因子实证显示,中位数去极值法和箱形图法效果最佳,能有效控制极端异常值。
- 对无明显异常值对数市值因子,各方法处理结果相似。
基于分位数回归的异常值处理规避 [page::12]

- 分位数回归不依赖误差正态分布假设,最小化加权绝对残差,较传统OLS更稳健。
- 可全面描述条件分布,减少极端值对系数估计的影响。
市场风格与指数风险分析概览 [page::14][page::15][page::16][page::17][page::18]





- 市场高Beta、高波动股票表现较好,大盘规模股涨幅回撤风险较大。
- 指数未来波动率预测区间21%-31%,规模和风格因子风险差异显著,提示市场需关注波动风险。
指数成分收益归因与因子暴露对比分析 [page::18][page::19]

- 表现最优指数因子暴露多样化,包含成长及价值风格;表现较差指数集中在创业板和超大盘。
- 数据显示风格未高度统一,反映市场风格交错复杂[page::0][page::2][page::8][page::12][page::13][page::14][page::15][page::16][page::17][page::18][page::19]。
深度阅读
财通证券“拾穗”多因子系列报告(第5期)详尽分析与解读
---
1. 元数据与概览
- 报告标题: 数据异常值处理:比较与实践
- 作者及联系方式: 陶勤英(分析师,SAC证书编号S0160517100002),张宇(联系人)
- 发布机构: 财通证券股份有限公司
- 发布日期: 2019年3月17日
- 报告主题: 多因子投资研究中异常值的识别与处理方法对比及实证分析。并结合市场风格与指数风险预测做了一周股市行情回顾。
- 核心论点:
- 异常值对多因子模型的回归结果和相关系数影响显著,合理异常值处理至关重要。
- 财务数据(尤其增长率类)因异常值较多,需要针对不同数据特性采用合适的处理方法。
- 中位数去极值法和箱形图法已实证为更稳健的异常值处理方式。
- 分位数回归对异常值更具鲁棒性,是传统OLS回归的有益补充。
- 市场风格观察显示高Beta与高波动股票获得正收益,而大盘股及前期涨幅过高股票存在回撤风险。
- 指数未来一个月的年化波动区间在21%-31%,较上周小幅上升。
[page::0, 2, 13]
---
2. 逐节深度解读
2.1 研究背景与问题提出
多因子模型是量化研究和投资分析的基石,但模型构建的数据基础时常存在异常值问题,尤其是财务数据如增长率因子,由于分母可能非常小导致极端值频发。这些异常值可能严重影响因子暴露的回归系数和相关性,甚至致使模型失效。报告指出,异常值处理是多因子系统建设中不可或缺的一环,研究目标是对现有异常值处理方法的优劣性进行严谨比较与实证检验,最终给出稳健的建议。[page::2, 3]
---
2.2 异常值处理方法介绍
报告系统介绍了7大常用异常值处理方法:
- 均值标准差修正法(3σ法)
- 基于正态分布假设,将数据限定在均值±3倍标准差;
- 异常值被“拉回”边界位置。
- 公式清晰,逻辑易懂,但极端异常会大幅拉高标准差,导致筛选效果弱。[page::4]
- 固定比率修正法(百分位法)
- 不要求正态分布,按排序取上下边缘固定比例(如2%、98%)数据为限制边界;
- 简单方便,但不能区分偏离程度,恰当比例主观选择难。[page::4]
- 中位数去极值法(MAD法)
- 利用中位数和中位绝对偏差界定异常值,稳健性强,减少极端值影响;
- 但异常值拉回边界后可能产生数据堆积,不符合真实分布。 [page::4, 7]
- Beat G. Briner方法
- 先对M因子做z-score标准化,再基于修正因子调整极端值,限制在[-3.5, 3.5];
- 保留数据排序,减轻异常值影响;
- 假设数据近似正态,但标准化阶段的均值和σ受极端值影响较大。[page::4-5, 7]
- 箱形图法(IQR法)
- 利用上四分位数、下四分位数及1.5倍四分位差确定上下界;
- 忽略极端值,自然界定异常;
- 拉回后的边界会造成异常值数据堆积。[page::5, 8]
- 因子排序值标准化法
- 利用因子排序值做标准化处理,忽视具体数值大小,重视排序秩序;
- 简单且方便相关性分析,但丢失了数值信息,不适合多因子模型特征要求。[page::5, 8]
- 无量纲处理方法
- 通过最大值、中位数距离比检测异常值,识别异常值方向并分层处理,最终数据归一化到[0,1];
- 保留排序信息,不单纯拉回,而是对极端异常值作调整;
- 对两端异常值均多且相近数据表现较差,且可能导致处理后的“断层”现象。[page::5-6, 8]
图2和图3通过示意图形象反映方法间的基本概念和区别。[page::3, 5]
---
2.3 各方法优缺点定性分析
报告评估了上述方法优缺点,主要包括:
- 3σ法简单但对非正态分布或极端值敏感。
- 百分位法自始无对偏离程度区分,有预设比例主观问题。
- MAD和箱形图法稳健性高,但异常值处理后堆积数据可能不真实。
- Beat G. Briner方法保留顺序且限定范围,但也依赖正态假设。
- 排序标准化法简洁但信息流失大。
- 无量纲法保留排序且数据在统一区间,有创新,但对某些异常值分布状况适应性差。[page::7-8]
---
2.4 实证检验:不同分类数据处理效果对比
报告通过对实证数据的处理,比较七种方法在财务类因子(以“单季度净利润同比增长率”、“资产负债率”为代表)和价量类因子(以“对数市值因子”为例)上的效果差异。
- 单季度净利润同比增长率(图4,图5)
- 原始数据极端异常值多,且在数据两端分布均匀;
- 3σ法和Beat G. Briner效果不佳,因标准差受异常值放大,导致边界过宽难识别异常;
- 无量纲法仅识别少量极端值,边界也太宽;
- 推荐中位数去极值和箱形图方法,这两者定位更加稳健且极端值影响较小。[page::8-9]
- 资产负债率(图6,图7)
- 原始异常值较少,主要集中在最大值端;
- 所有方法处理后效果均较好,中位数去极值法和箱形图法优越;
- 无量纲法因异常值取最大最小值做缩放,出现数据“断层”,表现稍逊。[page::9-10]
- 对数市值因子(图8,图9)
- 本身异常值较少,各法处理结果均良好。体现当数据接近“理想”分布时,异常值处理方法差异性小。[page::11]
---
2.5 基于分位数回归的方法介绍
报告指出传统OLS回归局限于估计条件均值回归函数,容易受极端值影响;而分位数回归(Quantile Regression)通过估计条件分位数回归函数,能够稳健捕捉变量关系全貌,对异常值不敏感。文中用家庭收入与食品支出关系的示例(图10)直观展示分位数回归相较OLS更稳健的优势。报告未详细展开算法细节,推荐感兴趣的读者进一步学习。[page::12]
---
2.6 小结
总体来说:
- 异常值对多因子研究的影响深远,必须合理识别和处理异常值;
- 7种常见异常值处理方法中,中位数去极值法和箱形图法因稳健性突出更适用于实际数据,尤其是财务增长型数据的异常处理;
- 分位数回归为建模提供异常值稳健性,能补足传统OLS不足,是未来研究方向之一。[page::13]
---
2.7 一周行情回顾
- 上周市场风格小幅变化,成长股表现优异,创业板指涨幅放缓;
- 上周沪深300成长涨4.96%,中证800成长涨4.50%,均位居主要指数前列;
- 创业板指数和超大盘指数分别仅涨0.49%、0.88%,市场整体风格不明显;
- 行业板块中电力设备、房地产涨幅居前,计算机和通信行业表现低迷。
图11和图12详细展示了主要指数及行业收益排行。[page::14]
---
2.8 市场风格解析与风险预测
- 财通金工借鉴Barra模型,通过Beta、规模、动量、波动率等10个因子构建风险收益模型;
- 风格因子上周表现显示Beta因子持续正收益,规模、波动率、流动性因子负收益,大小盘分歧显著(表2,图13);
- 过去一个月风格因子净值表现见图14,累计收益见图15,高Beta、高波动率股票表现较好,而大规模股和前期涨幅快的股票表现回撤明显;
- 指数风险预测(图16)显示未来1个月年化波动率在21%-31%之间,较上周略有上升,中小盘与成长指数风险偏高,大盘价值偏低。
- 图17体现模型覆盖样本指数成分股比例均超93%,模型拟合数据质量高。[page::15-18]
---
2.9 指数收益归因
- 对表现最佳(沪深300成长、中证800成长、380价值)和最差的三只指数的因子暴露度(图18、图19)进行对比分析;
- 表3详细列示了各指数在10个因子上的暴露程度及实际上周收益,说明上周指数表现与其持仓风格相关,但整体市场风格较为分散:
- 表现优良的指数中既有价值大盘,也有成长中小盘;
- 表现欠佳指数同样包含大盘和小盘不同类型。
- 因子暴露多样性导致风格轮动特征明显。
[page::18, 19]
---
2.10 附录
- 附录一详列财通金工指数池构成,覆盖沪深、中证系列多个细分指数;
- 附录二详解财通金工风格因子定义与计算方法,涵盖Beta、规模、动量、波动率、估值、流动性、盈利、成长和杠杆因子三级结构,并说明主要数据处理细节。
[page::20, 21]
---
2.11 信息披露声明
- 分析师资质、报告独立性保障、投资评级定义及风险免责声明严谨详尽,确保报告合规和专业性。[page::22]
---
3. 图表深入解读
图1:单季度净利润同比增长率 VS 单季度营业收入同比增长率(原始与多方法处理对比)
- 展示了原始数据及6种异常值处理方法效果的对比散点图。
- 原始数据图极度分散、无明显相关性(相关系数0.0025),说明异常值掩盖了因子本质关系。
- 经过中位数去极值和箱形图等方法调整后,数据点较为集中,呈现正相关趋势,相关系数显著提升(至0.34左右),准确反映了净利润增长率与营业收入增长率应有的正相关关系。
- 说明异常值处理后因子之间的结构性关系被更好恢复。[page::2, 3]
表1:不同异常值处理方法下净利润同比增长率与营业收入同比增长率的相关系数对比
| 方法 | 相关系数 |
|--------------------|-----------|
| 原始数据 | 0.0025 |
| 均值标准差修正法 | 0.0256 |
| 固定比率修正法 | 0.2879 |
| 中位数去极值法 | 0.3369 |
| Beat G.Briner | 0.0237 |
| 箱形图法 | 0.3428 |
- 明确数字证实中位数去极值法和箱形图法使相关系数提升效果最好。
[page::3, 8]
---
图4、5、6、7、8、9:不同因子异常值处理前后的散点图对比
- 净利润增长(图4、5)和资产负债率因子(图6、7)显示明显异常值的分布特点以及不同异常值处理方法的实际调整效果。
- 对数市值因子(图8、9)因异常值少,各方法调整前后差异无显著,验证了方法对不同数据类型的适应性不同。
- 视觉对比生动展示了中位数去极值法和箱形图法在处理极端异常值时的优势(调整后点群更集中、合理)。
- 无量纲化方法在资产负债率中出现“断层”,视觉呈现出处理连续性不足。
[page::9-11]
---
图10:分位数回归与OLS回归结果对比
- 以家庭收入与食品支出关系为例,分位数回归线更贴近大多数点,避免了受极端值拉扯的OLS回归线偏移。
- 直观展示分位数回归对异常值的鲁棒性和优势。
[page::12]
---
图11-12:股指及中信一级行业指数上周表现
- 多数成长相关指数表现优异(沪深300成长、中证800成长涨幅均逾4%);
- 创业板、中超大盘涨幅较弱;
- 电力设备、房地产表现强势,计算机、通信等行业走弱。
[page::14]
---
图13-15:风格因子收益表现与净值走势
- 近两周风格收益(图13)显示Beta、动量因子为正,规模和波动率为负。
- 一个多月累计来看(图15),高Beta、高波动类因子收益显著,规模因子负收益突出。
- 净值走势(图14)反映了上述收益趋势的日常波动。
[page::15-16]
---
图16:未来一月财通金工样本指数年化波动率预测
- 全部样本指数预测波动集中于21%-31%。
- 创业板及中小盘指数风险偏高,价值和大盘指数相对较低,符合市场预期。
[page::17]
---
图17:回归与风险样本覆盖率
- 所有主要指数样本覆盖率均超93%(估计值和权重比例),代表数据完整且模型结果可靠。
[page::18]
---
图18-19及表3:表现最佳及最差指数因子暴露度与具体数据
- 说明表现最好的指数在Beta、成长等因子上暴露显著,而差指数多因波动性、流动性等因子表现低迷。
- 同时,风格暴露呈现高度多样性,无明显单一风格垄断市场,体现了风格轮动与市场结构多元。
[page::18-19]
---
4. 估值方法与风险因素评估
本报告未直接涉及传统股价估值技术(如DCF、PE等),重点聚焦因子模型数据处理及其对回归和风险预测质量的影响。
风险方面,报告提示异常值未妥善处理会导致模型参数偏误,进一步影响风险预测和资产配置效果。此外,市场风格可能快速变化,模型基于历史数据的假设存在失效风险。报告提醒投资者对模型预测的波动风险保持关注,尤其是当前市场波动略有加剧导致风险水平上升。[page::0, 17, 22]
---
5. 批判性视角与细节洞察
- 报告整体严谨且细致,涵盖多种处理方法优缺点分析及实证对比,实用性强。
- 分位数回归作为更稳健工具的引入具有前瞻性,但报告仅做简单介绍,缺乏深度剖析和实际金融市场应用案例,后续研究可强化此部分。
- 部分异常值处理方法在极端情况下的数据堆积或断层现象值得进一步优化,以兼顾稳健性和数据连续性。
- 风格因子收益与风险预测部分提供及时市场状态反馈,但解释尚较为表层,缺少对潜在宏观驱动或政策影响的深入联系。
- 报告基于历史数据模型隐含过去表现可能不代表未来,作者提示风险,整体态度谨慎。
---
6. 结论性综合
本期财通金工“拾穗”多因子系列报告深入探讨了多因子模型中异常值识别与处理问题,系统介绍了七大主流异常值处理方法,并通过实证比较了不同方法在三类典型因子数据(财务增长率、财务比率与价量因子)上的应用效果,展示了异常值处理对恢复因子间相关性的关键作用。实证结果表明,中位数去极值法和箱形图法因其稳健性和适用范围广泛,是当前多因子异常值处理的优选策略。报告还探讨了分位数回归这一对异常值不敏感且能描述因子收益分布全部特征的先进回归技术,展示出较大潜力。
结合以上技术,报告通过财通金工样本指数释放的市场风格及风险预测揭示当前市场中高Beta、高波动股票表现活跃,成长股风格显著,规模和流动性因子弱势明显,指数未来一个月波动率小幅攀升。指数成分的因子暴露极大程度决定了其收益表现,且市场风格呈现多元化与复杂交织,投资者需密切关注风格变化带来的投资机会与风险。
整体而言,本报告极具实践指导价值,为量化投资者提供了科学、详尽的异常值处理路径与风险视角,助力构建更稳健的多因子模型与更精准的市场风险预测体系。
---
报告部分核心图表示例:
- 图1:异常值处理前后净利润同比增长率与营业收入同比增长率散点图对比

- 图5:单季度净利润同比增长率异常值处理后对比

- 图10:分位数回归与OLS回归对比

- 图16:未来一个月指数风险预测

- 图18:表现最佳三指数因子暴露度

- 图19:表现最差三指数因子暴露度

---
(本报告分析所引用页码均标注于对应论述段后,便于追溯,详见正文溯源标记)
[page::0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22]