Note on pre-taxation reported data by UK FTSE-listed companies. A search for Benford’s laws compatibility
创建于 更新于
摘要
本研究利用2009-2022年英国FTSE上市公司预税收益和总资产数据,检验其首位及次位有效数字是否符合Benford定律。通过卡方检验与平均绝对偏差(MAD)方法对数据及其比例变量(如预税收益/总资产)进行合规性测试。结果显示,两种检验方法结论不一致,MAD测试全面拒绝数据服从Benford定律,提示财务数据可能存在异常、需要进一步调查,且间接变量如比例的Benford合规性问题亦值得关注。[page::1][page::4][page::20]
速读内容
研究背景与目的 [page::0][page::1][page::2]
- 预税收入和总资产数据是保障公共财政公平征收的重要指标,英国税务差距高达398亿英镑,税务规避是政府关注重点。
- 本文旨在利用Benford定律测试这些财务数据的真实性,探索首位、次位以及首两位数字的分布是否符合理论预期。
- 同时关注正负预税收入情况,及比例变量(预税收入/总资产)的Benford合规性问题。
数据集与统计特征 [page::6][page::7]
| 指标 | 样本数 | 极小值 | 极大值 | 均值 | 标准差 | 偏度 | 峰度 | 变异系数 |
|------------|---------|------------------|--------------------|--------------|-----------------|---------|-----------|----------|
| 预税收入(PI) | 6768 | -197亿 | 535亿 | 3.17亿 | 17.53亿 | 11.26 | 227.83 | 5.54 |
| 总资产(TA) | 6811 | 1.56万 | 2.44万亿 | 205亿 | 1.31万亿 | 10.52 | 128.53 | 6.37 |
| 预税收入/总资产 | 6765 | -1.82 | 3.11 | 0.074 | 0.167 | 4.15 | 82.56 | 2.26 |
- 数据存在极端异常值和转录错误,但对Benford定律分析影响较小。
- 预税收入与总资产数据关系显示两类不同公司聚类,可能代表不同税务策略。
Benford定律与检测方法 [page::9][page::12]
- Benford定律BL1、BL2和BL12分别反映第1位、第2位及前两位数字的日常分布概率。
- 采用两种统计测试:卡方检验(χ²)和平均绝对偏差(MAD),后者对大样本更为严苛,MAD超过阈值即判为不合规。
合规性测试结果总结 [page::10][page::11][page::14][page::15][page::19][page::20]
- 关键表格3-8对比实际频次与Benford期望频次,MAD测试全面拒绝所有变量(包括正负预税收入、总资产及比例变量)符合Benford定律。
- χ²测试部分指标显示接受,部分拒绝,结果不完全一致。
- 特别是比例变量$P I/T A$始终不通过χ²合规性检验。
- 图2-4可视化首位、次位及首两位分布与Benford定律的偏差趋势。



结论与应用 [page::4][page::20]
- MAD测试推翻原始财务数据Benford合规假设,提示可能存在利润报表异常或数据操控行为,需加强会计与税务监管。
- 统计方法之间存在冲突,表明Benford定律在间接财务指标及大样本中适用性仍待研究。
- 推荐未来研究拓展更多财务指标,结合其他统计指标检测数据异常。
深度阅读
金融研究报告详尽分析报告
报告题目:“Note on pre-taxation reported data by UK FTSE-listed companies. A search for Benford’s laws compatibility”
作者:Marcel Ausloos, Probowo Erawan Sastroredjo, Polina Khrennikova
所属机构:英国莱斯特大学商学院及其他欧洲多所机构
发布时间:不详,基于2024年之后数据的研究
研究对象:英国富时(FTSE)上市公司报告的税前收入(Pre-tax income, PI)和总资产(Total Assets, TA)数据
研究方法:基于Benford定律及两种统计测试($\chi^2$和MAD)检验该财务数据的数字分布规律性
研究核心:评估英国FTSE上市公司财务报表中税前收入与资产数据的真实性及合规性,通过检验其数据是否符合Benford定律,揭示潜在的财务报表异常或税务风险。
---
一、元数据与报告概览
本报告通过对英国富时全股指数(FTSE All-Share)567家公司2009-2022年期间的税前收入(PI)和总资产(TA)数据进行严格的Benford定律兼容性检验,旨在分析税务数据的合理性和潜在风险。报告使用Refinitiv EIKON数据库,涵盖6768个税前收入和6811个总资产数据点。统计方法包括$\chi^2$检验和平均绝对偏差(MAD)测试。本研究区分PI的正负值,重点分析第一数字(BL1)、第二数字(BL2)、以及前两数字组合(BL12)的分布符合程度。
作者主要结论指出:两种统计检验结果存在分歧,尤其MAD测试强烈否定了数据与Benford定律的兼容性,提示报告数据真实性存在疑问,同时建议对相关财务数据进行更深入的调查。研究还特别关注了$PI/TA$比率的Benford定律验证,扩展了对间接指标是否应符合Benford规律的学术讨论。[page::0, page::1, page::4, page::20]
---
二、逐节深度解读
1. 引言与研究背景(第1-2页)
- 关键论点与背景概述:
英国政府关注税收差距(2022-2023财年约为398亿镑,相当于总应缴税款的4.8%),且财务报表的真实性直接影响监管与税务执行效率。税前收入(PI)与总资产(TA)数据的整合分析,尤其二者比值$PI/TA$,被用来衡量税务筹划与实际税负的差异。
- 研究问题:
是否税前收入及资产数据符合Benford定律预期数字分布?其背后是否隐藏操纵或误报风险?
- 理论基础:
Benford定律指出自然数据集的首位数字出现频率遵循$\log_{10}(1 + 1/d)$规律,偏离该分布可能暗示异常。研究不仅聚焦首位数字(BL1),也考察第二数字(BL2)及两位组合(BL12),提升分析深度和灵敏度。
- 研究假设与方法:
使用$\chi^2$检验度量观测与理论频率的差异(适合判断是否存在系统偏差,但易受样本规模影响);MAD测试测量观测频率与理论频率的平均绝对偏差(更适合小样本或微小差异分析,近年来被推崇为测试Benford规律的更可靠方法)。
作者即提出,通过这两种统计测试检验数据是否符合Benford定律的零假设(即数据服从Benford分布)。[page::2, page::3, page::9]
2. 文献综述(第3-5页)
- 文献选取原则:围绕高阶Benford定律(BL2及BL12)、与税务和财务数据相关的研究、以及MAD检验的应用,重点突出税务合规领域的Benford定律研究。
- 研究历史与贡献:
Nigrini是该领域开创者,将Benford定律用于纳税人合规性检测。Alali与Romero(2013)对美国企业财务数据的差异分析,Carslaw(1988)发现新西兰财务陈述中第二位数字异常,揭示潜在人为调整。后续研究扩展到各种市场、行业,多样化统计检验方法并试图评估各种财务数据的Benford合规性。
- 文献中的发现与不足:
多数研究聚焦首位数字,忽视了第二位及联合作用。另一方面,Benford定律并非万能识别工具,有时不能揭示所有异常,尤其财务数据范围限制和间接指标的Benford适用性尚存争议。
- 本研究贡献:结合MAD与$\chi^2$检验,针对大规模税前收益数据及资产数据进行多层次数字分布分析,区别正负税前收入,填补现有文献空白。[page::3, page::4, page::5]
3. 数据获取及方法论(第6-9页)
- 数据来源与预处理:
数据源于Refinitiv EIKON数据库,分析时间为2014-2022年。数据包括567家2022年富时全股指数成分股的税前收入和总资产(单位统一为英镑)。因多处缺失,部分年份和公司数据留空。数据时间定义为历年1月1日至12月31日,与英国财政年(4月-次年3月)不同,须留意时间差异。
- 统计描述(见表1):
共得到税前收入6768条数据,总资产6811条数据。其税前收入和资产数值跨度大,极端值尤为显著(最大税前收入5.358e+10英镑,最大资产2.439e+12英镑)。数据分布高度偏态,峰度极高,系数变异较大,反映了数据的不均匀性及潜在异常。税前收入区分正(约5608条)和负(1160条)值,后续分析对正负值分开考量。
- 数据质量说明:
极少数极端异常值(约3条)不予剔除,因对Benford定律分析影响微弱。未进行winsorizing或数据修正以保持数据原貌。
- 数据关系探索(图1):
税前收入与总资产关系呈现两簇明显分布,提示可能存在两类不同财务策略或规模效应的公司,但该部分为纯描述性,未深入讨论。
- Benford定律基础回顾(第9页):
三种数字分布概率公式详述,包括首位数字(BL1)、第二位数字(BL2)、及首两位组合(BL12)。数字出现概率均系对数函数。
- 统计测试说明:
$\chi^2$检验根据观测频数与理论期望频数计算偏差平方和,敏感度较高但可能受大样本出现小偏差而误判;MAD计算频率差值平均绝对值,被认为更为稳健,但其适用性也非绝对,仍在学术讨论中。[page::6, page::7, page::8, page::9]
4. 主要发现(第10-14页)
- 首位数字分析(表3-4及图2):
对PI整体及正负值分开分析均发现MAD显著超过接受界限,显示不符合Benford规律;$\chi^2$测试则给出混合结果,部分指标显示部分符合。
PI存在首位数字7、8、9的明显“欠频”,疑似存在财务“向上取整”或数字操纵;总资产TA则在“9”首位数字超频,或反映资产报表特点。[page::10,page::11,page::16]
- 第二数字分析(表5-6及图3):
MAD同样否定PI及TA的Benford合规性。但$\chi^2$测试结果表明大部分数据整体符合BL2规律,存在部分非一致结果。特别是PI正负区分,MAD均否认符合,$\chi^2$则表现较为中立。
- 第一和第二数字联合分析(表7-8及图4):
BL12综合结果复杂。MAD标准依然全面拒绝合规,但$\chi^2$在部分PI正值及TA数据中表现出部分符合趋向。
图4显示PI负值存在极端偏离,尤其尾部数字(60-99)不规律波动显著。
- 统计测试比较与局限:
两种统计方法结果强烈不一致,引发对各测试适用范围和解释力度的深入考虑。尤其对大型金融财务数据集而言,MAD显示强烈不符合,$\chi^2$表现较宽松。
此外,$PI/TA$比率数据均不符合Benford定律,无论$\chi^2$还是MAD,说明比率这一间接指标的Benford合规性值得谨慎解读。
结论暗示存在潜在数据异常可能,建议税务监管及财务审计部门深入探查相关异常因素,并对统计方法继续探索和验证。[page::11,page::12,page::14,page::17,page::18,page::19]
---
三、图表深度解读
- 表1:数据统计特征。
- 展示PI、TA及其区间比率的样本量、极值、均值、标准差、偏度、峰度和变异系数。
- 明显极端值范围宽广,数据非正态分布,右偏严重。
- PI正负分布偏度对称而大小不一,提示不同财务状态对数据分布贡献不同。[page::7]
- 图1:PI与TA散点图。
- 展示两变量的二维分布,形成两簇斜率不同的线性群组,图中虚线为总体回归线,实线为两簇趋势引导线。
- 可能反映公司规模、行业分类或财务策略不同,提示财务数据潜在结构复杂。[page::8]
- 表2:Benford定律理论分布数值。
- 列举BL1首位数字(1到9)概率,BL2第二位数字(0到9)概率及部分BL12两位组合出现概率,便于后续对照。
- 体现理论基础,方便检测数据偏差。[page::10]
- 表3-8:各检验数字频率及统计测试结果汇总。
- 表3、4针对首位数字,表5、6针对第二位数字,表7、8针对首两位数字组合。
- 明显MAD远高于理想范围,$\chi^2$结果有部分变量接近或低于判定阈值,表现出统计检验标准差异。
- 表中细节显示数字频率偏离方向,如首数字7-9在PI中欠频,9在TA中高频,第二数字0、1、9在比率PI/TA中频次异常过高,暗示疑似人为操作或系统误差。[page::10, page::11, page::13, page::14, page::15, page::19]
- 图2-4:视觉展示Benford各阶数字分布
- 图2:BL1分布,PI正负及TA与理论值对比,曲线走向一致但PI负值呈现偏离,反映频率偏差。
- 图3:BL2分布,四组数据波动更大,但趋势仍部分贴合理论,PI负值波动尤为显著。
- 图4:BL12联合分布,噪音显著,尾部数字(60-99)频率突变,PI负值数据异常明显。
- 视觉信息证实数表数据,非常直观地揭示数字分布的偏差与复杂性。[page::16, page::17, page::18]
---
四、估值分析
报告并未涉及传统的公司估值方法(如DCF、市盈率等),其核心是对公开财务数据的合规性检测和检验方法探索。关注点在于财务数字本身的统计特性和潜在的操纵迹象,而非直接的市场价值评估或投资建议。
---
五、风险因素评估
- 风险识别:
财务数据不符合Benford定律可能反映数据造假、报告偏差、财务操控或录入错误,进而影响税收征收的公正性和准确性。
- 潜在影响:
数据异常令监管难以准确识别纳税义务,增加税务稽核成本与难度,妨碍公共财政公平分配。
- 缓解建议:
报告建议开展更多针对性统计测试,结合其他财务指标,对异常企业进行深入审计,同时完善数据收集与核查机制。
- 统计方法局限风险:
不同统计检验给出不同结果可能导致误判,需要谨慎理解,不可单一依赖某一方法。未来方法改进和综合多元分析非常关键。[page::20]
---
六、批判性视角与细微差别
- 统计方法选择的争议:
MAD虽然近年来受推崇为检验Benford规律更严苛工具,但本报告揭示MAD极端否定数据合规性,与$\chi^2$结果显著分歧。两者对大样本数据在细微偏差上的反应不同,可能导致合规判断上的根本分歧。学术与实务中仍无定论,呼吁进一步理论和实证研究。
- 数据异常的解释空间:
极端异常数据点虽不多,但或对统计结果产生不可忽视的影响。报告未剔除这些数据保留原貌,此做法虽保证客观性,但可能掩盖部分数据质量问题。
- 间接指标比率的Benford适用性问题:
对$PI/TA$比率的Benford检验结果均未显示合规,反映财务比率的统计性质或用户多样性导致其数字分布天生不符Benford,提醒投资者及监管者警惕直接移植Benford应用方法到衍生指标的风险。
- 研究视角有限:
报告重点是描述性及统计检验,未深入追踪异常产生的具体公司行为、行业差异或市场环境变化,未来可扩展至多维度、多时间序列和跨国比较。
- 文献整合上的重点聚焦:
报告刻意缩减文献综述范围,仅选取与高阶BL和税务相关的研究,有助于聚焦主题,但少量遗漏可能对理解背景略有影响。
---
七、结论性综合
本报告基于14年英国富时上市公司税前收入和总资产数据,采用Benford定律1、2及联合前两位数字分布检测,通过两种主要统计检验,发现:
- 大部分税前收入和总资产数据均显著偏离Benford规律,尤其MAD测试严格否定合规性,提示存在财务报告异常或操控的强烈可能。
- $\chi^2$测试结果较为宽松,对正值数据及部分指标呈现部分合规迹象,彰显统计工具在大样本数据中局限和差异。
- 各类数字频次异常表现为特定数字(如PI中首位的7、8、9数字数目不足,TA中9数字过高,比例变量中0、1及9的异常出现)透露潜在数字操纵特征。
- $PI/TA$这一财务比率指标不符合Benford定律,提醒不能简单将基数法则自然应用于衍生指标。
- 视觉数据展示强化对频率偏差的认知,示范两个不同PI-TA关系簇,预示潜在不同企业财务策略,这为后续研究打开新的视角。
综上,报告不仅警示税前收益及资产数据的真实性,给税务稽核和财务监管提供工具支持,也强调统计测试选择对结论的重要影响,呼吁开展更广泛、更精细的多方法、多指标综合研究。未来应结合其他统计检验(如$U^2$测试)、更多财务指标,及关注间接指标的Benford性质,强化该领域理论与实务基础。[page::20, page::19]
---
参考图表
- 图1:PI与TA关系图

- 图2:BL1检验各数据组分布

- 图3:BL2检验各数据组分布

- 图4:BL12检验主要数据组分布

---
结语
本报告从Benford定律及统计检验视角切入,系统性揭示了英国FTSE上市公司重要财务数据的异常与风险,提供了税务稽核及财务合规检测的重要参考框架。报告方法论严谨,数据大样本丰富,兼顾正负收益分析及比率指标拓展,展现了此类统计工具在现实财务分析中的潜力与挑战。研究指出,单一统计检验不足以全面评价数据合规性,多元检验与深入业务分析结合是未来审计与监管的方向。
通过整合数学统计、财务会计和经济学交叉视角,研究为财务报表数字分析提供了富有洞察力的实证基础,推动构建更透明、有效的财政监管体系。[page::1,page::2,page::4,page::6,page::10,page::20]
---
全文分析完毕。