Can LLMs Identify Tax Abuse?
创建于 更新于
摘要
本文首次系统评估大型语言模型(LLMs)识别、验证及生成美国税务避税策略的能力,基于专门构建的Shelter Check数据集进行测试。结果显示,主流模型在分析法律条款及验证策略目标方面表现中等,生成完整有效策略概率不足三分之一,然而o1-preview模型成功创新了一条全新避税策略,呈现出LLMs推动税务反欺诈的新潜力[page::0][page::5][page::6]。
速读内容
LLMs在税务策略分析中的表现 [page::3]
- 在分析策略法律分析步骤时,o3和claude-4对193个步骤均能判断为“可行”,gemini-2.5仅185个步骤被判可行。
- 目标验证中,在含法律分析提示的情况下,o3和claude-4均能验证所有36个策略目标的“可行”性,gemini-2.5因对部分分析步骤存疑,验证表现较差。
- 当不包含详细法律分析提示时,模型验证目标的能力明显下降,gemini-2.5在无分析时反而验证更多策略为正确,表现不稳定。
- 模型确认含有恶意替代步骤的策略无效性表现不佳,部分模型仍错误判断这些策略“可行”,显示对策略失败的识别能力不足。
LLMs补全缺失步骤的能力及步骤评分[page::4]

- LLMs对部分缺失步骤填补任务只表现出中等水平,最高评分(3分)比例略超50%。
- Gemini-2.5和o3表现优于claude-4,所有模型在1-shot示例下达到最佳成绩,2-shot反而略有下降。
- 说明LLaMs对具体策略细节的记忆有限,且通过示例引导效果显著。
从零生成完整避税策略的效果及创新案例[page::5]

- 使用36条策略的权威法规、背景及目标作为输入提示,o1-preview和claude-3.5生成完整策略。
- o1-preview表现更佳,生成可用策略(评分3)的数量达11个,claude为7个。
- 其中,o1-preview成功生成了一条全新避税策略,利用共同信托基金的会计期间与金融衍生品“跨期处置”的巧妙结合,规避美国税法中对straddles亏损抵扣限制。
- 这表明LLMs具备创新潜能,可辅助发现未被现有法规覆盖的新避税手段。
模型对生成策略评分一致性较低 [page::6]

- LLM模型对生成策略的自动评分与人类专家评分的Spearman相关系数分别为0.48(o3)、0.30(claude-4)、0.48(gemini-2.5),一致性较低。
- 显示对复杂法律策略的自动评估仍存在较大难度。
Shelter Check数据集及后续研究计划 [page::6]
- 该数据集目前包含36条美国基于文本文献的避税策略,由税务专家手工制作,耗费大量人力。
- 仅公开5条以避免未来LLM训练泄露,所有代码和评估将持续更新发布。
- 数据集和方法旨在推动税务机关利用AI提升反避税能力。
主要结论与研究意义[page::6]
- LLM可理解并区分“可行”与“正确”不同的法律标准,对辅助手工法律分析有价值。
- 机器生成有效避税方案概率有限,但具创新潜力,可助力税务反欺诈工作。
- 当前模型识别恶意扰乱步骤能力不足,生成策略的评价仍需依赖专家判断。
深度阅读
金融研究报告详尽分析报告
报告标题: Can LLMs Identify Tax Abuse?
作者: Andrew Blair-Stanek, Nils Holzenberger, Benjamin Van Durme
发布机构: University of Maryland Carey School of Law, Johns Hopkins University, Télécom Paris - Institut Polytechnique de Paris
日期: 2024/2025年间工作与引用,具体发布时间未明但涵盖2024-2025年的最新内容
研究主题: 利用大型语言模型(LLMs)识别与分析美国税收避让策略的能力
---
1. 元数据与报告概览
本报告深入探讨了目前先进的大型语言模型(LLMs)是否有能力理解、验证并生成美国税收避让策略。税收避让(tax abuse)对美国政府每年造成超过6000亿美元的财政损失,具备巨大的现实意义和政策价值。报告核心在于评估三个代表性LLM(OpenAI的o3,Anthropic的Claude-4,Google的Gemini-2.5)在以下几个关键方面的表现:
- 理解与验证:能否准确识别和验证公开的税收避让方案的法律步骤及其合理性。
- 补全与生成:能否根据部分信息补全过程序列,甚至自主创造完整且创新的税务规避方案。
作者揭示,虽然模型表现整体中等,偶尔的精彩表现(如 o1-preview生成了前所未有的新型税收策略)显示出深远潜力。[page::0,5]
---
2. 逐节深度解读
2.1 摘要与引言
- 报告提出,税收避让问题由于庞大复杂的税法文本和策略组合,极难由人类专家全盘掌握,AI尤其是LLMs拥有独特优势。
- 研究通过开发“Shelter Check”数据集,由税法专家精选36个真实且详细的税收避让策略作为基准,旨在对LLM的推理与生成能力进行检验。
- 报告表明,尽管LLMs在模拟专家判断方面尚存缺陷,但依然首次展示了自动发掘和创造新型策略的能力。[page::0,1]
2.2 背景(第2页)
- 介绍过去美国及其他司法管辖区在自动化法律推理中的尝试,包括专家系统、案例推理和法律文本解析。
- 现有工作多集中于文档分类、判决结果预测,或者基于规则的自动推断,适用于简化问题,如法律问答、检索等任务。
- 本研究挑战更高,要求模型对庞大、动态、自然语言编写的税法进行深入推理,类似于复杂的科学发现和规划任务。
- 理论上,将税法转化成可机器理解代码后进行“闭环”模拟是方向之一,但因法律的复杂性及翻译成本极高,LLM直接操作自然语言文本是一条更务实的现实路径。[page::1]
2.3 Shelter Check 数据集详解(第2-3页)
- 数据集由36个详尽的税避让策略构成,每个由学术与实务税法专家手工整理,平均单策略耗时9小时,最长40小时。
- 数据条目结构包括:
- Authorities(法令文本):选取并精简相关税法条款、案例、行政规定等文本。
- Background(背景事实):纳税人具备的基础条件范例(如资产状况,身份),平均2.5条。
- Goals(目标):策略追求的税务效果,如减少应纳税额或改变经济权益,平均1.4条。
- Strategy(具体步骤):详细步骤,平均4.3步,允许纳税人实施完整计划。
- Analysis(法律分析):逐步论证为何策略满足目标,可拆解成数十个分析节点,便于模型验证。
- Adversarial Step(对抗步骤):替换原策略步骤的设定能够使策略无法实现目标,用于测试模型的判断准确性。
- Primary Tax Law Area 和 Strategy Type: 定义关注税法领域以及经济学角度的分类(如法律巧思、延期、纳税人间套利)。
- 绝大多数策略来源于IRS公开申报的“listed transactions”,另有州法院判决、税改缺陷说明。[page::1,2]
2.4 关键实验与结果(第3-6页)
分析验证(Analysis Verification)
- 目的:测试LLMs是否能根据权威法律文本、背景事实和策略步骤,准确断定法律分析步骤是“viable”(合理基于合理依据)还是“correct”(法律上正确且无争议)。
- 如表1所示,三模型均能识别所有步骤的“viable”,但对“correct”判定表现有差异:o3及claude-4表现较好,gemini-2.5存误判。
- gemini-2.5常因缺少核心税法常识导致合理步骤被判无效,如误解股息免税规则。[page::3]
目标验证(Goal Verification)
- 测试模型是否判断策略能够实现声明的多重目标,结合是否给出法律分析的提示。
- 包含四种情境:有/无分析,viable和correct标准。
- 结果显示,有详细法律分析时各模型表现更佳。模型对viable标准响应率高于correct,符合设想。
- gemini-2.5在无分析时表现更好,反映其对分析步骤的怀疑态度。
- 关键在于模型能以合理法律视角理解目标是否达成,验证其实务潜力。[page::3]
对抗步骤验证(Adversarial Step Goal-Failure Verification)
- 目标为检测模型识别出被替换为“失败”步骤的策略。
- 结果令人担忧:模型普遍难以排除不成立策略,尤其是claude-4表现出偏好判定为可行而非失败,存在误判风险。
- 通过多轮专家对抗步骤迭代设计,最终使模型能判为不成立,但仍显示此为人工强化过程并不自动。
- 反映现实中的自动检测税避让复杂且易受误导。[page::3,4]
Step-Cloze任务
- 在部分策略步骤缺失的情况下,模型需补全该步骤以满足目标。
- 评分标准为0(无关)至3(完全正确)。
- 三模型总体表现中等,只有约半数步骤能准确补全(得3分)。
- 模型明显受益于一例示范(1-shot教学),但继续增加示例(2-shot)反而略降性能。
- 这说明模型有限记忆且策略细节的公开数据是不完整的,主要通过推理填补信息。[page::4]
From-Scratch策略生成
- 模型被要求仅凭背景事实、目标与法律条文,生成完整税避让策略。
- 以o1-preview和claude-3.5为例,策略由领域专家按0-3分评分。
- 多数策略得分偏低,三分策略占比不足1/3,显示生成能力仍有限。
- o1-preview表现优于claude-3.5,且确实产生了至少一个全新且合理的税策略(详细步骤见图1),此策略利用银行共同信托基金的会计期间巧妙绕过国会制定的税损限制,表现出创新推理能力。
- 该新策略无公开文献支持,基本可认定为模型创新产物,显示AI辅助税务监管新可能。[page::5]
生成策略评价
- 使用o3、claude-4和gemini-2.5重新为前述由o1-preview和claude-3.5生成的策略打分。
- 结果显示模型评价与人工专家评分存在显著差异,Spearman相关系数在0.30-0.48间,表明纯模型自我评价不够精准,且不同模型存在偏差。
- 这提示自动评估生成策略的能力仍需增强以达到专家水准。[page::6]
---
3. 图表深度解读
图1 - Novel Tax Strategy Diagram(第0页)
该图展示了由o1-preview生成的全新税策略的操作流程:
- 参与方包括纳税人(Taxpayer)、两个免税实体(Tax-Exempt)以及共同信托基金(Common Trust Fund)。
- 策略中共同信托基金通过“straddle”(跨期对冲交易)持有“winning leg”和“losing leg”两部分资产。
- 税款优化路径为纳税人先认可亏损(losing leg),随后退出基金,在之后的会计期间基金处置盈利部分(winning leg)给免税实体,纳税人无需承担盈利负税。
- 此机制绕过了限制税损抵扣的法条$\S1092$,巧妙利用基金可设定非年度会计期间的规则。
- 图表配合说明了步骤顺序(①识别亏损,②纳税人退出基金,③识别赢利),形象展示了复杂逻辑,非常直观,是AI自主创新的典范。

表1 - Analysis, Goal and Adversarial Verification Results(第3页)
- 对比了三模型在分析步骤验证、目标达成确认、对抗步骤识别三大任务中的表现。
- 在分析步骤“viable”判断(最宽松标准)上,所有模型可覆盖95%以上,但“correct”判定比例下降,尤其gemini-2.5出现明显回落。
- 目标达成率在包含分析辅助时最高,其中o3与claude-4均接近100%的目标“viable”判定,显示详情辅助极大增强模型推理。
- 对抗步骤判定中所有模型均存在较多误判,将不合法策略误判为可行。claude-4漏洞尤为明显,说明其易接受错误事实。
- 表中数值兼具“viable”和“correct”评价,显示出模型对法律严苛度的敏感但差异明显。[page::3]
图2 - Step-Cloze任务成绩柱状图(第4页)
- 展示LLMs在填补缺失步骤任务上的成绩分布及均分,三模型均在1-shot条件下最高,2-shot反而略有下滑。
- Gemini-2.5略优于其他模型,0分(完全不相关答案)数量较少,最佳分数3的比率超过半数。
- 说明模型对部分策略细节的理解能力有限,但有一定推理和组合创新空间。

图3 - From-Scratch策略生成评分柱状图(第5页)
- 箱型图展示不同得分区间生成策略数量,o1-preview生成的策略中0分比例最低,3分(全效实现策略)数量明显多于claude-3.5。
- 总体均分显示o1-preview领先,强调先进模型对于复杂任务生成能力提升明显。

图4 - 模型对生成策略打分的混淆矩阵对比(第6页)
- 展示三模型在评估生成策略质量时与人工专家评分的偏差。
- 图示表明claude-4过于宽容,不予0分评分,倾向高估质量,o3与gemini-2.5偶有漏判与误判。
- 进一步凸显了自动评判策略质量的技术难点与模型差异。[page::6]

---
4. 估值分析
本报告为法律与税务AI方向的研究报告,不涉及传统财务估值模型或金融市场估值法,因此无现金流折现(DCF)、可比公司分析(Comps)等相关内容。报告关注模型在税务策略识别和生成中“价值”的表现,核心是评判模型能否准确实现税务策略设计目的和规避风险。
---
5. 风险因素评估
报告明确表达了大型语言模型在税务避让领域目前存在的不足及潜在风险:
- 误判风险:模型易将无效或对抗性策略误判为有效,可能导致监管决策失误或漏检真实避税行为。
- 知识与理解局限:部分模型缺少基础税法常识,导致关键分析步骤验真失败。
- 数据隐私与训练数据限制:真实避税策略保密性极高,模型训练数据缺乏覆盖,影响模型的知识全面性和生成真实性。
- 评估准确性不足:模型自我评分与专家评分偏差大,自动化质量评估存在障碍。
- 地域限制:研究仅限于美国税法,结果或难直接推广到其他法律体系。
报告对风险区分严重性及出现概率虽无具体量化,却通过对模型性能的多维测试显示了当前不足与改进空间。[page::3,6]
---
6. 批判性视角与细微差别
- 专家劳动力局限:数据集规模(36条策略)受限于专家构造成本,或导致模型在训练和测试时面临的多样性不足,限制泛化能力。
- 模型表现差异与偏见:Claude-4表现出明显的“过于宽容”倾向,可能源于其训练目标或设计哲学。Gemini-2.5固守规则导致错误警报。
- 自动评估体系不成熟:模型内评分与专家评分的低相关性,暗示当前自动评估仍难替代专家判定。
- 对抗步骤识别不佳:说明LLMs在处理复杂反向案例时推理不够严密,易被误导。
- 创新策略验证需求高:新策略虽有创新潜力,但法律应用复杂且语境深厚,模型生成结果仍需高强度人工核查。
- 研究聚焦自然语言处理与法律推理融合,但未涉及法律策略实施后的经济反馈和长期影响。
- 可能存在训练数据泄露的理论风险,但作者分析此现象极小,凸显模型创新的真实性。[page::3,5,6]
---
7. 结论性综合
本报告系统评估了三大先进LLM在美国税务避让领域的应用潜力,发现其在理解复杂法律条文、验证避税策略步骤及达成目标的表现有一定水平,但也存在明显不足:
- 理解与验证效果:
o3与claude-4能将大部分策略分析步骤判断为合理(viable),且在包含法律分析辅助条件下可实现对目标达成的较高验证准确率。
- 策略生成能力:
生成缺失步骤的性能中等,填补约一半任务内容正确,完整生成策略成功比例不足三成。但o1-preview独立发明了全新的避税策略(图1所示),显示了模型用于税务监管创新的巨大潜能。
- 模型评分偏差:
模型自身对自由生成策略的评价水平与专家存在显著差距,自动评估机制尚需提升。
- 对抗策略识别不足:
所有模型存在无法准确排除失败策略的缺陷,表明其在规避误导信息的敏感度仍较低。
- 应用价值与挑战:
LLMs在辅助税务机构识别隐晦避税方案、创新税务规则解析及设计方面具有吸引力,但必须结合领域专家审核以保证结果的合规性和实用性。
- 公开资源贡献:
研发并部分开源高质量的Shelter Check数据集及相应代码,为未来税务AI研究提供基石。
- 收藏性限制与未来方向:
由于策略制作难度及保密需求,数据集规模有限且部分策略未公开,但团队承诺持续跟踪新模型表现,保持研究动态更新。
- 整体立场:
作者对LLMs表现持审慎乐观态度,预期未来模型能力提升将可在国家层面辅助打击税务避让,提升税收公平和效率。[page::0-6]
---
总结
该研究报告开辟了以大型语言模型辅助识别和构建税务避让复杂策略的全新领域,融合法律实务与AI技术,具有鲜明的前沿意义。通过构建高质量数据集及严谨多维评价体系,报告不仅揭示当前主流LLMs的优势与局限,也展示了如o1-preview生成原创策略的突破性成果。结论呼吁税务监管机构密切关注该领域发展,用LLMs为税收管理赋能,但同时强调需谨慎应对模型因理解不足带来的风险。报告结构详尽,数据丰富,是连接税法专家与AI研发者的重要桥梁。
---
参考文献
报告附带详尽引用,多为最新研究(2024-2025年),涵盖法理AI、税务法规数据集、LLM法律推理能力评估、税收监管自动化等领域,确保理论与实践的全面结合。[page::7,8]