`

Human vs. Algorithmic Auditors: The Impact of Entity Type and Ambiguity on Human Dishonesty

创建于 更新于

摘要

本报告通过实验设计探究人在算法或人类审计员核查时的欺诈行为差异,发现透明审计规则下机器与人类无显著差异,而黑箱(模糊)算法审计环境下作弊程度显著上升,呈现“全真或全假”的极化行为。这强调了算法黑箱问题对人类诚信的负面影响,并对自动化监控系统设计提出透明化建议 [page::0][page::21][page::25]。

速读内容


实验设计与方法概述 [page::8]


  • 实验采用随机抽牌及匿名报告制度,报数字越大潜在奖金越高,诱导作弊动机。

- 结合两阶段抽签机制与概率检查及惩罚,实现现实中审计风险与违规惩罚模型。

样本特征与分组情况 [page::12]


| 组别 | 人数 | 平均年龄 | 女性比例(%) | 主修专业(主要为经管) |
|------|------|----------|-------------|----------------------------|
| Human (H) | 48 | 21.8 | 54.2 | 商管56.3,自然6.3,文化37.5 |
| Machine (M) | 41 | 21.8 | 58.5 | 商管68.3,自然9.8,文化22.0 |
| Human Blackbox | 43 | 21.9 | 58.1 | 商管58.1,自然4.7,文化37.2 |
| Machine Blackbox|38 | 22.5 | 52.6 | 商管42.1,自然21.1,文化36.8 |
  • 四组均匀随机分配,性别及专业无显著差距。


作弊行为与分布及统计结果 [page::14-15]


  • 报告数字的频率显著不同,Machine Black Box组作弊最多,且作弊幅度显著更大。

- 报告作弊类型分布:
- 诚实率:H(52.1%) M(51.2%) HB(60.5%) MB(42.1%)
- 部分作弊:H(35.4%) M(39.0%) HB(18.6%) MB(10.5%)
- 全作弊(最大报6):H(12.5%) M(9.7%) HB(20.9%) MB(47.4%),MB组部分作弊几乎消失。
  • 作弊幅度(仅作弊者):

- 平均值:H2.26,M2.40,HB3.06,MB3.73
  • 机器与人工审计下透明规则时作弊幅度无显著差异(p=0.6357),但黑箱条件下机器组作弊幅度显著更大(p=0.0442)。

- 机器组中黑箱与透明规则下作弊幅度差异极显著(p<0.0001)。

认知及偏好控制变量分析 [page::16-17]



  • 参与者认为人类审计员更易出错且判断更具自由裁量权。

- 审计者选择偏好受实验条件影响,呈轻微“惯性偏好”但不显著偏向某一方。
  • 风险偏好与作弊显著相关,风险更高者作弊可能性与幅度均更大。

- 女性作弊率明显低于男性,但作弊幅度无显著差异。

回归分析揭示多变量影响因素 [page::19-20]

  • 机器黑箱组显著提升作弊幅度,回归显著且效应量大(系数约+3.5,p<0.001)。

- 个体风险偏好显著正相关作弊幅度,技术亲和度高者对机器审计作弊幅度更低。
  • 认知中认为审计方“更易出错”时,作弊幅度有上升趋势。

- 性别、年龄、领域等变量对作弊幅度影响不显著。

研究主要结论及影响 [page::21-25]

  • 透明审计规则下,机器审计与人类审计对作弊行为影响无显著差异,表征理性风险收益权衡。

- 模糊规则(黑箱)环境显著放大与机器审计相关的作弊程度,作弊行为呈两极分化(完全诚实或最大作弊)。
  • 机器黑箱审计降低社会形象成本,促使作弊更易被道德合理化。

- 现实环境中,增加审计透明度有助于抑制诈骗规模,纯算法自动化可能在模糊规则下加剧不诚实行为。
  • 推荐税务、合规审计及员工监控等领域优先提升算法透明性,或采用人机结合混合模式。


深度阅读

金融研究报告详尽分析报告


报告标题: Human vs. Algorithmic Auditors: The Impact of Entity Type and Ambiguity on Human Dishonesty
作者: Marius Protte 和 Behnud Mir Djawadi
发布日期: 实验在2023年12月进行,推测报告发布时间为2024年初
研究机构: Paderborn大学 Heinz Nixdorf Institute, Behavioral Economic Engineering and Responsible Management
研究主题: 研究机器审核(算法审核)与人工审核作为验证主体时,人类的欺骗行为表现差异,特别分析验证规则透明度(明确 vs. 模糊/黑箱)对行为的影响。

---

1. 报告概览与核心论点



本研究聚焦于人机交互中一个较少被涉猎但极具现实意义的领域:机器(算法)在监督和验证环节作为检测虚假陈述的主体时,个体的欺骗行为如何变化。作者设计了一种结合风险与随机处罚概率的实验,利用扩展的骰子抽卡模拟并结合两个关键变量:
  • 验证实体(人类 vs. 机器)

- 验证过程的透明度(透明 vs. 模糊/黑箱)

主要发现强调:
  • 在透明验证情景下,人机替代对欺骗规模无显著影响。

- 在模糊验证规则情景下,由机器审核时欺骗程度显著增大,表现为行为极化——即个体要么完全诚实,要么最大程度欺骗,部分欺骗者数量减少。
  • 机器黑箱审核与透明审核相比,欺骗规模显著更大。


这表明算法的黑箱性质及验证规则的不透明,会无意中促进更严重的欺骗行为,提示设计自动化监督时需充分考虑透明度以维持行为规范性。该结论对税务审计、合规监管及在线劳动平台的自动监控系统设计具有重要启示。[page::0, 1, 21, 25]

---

2. 章节详细解读



2.1 引言部分(第1页-第3页)



作者指出人机交互正全面渗透各领域,尤其在监管和监督场景的算法应用日益广泛,但针对算法作为审核者时对人类不诚实行为(欺骗)的影响尚缺乏深入研究。现有文献多关注算法作为建议者角色下的接受度与行为反应,涉及算法偏好及反感、机械决策的公正感与信任等问题。

针对不诚实行为,相关研究发现个体在与机器交互时欺骗意愿往往高于与人交互,且存在利用机器降低道德负担的倾向。但这些研究通常以“无法被发现”为前提,[page::1, 5] 本报告关注的情景则是机器能检测出虚假陈述的情况,从而考察检测主体和检测规则透明度对欺骗行为的潜在影响。

作者提出两大研究问题:
  • 人类欺骗行为在被机器还是人类验证时有何差异?

- 验证过程中的模糊性(规则透明度)如何影响欺骗行为?

实验设计通过奖金驱动和概率惩罚模拟实际违背诚信的经济决策情境,旨在剥离具体领域复杂道德因素,突出验证主体与规则模糊性对行为的独立影响。[page::1-3]

---

2.2 文献综述与假设提出(第3-8页)


  • 算法技术:算法定义为任何确定性、逐步执行的决策技术,涵盖广泛从专家系统到深度学习型AI。

- 算法感知:个体对算法的态度复杂,既存在“算法反感”(偏好人类判断,即使算法更优)也存在“算法欣赏”(有时更信任算法)。感知受个人背景(性别、年龄、教育)和任务复杂度等影响。[page::3-5]
  • 人类不诚实行为:欺骗行为具有显著个体差异,部分诚实、部分偏离、部分极端欺骗皆有,研究显示社会声誉、道德负担和风险意识等因素调控欺骗;人们倾向于在机器监督下欺骗更多,部分因机器缺乏社会评价作用。[page::5]


假设:
  • H1:人类欺骗行为受验证实体(人类vs机器)影响,但方向不确定。因机器审核尽管客观严格,有可能降低社交形象顾虑,促使行为更大胆或受算法黑箱效应影响。

- H2:验证规则透明度(明确vs模糊)影响欺骗表现,尤其在机器审核中更为显著,但效果方向亦不明确。模糊不确定可能使人采纳“全诚实或全欺骗”的极端策略。[page::6-8]

---

3. 实验设计(第8-12页)


  • 主体设计:一轮抽卡(从100张卡中抽取带编号1-6的卡,卡牌构成不均匀,大部分为2),被试需报告所抽编号,报告数字越高奖金越多。故诱导参与者以报告较高数字作弊。

- 验证机制
- 抽取第一轮随机数(1-10),数值低于或等于报告数时触发检查;
- 检查中,若报告与真值不符,进入第二轮抽取(1至报告数),根据第二轮结果判定是否减奖。
  • 奖罚机制具备概率性和分级惩罚性质,模拟现实审计中的风险和容错机制。

- 试验变量:四组
- Human (H) - 人工透明审核;
- Machine (M) - 机器透明审核;
- Human Black Box (HB) - 人工模糊审核;
- Machine Black Box (MB) - 机器模糊审核。
  • 参与者通过完全随机分配进入组别,实验配有全面的问卷测量控制技术亲和度、风险偏好、道德敏感性等潜在混淆变量。[page::8-12]


---

4. 实验结果(第12-21页)



4.1 欺骗行为分析


  • 欺骗发生率较高(40%-60%范围内),不同组别报告的平均数字差异显著(MB组报告数字最高,均值4.16,远超其他组约3)。[Figure 3, Table 2][page::13-14, 14-15]
  • 透明规则下,人机两组欺骗量无显著差距。模糊规则下,机器审核组欺骗明显扩大,表现为更高比例的“全欺骗”(最高可报6),而部分欺骗减少,说明行为极化。[page::14-15]
  • 指标显示模糊规则与机器审核结合产生较大行为效应(Cohen's d超过1.5,视为大效应),透明规则下实体影响甚微。[page::15-16, Table 8]


4.2 控制变量和感知调查


  • 参与者普遍认为人类更易犯错且拥有更大酌情权,但并不明显偏好某一验证实体。

- 风险偏好与欺骗正相关,男性比女性更倾向于欺骗,但欺骗金额差异不大。
  • 技术亲和度对机器审核下的欺骗幅度有抑制作用,反映技术素养可能降低对机器审核的恐惧或误解。[page::16-18]


4.3 多变量回归分析


  • 机器黑箱组相较人类透明组,欺骗金额显著增加3.5单位左右,说明模糊规则与机器审核身份的交互效应强。

- 性别和风险偏好是欺骗概率和幅度的重要预测因子。
  • 其他变量如伦理敏感性、与审核者的亲近感不显著。

- 当审核者被视作更易犯错时,个体欺骗幅度增加,尤其在人类审核情景中。[page::18-20, Table 4]

---

5. 讨论与结论(第21-26页)


  • 实验结果支持假设:透明验证下,审核实体身份对欺骗行为无实质影响,验证规则透明帮助个体合理评估风险,做出理性权衡。

- 模糊验证规则下,机器审核导致欺骗加剧,体现黑箱效应降低伦理自我约束,引导行为极化。人类审核黑箱中欺骗水平虽有所变动,但不及机器显著。
  • 外部社会机制中,机器审计往往被认为更客观无情,具备强制力但缺乏社交评价,从而降低社交形象约束,引导个体伦理重构。

- 研究结果面临样本规模、实验情境(基础算法而非完整AI)、验证过程人工参与等限制,需谨慎外推。
  • 实际应用中,建议增强自动审核系统的透明度,避免黑箱效应增加违规行为和经济损失。成本允许情况下,可考虑人机混合模式,如AI预审再人类终审。[page::21-26]


---

3. 图表深度解读



图1(第9页)- 实验选择阶段流程图


展示了参与者抽卡、报告数字和奖金确定的全过程。图示清晰,强化参与者独立且保密作出的报告,诱导潜在作弊动机。

图2(第10页)- 验证流程图


阐述了包含两轮随机抽奖的处罚逻辑:第一轮决定是否检查,下轮决定是否惩罚。此设计模拟真实审计中基于举报金额大小差别化审查力度和惩罚概率。验证规则在所有实验组等效,仅验证主体及规则透明度不同。

图3(第14页)- 不同实验组的报告数字频率分布




  • 蓝色标记真实抽中数2的频率,红色为超出2的报告数量,反映作弊程度。

- MB组报告6的显著高频显示完全欺骗盛行。
  • 非黑箱组作弊分布相对平均,表现为较多部分欺骗。

- 数据直观支持模糊-机器状况下欺骗加剧且模式极化的结论。

图4和图5(第16页)- 误差率和酌情权感知柱状图





  • 统计显示参与者一致认为人类审核更易出错,且拥有更大的自主裁量权。这一认知潜在影响了对不同审核实体的信任和欺骗动机。


图6(第17页)- 审核实体偏好




  • 实验参与者对验方偏好无明显倾向,表现为某种“默认选项效应”,偏好等同当前所属组的审核实体。


表1(第13页)- 人口统计统计表


详细列出样本数量(170人),分组情况,平均年龄、性别比例及专业分布,无显著性差异,确保组间可比性。

表2(第14页)- 各组欺骗行为类型与程度统计

  • 反映透明组中部分欺骗多于完全欺骗。

- 秘密组中,机器黑箱组全欺骗比例最高,部分欺骗近乎缺失,诚实者略低于全欺骗者。
  • 反映模糊规则+机器组欺骗规模和心理极化明显。


表3(第17页)- 调查问卷量表统计


涵盖技术亲和性、伦理敏感性、亲近感和风险偏好,无组间显著差异,保证这些变量不会扭曲主要实验效应。

表4(第19页)- 多元线性回归分析

  • 突出机器黑箱组的作弊幅度系数高度显著且最大的影响力,调整R^2超过0.45,显示模型对行为解释力较强。

- 性别、风险偏好的显著影响及技术亲和性的互动效应被定量验证。
  • 审核主体的错误倾向感知对作弊行为的放大也首次量化体现。


---

4. 估值与方法学细节解析



实验设计采用风险概率核算和分层抽查机制模拟审计情形,通过明确的奖金激励和惩罚折扣构建权衡模型(详见附录D)。参与者行为模型假设风险中立,预测报告最高数字6为理性收益最大化策略;实际行为对比反映主观风险偏好和社交心理效应。

统计建模采用多种方法测试稳健性,包括非参数检验(Mann-Whitney U)、Cohen’s d量效应大小、多元OLS和Logit回归,反复确认机器审核黑箱处理为主行为驱动因素。

---

5. 风险因素评估



报告揭示若忽视验证规则透明度,自动化审核可能诱导更严重欺骗带来经济损失。实际应用中面临的风险包括:
  • 算法“黑箱”特性降低透明度,增加道德风险;

- 人机审核权衡不当可能激发反社会或反生产性行为;
  • 参与者对人工参与仍存认知盲区,影响结果外推;

- 实验样本偏向学生,外部有效性限制。

缓解策略关注提升自动化系统的可解释性,设计人机结合审核流程,增强用户对算法决策的理解和信任,减少算法“黑箱”带来的负面激励。[page::23, 25]

---

6. 批判性视角与细微差别


  • 实验中的机器审核实际上含有人类介入(抽查与核实过程),该因素可能减弱纯算法交互的社交隔离感,限制对强算法惩罚效应的观察。

- 欺骗总体水平高于部分相关研究,可能因实验中对惩罚的明确告知增加参与者对规则风险的敏感度,带来行为决策面转变。
  • 模糊规则条件下增加欺骗的现象虽显著,但统计功效受样本大小限制,0.05临界水平的结果建议谨慎解释。

- 规则透明的机器审核未显著降低欺骗率,提示单纯提高客观性不足以压制不诚实动机,社会心理机制不可忽视。

---

7. 结论综合



本报告基于严密设计的实验数据,深入剖析了人类在算法与人工审核环境下的欺骗行为差异。核心发现包括:
  • 验证规则的透明或模糊,是决定人类欺骗规模及模式的关键因子。

- 在规则透明条件下,机器审核与人审核在抑制欺骗方面功能等效。
  • 规则模糊特别是配合机器审核时,会激发更极端且更高水平的不诚实行为。

- 社会声誉、风险偏好、技术亲和度等个体特质对欺骗行为有调节效应。
  • 机器审核“黑箱”效应可能降低个体内部诚信约束,促使行为极化,提示算法系统设计需强化透明度与可解释性。


这一结论对税务、金融监管等自动化检测系统设计提供了务实指导,强调仅凭算法精度优势不足以实现预期的制度完善,需结合人类监督与制度透明度建设,倡导“人机融合”的监督新范式。[page::21-26, 25]

---

附:重要图表markdown引用


  • 实验选择部分流程图(图1)


  • 实验验证部分流程图(图2)


  • 报告数字频率分布(图3)


  • 审核实体误差感知柱状图(图4)


  • 审核实体酌情权感知柱状图(图5)


  • 验证实体偏好(图6)


  • 人工审核示意(图7)


  • 机器算法审核示意(图8-10)





---

总体而言,报告结构严谨,理论与实证结合紧密,利用创新实验设计对日益普及的算法审核技术在现实应用中对人类行为的深远影响进行了开创性探索,结论对监管管理和算法设计具有实际指导意义。研究细节透明,数据分析充分,结论稳健但对外部推广保持谨慎,值得金融与行为经济学领域关注和进一步复制验证。

报告