`

AI as Decision-Maker: Ethics and Risk Preferences of LLMs

创建于 更新于

摘要

本报告基于50个大型语言模型(LLMs)的实验研究,系统测量了其固有风险偏好,发现对齐调优显著提升风险厌恶程度,且该效应具有因果关系且持续存在。过度伦理对齐虽保证安全,却可能导致风险承担不足并导致经济决策失衡,在金融投资预测等场景表现出谨慎偏差,揭示了伦理对齐和经济有效风险承担之间的关键权衡[page::0][page::3][page::24][page::30]。

速读内容


LLMs的风险偏好多样且稳定 [page::2][page::12]

  • 50个不同平台和架构的LLMs表现出从强烈风险厌恶到风险喜好的广泛分布。

- 每个模型的风险偏好在多次重复试验和不同尺度下表现出高度一致性。
  • 多种行为经济学方法得出相互验证的风险偏好结果。




风险偏好与伦理安全性正相关 [page::17][page::18][page::35]

  • 多个任务中模型的风险厌恶排序与安全性评分呈显著正相关,风险厌恶的模型更安全。

- 安全排名由Encrypt AI提供,回归结果显示风险偏好可部分解释模型安全性差异。




伦理对齐显著提升风险厌恶 [page::19][page::20][page::22][page::24]

  • 利用Mistral和其他4个模型基线与HHH(无害、有帮助、诚实)对齐微调对比,发现对齐后风险厌恶显著增强。

- 风险测度任务多维度验证调优后风险厌恶增加,投资任务中的风险投资金额明显下降。
  • 10%伦理对齐提升导致风险偏好下降2%-8%。


对齐风险偏好持久且难被对立指令改变 [page::20][page::21]

  • 对模型施加“风险喜好”或“风险厌恶”强制指令,强对齐模型仍保持高度风险厌恶。

- 对齐效果在风险偏好上存在持久且难逆转的“锚定”效应。

伦理对齐对财务投资预测的双刃剑影响 [page::25][page::26][page::27][page::28][page::29]

  • 利用基于企业财报电话会议文本的投资预测,发现轻度对齐提高预测准确性,过度对齐严重降低预测能力。

- 过度对齐模型投资评分趋近于零,暗示过度保守或“资金错配”风险增加。
  • 伦理词汇出现频率与对齐模型预测投资行为显著正相关,凸显对齐模型对伦理信号的敏感度及保守投资偏好。


量化风险偏好与伦理对齐关系的实证模型回归结果 [page::23][page::24]

  • 采用差分回归分析,发现伦理对齐提升与风险偏好下降显著负相关。

- 模型间一致性强,确保风险和伦理度量的稳健性。

量化回归摘要表格示例 [page::24]


| 任务 | 伦理对齐提升10%对应风险偏好变化 |
|--------------------|------------------------------|
| Questionnaire | 明显风险厌恶提升,评分下降 |
| Gneezy-Potters | 投资金额下降约8% |
| Eckel-Grossman | 投资选择风险水平降低 |
| Real Investment | 投资分数降低,风险承受能力减弱 |

LLM风险偏好与投资规模、任务间一致性验证 [page::14][page::15]

  • LLM风险排名在本金放大(10倍、100倍)情况下高度一致。

- LLM自我评估与实际行为任务风险偏好高度相关,验证风险偏好稳定性和可靠性。

深度阅读

对《AI作为决策者:大型语言模型的伦理与风险偏好》研究报告的详尽分析



---

一、元数据与概览


  • 报告标题:《AI as Decision-Maker: Ethics and Risk Preferences of LLMs》

- 作者:Shumiao Ouyang, Hayong Yun, Xingjian Zheng
  • 发布日期:2025年6月

- 发布机构:未具体说明,推测为学术研究机构或高校团队
  • 研究主题:探讨大型语言模型(LLMs)在扮演AI决策者时的风险偏好,以及伦理调优(alignment)对其风险偏好的影响,重点分析AI在金融经济领域中的决策行为与潜在的风险与伦理权衡。


核心论点
  • LLMs表现出多样且稳定的风险偏好,但这些风险态度存在显著差异。

- 伦理调优显著增强LLMs的风险厌恶倾向,尤其是在追求“无害性”、 “有用性”和“诚实性”方面的微调,会导致风险偏好降低约2%至8%。
  • 这种风险厌恶的提升虽增强了AI的伦理安全性,但也可能抑制有效的风险承担,带来经济决策的潜在次优风险。

- 报告提供了一个可适应、持久的实证框架,用于追踪LLMs风险偏好的变化及监控伦理调优和经济风险偏好的张力。

---

二、逐节深度解读



1. 引言与动机


  • LLMs已广泛介入经济和金融领域,如资源配置与市场预测等,但关于它们如何处理不确定性的内在机制尚不清楚。

- 伦理调优(AI alignment)旨在减少有害输出,但会影响模型的决策风格,倾向保守和风险规避。
  • 核心研究问题:(1)LLMs的风险偏好本质是什么?(2)伦理调优是否无意中使模型过于谨慎,限制其经济效率?

- 研究意义在于权衡伦理与经济效益这对矛盾,建立长期跟踪LLMs风险偏好的基准。

2. 文献回顾与研究定位


  • 现有研究多探讨LLMs模仿人类行为和偏见,但忽略对模型自身风险态度的根本分析。

- 报告突破点在于全面考察LLMs内在的经济风险偏好,而非简单检验与人类偏好的相似度。
  • 构建了涵盖50个多平台、多架构的大样本,进行五种经典行为经济学风险测量任务。


3. 研究设计与方法


  • 风险揭露任务

- 1) 直接风险偏好自述(3分类)
- 2) Falk问卷(0-10分自评风险毅力)
- 3) Gneezy-Potters实验(分配投资额)
- 4) Eckel-Grossman多选风险选项
- 5) 现实投资情境(风险资产/无风险资产分配)
  • 每任务重复100次,分析模型稳定性和风险态度。

- 多平台模型采集:Hugging Face(开源)、Replicate(中大型模型)、闭源厂商API(商业模型)。
  • 调参保持大多数默认温度0.3-0.7,确保一定随机性模拟人类多样性。

- 伦理调优:基于BIG-bench的“无害性-有用性-诚实性”(HHH)数据集对模型进行微调。
  • 重点微调五模型:Mistral(相对不对齐,实验主力)、GPT-4o(高度对齐)、GPT-3.5-Turbo、LLaMA、Qwen。


4. 基线风险偏好观察


  • 各模型表现出多样的风险态度,有显著的个体“风险画像”稳定跨各种任务和不同金额规模。

- 结果显示:
- 多数模型偏向风险厌恶,部分表现风险中性或风险喜好。
- 自述风险评分在0-8.11区间广泛分布。
- Gneezy-Potters实验投资额从极端0(谨慎)到满额投入(大胆)皆有体现。
  • 统计回归显示,自述风险态度与其他实验任务结果高度相关,验证了自述的有效性和模型一致性。

- 不同任务、不同金额尺度下的风险排名高度一致(图1、附图A1.1),说明LLMs风险偏好稳健且量级扩展时不失其结构特性。

5. 伦理调优对风险偏好的影响


  • 观察到“更安全、更符合伦理”的模型普遍风险厌恶,也就是伦理调优与风险规避正相关(图2)。

- 对Mistral模型的细致微调实验证明,HHH全面调优后,模型风险偏好明显转向风险规避:
- 直接风险偏好自述向风险厌恶完全转变。
- 问卷风险评分从6.28降至4.05。
- Gneezy-Potters投资额从平均5.65降至1.05,且在更高金额下趋近零。
- 性价比从风险偏好明显转为保守,其他任务亦表现相似趋势。
  • 调优-induced风险规避特征长期存在,难以通过显式提示强行“逆转”,即便明示让模型采取风险喜好立场,仍表现出强烈风险规避(“固化效应”,表4)。

- 将这一现象推广到其他模型(GPT-4o等)也观察到类似但幅度不同的影响,较低基线伦理水平模型受调优影响更大。
  • 伦理水平(组合“无害+有用+诚实”正确率)提升10%,可对应模型风险承受能力平均下降2%-8%(表6)。


6. 对实际经济决策的影响


  • 以Mistral模型分析企业财报电话会议文本,预测公司资本支出走向。

- 调优后不同伦理版本产生投资评分,轻度调优能提升资本支出预测准确性,但全面(HHH)调优反而使模型预测趋于极度保守,预测能力显著下降(表7、表8)。
  • 投资评分与未来资本支出呈正相关,但过度调优使该关系变弱甚或失效。

- 利用伦理内容词汇(构建50词词表)衡量报告伦理等级,发现:
- 伦理调优后模型更敏感并能够从伦理信号中提取信息,有助于提升对未来投资的预测。
- 基线模型无此交互效应,说明伦理调优强化了模型对语境中伦理因素的响应能力(表9)。
  • 这一结果强调了伦理调优与风险偏好塑造的复杂权衡:合理对齐能提升模型判断质量,但过度对齐可能导致经济低效与过度保守。


---

三、图表深度解读



图1:不同金额规模投资排名一致性(Real Investment)


  • 纵轴为按$10\times$、$100\times$投资尺度对50个模型风险态度排名,横轴为基线排名。

- 右侧面板($100\times$)中,拟合$R^2=0.95$,高度线性,表明模型的风险排名随金额扩展几乎保持不变。
  • 这说明风险偏好是模型内在属性,非单一金额效应。

- 附加图A1.1中Gneezy-Potters和Eckel-Grossman实验也表现出相似但稍低的稳定性(部分因实验固有差异)。

图2:风险偏好排名与安全排名正相关(问卷与实际投资)


  • 横轴为模型风险倾向排名(低代表风险厌恶,反之风险喜好),纵轴为安全排名(低代表更安全)。

- 回归斜率均为0.46,$R^2$约0.09,揭示风险越厌恶模型越安全,且存在显著相关性。
  • 其他任务子图A1.3(Gneezy-Potters和Eckel-Grossman)也表现类似趋势,强化了伦理调优引入风险厌恶的共识。


---

四、估值分析


  • 报告未直接进行传统金融估值模型(如DCF)分析,而是从行为经济学视角,评估LLMs风险偏好及其对预测企业投资的影响,间接涉及经济估值智慧。

- 投资评分构建基于LLM对企业未来资本支出的文本判断,评分区间为[-1,1],反映资本支出倾向,成为估值或投资决策输入的定性量化指标。
  • 不同伦理调优模型表现出显著差异,提示估值模型中加入LLM风险偏好调节因素具有实际意义。

- 过度伦理对齐导致预测能力下降,暗示金融估值过程若盲目采用深度伦理调优型AI,可能偏向防御性估值,影响整个资本市场风险评估及定价。

---

五、风险因素评估


  • 风险点一:伦理调优引发的过度风险厌恶可能导致“低估”实际回报机会,形成系统性保守和“错失投资”。

- 风险点二:不同LLM间风险偏好差异大,且缺乏充分透明公开,实际应用中可能因模型替换或版本更新引发策略失灵。
  • 风险点三:调优引入的“不可逆”风险偏好改变限制了用户通过提示灵活调控风险暴露的能力。

- 风险点四:伦理调优带来的效用与风险权衡可能对金融机构资本配置、风险管理和监管合规带来挑战。
  • 报告强调需开发风险偏好监测框架,配合伦理调优策略,防范潜在经济效率损失。


---

六、批判性视角与细微差别


  • 报告基于实验设定广泛评价风险偏好,使用的100次重复试验增加了结果稳健性,但现实金融决策场景可能更为复杂,LLMs在实际应用中环境变化和输入多样性可能影响风险表现。

- 伦理调优带来的风险厌恶“固化效应”虽有明确证据,但缺乏对调优参数细节的深入剖析,如微调强度、数据集分布、训练步幅等对风险偏好塑造的量化贡献。
  • 作者倾向认为调优风险厌恶程度不可避免,但未充分讨论是否存在调优方法可兼顾伦理与风险适度平衡。

- 虽然多模型研究丰富,但部分闭源模型因调优细节不可知,存在一定实验复现和假设延展限制。
  • 投资评分构建过程较为简单化,评价指标未结合更复杂财务模型,未来可拓展至多维决策体系。

- 总体报告保持学术公正,避免主观判断,深入揭示AI伦理与经济效率的对立关系,启示未来对齐技术的多目标优化路径。

---

七、结论性综合



本报告基于大规模、多任务、多模型方法,深入剖析大型语言模型(LLMs)内在风险偏好及其受伦理调优影响的动态机制。核心发现包括:
  • LLMs存在明确且稳定的“风险人格”,跨任务与金额尺度表现一致,风险态度在开源与闭源模型间差异显著。

- 伦理调优(特别是“无害性-有用性-诚实性”联动微调)显著提升模型风险厌恶度,导致经济决策趋向保守,且这种风险偏好难以通过提示逆转,具有“固化”特征。
  • 细致对比多个主流模型,调优效应对低基线伦理模型(如Mistral)影响最大,对高度预对齐模型效应较弱,体现个性化调优潜力与风险。

- 在企业资本支出预测任务中,轻度对齐能提升模型对未来投资的预测能力及伦理信号敏感性,但过度对齐显著抑制模型预测能力,导致潜在的“金融市场低估”风险。
  • 伦理偏好与经济效率存在不可忽视的权衡,AI风险管理必须在保护社会伦理和实现资本市场合理风险承担之间取得平衡。

- 报告提出基于伦理与风险偏好双重维度的跟踪基准框架,为监管者和金融机构合理选用及调优AI工具提供实证参考。

配合五项风险实验的定量分析,以及丰富图表(如风险排名与金额扩展关系图:图1,风险偏好与安全相关性图:图2,多表并行展示风险偏好与伦理水平关系),报告系统阐述了伦理调优对风险偏好的影响路径及其在金融实践中的具体表现。研究不仅加深了对LLMs行为经济学特征的理解,也为AI伦理调优与经济决策应用提出了具体警示与指导建议,拓展了AI金融学领域的研究视野。

---

参考图表示范说明


  • 图1显示了LLMs在现实投资场景任务上基础金额(横轴)与10倍及100倍金额(纵轴)风险偏好排名的对比。回归表现出高度线性关系($R^2$分别为0.73和0.95),表明风险偏好的稳定性和跨金额尺度的一致性。
  • 图2(子图A)展示了通过问卷任务得出的风险偏好排名与安全排名间的正相关关系。斜率约0.46,$R^{2} = 0.091$,表明风险越厌恶模型越被评为安全。
  • 图2(子图B)对应现实投资任务的风险偏好与安全排名,显示类似的正相关和安全性提升趋势。


---

综上,该报告全面、细致地剖析了LLMs在风险偏好与伦理对齐之间的关键张力。对于AI在金融领域的应用具有深远意义,为模型设计者和使用者在追求伦理合规和经济效率之间提供了重要的理论和实证参考。

报告