`

Automated Social Science: Language Models as Scientist and Subjects

创建于 更新于

摘要

本报告提出一种利用结构因果模型指导大型语言模型(LLM)进行社会科学假设自动生成与验证的系统。通过四个社会情境的模拟实验,系统成功构建了假设、设计实验、执行LLM代理互动并拟合结构因果模型,实验结果与理论高度吻合,且证明LLM本身蕴含更多信息,需借助结构因果模型揭示。该方法实现了社会科学研究流程的自动化与可复现,推动社会随机实验规模化与高效探索 [page::0][page::2][page::6][page::10][page::12][page::14][page::16][page::17][page::21][page::26]

速读内容

  • 系统流程与设计概要 [page::6]


- 输入社会情境描述,自动生成潜在因果变量与假设(结构因果模型SCM)。
- 通过LLM构建具不同属性的代理人,模拟多主体互动。
- 设计并选择对话轮换协议,实现实验对话自动停止机制。
- 收集交互结果,依据预注册分析方案拟合线性结构因果模型并估计路径系数。
  • 各场景实验结果总结 [page::10][page::12][page::14][page::16]

- 两人讨价还价(买家预算、卖家最低价及情感依恋显著影响达成交易概率):每单位买家预算增加,交易概率提升3.7%;卖家最低价及情感依恋分别降低3.5%和2.5%交易概率。

- 保释听证(被告犯罪史显著提高保释金额,后续案量及忏悔影响不显著):

- 律师招聘面试(仅律师资格考试通过显著影响录用决策,面试官态度与应聘者身高无显著效应):

- 艺术品拍卖(竞拍者预算均正向影响成交价,符合二价拍卖理论预期):
  • LLM对实验结果的预测能力分析 [page::17][page::18][page::19][page::20]

- 直接基于提示的LLM预测成交价($yi$)严重偏离理论和实验,均方误差(MSE)高达8628,远高于理论128。
- 预测路径系数($\hat{\beta}$)平均高估13.2倍,但方向正确率高达10/12,显著性判断正确率也近似。
- 在辅以排除单点拟合模型路径估计的条件下(predict-$y
i|\hat{\beta}_{-i}$),LLM预测显著改善,MSE降至1505,但仍不及理论表现。
  • SCM确保因果识别与避免假设错误 [page::21][page::22][page::23][page::24][page::25]

- 设计的随机实验确保SCM路径估计无偏,排除“不良控制”偏误。
- 从观测数据搜索因果结构(如GES算法)常出现方向不确定性,SCM避免此问题。

  • 系统特点与未来发展方向 [page::26][page::27][page::28]

- 实现社会科学完整自动化实验设计、执行与分析流程。
- 允许研究者在任何步骤插入人工编辑,增强交互与灵活性。
- 提供完整可复现JSON实验日志,实现数据与流程共享。
- 未来可尝试丰富代理属性、改进交互顺序和结束机制,以及自动迭代的研究程序。

深度阅读

金融研究报告详尽分析报告


报告标题


Automated Social Science: Language Models as Scientist and Subjects

作者与机构

  • Benjamin S. Manning (MIT)

- Kehang Zhu (Harvard)
  • John J. Horton (MIT & NBER)


发布日期


2024年4月26日

---

一、元数据与引言概览



本报告提出并实现了一套基于结构因果模型(Structural Causal Models,SCM)大型语言模型(Large Language Models,LLM)的自动化社会科学研究系统,能够完成从自动生成假设、设计实验、运行实验、收集与分析数据的全流程,模拟社会科学的完整科学过程。研究主题涉及人类社会行为模拟,包括谈判、保释审判、求职面试、艺术品拍卖四个典型社会互动场景。

核心观点:
  • SCM提供了一个结构性语言,用以描述因果假设,设计实验涉及的变因和观测变量,指定实验设计和拟合模型,从而实现自动化。

- LLM不仅能自动提出假设,模拟不同身份和属性的代理人,还能在实验中扮演实验主体,生成并回答测量问题。
  • 实验结果验证了LLM通过模拟获取的因果洞见在多场景中与理论或经验观察相符,且远超直接对LLM的简单提问所能获得的推理水平。换言之,LLM有“潜在”因果知识,但直接提问无法完全剥离并利用,这套实验系统有效激活了这部分知识。

- 该系统同时允许人类研究者在任意阶段介入,灵活调整假设、代理人属性等参数。

评级、目标价:本报告属于方法论、系统开发及实验验证,未涉及传统金融标的评级或目标价格,但提供了一种系统化对社会科学问题建模与检验的新范式。作者认为该系统为未来社会科学大规模、快速生成和验证假设提供了可能,也开启了人与AI协同研究的新空间。[page::0,1,2,3,4,5,6,7]

---

二、逐节深度解读



2.1 引言与动机(Section 1)


  • 过去经济计量模型的建设完全依靠人工,人力成本高且效率低。

- 近年来机器学习尝试自动生成模型和假设,但缺乏快速测试机制是瓶颈。
  • LLM在模拟人类行为方面日益真实且有效,使得使用LLM模拟主体进行“体内(in silico)”实验成为可能。

- SCM具备明确表达因果关系的能力,已被广泛采用。本文创新点是将SCM作为设计自动化实验的蓝图,能指导LLM代理人模拟行为的变因设定、实验设计和数据分析。
  • 该方法不仅能生成假设,还能测试假设且形成预测模型,为后续实验提供依据。

- 系统自动化完成社会科学研究全流程,作者对其进行四个场景的验证。[page::1]

2.2 系统介绍与工作流程(Section 2)



系统完美对应人类社会科学实践的典型步骤:
  1. 选择社会科学观察场域(议题)。

2. 生成关注的因变量和潜在的自变量作为假设。
  1. 设计实验(操纵自变量,测量因变量)。

4. 制定包括数据分析的“预分析计划”。
  1. 启动实验(这里使用LLM代理人替代真实参与者执行实验)。

6. 收集数据。
  1. 依据SCM模型建设估计关系,得出结论。


SCM在实验设计中核心作用体现在“一旦确定因果结构,实验设计就明确定位到需操纵的外生变量,避免复杂选择空间爆炸”,这是实现全自动化的关键。

技术层面,系统采用Python实现,全部调用GPT-4作为LLM接口。流程中各步骤均可接受人类编辑干预,使得系统具有人机交互能力和灵活可控性。
系统的运作流程用图1清晰展示(见下文图表深度解读)。[page::4,5,6,7,8,9]

2.3 四大社会场景自动实验结果(Section 3)



3.1 谈判:两人围绕马克杯议价


  • 系统仅输入场景描述,自动生成买卖双方作为代理人。

- 因变量:是否达成交易(二元变量)。
  • 自变量(外生变量):买家预算,卖家最低可接受价格,卖家对马克杯的情感依赖(五级顺序变量)。

- 水平设置:买家预算与卖家最低价各9个水平,卖家情感5个水平,共计9×9×5=405次模拟实验。

实验结果详情(表2a、图2b)
  • 成交概率的平均值为0.5。

- 买家预算每增加1美元,成交概率提高约3.7个百分点($\hat{\beta}=0.037$, $p<0.001$)。
  • 卖家最低价每增加1美元,成交概率下降约3.5个百分点($\hat{\beta}=-0.035$, $p<0.001$)。

- 卖家情感依赖每增加一个等级,成交概率下降约2.5个百分点($\hat{\beta}=-0.025$, $p=0.044$)。

显示所有三者均有显著作用,符合人类直觉并严格基于模拟数据的实验结果支持。

3.2 保释审判:法官为逃税罪犯设定保释金额


  • 代理人包括法官、被告、辩护律师、检察官。

- 语音交互采用“中心排序”协议,法官为核心多发言对象,轮流与其他人交替发表意见。
  • 因变量为法官设定的保释金额(连续)。

- 自变量为被告犯罪记录(既往定罪数量)、法官当天审理案件数、被告的忏悔程度(五级顺序变量)。
  • 共243个实验变量组合。


实验结果(表3a、图3b)
  • 被告犯罪记录显著正向影响保释金额,每新增一项犯罪记录,保释金额平均上升521.53美元($\hat{\beta}=521.53$, $p=0.012$)。

- 被告忏悔对保释金影响不明显,边缘显著($\hat{\beta}=-1153.06$, $p=0.056$)。
  • 但法官当天审案数量无统计显著效果($\hat{\beta}=-74.63$, $p=0.252$)。

- 加入了法官当天案件数与忏悔的交互,交互项显著($\hat{\beta}=-0.32$, $p=0.047$),但主效应不显著。

3.3 求职面试:律师岗位面试模拟


  • 代理人:面试官、应聘者。

- 因变量:是否录用(二元)。
  • 自变量:应聘者是否通过律师资格考试(0/1)、面试官友善度(口头表述次数,5种水平)、应聘者身高(8个水准)。

- 样本量仅80(2×5×8)。

结果(表4a,图4b)
  • 只有通过律师资格考试的因素影响显著,提升录用概率约75个百分点($\hat{\beta}=0.75$, $p<0.001$)。

- 面试官友善度和应聘者身高对录用与否无显著影响。

3.4 艺术品拍卖:三个竞拍者竞标一件起价50美元的艺术品


  • 代理人:三竞拍者及拍卖官。

- 因变量:拍卖最终成交价格(连续)。
  • 自变量:三名竞拍者各自的最高预算(7个水平,私有值)。

- 交互协议同样采用中心排序,拍卖官为中心角色。
  • 共343个实验组合。


结果(表5a,图5b)
  • 每名竞拍人预算每增加1美元,最终成交价平均提升0.29-0.35美元,均显著$p<0.001$。

- 溢价和竞拍者预算严格正相关,结果符合经典拍卖理论(Maskin&Riley 1985)。

总的来说,以上四个场景均得到了结构良好、统计显著的因果路径估计,体现了系统自动构建SCM和仿真社交互动的有效性和准确性。[page::9,10,11,12,13,14,15,16,17]

---

三、重要图表深度解读



图1:系统流程概览(第6页)

  • 包含7个步骤:

1) 明确社会场景
2) 生成假设(SCM)
3) 构建具有多样属性的LLM代理人
4) 设计代理人之间的交互顺序
5) 并行执行带有不同因变量值的实验
6) 通过询问代理人收集结果数据
7) 估计SCM路径,拟合模型
  • 通过图片中机器人形象分别代表买家、卖家、法官等角色,清晰反映了系统将原理转为模拟步骤。

- 备注强调了假设决定实验设计和分析方案,整套系统决策链条以自然语言提示与编程整合完成。



图2:两人谈判实验设计与SCM拟合(第11页)

  • 2a(表格层面)详细说明了模拟中“出价预算”“最低接受价”“卖家情感”共三个自变量的取值范围和度量方式。

- 2b(因果图层面)用有向图标明三个自变量对成交概率的线性路径系数及标准误,成交率均值0.50,方差0.25。
  • 数值清晰显示买家预算的正效应,卖家最低价和情感依赖的负效应,均显著。

- 该图支持文本结论,说明卖家高度情感依赖降低成交易概率,买家预算越高交易概率越大等。



图3:保释审判设计及结果(第12页)

  • 3a阐明“四角色、多次交互”中心排序方式的演绎设计与变量信息(刑史、法官日案量、忏悔等级)。

- 3b揭示刑史正向影响保释金额显著(521.53美元/次),忏悔负效但边缘显著,法官案件数无效。
  • 标准误较大,说明模拟结果具有一定波动,不过模型显著提示刑史为主要影响因素。




图4:律师面试设计和因果图(第14页)

  • 自变量包括是否通过律师资格考试,面试官友善程度,候选人身高。

- 结果显示唯有证书通过与录用决定存在强显著关系。
  • 其余因素路径系数接近零且不显著。




图5:拍卖实验设计及因果模型(第16页)

  • 三竞拍者预算七档,分别作为自变量同时影响拍卖价格。

- 每个竞拍者预算对成交价都有显著正向影响(路径估计均约0.29-0.35)。
  • 符合经济学中效边际贡献均等的经典理论。




图6 & 附图A.10:LLM预测与理论/实验值对比(第19、60页)

  • 图6通过多子图展示了不同预约价组合下的最终成交价,三条曲线分别代表实验观察值,拍卖理论预测,及LLM两种不同条件下的预测。

- 粗看,LLM未经SCM拟合辅助的预测(蓝线)明显偏离实验结果和理论值,有时形状反常,反映“纯思考实验”能力有限。
  • 在提供拟合SCM估计($\hat{\beta}$)后,LLM预测(红线)大幅提升,MSE下降6倍,但尚不及拍卖理论准确。

- 黑线几乎完美贴合实验数据,证明理论模型可解释该模拟。
  • 该图用自然实验方式验证了SCM在引导LLM准确推断模型中的关键作用。





图7:真实与误判SCM对比(第23页)

  • 左图为真实SCM,确认买家预算与卖家最低价显著影响谈判时长;右图为误判结构,引入“成交是否达成”作为控制变量,导致买卖双方预算影响幅度显著下降。

- 说明盲目以观察数据拟合SCM若包含错误控制变量,因果估计可能严重偏误。
  • 这突出强调了SCM基于实验随机化设计的重要优势。




图8:GES算法误判税法案因果结构示意(第25页)

  • GES算法仅凭数据推断判定罪犯刑史与保释金间因果关系方向模糊不清,二者同时被连接但无法断定方向。

- 该结果与手动指定SCM并基于实验随机化数据所得结论相较,显示数据驱动的结构搜索方法局限。
  • 强调SCM在设计初期指定因果结构以控制后期识别的必要性。




---

四、估值方法与预测分析(Section 4)



本报告不涉及传统意义上的公司价值或金融资产估值,而是在统计学和社会科学领域内从拟合SCM路径系数($\hat{\beta}$)出发对LLM预测能力进行评估。
  • 两种主要预测任务

1. 预测实验数据点(predict-$yi$任务):给定输入变量,直接预测输出。
2. 预测路径系数(predict-$\hat{\beta}$任务):预测SCM路径系数的数值和显著性。
  • LLM对第一任务未提供拟合路径信息的情况下表现极差,预测的均方误差为8628,远大于理论值128及实验结果偏差。

- 对路径系数的预测,LLM平均过高估计13倍,预测方向十分准确(10/12符号正确),但规模不符。具有统计判别能力。
  • 提供拟合路径系数(即predict-$yi|\hat{\beta}{-i}$任务)后,LLM预测准确度显著提升,MSE下降6倍至1505,但仍不及理论准确度。

- 报告指出这是由于SCM缺少关键自变量(比如竞拍中第二高价),如全面考虑此变量,SCM能完美与理论匹配,也能更精确引导LLM预测。

该章核心启示:LLM具备对因果效应方向的潜在知识,但无法自主准确量化,需依托结构化模型信息辅助推断,其推理能力受限于模型身份与输入信息。[page::17,18,19,20,21]

---

五、风险因素评估(Section 5)



报告识别如下风险与挑战:
  • 误用错误模型与控制变量风险:若盲目使用非随机观测数据拟合因果模型,可能选用错误的控制变量导致估计偏误(见图7),影响结果可靠性。

- 数据驱动算法因果识别失败:如GES算法不能确定真实因果关系方向(见图8),给出模棱两可的解释,需要研究者人为输入先验结构。
  • 社交交互模拟复杂性:模拟现实人类多样的对话和决策行为尚有困难,如交互顺序、会话长度和停止规则均有复杂性和不确定性,当前使用简单或启发式解决方案。

- LLM信息提取局限:潜在知识与显性推断能力不匹配,可能导致结论不稳定。
  • 系统自动化设计的可控性风险:虽然支持人工随时介入,但错误设计或定义可能导致误导性结论。


缓解建议:
  • SCM结合实验设计确保因果确定性,避免盲目探索。

- 允许人类专家阶段性审查和介入。
  • 优化模拟协议,引入更先进的会话管理机制。

- 持续增强LLM与SCM的结合效率。
  • 开发自动调整和递进实验能力,逐步筛除无效变量。


---

六、批判性视角与细微差别


  • 本系统首次将SCM与LLM深度集成,实现可控、自动化因果社会科学,是方法专业上的重大突破。

- 然而,当前系统仍采用简化的线性模型假定,未充分考虑更复杂的因果关系如非线性、潜变量、多重中介等,可能限制结果普适性。
  • 交互协议有限,较真实人类交互和集体协商机制仍有差距,模拟结果的外部有效性尚需进一步验证。

- LLM的认知与知识局限对推断产生误差,且结果较依赖于Prompt设计和温度设置。报告展示温度不同对估计有影响。
  • 虽然呈现了实验自动化的可行性和趋势,但实际成本(5小时、1000美元)仍较高,尚未大规模普及。

- 换言之,目前实验结果和推断仍是“可用但需谨慎”的初步尝试,而非成熟社会科学方法论定式。
  • 注意LLM预测路径系数普遍高估的现象,提示直接用LLM推断定量结论需谨慎处理。

- 关于因果结构假设和变量选择,报告充分说明了从数据强变量排列回推因果结构的风险,强调先验结构的重要。大多数社会科学研究场景中此问题普遍存在。

---

七、结论性综合



本报告系统性展示了一种利用大语言模型结合结构因果模型进行社会科学假设生成与自动化测试的前沿方法。通过4个典型社会互动场景的仿真实验,论证该系统能够:
  • 无需人为细化假设全流程自动化实验,具备较强自主性和灵活性。

- 构建合适的SCM构架,系统明确变量的因果关系和计量方法,为模拟对话和数据收集提供严密框架。
  • 实验结果高度符合经济和社会理论,尤其是拍卖场景验证了理论可靠性。

- LLM自身具备潜在社会知识,但对因果关系的量化判断能力有限,仅有结构信息辅佐时推断能力表现最佳。
  • 采集的模拟数据可被用作模拟内的因果推断,避免观测数据中的典型控制变量偏差问题。

- 该系统实现模型估计、数据采集、假设检验的数字化和标准化,提高社会科学实验的复制性与效率。

关键表格和图形总结:
  • 表2a与图2b明确展现了买卖双方预算、情感如何影响谈判结果。

- 表3a/图3b对保释金额影响因素的量化精确刻画。
  • 表4a/图4b显示求职合格证明是决定性变量。

- 表5a/图5b确认三竞拍人预算均正向拉高成交价格。
  • 图6与A.10通过对比呈现了纯LLM预测与结合SCM辅助后预测结果的巨大差异。

- 图7及图8则揭示了随意拟合因果结构带来的风险,体现出SCM设计的必要性。

未来研究方向需要深入探索包括:
  • 代理人的属性设置优化,如何让模拟更接近现实复杂人类行为。

- 会话管理机制的升级,设计更自然的交互节奏与停止规则。
  • 切实降低实验运行成本,增加更多复杂度和多阶段循环实验实现自动化科学发现。

- 进一步验证不同场景与真实数据的迁移有效性。

综上,该报告为自动化社会科学研究奠定了理论与技术基础,显示出利用LLM和SCM结合推动社会科学高速发展的一条可行路径,也为未来学科交叉创新提供了宝贵范例和丰富思路。[page::0,1,2,3,4,5,6,7,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29]

---

附录:术语与概念解释


  • 结构因果模型(SCM): 以数学形式表示变量间因果关系的模型,通常由DAG(有向无环图)和相关函数组合而成。相比单纯相关模型,SCM明确指出因果路径和结构,支持因果识别和干预模拟。

- 路径估计(path estimates): SCM中自变量对因变量的因果效应系数。线性SCM类似线性回归中系数。
  • 预测任务:

- predict-$y
i$: 给定自变量特征,预测结果值。
- predict-$\hat{\beta}$: 预测路径系数数值。
- predict-$y_i|\hat{\beta}$: 给定路径系数,预测结果值。
  • LLM代理人: 通过特定Prompt构造的模拟人类参与实验的AI,拥有“记忆”能力,可视为虚拟主体。

- 实验设计协议(Interaction Protocol): 规定对话中代理人轮流发言的规则,如顺序、随机、中心轮换、协调器管理等。
  • 协调员(Coordinator): 额外的LLM代理,无需公开身份,负责监控对话并决定谁发言或何时结束,对模拟进程有控制作用。


---

总结



该报告成功构建了基于SCM的社会科学自动化实验平台,借助LLM代理人展开高效、高控的模拟研究,拓展了因果推断的应用场景。其体现了“LLM知道的比能直接说出的多”的核心思想,为探索人类社会行为机理和预测社会现象提供了创新工具和研究范式。未来实用价值颇高,但仍需解决代理人复杂性、会话管理、理论与模拟数据的匹配以及预测稳定性等限制。其方法论理念、系统构建和实验设计对于跨领域数据科学、人工智能与社会科学研究均具有里程碑意义。

---

如需获取具体章节详细内容解读、更多图表细节解析或辅助工具使用说明,请进一步提问。

报告