Donald Trumps in the Virtual Polls: Predicting Public Opinions Using Large Language Models
创建于 更新于
摘要
本报告基于ChatGPT-4o,提出融合历史数据的Matching-LLM方法,有效模拟美国和中国的社会价值观调查及信任度,复现并预测了2016、2020及2024年美国总统选举结果,Matching-LLM方法在各项指标上优于传统LLM,显示其作为成本效益高的舆情研究工具的潜力 [page::0][page::4][page::7][page::13][page::15][page::17]。
速读内容
LLM模拟社会调查数据的准确性分析 [page::4][page::5][page::6]

- LLM生成的调查均值多数落在人类数据标准差范围内,但波动性较人类数据小。
- 对于敏感社会价值问题如“同性恋父母”和“工作优先于休闲”,LLM表现出明显偏差,尤其是美国样本。
- 氏族信任度问题中,LLM倾向表现出较高的信任程度,尤其是对外国人和宗教外团体。
- 融入历史数据的Matching-LLM方法使预测均值更贴近实际响应,显著提升了对美国和中国样本的拟合度。
Matching-LLM提升模型预测能力的统计显著性 [page::7][page::8]
| 主要问题分类 | U.S. LLM MAD | U.S. Matching-LLM MAD | 差值 (显著性) | China LLM MAD | China Matching-LLM MAD | 差值 (显著性) |
|------------|------------|--------------------|---------|-------------|--------------------|----------|
| 男性优先就业 | 0.222 | 0.093 | 0.129 | 0.056 | 0.010 | 0.046 |
| 家庭信任 | 0.404 | 0.354 | 0.050 | 0.143 | 0.114 | 0.029 |
| 逃票接受度 | 1.425 | 0.880 | 0.545 | 0.200 | 0.404 | 0.204 |
| 偷窃接受度 | 0.851 | 0.590 | 0.261 | 0.293 | 0.060 | 0.287 |
| 同性恋接受度 | 1.482 | 0.873 | 0.609 | 3.331 | 2.347 | 0.984* |
- Matching-LLM大幅缩小LLM与人类调查数据的差异,尤其是社会价值和信任指标领域,多数差异在统计上显著。
- 中国样本因社会规范变化出现部分指标无显著提升,但总体依旧表现优于纯LLM。
LLM与Matching-LLM对美国与中国间社会观点差异的复现 [page::8]

- LLM捕捉美国与中国之间大多数社会价值和信任度差异的方向及统计显著性。
- Matching-LLM在纠正LLM部分预测方向偏差方面效果显著,尤其是信任相关问题。
- 法律和伦理规范问题上,LLM倾向与法律保持一致,但与人类实际差异较大,Matching-LLM对此进行了部分校正。
LLM模拟数据保留人类内部变量相关性的能力评估 [page::9][page::10]

- 在美国样本中,LLM和Matching-LLM生成的变量间相关性与人类数据高度一致,仅3/51存在部分不一致。
- 中国样本中相关性保持较弱但应用Matching-LLM后有所改善。
- 总体反映出LLM生成的调查反应在多维关系结构上的较好保真度。
2016及2020年美国总统选举预测结果复现 [page::13][page::14]


- LLM基于ANES个体特征投票模拟,粗略预测州级选举结果,误判州数与样本实际投票相近。
- 通过引入历史投票数据权重的Matching-LLM显著提升准确率,最终错误预测州数仅剩两州。
- 权重优化过程确保预测与历史实测结果高度一致,验证方法有效性。
2024年美国总统选举的前瞻性预测 [page::15][page::16]



- 利用2020年ANES调查人口统计特征和历史投票数据,Matching-LLM准确预测2024年总统选举结果。
- 预测结果与实际312张选举人票高度吻合,误判州数仅两州,优于传统LLM预测。
- 凸显基于双系统思维结合历史权重的方法在选举预测中的应用前景和优势。
德国2025年联邦选举预测概览 [page::16]
- 借助CESIS数据库个体级投票意向和历史选举结果,对各党派投票份额进行加权修正。
- 预测显示,CDU/CSU领先,SPD和绿党居中,极右AfD获得较高支持。
- 方法有效补偿原始GPT生成投票偏差,促进了选举结果的合理预测。
Matching-LLM方法与传统LLM比较及应用讨论 [page::17][page::18]
- Matching-LLM融合了LLM理性慢思考与历史数据体现的直觉快思考,改善了模型对非理性社会认知因素的捕捉。
- LLM存在向进步主义伦理、法律保持一致的偏向,而历史数据能补充更直观的社会态度。
- 双系统偏差可能相抵或叠加,影响整体预测精度。
- LLM在减少调查成本、扩展调查覆盖面、验证问卷设计方面具有潜力。
- 其“黑箱”特性限制了解释模型具体决策过程。
研究数据、方法与实验设计概要 [page::19][page::20][page::21][page::22]
- 使用ChatGPT-4o模型,基于WVS和ANES样本人口学特征构建模型输入。
- 设计三阶段Matching-LLM流程:个体匹配历史数据、LLM生成慢思考回答、动态加权融合两类数据结果。
- 投票行为模拟遵守美国总统选举规则,按州汇总计算选举人票结果。
- 权重通过最小化预测与实际响应的欧氏距离最优估计。
- 提供详细Prompt设计,涵盖问卷语境、人格设定及具体题目,确保模拟自然、多样化。
深度阅读
金融研究报告解构与详尽分析报告
—— 《Donald Trumps in the Virtual Polls: Predicting Public Opinions Using Large Language Models》
---
一、元数据与概览
- 报告标题:Donald Trumps in the Virtual Polls: Predicting Public Opinions Using Large Language Models
- 作者:Shapeng Jiang、Lijia Wei、Chen Zhang(均来自武汉大学)
- 发布日期:2025年2月12日
- 主题:运用大型语言模型(LLMs,尤其是ChatGPT-4o)对大众舆论进行模拟与预测,含大规模社会调查数据复现及美国总统选举预测
- 核心论点:
本文探讨LLM,具体为ChatGPT-4o,如何在模拟和预测包括社会价值观、信任等多方面的调查响应中表现出较好的人类行为匹配能力,并基于真实人口统计信息预测2016、2020及2024年美国总统选举结果。研究提出了创新的“Matching-LLM”方法,将基于“快思考”(历史数据的传统与直觉)与“慢思考”(LLM的理性推理)相结合,显著提升预测的准确性。结果证明LLM不仅能反映跨文化差异,还能提供有意义的选举结果预测,显示其作为传统调查方法经济高效补充的潜力。[page::0,2,3]
---
二、逐节深度解读
1. 引言与背景(第0-3页)
- 关键论点:近年LLM以其“类人”文本生成能力备受关注,尤其其潜力在社会科学调查领域展现,能够代替昂贵的人工调查,缩放行为研究规模。传统LLM依赖理性材料训练,而公众意见预测涉及非理性因素(社会影响、认知偏差、情绪反应),两者存在差距。
- 推理与依据:引用Daniel Kahneman的“双系统认知理论”,即System 1(快、直觉、习惯驱动)与System 2(慢、理性、分析性思维),当前LLM模拟多为System 2,缺少对System 1的模拟。报告提出结合两者以更真实模拟公众行为的必要性。
- 数据使用:采用WVS(世界价值观调查)与ANES(美国国家选举研究)两大权威数据库,分别代表社会价值及选举行为调查。将LLM赋予“人格”以匹配真实被调查者的人口统计特征,进行复杂的社会行为重现和选举行为模拟。
- 创新点:提出Matching-LLM方法,融合历史数据(System 1)与LLM生成数据(System 2),填补传统LLM理性偏好与公众意见非理性现实之间的鸿沟。[page::1,2,3]
2. WVS调查响应的模拟与验证(第4-11页)
- 关键论点:以WVS第7波为主样本,LLM生成模拟回应并与真实人类响应比较,结合第6波历史数据进行匹配加权。
- 推理与依据:采用倾向得分匹配(Propensity Score Matching,PSM)确定与WVS7样本最相似的WVS6个体,权衡LLM生成数据与匹配历史数据,从而获得加权后的“Matching-LLM”响应。
- 关键数据点:
- 图1(第5页)展现美国、中国样本中LLM、Matching-LLM与真人回答均值及标准差比较,大部分数据落在一标准差以内,表明LLM和Matching-LLM对均值预测具有较好精准度,但LLM响应的波动幅度通常低于人类,缺乏多样性。
- LLM在社会价值敏感问题(如“同性恋父母”、“工作重于休闲”)中,美国样本响应偏向更进步,显示潜在偏见;中国样本中此类偏差较小,除“同性恋接受度”外,LLM较符合中国文化背景。
- LLM在常识性问题(如“国际组织知识”)表现优异,反映其广泛训练材料。
- 表1揭示Matching-LLM相较单一LLM大幅减少平均绝对偏差(MAD),特别是在社会价值和信任问题上显著提升,美国加权权重约0.23,中国为0.31,平衡历史和模型生成内容。
- 预测与推断:
- Matching-LLM显著优于单纯LLM,兼顾“快”与“慢”思考优势。
- 文化差异(美国-中国)在模拟中得到有效复制,Matching-LLM矫正了部分LLM方向错误的预测(图2)。
- 相关性分析(图3)显示美国样本中LLM及Matching-LLM能准确保持变量间显著相关性,仅少数存在部分不一致;而中国样本相关性维护效果较弱但有改进趋势。
- 复杂术语与方法解析:
- 倾向得分匹配:根据样本人口统计特征寻找“最相似”历史受访者。
- 平均绝对偏差(MAD):用于衡量模拟响应与真实响应均值偏差大小。
- 相关系数保真分析:测试模型能否在个体层面保留变量间心理和行为模式。
- 结论:Matching-LLM不仅可提供均值层面的准确反映,还能较好捕捉变量间关联,体现了在复杂社会数据模拟中的实际应用潜力。[page::4,5,6,7,8,9,10,11]
3. 2016及2020年美国总统选举复现(第11-14页)
- 关键论点:利用ANES数据,LLM以受访者人格模拟投票意向,合成州一级选票分布,结合历史选举投票数据权重,Matching-LLM方法显著提升预测匹配度。
- 推理与依据:以个体人口统计为输入,模型生成投票决策;州级汇总决定电票归属;用历史实际选举结果作为权重,调整模拟结果,使其更贴合实际选举。
- 数据与视觉呈现:
- 图5对比2016年真实选举、ANES自报结果、LLM原始模拟及Matching-LLM加权模拟,发现ANES自报及LLM模拟均误判8州,Matching-LLM仅误判2州(威斯康星与密歇根)。
- 图6同理显示2020年选举,Matching-LLM误判2州(亚利桑那与北卡罗莱纳),为传统投票预测中极少见的高精准度。
- 预测基础与假设:
- 历史选举数据与个体人口特征具有高度相关性。
- 权重调优优化了与历史州级结果匹配,隐含假设未来州级选民行为将在一定程度上延续历史趋势。
- 复杂概念解析:
- 电票制度:按州决定胜者,各州胜者获得该州全部选举人票(除缅因与内布拉斯加例外)。
- 权重调优(\(\hat{h}\)):确定历史投票权重与LLM预测加权比例,实质为加权平均,提升预测准确度。
- 结论:Matching-LLM复现历史选举表现出色,表明结合历史数据的LLM角色扮演能有效捕获选民行为模式。[page::11,12,13,14]
4. 2024年美国总统选举与2025年德国联邦选举预测(第15-17页)
- 核心内容:基于2020年ANES人口数据,应用Matching-LLM预测2024年选举。出刊时预测提前于选举结果公布且无后期调整,保证预测真实性。
- 预测结果:
- 两种方法均预测特朗普胜出,Matching-LLM误判2州(内华达和新罕布什尔),而LLM误判6州。电票数预测均与最终结果接近,Matching-LLM偏差更小。
- 在7个关键摇摆州中,Matching-LLM仅误判内华达。
- 德国选举预测同样采用CESIS数据作历史校正获权重,估计主要党派比例与历史趋势相匹配,体现方法跨国适用性。
- 预测基础假设与权重:依据过去两届美国总统选举作为历史权重基础,保证权重合理有效,也表明历史数据对未来预测的辅助价值。
- 图7等展示:各州预测与实际颜色分布对比,直观体现准确度。
- 结论:匹配加权方法有效提升预测准确性,具有较强的前瞻性和跨国适用潜力。[page::15,16]
5. 讨论与总结(第17-19页)
- 结论性论述:
- LLM能基于人口统计特征模拟出较准确的人类调查反应,尤其结合历史数据的Matching-LLM表现更优。
- 该方法可降低大规模调查的资金与人力成本,补足数据不足,推动调查方法创新。
- 报告强调LLM训练偏理性,缺少对非理性或直觉反应的有效捕捉,匹配人类快思考与慢思考是技术关键。
- LLM倾向于表现出更道德化、遵循法律且社会观念更进步的姿态,特别在性别、多元文化等议题上表现明显,产生潜在偏见。
- 调查中的统计误差、社会期望偏差等“快思考”因素与LLM“慢思考”因素互动可能出现抵消或加重误差,决定最终表现。
- 未来方向:扩展多样LLM及多文化数据源,增加多元样本和国家对比,提升普适性和应用范围。
- 局限性:当前研究仅用ChatGPT-4o;数据偏向中美,且对黑箱机制无法深度解析;估计权重依赖现有调查与历史数据,未来需探索如何无需权重调整而直接预测。
- 总结表述:LLM,尤其结合历史匹配数据,展现巨大的社会科学调查辅助潜力及政治选举预测价值。[page::17,18,19]
---
三、图表深度解读
图1:LLM与WVS响应均值及标准差比较(第5页)
- 描述:比较美国与中国样本中,真实人类(红色三角)、纯LLM生成(黑色圆点)、以及Matching-LLM加权结果(绿色方块)在一系列调查问题上的平均值及标准差。
- 数据解读:
- 大部分LLM模拟均值靠近人类真实均值,误差多数在一标准差以内。
- LLM响应波动性较小,表现为标准差被包容于人类标准差范围之内,显示模拟多样性不足。
- 明显偏差集中于文化敏感或价值观问题(同性恋父母、信任宗教外群体等)。
- 对文本支持:图表证实LLM有能力模拟人类行为趋势,且历史数据加权(Matching-LLM)进一步对齐真实样本,降低均值误差。
- 潜在局限:模拟可能过于理想化且缺乏人类复杂性的差异性。

表1:Matching-LLM提升均值比较精度(第7页)
- 描述:面板分社会价值、信任及伦理规范问题,分别展示美国、中国样本中LLM与Matching-LLM均值与真实均值的平均绝对偏差(MAD),以及二者差异的显著性。
- 解读:
- Matching-LLM普遍减少与真实数据偏差,尤其在社会价值、伦理规范问题显著降低误差(大多达到1%显著水平)。
- 个别例外(如部分税收逃避问题)原因可能为中国社会变化快于美国。
- 文本联系:强烈支持“快思考”与“慢思考”结合哲学,实现更准确模拟。
- 局限:加权参数为样本内最优,外推需谨慎。
图2:美中差异复制能力(第8页)
- 描述:展示美国与中国在调查题目上的均值差异真实值与模拟值对比(包含LLM及Matching-LLM),重点关注方向及大小的吻合程度。
- 解读:
- 大部分题目差异方向被正确捕捉,Matching-LLM矫正了LLM部分错误的方向标定。
- 在伦理规范领域重合度较低,部分由LLM“理性假设”引起的偏差。
- 结论:文化差异能够通过模型反映出来,历史匹配方法有助于提升跨文化模拟精度。

图3:变量间个体层相关性分析(第10页)
- 描述:将人类样本与LLM及Matching-LLM模拟的问卷项目两两相关系数做比较。圆点颜色标示一致或偏差类型。
- 解读:
- 美国样本中,绝大多数相关性在符号及显著性上均一致(完成一致,红点),仅极少数不一致(部分或完全不一致)。
- 中国样本匹配度较差,但Matching-LLM提升了相关性近似度。
- 支持论点:模拟不仅保留平均响应,还保留了认知及态度间内在结构,为模拟效度提供强有力证据。

图5/6:2016及2020美国总统选举州级结果对比(第13、14页)
- 描述:多地图对比真实选举数据、ANES调查结果、LLM单纯模拟及Matching-LLM加权模拟的州级胜负分布。
- 解读:
- ANES调查与LLM模拟误判州数量相似,但均多于约束历史权重后的Matching-LLM方法。
- Matching-LLM显著提升预测准确度,成功捕捉绝大多数州选情。
- 评价:对预测模型的有效性验证,体现匹配权重对复杂政治行为模拟的关键作用。


图7:2024年美国总统选举预测地图(第16页)
- 描述:实际选举结果与LLM和Matching-LLM预测结果州级对比。
- 解读:
- 预测整体与实情高度吻合,Matching-LLM误判状态少。
- 可视化直观表现预测模型的高度准确性及有效预测力。
- 支持文本:验证方法在未来选举场景的应用潜力。



---
四、估值分析
本报告定位为社会科学与行为预测领域,未涉及传统金融估值模型应用,因此无DCF、P/E、市盈率等财务估值分析。主要方法论为数据匹配与权重优化,强调数据拟合与预测精准度改进。
---
五、风险因素评估
- 模型偏见风险:LLM基于大量理性文本内容训练,自身存在倾向于展现进步、道德主义的偏差,尤其对文化敏感及价值判断问题产生偏差。
- 历史数据依赖风险:Matching-LLM对历史数据权重依赖显著,若历史环境大幅变化,模型预测可能失效。
- 数据局限性:国家文化背景限于中美,LLM训练结束时间点限制对最新社会态度的模拟。
- 社会期望偏差:人类自报数据因社会期望导致失真,LLM难以捕获该非理性偏差,影响预测准确性。
- 解释透明度低:LLM黑箱特质造成模型内在决策逻辑难以解析,降低预测可信度和可解释性。
- 缓解措施:结合快慢思维理论、跨样本验证及匹配权重调整,部分缓解偏差;建议多模型、多数据源融合,拓展文化语境以减轻单一数据依赖。
---
六、批判性视角与细微差别
- 偏见警示:LLM在价值敏感领域表现出的进步倾向,可能导致某些社会群体的观点被过度代表或扭曲,需要谨慎解读模拟结果。
- 权重参数优化局限:当前模型权重在样本内优化,存在过拟合风险,跨时空、跨文化预测泛化能力有限。
- 文化适应性不足:中国样本相关性维护不足,说明不同文化体系下模型表现存在一定局限;未来需增强多语种、多文化训练。
- 数据同步性问题:WVS间隔五年且样本不完全重叠,历史数据匹配存在时间差异带来的不确定性。
- 黑箱问题未解决:报告诚实指出LLM解释性不足,造成结果难以用传统方式进行因果归因。
- 差异方向偏误:某些变量上LLM对美国与中国样本的预测方向出现偏差,强调Matching-LLM修正必要性。
---
七、结论性综合
该报告系统展示了大型语言模型(ChatGPT-4o)结合匹配历史数据(Matching-LLM)方法在模拟社会调查反应和预测美国总统选举中的优越表现。匹配方法基于双系统认知理论,成功融合LLM的深度理性推断与历史数据中的文化直觉,实现了对复杂社会行为的较高还原度。
具体而言,Matching-LLM能显著减少模拟均值与人类调查均值的偏差,保持变量间的相关结构,且精准再现跨文化差异。选举预测中,匹配模型已逼近实际选举结果,广泛覆盖关键摇摆州,更具预判效力。报告最后预示该模型对未来社会科学研究及选举预测具有广泛实用价值,能以较低成本替代或补充传统调查。
图表深度解析进一步佐证了模型的模拟精度、相关性保真度及跨样本推广能力,验证了结合历史匹配权重方法在行业界限内的创新突破。报告客观指出模型偏差来源及潜在风险,提出未来扩展多样样本及深度理解机制的方向。
综上,该报告立场明确,理论理念创新且实证分析细致、全面,体现出大型语言模型在人类行为模拟与政治预测领域的巨大潜力及发展空间。[page::0-18,20-21,23-27]
---
备注
本文本分析完全依托原文报告结构及数据,严格添加页码溯源标识,以便查证和索引,确保专业性与透明性。