`

Can ChatGPT Overcome Behavioral Biases in the Financial Sector? Classify-and-Rethink: Multi-Step Zero-Shot Reasoning in the Gold Investment

创建于 更新于

摘要

本报告提出了基于ChatGPT的“Classify-and-Rethink(CAR)”多步零样本文本推理策略,用于克服金融领域中的框架效应行为偏差。通过对黄金相关新闻的分类与反思评分,CAR策略有效减少了因框架效应带来的决策偏差,实现了显著超额收益,回测结果显示其收益率和夏普比率均优于传统买入持有及单步评分策略,验证了LLM在金融行为偏差纠正和投资决策中的潜力 [page::0][page::2][page::5][page::6][page::10]。

速读内容

  • 报告首次将ChatGPT应用于黄金投资,通过设计“Classify-and-Rethink(CAR)”提示词策略提升LLM在金融推理任务中的表现,致力于克服投资者常见的行为偏差——框架效应 [page::1][page::2]。

- CAR策略流程包括新闻分类(6分类:地缘政治事件、宏观数据、央行政策、汇率及股市波动、黄金供需)和反思调整评分两个步骤,以促进模型从长期趋势视角修正短期判断,降低框架效应影响,提高投资决策合理性。
  • 回测策略基于沪金Au9999每日收盘价和中文黄金新闻,从2018年至2023年中,使用的四种策略对比结果如下 [page::3][page::4][page::5]:


| 策略 | 收益率 | 夏普比率 |
|--------------------------|----------|-----------|
| Buy-and-Hold | 63.53% | 0.811 |
| One-Step | 63.44% | 0.902 |
| Classify | 73.41% | 1.019 |
| Classify + Rethink (CAR) | 80.35% | 1.071 |

- CAR策略在收益率和夏普比率上均优于其他策略,体现了反思机制对投资判断稳健性的提升。
  • 从净值曲线看,CAR策略不仅能避免重大跌落,还能及时捕捉黄金价格的快速上涨,有效跟踪市场波动。


  • 评分分布分析显示,CAR策略的评分更接近正态分布,符合金融数据真实分布特点,提升了评分的合理性与后续数据处理的简便性。


  • 案例分析揭示,CAR策略通过“反思”环节避免ChatGPT被短期、片面信息误导,更准确抓住对黄金价格影响最大的关键信息,体现出良好的因果推理能力与行为偏差校正效果。

| 策略 | 评分 | 评分解释摘录 |
|-----------|-------|------------------------------------------------------------|
| One-Step | -0.8 | 认为“俄罗斯门”事件会转移关注,降低黄金需求,解释不合理。 |
| Classify | 0.5 | 正确识别美股抛售和恐慌指数上涨推升避险需求的关系。 |
| Rethink | 0.7 | 从反向思考角度调整评分,强调长期趋势及潜在因素影响,优化理解。 |
  • 本研究首次系统探索利用LLM多步推理避免行为金融偏差,提出了“分类+反思”相结合的高效提示词设计,显示出在金融文本大规模分析和投资策略开发中的广阔应用前景 [page::0][page::4][page::7][page::10]。

深度阅读

报告详尽分析报告


报告标题:“Can ChatGPT Overcome Behavioral Biases in the Financial Sector? Classify-and-Rethink: Multi-Step Zero-Shot Reasoning in the Gold Investment”
作者及机构:Shuoling Liu等,来自香港科技大学及中国科学院计算技术研究所,同时与易方达基金创新实验室合作。
时间:未标注具体发表日期,但文中提及数据时间截至2023年6月。
研究主题:探讨大型语言模型(LLM)——具体采用ChatGPT—— 能否克服金融领域中的行为偏差,特别是框架效应(Framing Effect),以及其在黄金投资领域的推理能力和实际投资表现。

---

一、元数据与报告概览



本报告核心聚焦于利用ChatGPT及其链条思维(Chain-of-Thought, CoT)提示策略,通过一个被称为“Classify-and-Rethink”(CAR)的多步骤零样本(zero-shot)推理框架,在黄金投资分析中克服行为偏差,提升投资策略的表现。报告特别指出:
  • 框架效应在行为金融和LLM中均存在,可能导致同一信息的不同呈现方式影响决策。

- 通过设计特定的prompt工程,CAR策略分两步对黄金相关新闻进行分类并重新思考评分,克服了LLM中的框架效应并带来超额收益。
  • CAR策略回测下,收益率和夏普比率均优于传统买入持有策略和其他单步prompt策略。

- 贡献包括首次将ChatGPT系统地应用于黄金投资的金融推理,设计了多步骤分类与反思的prompt策略,验证其能够帮助克服行为偏差。

该研究不仅对金融文本大规模分析的行为金融研究具有重要启发,也为投资者提供了减少行为偏差、利用LLM辅助决策的可行方案。[page::0,1]

---

二、逐节深度解读



2.1 引言与研究背景



报告通过介绍大型语言模型(LLMs)近年来在文本生成和领域适应取得的成功,指出其在金融推理领域的应用尚未充分被探索。行为偏差,尤其是框架效应,是金融投资中的核心问题,影响投资决策的合理性。不同于传统情感分类,本文采用ChatGPT评分黄金相关新闻,结合精准设计的prompt策略,聚焦提升LLM的金融推理能力及情绪中立度,最终目标是提高投资判断的逻辑性和收益表现。[page::1]

2.2 框架效应与方法动机


  • 框架效应定义:信息同质但因表达方式不同导致决策差异的认知偏差。投资者倾向关注短期或热门信息,忽视长期和非轰动性信息。

- LLM虽情绪中立,但仍会受prompt设计影响。单一基础prompt会模仿普通投资者,易受框架效应影响。
  • 行为偏差在量化投资中产生超额收益,公司也会利用框架效应调整信息披露。黄金作为高敏感商品,新闻对价格影响迅速且明显,因此精细的情绪和事件评分对投资决策至关重要。

- 研究设想LLM不仅受框架效应影响,且通过合理prompt设计可以模拟、甚至纠正该偏差。该思路是实现超额收益的关键驱动力。[page::1,2]

2.3 数据集与Prompt设计


  • 数据来源:黄金价格采用上海黄金交易所Au9999指数的日收盘价(Wind数据库);黄金新闻来源于中国网站dyhjw.com,覆盖2018年起黄金行业新闻。

- 传统情绪识别模型倾向判定新闻中性,忽略事件对供需、政策等经济因素的深层次影响。
  • LLM赋予日常新闻以面向经济规律的深度推理能力,即使零样本也有较好效果。

- Prompt设计核心:将新闻分六类(地缘政治、宏观经济数据发布、央行政策及行动、汇率和股市波动、黄金供需状况),分别进行逻辑分析和评分。评分范围[-1, 1],按0.1分细化。
  • 通过分类,可以借助LLM的逻辑和语言优势生成经济合理的解释与评分,区别于简单情感分类。此为增强准确性和合理性的核心设计。[page::3]


2.4 Classify-and-Rethink(CAR)方法框架


  • 包括“分类”和“反思”两步骤。

- 分类:LLM读取新闻,判定其所属类别,并对价格影响做出初步评分和解释。
  • 反思:基于长期黄金价格趋势和宏观多因素影响,LLM对初始评分进行复审和调整,避免被短期或热门新闻片面影响,体现逆向思维。

- 最终根据调整得分做买卖决策。
  • 该设计体现了强化金融推理的多步思考结构,有效克服框架效应导致的片面判断。[page::2,4]


2.5 回测策略


  • 采用最简单的空仓/满仓策略。

- 买入条件:基于最近5条新闻平均评分跌破阈值(分类阶段无反思时);用最新20条新闻平均反思评分高于阈值(CAR策略中)决定买入。
  • 卖出条件反之。

- 通过短期和长期两个时间窗口区分不同策略,突出反思步骤中获取长期趋势视角的作用。
  • 简化交易行为减少波动与交易成本影响,专注于评分机制的有效性。[page::4]


3.1-3.3 实验与结果


  • 使用OpenAI GPT-3.5-turbo API,温度设为0保证一致性。

- 四个策略对比分别为:传统买入持有(Buy-and-Hold)、One-Step(单步prompt)、Classify(只有分类)以及最终的CAR(分类+反思)。
  • 结果数据(表1)显示:

- CAR策略收益最高:80.35%,夏普比率1.071
- Classify策略65.41%(夏普1.019)位列第二,Buy-and-Hold和One-Step表现接近,远低于CAR。
  • CAR能避免大跌并及时捕捉涨势,体现反思的有效性(图2资产净值曲线)。

- 评分分布(图3)中,CAR给分接近正态分布,更符合金融评分的合理预期,其他两种策略则呈现偏态或双峰,表现出非理性倾向。
  • 异质试验(Ablation Study)强调分类模块不可或缺,移除分类直接反思导致收益大幅下降;随机交易区间的收益稳定区间在20%-40%。

- 使用其它模型(如ChatGLM)也难以实现同等精准评分。[page::5,6,7]

3.4 案例分析


  • 以2018年一则描述美国股市剧烈抛售引起黄金反弹的新闻为例,展示不同策略给出的评分及解释。

- One-Step策略负面评分,且解释基于“俄罗斯门”事件可能分散黄金需求,缺乏逻辑支撑。
  • Classify策略认同股市恐慌推升黄金安全避险需求,分数中性偏正,但结论对需求增长支撑不足。

- Rethink策略采用逆向思维提高评分(0.7),强调长期多因素对黄金价格影响,给出更合理正面预期。
  • 该案例突显反思(Rethink)环节有效避免短期或情绪化解读,提升决策合理性。[page::7,8]


---

三、图表深度解读



3.1 图1:CAR框架图(第2页)



图示清晰列出CAR方法工作流程:
  • 输入文本新闻,从六个类别中分类。

- 初步打分与理由生成。
  • 反思打分,结合长远视角调整。

- 按照阈值决定买卖操作。

图中展现Prompt具体文本与典型回答示例,直观说明流程中每环节的输出和策略逻辑,辅助理解设计的创新点与实用性。[page::2]

3.2 表1(第5页)



表中列出不同策略的累计收益和夏普比率:
  • CAR以80.35%收益领先,夏普最高,显示风险调整后收益最好。

- Classify策略次之,Buy-and-Hold与One-Step势均力敌。
  • 定量数据验证多步分类加反思设计强化了收益表现。


3.3 图2(第5页)



资产净值曲线,展示2018-2023年4个策略的累积净值变化。
  • CAR(红线)资产规模最高,且波动受控。

- Classify能规避重跌但未能跟涨,表现次优。
  • Buy-and-Hold与One-Step过于平稳但收益有限。


图表直观印证CAR通过理性反思避免被短期情绪牵引,实现收益与风险的优化均衡。[page::5]

3.4 图3(第6页)



三种策略下得分分布密度曲线:
  • One-Step分数多集中极负面,极端偏态。

- Classify呈双峰,表现两极分化倾向。
  • CAR接近正态分布,体现评分更合理且有利于后续处理。


此分布反映CAR的评分逻辑符合金融市场波动规律,避免极端判断或情绪化评分。[page::6]

3.5 表2(第8页)



展示具体新闻条目下三种prompt策略给出的评分及解释文本。
  • 文本充分体现各策略对于新闻内容理解的深浅及合理性。

- 明显看出Rethink策略通过长远视角纠正初步负面误判。

---

四、估值分析



本文核心为黄金新闻的情绪与事件评分转化为买卖信号,并未对黄金本身估值模型进行深入建模,故无传统DCF或多因子估值模型。投资策略的“估值”实为基于新闻评分的交易信号系统。关键输入为新闻评分阈值及时间窗口(5条消息短期,20条消息长期平均评分),通过调整prompt设计改进评分合理性,进而影响交易执行,形成完整策略闭环。[page::4,5]

---

五、风险因素评估



报告未专门章节展开风险讨论,但暗含以下风险点:
  • 数据覆盖及质量风险:新闻仅覆盖中文黄金资讯,且数据供应商有数据访问限制,可能限制研究复现与泛化。

- 模型自身局限:虽然ChatGPT表现优异,但模型升级可能导致策略表现波动,存在“回归均值”风险。
  • 交易策略简化:仅空仓/满仓,未考虑实际市场滑点、交易成本及复杂仓位调整,现实操作风险未充分体现。

- 行为偏差模拟不完全:未能排除LLM在其他偏差或市场异常事件中的表现,此策略或对其他金融商品及市场环境适用性有限。
  • 伦理及合规风险:大规模应用基于LLM的自动投资决策存在技术伦理问题,尤其对弱势投资者利益保护需加强。

报告虽提及“未来研究需关注模型持续稳定性及伦理考量”,具体缓解措施及概率评估较少。[page::9]

---

六、批判性视角与细微差别


  • 报告充分肯定CAR策略的价值,重点在prompt设计上,未较多探讨定量金融时间序列建模与价格反馈机制结合的可能性。

- 依赖ChatGPT单一模型接口于实验设计,未展示多个LLM对比,缺乏模型多样性测试的广度。
  • 新闻评分由人工规则辅助,过度依赖于新闻分类准确性,潜藏分类错误导致评分偏差的风险。

- 回测区间跨足2018-2023年市场大变动,但未细分不同市场周期的策略表现差异,或掩盖策略在极端行情时的脆弱性。
  • 反思阶段强调逆向思维,但实际调整权重、判定阈值等设计细节介绍不足,限制外部复现与优化。

- 数据隐私和共享限制影响科学社区的外部验证。
  • 伦理声明中披露部分作者与基金公司关联,需注意利益冲突潜在影响,但报告坚持透明披露,保持学术诚信。[page::11]


---

七、结论性综合



本报告权威、系统地研究了LLM,尤其是ChatGPT,如何通过多步推理和精心设计的prompt策略,克服金融领域中的行为偏差——框架效应,实现更合理的新闻情绪评分及黄金投资决策。核心贡献体现在创新的“Classify-and-Rethink”(CAR)方法,通过“分类-评价-反思”三阶段,从长短期、多角度对金融新闻影响力作出权衡,有效避免LLM被短期情绪或认知偏差诱导。实证数据显示,CAR策略在2018年至2023年黄金市场数据上的收益率达到80.35%,夏普率为1.071,显著优于买入持有和传统单步prompt策略,且评分分布更贴近金融现实的正态分布,这不仅提高了模型的推理合理性,也为后续自动化策略开发奠定了基础。

图表分析中,图1框架清晰展示了工作流,表1收益量化了策略优势,图2资产净值动态演示了策略风险控制能力,图3合理分数分布体现CAR的稳定性,表2具体案例验证了反思环节的纠偏效果。即使在零样本场景下,LLM通过适当的工程设计也能发挥出超越传统情绪分析模型的能力。

然而,报告也提示数据、模型演进及伦理风险,强调需长远跟踪和多角度研判,保证模型持续有效性和合规性。

整体来看,报告展示了LLM在行为金融领域的创新应用潜力,为未来大规模金融文本自动化分析与量化投资提供了理论与实践基础,并为投资者利用AI辅助决策开辟新途径。[page::0-10]

---

综述与知识点解读


  1. 框架效应与行为金融背景反馈了人类及AI认知偏差的共性,金融决策中去偏差的重要性和可能性。

2. 多步骤推理(Chain-of-Thought, CoT)结合分类与反思,实现对复杂经济事件的更深层次理解。
  1. 新闻分类的经济学意义通过新闻类别化,细分不同信息对黄金价格的影响,从而支持更精准的情绪定量。

4. 评分机制的设计将评分量化为[-1,1]区间,细分至0.1,保证细腻精确;反思环节通过长期视角避免被短期市场噪声干扰。
  1. 基于评分的策略采用简单仓位切换买卖规则,有效避免高频交易带来的噪声和高成本,从而专注信号有效性。

6. 实验设计合理,包括反事实测试(去掉分类模块)、多模型对比尝试及实际案例分析,增强实用价值与说服力。
  1. 未来方向关注模型稳定性、语言多样性及伦理问题,体现对应用环境的前瞻性风险管理。


本报告为金融科技结合人工智能领域的前沿突破,其创新性和实践价值值得业界与学术界高度关注与深度研究。

---

图片预览示例


  • CAR方法框架图(图1)


  • 资产净值曲线(图2)


  • 评分分布密度曲线(图3)



---

参考文献



详见报告末尾,引用了最新LLM推进技术、行为金融、金融NLP及prompt工程等领域核心文献,为方法设计提供坚实理论基础。[page::11,13]

报告