FinGPT: Enhancing Sentiment-Based Stock Movement Prediction with Dissemination-Aware and Context-Enriched LLMs
创建于 更新于
摘要
本文提出通过引入新闻传播范围、上下文数据及明确指令,提升基于大型语言模型的情绪驱动股票短期走势预测能力。采用新闻聚类方法量化新闻影响力,结合日度股价细化信息和指令微调LLM,实验展示预测准确率较现有方法提升8%,验证了传播感知与上下文增强的重要性。[page::0][page::1][page::3]
速读内容
研究背景与问题定义 [page::0][page::1]
- 金融市场受新闻与公众情绪显著影响,准确的情绪分析是短期股价预测的关键。
- 传统情绪分析侧重单条新闻,忽略整体新闻的传播广度与上下文,限制预测准确性。
- 本文目标为基于新闻情绪及传播信息,预测每周股票价格的十二分类走势(细分涨跌区间)。
方法框架与数据处理 [page::1][page::2]
- 增加股价数据粒度,从单周汇总提升至每日收盘价及对应收益率,助力区分短期与长期新闻影响(HG方法)。
- 针对海量新闻,采用基于BERTopic的文本聚类,提取高内聚度新闻群聚作为代表,量化新闻传播广度(HG-NC方法)。
- 构建包含公司介绍、财务指标、聚类新闻话题及股价信息的提示,融入上下文增强指令,提高LLM推理质量。
模型训练与微调 [page::2][page::5]
- 利用GPT-4生成标注数据,通过对Llama-3-8B模型进行5轮指令微调完成训练。
- 训练过程配置详见表格,最大输入长度8000词,借助DeepSpeed加速微调。
实验结果与性能提升 [page::3][page::6]

- 三种方法对比(基线、HG、HG-NC)显示预测准确率依次提升:55% → 59.2% → 63%。
- 词频分析揭示模型更关注“短期”和“长期”影响的区分,说明上下文指令生效。
- ROUGE文本评估指标表明HG-NC方法在预测分析合理性和解释力上优于其他方法。
- Boeing公司案例验证:高内聚群新闻比例越高,模型预测表现越好,超过50%时准确率领先明显。
关键创新与贡献 [page::0][page::3]
- 提出结合新闻传播范围的多篇新闻聚类,量化传播效应指导模型理解。
- 增强提示设计,融入时间序列细节与分类指令,实现短期走势多类别预测。
- 训练并释放具备推理能力的金融LLM,适用于多行业多股票的短期股价变化预测。
深度阅读
FinGPT: Enhancing Sentiment-Based Stock Movement Prediction with Dissemination-Aware and Context-Enriched LLMs — 详尽分析报告
---
一、元数据与概览
- 报告标题:FinGPT: Enhancing Sentiment-Based Stock Movement Prediction with Dissemination-Aware and Context-Enriched LLMs
- 作者及隶属机构:Yixuan Liang, Yuncong Liu, Neng Wang, Hongyang Yang, Boyu Zhang, Christina Dan Wang
- 机构:AI4Finance Foundation、Columbia University、New York University Shanghai
- 发布日期:基于引用文献和模型版本,预计为2024年或者更接近2024年中至晚期
- 主题:基于大语言模型(LLM)金融舆情情感分析的短期股票价格走势预测方法,重点突破点为新闻传播范围(dissemination breadth)的量化及上下文信息的丰富,提升模型预测准确率
- 核心论点与贡献:
- 传统LLM金融情感分析多集中于单条新闻文本内容,忽视新闻的传播范围与广度对股价影响的重要性。
- 本文提出一种基于新闻聚类的“传播感知”方法,量化新闻的传播广度(基于聚类大小与时间跨度),并结合每日股价数据及明确的指令对模型进行微调。
- 构建指令调优的数据集,显著提升短期股价走势预测的准确度,实验显示整体模型精度较现有方法提高约8%。
- 报告目标:证明通过引入新闻聚类摘要(反映新闻传播质量和范围)与上下文丰富的指令,可以提升LLM在金融新闻驱动的股价走势预测中的表现,实现对短期股票价格变化更准确的预判与解释。
---
二、逐节深度解读
2.1 摘要与引言
- 关键论点:
- 金融市场高度依赖新闻等外部情绪影响,准确捕捉新闻传播的影响尺度对预测短期股价极其重要。
- 现有利用LLM的方法过于关注新闻文本本身,忽略新闻传播广度和时间跨度等重要信息。
- 本文提出结合新闻聚类分析,形成新闻传播宽度指标,辅之以详细的上下文及指令,生成训练数据对LLM进行指令调优。
- 作者推理:新闻传播范围越大,市场反应通常越显著。LLM如果只能得到单条新闻文本,无法准确判断事件的市场影响程度。利用聚类代表新闻主题,把聚类中心文章与聚类尺寸(报道频率)结合起来,量化新闻的市场关注度,增强模型洞察力。
- 数据点及逻辑:
- 假设一:聚类中心文章最全面代表了该主题信息。
- 假设二:聚类大小代表该话题的市场影响力(聚类越大代表事件影响范围越广)。
- 融合每日股票价格及收益数据,细化行情时间粒度,支持短期/长期新闻影响区分。
- 总结:提出基于聚类维度深化数据输入结构的创新视角,试图弥补新闻内容信息与市场反应之间的鸿沟。[page::0, 1]
2.2 相关工作(Related Works)
- 关键词汇总:金融情绪分析传统方法、LLM在金融文本分析的应用、基于多新闻集成的市场预测尚处于初期探索阶段。
- 重要内容提炼:
- 传统情感分析基于词典或浅层机器学习,限于单条文本,不适合捕捉复杂金融市场动态。
- 最新LLM如FinBERT、Bloomberggpt、Fingpt极大提升单新闻分析精度及解释能力。
- LLMFactor等工作已开始利用序列知识指导刺激短期新闻行情变化分析,且结合了实时新闻和金融数据。
- 本文区别于前述方法,聚焦于数据处理环节(数据粒度和新闻聚合),非单一模型构建,方法论具有跨模型迁移潜力。
- 总结:横向梳理当前领域动向,显示新闻聚合和指令调优是突破关键。[page::1]
2.3 问题定义与框架设计
- 任务:基于前一周的股价、新闻和季度财务数据,预测未来一周股价变动,分类分为12类(U1-U5+表示不同幅度上涨,D1-D5+对应下跌)。
- 模型输出:除走势标签,还需生成基于“正面发展”和“潜在顾虑”的因子分析和整体预测解释。
- 整体框架:重点在于数据处理与Prompt设计两大环节,如图1所示,涉及数据收集、新闻聚类、时间序列股价详细展现和指令增强。
- 方法创新点总结:提高股价数据粒度(引入日收盘价),新闻基于BERTopic聚类,利用相似度评价聚类质量,结合提示词调整,支持LLM的推理与预测。
- 逻辑:高数据粒度减少模型因时间匹配不精准带来的模糊,提高信息利用效率;新闻聚类减少冗余,强化重要新闻的权重。
- 图1说明:该图详述了数据流转和处理流程,突出数据和指令两部分创新。
- 总结:建立了机械可行的细节实现与推理引导体系,强化模型的上下文感知与市场反馈关联。[page::1, 2]
2.4 方法详述
数据处理(Data Processing)
- 高粒度价格信息(HG):
- 传统方法仅用周度涨幅,限于较粗粒度;引入日收盘价、日收益率序列,细化时间尺度。
- 优势:减少主题时间匹配不确定性,支持不同新闻对短/长期价格不同影响的区分。
- 新闻聚类(HG-NC):
- 每周新闻超过200条,自动聚类处理提升效率,减少Token负担。
- 过程包括使用Sentence Transformers生成新闻嵌入,BERTopic聚类,计算内部相似度分辨高凝聚(相似度>0.6)与低凝聚群组。
- 聚类代表选取聚类中心最近新闻,保留聚类规模、时间跨度等元信息。
- 策略确保至少6个高凝聚度主题,必要时追加少量低凝聚度主题以保证信息覆盖。
- 技术细节:聚类用于量化传播宽度与强度,解决信息冗余及模型输入限制问题。
- 总结:通过细化股价数据和合理聚合新闻,强构新闻影响范围感知,支撑更科学的市场影响建模。[page::2]
Prompt工程(Prompt Engineering)
- HG阶段指令:明确要求模型区分新闻的短期和长期价格影响。
- HG-NC阶段指令:基于提示模板叙述群组主题及传播范围,辅以指令指导模型考虑信息扩散和主题重要度对股价的影响。
- 指令亮点:
- 指令中包含对聚类大小(主题规模)的解读,提醒模型关注高关注度新闻群。
- 明确区分短期(1-2天)与长期影响,引导模型考虑时间序列反馈。
- 促进模型权衡各种新闻因素之正负面影响,并合理预测涨跌幅度。
- 训练数据构建:采用GPT-4生成的分析文本作为教学目标,后用Llama3-8B模型进行指令调优。
- 总结:上下文增强模型指令设计,显著提升模型处理复杂新闻上下文及推理能力。[page::2]
---
三、图表深度解读
3.1 图1 - 整体框架流程图

- 描述:图示从一周数据收集(股价、新闻、财务指标),经过数据预处理(股价日粒度+新闻聚类),再到提示语设计与构建训练数据,通过调用LLM训练与推理,最终评估准确率与推理质量。
- 解读:清晰地划分了“数据处理”和“提示设计”两大创新贡献,直观展示了新闻聚类如何被辅助编码进提示,体现新闻传播范围对模型影响。
- 重要性:为后续性能提升的各环节提供流程支撑,突显方法设计的系统性、模块化。[page::2]
3.2 表1 - 模型二分类预测准确率及词频变化
- 描述:表展示了三阶段模型(基线、HG、HG-NC)在方向性预测准确率的提升,从55.0%提升到63.0%。伴随着“长期”和“短期”关键词频率显著提高,说明模型更重视时间因素。
- 解读:
- 概念“长期”、“短期”词频的显著提升反映出提示词设计成功引导LLM关注新闻时间效应。
- 准确率提升表明引入数据粒度和新闻聚类使模型更好捕获复杂市场讯息。
- 总结:验证了方法设计的有效性,强调新闻传播时间与范围对股价影响的重要作用。[page::3]
3.3 表2 - 不同方法ROUGE指标评测
- 描述:ROUGE-1,ROUGE-2和ROUGE-L等多项指标表明HG-NC在推理质量上全面领先。
- 解读:ROUGE评分衡量生成文本与参考文本在关键短语和句法结构上的相似度,高分意味着模型不仅准确预测,还能合理解释预测原因。
- 关联文本:说明聚类方法支持LLM综合多条新闻信息、合理权衡正负面因素,形成更符合真实市场逻辑的分析。
- 总结:推理能力提升和准确率同步,增强模型的可解释性。[page::3]
3.4 图2 - 不同案例下聚类优质新闻占比与预测表现的关系

- 描述:图表时间轴上展示了3种案例(HG-NC对,HG错;HG对,HG-NC错;二者均对或错)与对应高凝聚新闻聚类比例的统计。
- 解读:
- 在HG-NC正确预测的案例中,聚类优质新闻比例多高于50%,即高信息覆盖度关联更好预测效果。
- 反例中比例低于40%,推测聚类无法有效捕捉关键信息,导致模型性能下降。
- 结论:有效的新闻聚类质量直接影响模型性能,验证新闻传播感知的重要性。
- 细节备注:柱状图中红色为HG-NC正确且HG错误的情况,蓝色为相反情况,绿色指一致,直观强调聚类信息质量对模型贡献。 [page::3]
3.5 图6 - Boeing公司三阶段预测标签序列走势

- 描述:展示基线、HG和HG-NC三方法在不同时期对波音公司股票走势的标签预测序列。
- 解读:
- HG-NC(红线)表现更稳定,准确区分上涨下跌走势周期,尤其在涨幅大于5%区域(U5+)多次捕捉成功。
- HG与基线预测标签波动较大且准确率偏低,高亮了新闻聚类对特定公司预测的重要提升。
- 意义:具体案例展示方法的实际有效性,增强结果的说服力。
- 总结:与整体模型评估结果一致,强调新闻传播维度对实操应用的价值。[page::6]
3.6 附录B - 三种Prompt模板示例(部分截图)
- baseline模板:包含公司介绍、周度涨跌、新闻标题摘要,指令较简单,缺乏详细时间属性。
- HG模板:加入每日股价和收益数据,并指示模型区分新闻短期与长期影响,丰富算法上下文。
- HG-NC模板:基于HG,进一步加入新闻主题、时间跨度、聚类规模,添加新闻传播度分析指导。
- 总结:细节形式上的逐步复杂化反映了核心方法的逐层增强思想,是提升模型表现的关键。[page::5]
---
四、估值分析
本报告聚焦纯文本驱动的股价走势短期预测,未涉及传统财务估值模型(如DCF、EV/EBITDA、市盈率等)分析。其核心价值体现在通过新闻传播范围为权重的情感信号聚合及上下文增强指令调优层面,非基于传统估值倍数法模型。
因此,估值部分此报告并无明确覆盖。
---
五、风险因素评估
报告并未以专门章节形式深入风险讨论,但从整体内容可隐约推断潜在风险:
- 新闻聚类的质量风险:低凝聚新闻可能错失关键信息,影响预测准确度,依赖阈值与聚类方法的稳定性。
- 时间跨度与新闻反应延迟:不同新闻对于市场反应的时长差异可能造成模型判断误差。
- 数据覆盖与可用性风险:新闻数据获取依赖API接口,若数据不完整或偏颇,会影响模型效果。
- 模型固有限制:LLM固有的推理偏差和训练数据限制,可能存在“过度拟合”或“提示敏感”问题。
报告虽无专门缓解策略展示,但方法设计上采纳了多类型聚类控制与提示指令明示,意在降低上述风险。[page::1-3]
---
六、批判性视角与细微差别
- 数据维度聚焦优劣:售价引入了信息丰富的日维度股价数据,提高短期事件响应度,但是否增加过多噪音和计算复杂度未详述,可能引发过拟合或计算资源瓶颈,尚需权衡。
- 新闻聚类阈值参数的调节:0.6为相似度阈值,属于经验设定,缺乏对不同市场或行业动态的适应性讨论,存在泛化风险。
- 指令模板的稳健性:虽加强了说明与引导,如何避免模型对指令过度依赖而忽略数据本身信息价值,需要进一步论证。
- 缺乏人工验证:ROUGE自动评分虽有效,但自动指标无法完全替代人工判断,模型解释可信度仍需额外保障。
- 对长期价格影响的定义较模糊:模型焦点明显倾向短期预测机制,长期影响的定义和捕捉机制尚不充分明细,未来调研空间大。
- 实际交易策略应用尚未展示:预测准确率虽提升,但实际投资回报率和风险调整后表现无论对机构还是个人投资者都非常关键,该报告未涉及。
- 结论与案例局限:仅通过波音一家公司的案例演示,缺乏跨行业、多市场数据支持,泛化能力待证实。[page::3, 5]
---
七、结论性综合
本文所述的FinGPT框架,借助数据层面创新(高频股价信息+新闻聚类)和提示层面设计(针对新闻传播范围的明确指令和上下文信息),显著提升了基于LLM的情感驱动短期股价走势预测性能。
关键发现总结:
- 通过引入日频度股价与收益数据,实现了对新闻事件发生时间与股价反应更精准的匹配,促使模型有效区分新闻的短期及长期影响。
- 利用BERTopic和句向量相似度实现新闻聚类,且基于聚类大小与凝聚度(相似度阈值)度量新闻传播广度,为LLM提供了反映市场关注度的结构化信息,极大提升了市场动态捕获能力。
- 指令层面创新对模型行为投以明确引导,促使模型在分析中兼顾新闻传播特征及时间影响,有效改善推理质量和可解释性。
- 实验结果显示,基线模型55%的预测准确率被提升至63%,在推理文本的一致性与覆盖度上ROUGE指标明显优于对照组。
- 波音公司案例进一步验证了该方法在实际个股预测方向上的可行性和有效性,尤其在高质量新闻聚类覆盖率(>50%)的周度时段表现突出。
整体而言,FinGPT系统创新地将金融新闻的传播范围纳入情感分析范畴,这是解锁短期股价变化复杂成因的关键一步。其训练与评估框架兼顾预测精度与解释质量,呈现出较高的实务应用潜力。
但报告亦未覆盖估值模型、交易策略有效性及多市场普适性,未来有进一步扩展的空间。
---
参考溯源标注
上述所有结论均源自原文内容,并附有页面标识作为溯源依据,如文中
[page::x]
所示。---
总结
FinGPT通过新闻传播感知和上下文丰富的指令设计创新,优于传统基于单新闻或粗粒度数据的情绪分析方法,在短期股票价格预测领域展现出较强竞争力。其方法和流程可为金融智能分析领域提供参考借鉴,特别是大规模新闻数据的结构化处理和指令式模型微调策略。
---