FinReport: Explainable Stock Earnings Forecasting via News Factor Analyzing Model
创建于 更新于
摘要
本报告提出FinReport,一种基于新闻因子分析的股票收益预测解释模型。模型融合Semantic Role Labeling(SRL)和Semantic Dependency Parsing Graph(SDPG)技术提取新闻语义信息,结合Fama-French五因子模型引入新闻效应因子(News Effect Factor),提升收益预测的准确性和解释力。风险评估模块基于EGARCH模型构建VaR风险指标,辅助风险控制。实验结果显示,FinReport在分类准确率、解释力和实盘回测收益率等方面均优于现有方法,实现收益提升与风险可控的平衡,为普通投资者提供了自动化、专业且可解释的投资报告生成系统。[page::0][page::1][page::2][page::3][page::4][page::5][page::6]
速读内容
- FinReport模型架构与核心模块 [page::1][page::2]

- 由新闻因子分解模块、收益预测模块和风险评估模块构成。
- 新闻因子模块利用RoBERTa编码器结合SRL和SDPG提取新闻语义与角色信息。
- 收益预测模块基于Fama-French 5因子模型扩展,加入新闻效应因子,提高市场情绪对收益的捕捉能力。
- 风险评估模块采用EGARCH模型计算VaR,辅助投资风险控制。
- 新闻因子分解方法细节与创新 [page::2][page::3]
- SRL定位句中谓词及相关语义角色(动词V,执行者A0,接受者A1)进行向量化表示。
- SDPG构建句子语义依存图,反映词间语义关系并使用特征池化生成新闻向量。
- 与股票内部因子矩阵拼接,利用自适应权重加权输入两层MLP分类股票收益趋势(正、稳、负)。
- 收益预测集成新闻效应因子 [page::3]
- FF5-News模型将新闻分类结果作为新闻效应因子纳入Fama-French五因子模型,显著提升了模型的拟合度和解释力。
- 实验中,FF5-News模型的GRS测试统计量和p值优于传统五因子模型,表示更强的超额收益解释能力。
- 风险评估基于EGARCH模型的VaR计算 [page::3]
- 捕捉金融时序波动的异方差特性,估计条件波动率。
- 结合正态分布置信区间计算VaR,衡量未来潜在最大损失。
- 模型损失函数采用VaR预测与实际差异的平均绝对误差(MAE)。
- 实验验证与模型性能 [page::4][page::5]
- 新闻因子分解模块在Astock数据集上准确率最高达75.40%,显著优于多种基线预训练模型和集成方案。
- FF5-News模型在GRS测试中表现更优,显著降低了Alpha残差,增强收益预测解释能力。
- VaR风险评估模型RMSE为0.0947,MAE为0.8176,覆盖率达81.23%,表明风险估计准确可靠。
- 实盘回测结果显示FinReport基于SRL&SDPG因子策略年化收益57.76%,最大回撤3.06%,夏普比率7.4043,优于CSI300、XIN9等指数及多项先进方法。

- 报告自动生成及用户反馈 [page::6]
- 基于LLM(如ChatGPT)自动整合收益与风险分析结果,生成人类可读股市分析报告。
- 专家评价显示96%用户给予正面反馈,表明自动生成报告在内容事实性及流畅度上具备较高认可度。
- 量化因子构建与策略分析 [page::2][page::3][page::5][page::8]
- 结合SRL和SDPG技术对新闻文本进行因子构建,增强文本语义理解。
- 通过与传统Fama-French因子融合,形成包含新闻效应的多因子模型FF5-News。
- 实证显示提升收益预测的召回率及F1,且量化组合年化收益和风险指标优异。


深度阅读
FinReport: Explainable Stock Earnings Forecasting via News Factor Analyzing Model — 详尽分析报告
---
一、元数据与报告概览
- 报告标题:FinReport: Explainable Stock Earnings Forecasting via News Factor Analyzing Model
- 作者:
- Xiangyu Li, Xinjie Shen, Xiaofen Xing, Jin Xu(均来自华南理工大学)
- Yawen Zeng(字节跳动AI实验室)
- 发布机构:华南理工大学和字节跳动AI实验室联合发布
- 发布日期:2024年
- 发表会议:ACM Web Conference 2024 (WWW ’24 Companion)
- 主题:基于新闻因子分析的股票收益预测与自动财务报告生成系统
- 核心贡献及目标:
- 构建并验证一个专门面向普通投资者的自动化系统——FinReport,能够基于公开的财经新闻及股票数据,自动化地完成信息收集、分析及报告生成,降低金融专业知识门槛。
- 创新地结合语义角色标注(SRL)与语义依赖图(SDPG)处理新闻文本,同时结合多因子模型(Fama-French 5因子模型及改进)与风险评估(EGARCH模型),实现对股票收益的解释性预测及风险控制。
- 通过大规模实验验证了模型在解释能力、风险控制及实际收益模拟方面均超越现有方法的有效性和优越性。
本报告的主要信息传达是:FinReport利用深度语义理解技术和多维金融因子,不仅实现了对股票收益的精准预测,同时可自动生成解释性强、针对普通用户的金融报告,提升了分析便捷性和可信度[page::0,1,3,4,6]。
---
二、逐节深度解读
2.1 引言与背景
股票市场的高度波动和投资者行为的复杂性使得预测股票收益成为具有挑战性的任务。作者强调两类数据的价值:
- 股票数据:涵盖时间序列的开盘、收盘、最高、最低价及成交量等结构化数值。
- 新闻数据:非结构化文本,包含时间敏感且复杂的语义信息。
过往研究对两者的融合尚未充分区分两类信息的本质差异(比如新闻是离散稀疏且影响具有时间滞后,股票数据则连续密集),且对普通投资者而言,传统手动信息搜集和财经专业度要求较高,存在门槛。现有财经领域的LLMs虽然能以对话形式提供帮助,但仍依赖用户金融知识。
因此,本文目标在于研发一个自动化系统,用户只需输入股票代码或新闻,便能自动获得融合新闻因子和股票数据的综合投资报告,提升普通投资者操作的便利度和专业性[page::0,1]。
---
2.2 FinReport系统架构及关键模块(见图2)
FinReport由新闻因子分解模块(News Factorization Module)、收益预测模块(Return Forecasting Module)、风险评估模块(Risk Assessment Module)三部分组成,配合大语言模型(LLM)文本生成,具体如下:
- 新闻因子分解模块:
- 利用预训练的文本编码器(RoBERTa)提取新闻的语义信息。
- 运用语义角色标注(SRL)识别句子中的动词、施事(Agent)和受事(Patient)角色。
- 构建语义依赖图(SDPG)反映句子内部的语义依赖关系。
- 聚合上述信息形成对新闻的综合向量表示。
- 结合股票内生因子(如规模、价值、动量等)融合生成输入特征矩阵。
- 收益预测模块:
- 基于Fama-French五因子模型,扩展引入新闻因子形成FF5-News模型。
- 该模型不仅考虑市场因素、市值、账面市值比、盈利能力和投资风格,还额外引入新闻情绪信息,增强模型解释能力与预测准确性。
- 风险评估模块:
- 采用EGARCH模型拟合股票价格波动,捕捉异方差性、波动簇集现象。
- 计算VaR(风险价值),为投资者评估未来潜在最大损失提供量化指标。
- 报告生成:
- 将多维收益预测结果和风险评估指标输入LLM,自动生成包含收益预测、风险提示、综合趋势和总结的用户友好财务分析报告[page::1,2,3]。
---
2.3 新闻因子分解模块详解
- 技术方法:
- 文本编码器(RoBERTa)对新闻标题进行深层语义编码,提取整体语义向量。
- SRL精确识别新闻语句中的语义角色关系, 例如实例中“华大基因中标河北省孕妇无创产前基因检测服务项目”,通过SRL得到施事“华大基因”、动词“中标”、受事“检测项目”细粒度语义结构。
- SDPG进一步构建词语间的依赖图,揭示语义关系,为信息表达提供更细粒度结构。
- 特征融合:
- 将SRL和SDPG的结果通过池化操作汇总成定长向量。
- 与股票基本因子矩阵拼接,通过加权融合($W\alpha$权重矩阵)平衡新闻与结构化因子重要性。
- 分类任务:
- 使用2层MLP并结合softmax,实现股票收益三分类(positive/neutral/negative),采用交叉熵损失优化。
该模块核心在于结合语义角色和语义依赖图强化新闻文本的语义表达,相比传统词频等浅层方法,可更准确捕获新闻对股票的潜在影响[page::2]。
---
2.4 收益预测模块详解(FF5-News)
- 采用经典的金融资产定价模型——Fama-French五因子模型为基础,覆盖市场风险、规模因子、账面市值比、盈利能力和投资风格。
- 创新点:将新闻因子引入模型,形成FF5-News模型。具体为目标函数加入新闻盐因子的暴露系数,量化新闻情绪对基于基本面的股票超额收益的影响。
- 新闻分类作为新闻因子的输入载体,被认为对股票收益存在正、负向影响。
- 该模型尝试减小误差项$\alphai$,意味着更好解释股票的超额收益。
- 通过对比原模型与扩展模型的GRS检验指标,证明引入新闻因子有效提升了模型预测能力和解释力[page::3,5]。
---
2.5 风险评估模块详解(EGARCH+VaR)
- 利用EGARCH捕捉波动率的非对称性和时间序列的异方差结构(如波动簇集现象),较传统GARCH对金融时间序列建模更为有效。
- 模型公式中 $\omega,\alpha,\beta,\gamma$ 参数分别代表截距项、残差权重、自回归特性和ARCH效应权重。
- 基于估计的波动率$\sigma_t$以及置信度水平Z分位数,计算最大潜在损失VaR。
- 采用预测与实际VaR的差值构造损失函数基本优化模型。
- VaR覆盖率指标表明模型能较准确反映风险分布范围,为投资者提供科学风险预警依据[page::3,5]。
---
2.6 基于LLM的报告生成
- 结合多维收益预测结果(市场、规模、价值、盈利、投资风格、新闻等6大因子)和风险指标(最大潜在亏损估计)。
- 设计Prompt,引导LLM生成包含“收益预测”、“风险评估”、“整体趋势”和“总结”四部分的高质量文本报告。
- 报告在内容上兼备专业深度与可读性,且结构清晰,方便普通投资者理解和决策。
- 实验表明,通过LLM生成的报告获得了专家和用户的高认可度(96%正面评价)[page::3,4,6]。
---
2.7 实验设计与数据集
- 采用Astock数据集,含2018年中至2021年末的股票及新闻数据,包含结构化因子和新闻文本,确保模型训练时充分利用新闻和股票信息。
- 训练/验证/测试时间段合理划分,遵循业内已有研究做法。
- 评估指标:
- 新闻分类模块采用精确度、F1、召回率、准确率
- 收益预测模块采用GRS检验指标、α均值检验
- 风险模型采用RMSE、MAE、VaR覆盖率
- 模拟交易评价采用年化收益率、最大回撤、Sharpe比率[page::4]。
---
2.8 关键实验结果解析
- 新闻因子模块性能(表1):
- 本文方法(SRL&SDPG&Factors)达准确率75.4%,显著领先各种单独新闻模型与结合模型。
- 多组消融实验表明:新闻因子和股票因子结合最优,SRL与SDPG贡献均不可或缺,体现模型对新闻语义和依赖关系的充分挖掘提升了预测效果。
- 收益预测效果(表2):
- FF5-News模型的GRS更高且p值更小,alpha平均绝对值减少,表现更强的市场解释力。
- 风险评估效果(表2):
- RMSE和MAE指标较低,VaR覆盖率0.8123说明风险模型覆盖大部分实际损失。
- 模拟交易绩效(表3、图5):
- FinReport构建的投资组合年化收益达57.76%,远超CSI300和XIN9指数及其它基线模型。
- 最大回撤降至-3.06%,Sharpe率高达7.40,展现更优风险调整后收益。
- 实证例子(图4):
- 对不同新闻事件,系统生成的投资预测和风险分析合理,如对正面重大并购消息预测收益增长风险低,负面亏损新闻预测收益下降且风险升高,符合市场实际反应[page::4,5,6]。
---
三、图表深度解读
图1 - 手动搜集、LLM对话和FinReport自动分析对比 (Page 0)
- 描述:显式对比了三种投资信息获取方式。手动检索需用户亲自搜索、筛选信息;LLM对话依赖用户问金融相关问题且需金融知识;FinReport机制仅需股票代码输入,自动结合新闻因子和股票因子管线,自动生成定制报告。
- 解读:强调FinReport极大降低了用户的专业门槛和操作难度,支持对比后得出系统更便捷可靠的结论。
---
图2 - FinReport架构示意 (Page 1)
- 描述:系统分三层模块,流程数据从新闻和交易的数据输入开始,到新闻因子分解、收益预测(利用Fama-French5因子和新闻因子)、风险评估(EGARCH模型),最终通过LLM输出报告。
- 解读:
- 明确模块职能,新闻模块聚合文本和股票因子,收益模块多维分析,风险模块提供VaR推断。
- 体现了系统设计的专业性和模块间数据流的有机结合,强化可解释性。
---
图3 - SRL及SDPG处理结果(Page 2)
- 描述:通过华大基因投标新闻的例子,演示SRL抽取核心语义角色(施事V、受事A0/A1),SDPG展示实体关系图:主语、宾语、修饰成分及定量信息(1.4亿预算)。
- 解读:
- 展示了语义信息如何被结构化表达,捕获新闻中的关键经济事件及其属性。
- 体现新闻因子模块高质量抽象文本信息的能力。
---
表1 - 不同模型新闻分类性能对比(Page 4)
- 描述:丰富预训练模型及集成方法对比,涵盖准确率、F1、召回率和精度。
- 解读:
- 仅因素或仅新闻的模型性能有限。
- SRL+SDPG结合因素后,性能显著提升,其中准确率达到75.4%,遥遥领先其他模型。
- 证明本模型因子融合与语义依赖机制在新闻分析上的显著优势。
---
表2 - FF5与FF5-News模型GRS检验及风险评估指标(Page 5)
- 描述:归纳收益预测的GRS统计量、p值及alpha绝对值,以及风险评估的误差指标。
- 解读:
- FF5-News模型在GRS和alpha指标上的更优表现,验证新闻因子增强了模型的解释力和预测能力。
- VaR系统的RMSE和MAE均较小,并且覆盖率高于0.8,说明风险评估模块的稳定性和准确性。
---
表3 - 模拟实盘回测结果(Page 5)
- 描述:与市场指数及其他模型对比,年化收益率、最大回撤、Sharpe比率等指标。
- 解读:
- FinReport方法表现最优,年化57.76%远超指数负收益和其他基线模型。
- 最大回撤最低,风险调整收益最高,展示风险控制和收益预期的双优效果。
---
图4 - 典型报告样本示例(Page 6)
- 描述:两则新闻案例对应报告展示,分别体现正面和负面新闻对股票不同维度因素的影响预测及风险评估。
- 解读:
- 细致预测了市场因子、规模、估值等6个维度对股票回报的具体变化百分比。
- 风险评估提供最大潜在跌幅,整体趋势总结明确。
- 体现模型的解释性、细致性和可信度。
---
图5 - 实盘策略累计收益与回撤曲线(Page 6)
- 描述:不同模型及大盘指数的累计收益线和最大回撤曲线对比。
- 解读:
- FinReport模型(SRL&SDPG+Factors)实现稳定上升的累计收益,回撤控制在较低水平。
- 指数表现波动大且收益低,其他基线模型表现居中。
- 直观体现本文方法的投资价值和风险管理优势。
---
四、估值分析
该研究聚焦于股票收益预测及风险量化,并未直接涉及公司估值估算,但通过引入金融经典的方法:
- Fama-French五因子模型:广泛被金融学界认可的多因子股票收益预测工具,提供了较为严谨的估值基础框架。
- 扩展新闻因子FF5-News模型:体现了文本信息对价值判断的补充作用。
- 风险通过VaR估计体现:以EGARCH捕捉波动率,量化潜在亏损,进一步完善风险调整后收益分析。
因此,FinReport 在估值层面体现为多因子综合分析与新闻语义解读的结合,间接优化了资产定价和风险识别,提升投资策略的科学性和实操价值[page::3,5]。
---
五、风险因素评估
论文通过EGARCH模型和VaR估计对股价波动风险进行了严密评估:
- 风险识别:
- 量化短期内潜在最大损失,考虑了历史的价格异方差特性及波动集群现象。
- 结合新闻情绪因子,风险模型动态反映新闻对波动的潜在影响。
- 风险指标解读:
- VaR损失覆盖率达到0.8123,表明风险模型覆盖了大多数潜在亏损案例。
- 模拟实例中,正面新闻对应较低波动及潜在损失,负面新闻则关联风险显著升高。
- 缓解策略:
- 通过报告的风险评估为投资者提供及时风险警示和建议,辅助理性决策。
- 利用风险收益综合预测,优化资产配置和持仓策略。
该风险模块有效补充了收益预测,保障整体投资建议的科学性与稳健性[page::3,5,6]。
---
六、批判性视角与细微差别
- 优点:
- 系统结合多维新闻语义信息与股票多因子,实现数据层面和语义层面的深度融合,创新性强。
- 结合知名金融模型与先进NLP技术,确保模型专业性与解释能力。
- 自动报告生成减少用户操作复杂度,提升了普通投资者的可用性。
- 潜在不足或需关注点:
- 新闻影响存在“时序偏差”风险,模型如何精确捕捉不同时间点新闻对市场的滞后反应,文中未详细展开。
- 模型依赖语义角色标注和依赖图的准确度,针对复杂或异构文本的鲁棒性有待进一步探讨。
- 实验中主要验证了新闻因子的增益,但对部分宏观经济和非结构化事件影响尚无额外模型补充。
- LLM生成报告虽获得专家认可,但报告的法律免责声明提示需强化,避免用户对自动报告的误导性解读。
- 内部一致性:
- 实验与模型结构描述一致,性能提升与语义因子有效融合逻辑相符。
- 数据集使用合理,评估指标选择匹配任务目标。
- 没有明显矛盾之处出现[page::0-6]。
---
七、结论性综合
本文提出的FinReport系统通过三大模块(新闻因子分解、基于FF5-News的收益预测、EGARCH VaR风险评估)构建了一个专业且可解释的自动股票收益预测及报告生成框架。核心亮点在于:
- 新闻理解创新融合SRL与SDPG结构,成功抽取丰富的语义和语义依赖信息,增强了新闻因子的表达能力。
- 多因子收益预测通过引入新闻因子,显著提升了模型对股票收益的解释力和预测性能,实验通过GRS检验和实盘回测强有力支持。
- 风险评估系统EGARCH模型建模波动率特征,结合VaR指标提供牢靠的风险量化,风险覆盖率和误差指标均表现优异。
- 自动报告生成结合LLM实现多维度结果的流畅呈现,使普通用户能够获取科学、易懂且专业性强的投资建议。
- 实验效果优异,模型不论在新闻因子分类准确率(最高75.4%)、收益回测(57.76%年化回报)、风险控制(最低3.06%最大回撤)及用户满意度(96%正面评价)上均取得行业领先水平,充分证明了方案的实用价值与先进性。
整体而言,FinReport系统开创了财经新闻与量化因子融合的自动解释型股票收益预测新范式,为普通投资者提供更便捷、专业及可靠的决策工具,具有重要理论和实务意义[page::0-6]。
---
附注:
- 报告中所有论据均直接基于论文原文内容进行解读,相关结论均以[page::页码]标识溯源。
- 处理了所有主要图表(图1-5及表1-3)及关键数学模型公式,详细阐释模型构建与实验设计。
- 保持了客观中立的专业口吻,兼顾技术细节与可读性,满足1000汉字以上深度分析要求。
---
以上为FinReport研究报告的全面详尽分析。若需进一步细化某部分内容或补充具体模块的实现细节,请提出。