Predictive AI with External Knowledge Infusion for Stocks
创建于 更新于
摘要
本报告首次提出结合外部时序知识图谱信息,通过动态异质图神经网络与时序过程模型,提升股价预测的排名准确性。构建了涵盖宏观经济指标、企业事件和股票间复杂关联的时序知识图谱,并设计了TA-HKGE模型,实现对不同持有期内股票收益的有效排序,实验证明显著优于传统基于历史价格的模型 [page::0][page::1][page::3][page::4][page::6][page::9]。
速读内容
- 研究背景与问题定义 [page::0][page::1]
- 股价受多因素影响,包含股票间关系、宏观经济及政策等外部动态事件,传统模型多忽视这些外部因素。
- 本文首次提出在时序预测中融合动态外部异质知识图谱的方法。

- 时序知识图谱构建 [page::2][page::3]
- 持续20年覆盖NASDAQ与NSE股票市场,涵盖220k+新闻、财报数据、宏观指标、企业事件、股票间一阶和二阶关系、多层级行业分类。
- 图谱含数十万条关系,多实体类型共同建模,实现高度异质和时序属性的知识图谱。
| 数据集 | NASDAQ | NSE |
|---------|--------------|--------------|
| 报文数(三元组) | 7,568 | 2,736 |
| 四元组 | 52,083 | 44,399 |
| 五元组 | 310,916 | 251,551 |
| 实体数 | 4,911 | 1,049 |
| 关系数 | 370,567 | 298,686 |
| 实体类型 | 12 | 14 |
| 关系类型 | 56 | 53 |
- 构建子图示意:展示了NASDAQ和NSE知识图谱的典型子图结构,反映多实体多关系特性。

- TA-HKGE模型架构与核心技术 [page::4]
- 利用Transformer抓取历史序列信息,结合异质时序知识图谱,通过异质Hawkes过程动态建模外部事件影响。
- 采用多头图注意力机制融合节点及关系嵌入,生成联合表达用于股票排名预测。

- 实验设计与数据集 [page::5]
- 三大数据集(NASDAQ100、S&P500、NIFTY500),包含历史价格与构建的时序知识图谱。
- 采用24阶段分时训练测试设计,训练集450天,验证50天,测试100天,覆盖2012-2022年长时序。

| 数据集 | 股票数量 | 天数 |
|----------|--------|------|
| NASDAQ100| 83 | 2800 |
| S&P500 | 442 | 2800 |
| NIFTY500 | 336 | 2800 |
- 性能与指标对比 [page::6]
- 在持有期1、5、20天的投资收益率(IRR)、年化收益率(AIRR)、夏普比率(SR)、NDCG及准确率(ACC)等指标均优于基线Transformer、STHGCN、STHAN与GCNKG。
- TA-HKGE月度持有期最高年化收益率达到54.46%,夏普比率达6.06,显著优于其他方法。
- 模型效果稳定性与扩展性 [page::8]
- 随训练期延长,模型表现略有波动但仍优于风险无套利收益,指标标准差显示在更大样本数据集上表现更稳定。
- 通过不同模型组件的消融实验验证了时序点过程嵌入与异质图注意力的重要性。
- 量化策略与因子构建 [page::4][page::6][page::7]
- 创新性地将外部事件建模为图上的Hawkes时序点过程,学习时间感知的节点和关系嵌入。
- 因子构建涵盖历史价格序列、时序事件强度及股票间复杂关系,通过联合Transformer与HEAT图注意力进行融合。
- 定量回测结果展示了持有不同期限的排名准确性和投资回报,支持模型在实际量化投资中的潜力。

- 结论与贡献 [page::9]
- 本文构建了首个时序动态异质股市知识图谱,提出TA-HKGE结合时序点过程和异质图卷积实现外部知识注入的股票走势预测。
- 模型在多个真实市场表现优异,验证了外部知识对传统基于历史价格预测模型的提升效果。
深度阅读
资深金融分析报告解构与详尽分析报告
报告标题
Predictive AI with External Knowledge Infusion for Stocks
作者与发布机构
- 作者团队由 Ambedkar Dukkipati, Kawin Mayilvaghanan, Naveen Kumar Pallekonda, Sai Prakash Hadnoor, Ranga Shaarad Ayyagari 等组成。
- 报告未明确标明发布机构,推测为学术研究性质,基于一定的金融与人工智能交叉领域的前沿探索。
发布日期
- 无明确发行日期,但研究数据跨度至2022年,且引文提出2024年文献,推断为2023-2024年间的最新研究。
主题与研究议题
- 研究主题聚焦股票价格走势的预测,主要创新点在于引入外部知识(如宏观经济事件、政策变动、行业事件等)构成的时序知识图谱(Temporal Knowledge Graph, TKG),结合时序深度学习和图神经网络进行股票走势排序预测。
- 目标是克服传统仅依赖历史时间序列数据的局限,将外部动态影响因素整合进模型,以提升预测精度和稳定性。
---
1. 元数据与报告概览 (引言)
报告核心论点
- 股票价格的波动非完全由历史价格数据决定,还受诸多外部因素影响,包括股票间的相互影响、更广义的宏观经济因素以及各种外部事件(政府政策、战争爆发、突发公共卫生事件等)。
- 当前股票走势预测主要侧重于历史数据的序列建模,如基于时间序列的深度学习(包括图神经网络和注意力机制)。这类方法缺乏对外部动态信息的有效整合,预测潜力有限。
- 本文首次提出利用动态时序知识图谱(Temporal Knowledge Graph, TKG)来融合外部事件信息,通过一个将图上关系建模为Hawkes过程事件的机制,实现综合的股票表现预测。
- 由于缺乏此类数据,作者构建了纳入多源信息的完整股票知识图谱,并设计了相应的学习框架。实验结果表明,相比现有基线模型,所提方法在不同持有期下对股票排名的预测表现更为优越。
---
2. 逐节深度解读
2.1 引言与背景(第0页)
- 传统方法如基于图嵌入、图神经网络、注意力机制等能够捕捉股票间的复杂关系,但仍主要依赖历史数据趋势。
- 外部影响因素是演变过程中不可忽视且动态变化的变量,全球性突发事件(如新冠疫情)多维度改变股票价格走势。图1展示了新冠疫情期间不同产业(制药与银行)在股价走势上的截然不同表现,印证了外部因素带来的异质影响。
- 作者指出,目前尚无研究能够结合外部事件持续、动态地对股票走势进行时序学习,这正是本文的创新切入点。
2.2 方法综述与贡献(第1页)
- 选定股票市场作为研究领域,构建了两个主要股市(NASDAQ、NSE)的多源时序知识图谱,整合股票间一阶和二阶关系、企业事件、宏观经济指标、财报信息及分析师情绪等,全部具备时间标签和动态特性。
- 通过将图谱上的关系视为异构Hawkes过程事件,学习动态图嵌入,再结合Transformer编码的历史价格序列,形成融合外部知识与内生价格动态的综合预测模型。
- 贡献具体表现为:(i)首创结合外部动态事件的时序预测框架;(ii)公开构建覆盖多个维度信息的综合股票时序知识图谱;(iii)提出利用异构图卷积与时序点过程融合嵌入的模型;(iv)实验验证模型预测股票回报排名能力明显优于现有基线。
2.3 相关工作综述(第1页)
- 回顾了基于RNN的仅局限于历史数据的预测局限性。
- 事件驱动、基于新闻与社交媒体的预测虽已兴起,但一般未能考虑股票间的交互影响,且纯文本事件缺乏结构化关联背景。
- 图神经网络方法引入股票间关系(产业链、供应链、管理层关联),改善单独序列预测问题,但现有工作多为单一关系或信息模态,缺乏全局、多模态融合。
- 此外,知识图谱技术在NLP领域已有较多研究,但在金融时序预测中的应用仍处于起步阶段。本文通过将动态知识图谱和时序点过程结合,填补此缺口。
2.4 时序知识图谱构建(第2-3页)
- 数据源涵盖:新闻报道(Seeking Alpha, Money Control),公司财报数据(Macrotrends, Top Stock Research),宏观经济指标(GDP增长、通胀率等),企业事件(分红、拆股),以及股票间一阶和二阶关系(来源于Wikibase/Wikipedia)。
- 将各种关系分为三种时间特性:无时间戳、带时间戳、带时间区间,确保事件动态时序特征的记录和使用(见图2)。
- 表1中展示NASDAQ和NSE知识图谱规模(实体数量、关系数量、元组数等),其中NASDAQ知识图谱数据规模更大。
- 图3可视化部分子图,体现知识图谱的多实体类型及关系多样性,包括产品、行业、公司、设备等。
- 采用全球行业分类标准(GICS)和印度分类体系对股票进行层级分类,确保行业信息的结构化标注。
2.5 模型架构与学习机制(第4-5页)
- 输入为历史价格序列窗口,静态子图,及时间动态子图。目标是学习融合多模态信息的综合嵌入(包括序列、时序点过程嵌入与图关系嵌入),用于后续股票排名预测。
- 序列嵌入层选用Transformer编码股票历史价格数据,优势是能并行捕捉长期依赖。
- 时序过程嵌入部分,将知识图谱上的关系事件建模为异构Hawkes过程,具体采用HPGE算法学习节点和关系的动态嵌入,表达关系的时序激励效应(事件点触发后的影响机制)及交互强度。
- 关系嵌入层利用异构图注意力网络(HEAT)处理节点特征和边特征(含时间嵌入),融合了时序点过程的动态表示,构建最终图谱编码。
- 预测层以上述嵌入拼接作为输入,通过全连接层输出每个股票未来给定持有期的回报排名分数。
- 损失函数综合了知识图谱嵌入损失、排名损失(基于ApproxNDCG的列表式损失)、二元交叉熵(判断涨跌)以及分位分类损失(排名是否在Top-k)。整体目标是强化时间序列顺序准确性与知识图谱结构一致性。
2.6 实验设计(第5-6页)
- 使用3个主要数据集:NASDAQ100、S&P500、NIFTY500。每个数据集包含股票数量、交易天数等统计数据(见表2)。
- 实验采用滑动时间窗分阶段训练测试框架,将数据划分为24个周期样本,每个周期包含训练、验证、测试。避免数据泄露和分布漂移。
- 设定多种持有期(1、5、20天),分别对应日、周、月策略的回报。
- 与多种基线模型比较,包括基于Transformer纯序列模型(TRANSF),空间时间超图网络(STHGCN、STHAN),基于图卷积的知识图融合模型(GCNKG)。
- 实现多维度评测指标,如IRR、AIRR、Sharpe比率、NDCG、准确率等。
2.7 实验结果与消融分析(第6-9页)
- 表3显示不同模型在三数据集及不同持有期下的表现,TA-HKGE通常取得最优或次优表现,尤其在TOP5股票筛选上IRR和准确率优势明显,说明外部知识提升了模型的实用价值。
- 表4对不同训练周期长度(750/1000天)下模型效果的稳健性检验,发现更长训练期带来一定性能下滑,但整体表现依然优于多数基线,验证模型对股价漂移具有一定适应力。
- 表6反映了不同时期分阶段标准差,发现大盘型(如S&P500、NIFTY500)数据标准差较小,收益更稳定。
- 表7多种消融实验显示,去除时序点过程模块、替换序列编码方式、删除异构转换等均导致性能下降,凸显各模块的重要性。
- 表8展示了收益的最佳与最差极端案例,显示随着持有期延长,最佳与最差收益差距缩小,增强结果的实用可靠性。
2.8 估值分析
- 本研究聚焦于预测模型和方法论创新,未直接涉及传统的企业估值技术(如DCF、市盈率倍数法等),而是通过动态股票排名输出作为投资决策辅助。
2.9 风险因素评估
- 报告虽未专门设立风险章节,但在设计和实验部分隐含考量了股票市场内外部风险,如价格漂移、外部事件不可预测性、数据完整性质量等。
- 训练方案中采用滑动窗口分阶段训练以缓释分布漂移风险。
- 消融实验及最优/最差案例分析揭示模型在不同市场环境下表现差异,提示应用时需注意市场极端波动风险。
2.10 批判性视角
- 本文数据覆盖面主要为NASDAQ和NSE市场,适用范围可能对其他国家市场(如欧洲、A股)有一定局限。
- 外部事件数据来源及事件检测主要依靠规则(规则引擎为主),可能存在未捕捉到的隐式事件或错误标注。
- 知识图谱构建的异构关系丰富,但过滤和异构转换过程的准确性对最终效果影响较大,细节处理或缺少深度描述。
- 模型训练中运用较多参数,调优空间和过拟合风险需要额外关注。
- 虽然随持有期延长,模型表现更优且稳定,但短期预测的波动性依然大,需配合风险控制策略。
---
3. 详尽图表解读
图1(第0页)——新冠疫情期间不同行业股票的价格走势
- 图示上半部分展现制药板块(CIPLA、DIVISLAB、DRREDDY)与银行板块(PNB、INDUSINDBANK、ICICIBANK)股票的行业内联结关系。
- 下半部分为2020年1月至5月疫情期间这六股的标准化价格曲线。
- 事实显示制药股趋势相对积极反弹,银行股则显著受挫,体现了外部事件(新冠疫情)对不同行业股票价格的异质影响。
- 该图直观支持了论文论点:股票价格非孤立变化,而是受行业属性及外部事件综合驱动。
图2(第2页)——知识图谱中不同关系时间属性示例
- 三种类型的关系时间戳定义:无时间戳(Sub-Industry关系)、含具体时间戳(产品发布事件)、包含时间区间(CEO任职时间)。
- 反映了时序知识图谱中时间信息的多样表达形式,确保事件动态信息的准确建模。
表1(第2页)——NASDAQ和NSE知识图谱统计数据
- NASDAQ知识图较大,312k条五元组vs 251k条NSE;实体4911 vs 1049,关系总数370k vs 298k。
- 体现NASDAQ数据更丰富,但NSE图谱示意也显示信息量充足。
图3(第3页)——知识图谱子图示例(NASDAQ和NSE)
- 颜色编码区分不同实体类型和关系,体现平台实体的多样性(如产品、公司、行业等多层级结构关联)。
- 反应出知识图谱架构的复杂异构网络结构基础。
图4(第4页)——TA-HKGE框架结构图
- 展示了整体模型架构,其中序列嵌入层负责处理历史价格数据,通过Transformer提取序列特征。
- 侧边模块为时序过程嵌入,用Hawkes点过程方法动态编码知识图谱的关系事件。
- 右下角是异构图边特征注意力层(HEAT),结合节点、边、时间信息,生成最终的图嵌入。
- 序列嵌入与图嵌入合并后用于预测层输出股票排名分数。
图5(第5页)——训练验证测试阶段划分示意
- 600天的滚动窗口覆盖整个数据集,将数据分为训练450天、验证50天、测试100天等阶段,向前滑动实现多阶段实验。
- 体现对模型训练过程严谨的时间分割设计,避免未来信息泄露。
表2(第5页)——三个数据集基本信息
- NASDAQ100资产数83,S&P500资产442,NIFTY500资产336,三者交易天数均约2800天。
表3(第6页)——模型在不同数据集和持有期下的衡量指标比较
- 指标包括IRR(投资回报率)、AIRR(年化回报率)、SR(夏普比率)、NDCG(排名质量指标)、ACC(准确率)。
- 在所有持有期(1,5,20天)中,TA-HKGE在多个指标显示显著优于基线模型,特别是在IRR和ACC指标上,说明融合外部知识大幅提升预测和选股绩效。
表4(第7页)——不同训练周期长度对TA-HKGE的影响
- 增加训练天数至750或1000天,对某些指标有波动性影响,但夏普比率仍显示风险调整后的收益积极。
表5(第7页)——模型训练使用的超参数
- 学习率0.0006,批量大小128,训练10个epoch,时序点过程嵌入尺寸128等参数,可供复制再现研究的参考。
表6(第8页)——各阶段标准差统计
- 表明在更大数据样本(S&P500、NIFTY500)中,模型表现更稳定,标准差更低。
表7(第9页)——TA-HKGE各组件消融对比
- 移除时序点过程嵌入、用LSTM替代Transformer、删除异构转换效果均不同程度下降。
- 证明了算法中时序事件建模和Transformer序列表示的重要性。
表8(第9页)——最佳与最差投资回报率情形
- 真实市场中,预期回报与风险不可避免存在较大波动。持有期越长,回报率波动区间越窄。
- 实际投资应用中需结合此不确定性评估风险收益比。
---
4. 综合总结与结论
本报告首次通过构建全面的时序股票市场知识图谱(涵盖多种类型实体及带时间的复杂事件关系),结合动态异构图嵌入和时序点过程模型,提出了一个融合外部动态知识的股票走势预测框架(TA-HKGE),能够有效地捕捉股票间的内在联系及外部环境事件对价格的影响。多组实证测试表明,其在不同持有期和多个市场数据集上优于当前主流模型,证实了利用结构化的外部知识显著提升股票排序预测效果的有效性。
模型核心优势在于:
- 多模态数据(三类时序知识关系+历史价格序列)的深度融合;
- 利用异构Hawkes点过程模型对动态事件影响进行显式建模,增强时序预测能力;
- 使用适合金融时间序列特点的Transformer网络捕捉长期依赖关系;
- 严谨的训练测试方案保证模型性能的稳定可靠。
同时,报告展示了各模型组件的重要性,点明每一层技术对整体准确率和收益率贡献显著。
报告对未来金融量化分析及智能投资系统构建具有指导价值,有助推动将外部经济事件动态综合进金融时序预测,开启全新研究视角。
---
5. 该报告的严谨性与应用建议
- 建议投资模型开发者关注股票间非直接价格相关性和外部宏观事件的动态变化。
- 报告提示金融预测应多维度整合信息,摒弃传统单一序列分析固化模型。
- 对模型部署需考虑时效性数据更新与事件识别准确性。
- 投资者应用结果时,应结合风险测度,注意周期波动和极端情景影响。
---
参考文献
- 报告引用了大量顶级会议和领域最新文献,涵盖图神经网络、时序点过程、知识图谱构建及强化学习等,保证研究方法科学严谨。
- 重点参考了2020年至2024年最新相关研究,确保成果具备学术前沿性与应用现实结合的双重优势。[page::0,1,2,3,4,5,6,7,8,9,10,11,12,13]
---
总结
本篇报告以极具创新的视角,突破传统股票预测中对外部信息利用不足的局限,全面构建动态时序知识图谱,并结合多模态深度学习模型,有效提升股票回报排名的预测准确性和实用价值。内容详实,实验设计严密,图表数据支持充分,既有理论贡献,也有明确的应用指导意义,是金融人工智能领域内具有标杆意义的研究成果。