关系型数据增强模型训练:新闻共同报道
创建于 更新于
摘要
本报告基于新闻共同报道构建股票关联矩阵,通过关系型数据对存量因子进行衍生增强,采用XGBOOST模型训练联合因子,显著提升模型IC和年化IR,实证显示衍生因子能为量化选股策略带来超额收益和夏普比率提升,且在头部和多空组合均表现优异,扩展了因子研究的信息增量路径 [page::0][page::2][page::4][page::8][page::9][page::10][page::11][page::13]
速读内容
新闻共同报道构造股票关系矩阵及其作用 [page::4][page::5]
- 利用财经新闻中多股票共同出现的次数,构建股票间的邻接矩阵,体现股票间的基本面和舆情关联。
- 示例如迈瑞医疗与药明康德新闻共同报道数量达388条,显示强关联。
- 新闻共同报道覆盖27个申万一级行业,覆盖面远超分析师共同覆盖关系。

新闻共同报道样本下股票收益率相关性显著提升 [page::7]
- 以2017年至2021年半年频率对比全样本与共同报道样本的收益相关系数,新闻共同报道的股票对收益相关性均值高出全样本1%-9%。
- 相关系数分布整体右移,尖峰程度降低,表示更加一致的收益波动性表现。

新闻共同报道衍生因子的构建与信息增量分析 [page::8]
- 通过对原因子向量与新闻共同报道权重矩阵乘积生成衍生因子,体现关联股票因子的加权信息。
- 衍生因子与原因子的相关系数均值约为23.7%,仍保持低线性相关性,保证信息增量。
| 年份 | 相关系数均值 |
|------|--------------|
| 2017 | 20.33% |
| 2018 | 21.65% |
| 2019 | 22.07% |
| 2020 | 23.62% |
| 2021 | 26.42% |
| 2022 | 27.49% |
| 全周期 | 23.69% |
机器学习模型联合训练衍生因子效果显著提升 [page::9][page::10]
- 采用XGBOOST模型,滚动训练,选择ICIR最高的100个因子训练。
- 两组对照:原因子(ML) vs 原因子+新闻共同报道衍生因子(MLNewsCoOcur,200维特征)。
- 叠加衍生因子后,模型IC提升1.35%,年化IR提升0.9,且除2021年外各年均有提升。
| 年份 | ML IC | MLNewsCoOcur IC | ML年化IR | MLNewsCoOcur年化IR |
|------|-------|------------------|----------|---------------------|
| 2018 | 7.97% | 11.78% | 7.45 | 11.96 |
| 2019 | 7.63% | 8.19% | 6.16 | 6.54 |
| 2020 | 5.55% | 7.37% | 3.84 | 5.55 |
| 2021 | 4.09% | 3.97% | 3.12 | 2.93 |
| 2022 | 3.65% | 4.29% | 3.06 | 3.23 |
| 全周期 | 5.79% | 7.14% | 4.52 | 5.42 |

策略分层测试及组合表现比较 [page::11][page::12][page::13]
- 单因子分组测试显示叠加衍生因子模型(ML
- 头部组合中,叠加衍生因子方案年化收益提升2.3%,夏普比率微增0.08。
- 多空组合中,叠加因子策略年化收益提升2.4%,夏普比率提升0.2,尤其2020年表现提升明显。



结论与风险提示 [page::13][page::14]
- 新闻共同报道关系型数据能显著扩充因子库信息,提升模型预测表现和策略超额收益。
- 机器学习模型联合训练纳入衍生因子体现明显性能提升,可作为因子增强的新途径。
- 风险提示:因子模型基于历史数据,未来表现存在不确定性,可能受市场风格和极端行情影响。
深度阅读
证券研究报告全方位深度解析——《关系型数据增强模型训练:新闻共同报道》
---
一、元数据与概览
- 报告标题: 《关系型数据增强模型训练:新闻共同报道》
- 作者: 鲁植宸(多因子与ESG 策略组分析师),研究助理徐建华
- 发布机构: 中信建投证券股份有限公司
- 发布日期: 2023年1月8日
- 研究主题: 利用新闻共同报道构建关系型数据矩阵,将该矩阵信息融入量化因子建模和机器学习模型中,提升因子选股模型的表现和预测能力。
报告核心论点概述:
随着量化选股中因子维度的增加,单因子有效性已经不足以支持投资策略表现的提升,边际增量成为关键。报告提出利用“新闻共同报道”这一新颖的关系型信息,描绘股票间舆情关联,通过矩阵构建与衍生因子生成,将此关联信息整合入机器学习模型(XGBOOST)训练中,实现对原有因子的有效增强。实证显示,合成的因子在预测能力指标 IC(信息系数)上提升1.35%,年化IR(信息比率)提升0.9,同时在多空分组回测中年化收益有2.3%-2.4%的增益,策略表现更优[page::0,2,4,8,9,10,13]。
---
二、逐节深度解读
2.1 引言(页2)
- 量化投资因子维度从数百到数千级别,进入“高纬度”时代,因子评估焦点由单因子向边际增量转变。
- 机器学习的非线性模型未必完全受益于单因子和存量因子的线性低相关性优势,需要寻求新的关联信息。
- 关系型数据(供应链关系、分析师共同覆盖、地理联系、新闻共同报道)为因子合成提供额外信息增量。
- 先前研究证明供应链和分析师覆盖衍生因子在模型中有效,新闻共同报道作为新关系型数据来源被引入以探索其增强效果[page::2]。
2.2 关系型数据的应用(页3)
- 在因子数量增多和机器学习合成工具广泛应用背景下,新因子贡献更多看重边际增量而非单因子强度[page::3]。
- 因子拥挤、同质性问题明显,关系型数据挖掘因子间相互影响成为突破口。
- 高频量价因子多但高度拥挤,基本面因子开发周期长、差异性大,低频基本面关系型数据与高频数据互补,期待其带来信息增强。
- 图表2清晰展示关系数据到特征工程、模型集成再到组合优化的应用框架,强调数据到组合的完整链条[page::3]。
2.3 新闻共同报道(页4-7)
逻辑内涵(3.1)
- 新闻报道多只股票体现市场关注的热点关联,反映公司间事件影响同步。
- 共同报道频率作为股票间关联强度指标,反映跨行业、跨领域的信息传递,拓宽了传统行业或供应链关联的局限[page::4]。
关联矩阵构建(3.2)
- 以新闻报道为单元,构建全市场股票新闻共同报道邻接矩阵。
- 矩阵元素倾向计量两只股票共同被报道新闻条数。例如:迈瑞医疗与药明康德388次共同报道,显示较强关联;开立医疗与先导智能仅4次,共同报道弱。
- 图表3实现矩阵直观体现,图表4和5揭示关联广泛跨行业,迈瑞医疗关联股票分布涉27个行业,其中85%以上为非同行业,说明新闻关联数据覆盖面广,可补充其他静态关系型字段的不足[page::4,5,6].
统计特征与相关性分析(3.3)
- 2018年和2021年新闻共同报道关系最为活跃,关联股票邻居均值达130,2020年因疫情等特殊状况减少至59。分位数显示大多数股票具备15-300家邻居数不等关系,体现新闻关系的动态特性[page::6]。
- 通过收益率相关系数统计(图表8、9),新闻共同报道关联股票组的收益相关性明显优于市场全样本,均值提升1%-9%,相关系数分布整体右移,表明新闻关联股票价格波动更同步,这为联合预测提供数据逻辑基础[page::7]。
2.4 新闻共同报道在模型训练中的应用(页8-13)
衍生因子构建(4.1)
- 利用新闻共同报道邻接矩阵 $Mc$ 归一化为权重矩阵 $Mw$,通过矩阵乘法对单因子向量 $F$ 加权,得到衍生因子 $Fc = Mw \times F$[page::8]。
- 衍生因子每一股票因子值为该股票相关邻居股票因子值的加权平均,融入舆情相关个股的市场特征信息。
衍生因子对原因子信息增量(4.2)
- 衍生因子与原因子的相关性均值约23.69%,且自2017年以来呈逐年递增趋势,最大相关系数不超50%,说明衍生因子在线性空间有一定独立性,可带来信息增量且低多重共线性风险[page::8]。
模型训练与评估(4.3)
- 采用滚动训练机制,基于XGBOOST模型,防止过拟合并充分利用二阶导数信息,训练窗口为10个交易日,迭代训练用于未来10天的收益率预测[page::9]。
- 每轮模型输入为ICIR绝对值最大的100因子,使用winzorize方法处理极端值并做截面标准化,标签为未来5日的VWAP收益率,适合截面选股策略[page::9]。
- 设定对照组(ML)和试验组(MLNewsCoOcur,含新闻共同报道衍生因子),后者维度为200,用于评估衍生因子的边际贡献[page::10]。
- 从IC和年化IR表现看,MLNewsCoOcur全周期IC提升1.35%至7.14%,年化IR提升0.9至5.42。2018年是表现最优年份,IC提升近4%,年化IR提升至11.96,显示新闻共同报道增强因子明显提升因子库预测效力[page::10]。
因子选股策略表现
- 单因子分组测试(图表13、14)显示加入衍生因子后的因子更有效,头部组合年化收益率提升2.3%,夏普比率提高0.08,最大回撤和胜率指标稳健优化,2020年头部组合收益提升9%,夏普明显改善[page::11,12]。
- 多空组合表现更加稳健(图表17、18),年化收益提升2.4%,夏普增加0.2,尤其2020年收益增长高达8.6%,表明该信息增强策略具备显著的风险调整后超额收益能力[page::12,13]。
---
三、图表深度解读
图表1(关系型数据示例,页2)
- 该图示意了关系型数据的四个主要来源:供应链、分析师共同覆盖、地理关联、新闻共同报道,框架清晰,直观呈现了关系型数据的多样来源,为后续聚焦新闻共同报道奠定基础[page::2]。
图表2(关系型数据应用框架,页3)
- 该图细致展示了从数据挖掘、特征工程、模型训练(含滚动训练与集成方法)到组合优化的完整流程,突出关系型数据融合机器学习的技术路线,为因子增强提供理论及实践框架[page::3]。
图表3(关联矩阵示例,页5)
- 矩阵清晰反映新闻共同报道次数,迈瑞医疗与药明康德共同报道达388次,两者关联紧密;对比相关性较小的开立医疗-先导智能(4次),体现矩阵区分度和现实业务关联吻合[page::4,5]。
图表4与5(行业分布与主要关联股票,页5-6)
- 迈瑞医疗新闻共同报道关联覆盖27个申万一级行业,超过85%非同行业,显示新闻共同报道涵盖跨行业的广泛信息。重点关联股票覆盖医疗、生物、化工、电子、机械设备行业,反映信息融合的多元性和跨界性,有助挖掘潜在联动机会[page::5,6]。
图表6与7(每年关联股票数量分布,页6)
- 数据显示2018和2021年新闻共同报道关系最紧密,股票邻居均值约130;2020年则显著下降至59,可能受疫情影响报道减少,体现新闻关系动态变化特征,有助模型动态适应性调整[page::6]。
图表8与9(收益率相关性统计和分布,页7)
- 新闻共同报道样本股票收益率相关系数均值和分位数普遍高于市场全样本,相关性整体右移且峰度下降,显示关联股票价格波动更为同步,支持新闻共同报道在收益预测中的贡献[page::7]。
图表10(衍生因子与原因子相关性特征,页8)
- 衍生因子与原因子相关系数均值约23.69%,较传统分析师覆盖和供应链关联因子更高,但最大仅50%,保证了信息的独立性和补充性,说明衍生因子具备重要的信息增量价值[page::8]。
图表11(模型滚动训练示意,页9)
- 模型通过时序滑动窗口进行训练和测试,体现严格的滚动验证机制,防止数据未来泄露,保证模型泛化能力和策略实用性[page::9]。
图表12(联合训练后因子IC和年化IR,页10)
- 叠加新闻共同报道衍生因子的模型IC全周期提高1.35%,年化IR提升0.9,且多年数年稳定提升。2018年表现显著,有力证明新闻共同报道带来因子有效性的边际提升[page::10]。
图表13与14(单因子分组测试,页11)
- 对比两图,加入新闻共同报道衍生因子后头部(分组4)和多空组合表现趋势更优,回报增长明显,分组间净值差距加大,体现了衍生因子提升盘面选股质量[page::11]。
图表15与16(头部组合表现与净值,页11-12)
- 头部组合年化收益提升2.3%,夏普增加0.08,最大回撤收窄,风险调整后的表现更佳,净值曲线持续超越基线因子模型曲线,验证了衍生因综合提升策略稳定性及收益水平[page::11,12]。
图表17与18(多空组合表现与净值,页12-13)
- 多空组合更显著增强,年化收益提升2.4%,夏普提升0.2,波动率与回撤改善,净值显著领先基线。特别是2020年年化收益增长8.6%,显示在极端行情环境下具备更强抗风险和策略弹性[page::12,13]。
---
四、估值分析
报告中未涉及公司估值模型或目标价的相关内容,此部分无估值分析。
---
五、风险因素评估(页14)
- 因子模型的有效性基于历史行情总结,未来可能因市场风格变化、因子拥挤程度、极端行情等因素失效。
- 机器学习模型基于历史数据假设,存在市场规律未来不延续的风险。
- 投资者需根据自身情况谨慎使用,模型和策略不构成未来收益保证或投资建议。
- 这体现了报告对模型固有限制的认知以及对读者的责任提示[page::14]。
---
六、批判性视角与细微差别
- 模型依赖历史规律,未明确披露对极端市场环境的适应性检验,2021年IC轻微下降(甚至衰减)可能暗示模型在部分年份表现波动,提示模型稳定性有待进一步验证。
- 新闻共同报道关系虽覆盖跨行业,但舆情依赖外部新闻数据,存在信息噪声和舆论导向偏差风险;模型表现的提升部分可能是对热点板块或事件驱动的依赖。
- 衍生因子相关系数平均约23.69%虽保证增量,但相关性逐年升高,这可能预示若干衍生因子与原因子逐步趋同,未来边际贡献下降风险。
- 报告中未详细说明因子衍生过程中是否对新闻时间敏感性和新闻质量加权,这可能影响衍生因子的信号质量和稳定性。
- 报告中尽管提出模型训练采用滚动窗口训练与多次验证,但对数据截面补齐、交易成本、滑点以及实盘交易的影响未作详述,这或限制结果的实际可操作性。
- 该研究主要基于A股市场,市场结构独特,模型及因子有效性的跨市场适用性需谨慎评估。
---
七、结论性综合
该报告创新利用“新闻共同报道”关系型数据,通过构建股票间的新闻关联邻接矩阵,衍生新因子,补充传统因子库,通过机器学习(XGBOOST)的落地应用实现了量化选股模型的有效提升。具体结论包括:
- 新闻共同报道关联矩阵能覆盖跨越行业边界的股票关系,构建多样化、动态的股票关联特征网络,显著扩展传统供应链或分析师覆盖的关系维度。
- 统计分析显示新闻共同报道股票间有更高的收益率相关性,验证了其潜在的联动经济内涵。
- 利用新闻共同报道权重矩阵对300余个传统因子进行矩阵乘法运算,生成衍生因子,与原因子平均相关系数较低,保证了新信息的独立性和有效边际增量。
- 机器学习训练中加入衍生因子,滚动训练、截面归一化和期望收益率标签的严谨设计保证建模的科学性和适用性。
- 从IC、年化IR、因子分组测试、头部及多空组合结果均显示加入新闻共同报道衍生因子显著提升因子预测能力和策略表现,年化收益提升2.3%-2.4%,信息比率提升,策略夏普率提升,最大回撤降低,胜率提高,尤其在2020年疫情极端行情下表现优良。
- 报告客观提示模型的固有限制和风险,强调投资者需结合自身情况风险自担,最大程度保持了研究严谨性和风险提示。
总体来看,该报告为基于多源关系数据的因子创新、因子增强提供了极具价值的新视角和实证支持,具有较强的学术和实盘应用价值,是关系型量化因子增强领域的重要进展[page::0~14]。
---
参考文献
- Wu Q, Brinton C G, Zhang Z, et al. Equity2vec: End-to-end deep learning framework for cross-sectional asset pricing[C]//Proceedings of the Second ACM International Conference on AI in Finance. 2021: 1-9.[page::15]
---
总结
通过上述详尽解读,我们清晰地理解了报告内容,涵盖从关系型数据的定义、新闻共同报道的经济逻辑、方法论设计、实证分析、模型训练、实验结果、风险提示到实际应用的每个重要环节,尤其对所有关键图表数据给予了充分揭示和分析。报告系统地验证了新闻共同报道因子在高维量化选股当中的增量价值,展现了深层次挖掘新闻事件与股票市场联动的强大潜力,具备高实用性及学术价值。
---
(全文共约2800字)