`

基于BERT-TeXtCNN的中证1000舆情增强策略

创建于 更新于

摘要

报告基于金融论坛中超过5000万条中证1000指数成分股主帖数据,通过大语言模型结合传统BERT-TextCNN模型进行情感分类,构建了多维度舆情选股因子。舆情因子从情绪一致性、关注度、关注度波动、整体情绪和情绪波动五个维度出发,合成因子IC值达6.13%,多空组合年化收益54.76%。基于此因子构建的中证1000指数增强策略2018-2023年回测年化超额收益13.95%,信息比率1.56,最大回撤9.52%。舆情因子与传统因子相关性均低于0.3,具有良好的选股补充价值 [page::0][page::11][page::14][page::15][page::17][page::18]

速读内容


基于金融论坛舆情信息的因子构建与分析 [page::3][page::11]

  • 利用超过5000万条中证1000成分股金融论坛股民主帖数据进行情感分类,情绪分为积极、消极、中性三类。

- 采用ChatGPT4和FinGPT大语言模型为样本标注,进一步训练BERT-TextCNN模型,样本外准确率超过85.5%。
  • 构建文本情感选股因子,包括情绪一致性因子、关注度因子、关注度波动因子、整体情绪因子和情绪波动因子。


多维度舆情因子具体构建及回测表现 [page::11][page::14]


| 因子 | IC均值 | 风险调整IC | t统计量 | 多空年化收益率 | 夏普比率 | 最大回撤率 | top组合超额收益率 |
|--------------------|------------|------------|---------|----------------|----------|------------|------------------|
| 积极帖子占比 | -2.24% | -0.28 | -4.83 | 10.68% | 1.09 | 7.69% | 16.19% |
| 消极帖子占比 | 1.50% | 0.18 | 3.12 | 7.37% | 0.66 | 6.03% | 12.13% |
| 积极帖子数量 | -6.22% | -0.60 | -10.39 | 59.41% | 3.70 | 11.92% | 13.45% |
| 关注度波动因子 | 负值 | 负值 | -11.94 | 60.19% | 4.02 | 11.25% | 10.40% |
| 整体情绪因子 | 3.89% | 0.39 | 6.89 | 26.06% | 1.93 | 1.46% | 10.59% |
| 情绪波动因子 | -5.42% | -0.55 | -9.61 | 42.79% | 2.74 | 10.1% | |
  • 舆情因子表现呈现情绪积极与未来股价反转、关注度高股票未来股价可能下跌、整体情绪积极时股价表现良好等规律。

- 多维度因子合成IC值达到6.13%,风险调整IC为0.71,t统计量为12.4,多空组合年化收益率54.76%,夏普比率4.07,最大回撤率9.02%。

舆情增强策略构建与回测结果 [page::16][page::17]

  • 选股范围为中证1000指数成分股,采用合成舆情因子每周调仓,选取排名前10%股票等权配置,单边交易成本设置为0.2%。

- 2018年至2023年策略年化收益10.85%,年化超额收益13.95%,信息比率1.56,最大回撤35.25%,超额最大回撤9.52%,周均双边换手率93.41%。
  • 除2019年外,其余年份均取得正超额收益,策略净值曲线稳定抬升。


舆情因子与传统选股因子的相关性低,填补信息空白 [page::15][page::16]

  • 舆情合成因子与成长、价值、动量、质量、波动率等传统因子相关系数均小于0.3。

- 舆情因子覆盖逐年提升,2023年底覆盖股票数量达800-900只,具备广泛应用潜力。

深度阅读

基于BERT-TextCNN的中证1000舆情增强策略——深度分析报告解构



---

1. 元数据与概览


  • 报告标题:基于BERT-TextCNN的中证1000舆情增强策略

- 作者及机构:金融工程组分析师高智威(执业证号S1130522110003),分析师赵妍(执业证号S1130523060001),国金证券研究所
  • 发布日期:2023年(具体时间未明,报告内包含截至2023年12月数据回测)

- 主题:利用基于大语言模型与深度学习相结合的文本情感分析方法,挖掘中证1000指数成分股的金融论坛股民情绪数据,构建舆情增强选股因子,进而形成指数增强策略。

核心论点与结论摘要



报告提出,金融论坛中股民发帖蕴含着大量情绪信息,这些情绪通过精准的自然语言处理(NLP)技术表达后,可作为有效的选股因子。团队基于超过5,000万条股评主帖,采用ChatGPT4和FinGPT大语言模型进行高质量样本标注,训练BERT-TextCNN模型进行文本情感分类,实现了样本外准确率超过85%。

构建的多维度舆情因子(包括情绪一致性、关注度及其波动、整体情绪及波动)显示良好预测效力,合成因子IC达6.13%,多空组合年化收益超过54%,夏普率高达4.07。

基于这些因子构建的中证1000指数增强策略,2018年至2023年取得10.85%的年化收益率,明显超越基准指数13.95%的年化超额收益,回撤率及换手率均处于合理水平,表现稳健。[page::0, 3, 11, 14, 15, 17, 18]

---

2. 逐节深度解读



2.1 引言与研究背景



报告指出,传统选股因子在当前市场环境下逐渐失效,舆情因子作为另类数据因其低相关性成为有效补充。考虑到人工标注成本高、数据规模大,利用大语言模型(如ChatGPT及FinGPT)进行样本标注、结合传统NLP模型训练是技术创新点。图表1展示了大语言模型的发展历程,重点强调2022年底ChatGPT发布后,AI大模型爆发式发展所带来的机遇。[page::3]

2.2 数据来源与基本情况



采用子长科技提供的中证1000成分股金融论坛股民主帖数据,时间跨度2018-2023年,超过5,000万条主帖文本,子长科技依托知识模型LKM对舆情进行精准实体对齐和实时情绪打分,数据覆盖全面且实时。主帖多含股民情绪及观点,虽专业度略低于研报新闻,但情绪更为直接。股民情绪在股价形成中扮演重要角色。[page::3, 4]

2.3 情感评分方法与模型构建流程



利用大语言模型对随机抽取的4万条样本进行情感标签(积极、消极、中性)标注,结合子长科技LKM结果形成最终标签,保证准确性。随后训练BERT-TextCNN模型实现大规模文本情感分类。图表3阐述了整体流程——数据预处理、样本标注、模型训练-调参、情感评分。图表5进一步说明大语言模型在情感分析领域优异的零样本性能,ChatGPT等模型优于传统基线。[page::4, 5, 6]

2.4 样本标注与情感分类模型细节


  • 样本标注:通过ChatGPT4与FinGPT双模型交叉验证筛选出优质标注样本,消极类占比51.02%,积极类25.65%,中性类23.33%(图表7)。

- 模型选择:采用改进的ALBERT(albertchinesesmall)结合卷积神经网络TextCNN的BERT-TextCNN框架,一方面获得BERT全局语义表示,另一方面捕捉TextCNN对局部n-gram特征的敏感度,提升情绪识别准确率。详见图表8(模型结构)及9(BERT结构示意图)。
  • 训练效果:模型在测试集准确率达到85.52%,对超过5,000万条主帖数据执行情感分类,结果为积极26.66%,消极50.09%,中性23.24%。(图表13)[page::6, 7, 8, 9]


2.5 多维度舆情因子构建与关联分析



因子构建基于BERT-TextCNN情感评分结果,按照股票标记,剔除非投资者情绪的帖子。主要舆情选股因子包括五类:
  1. 情绪一致性因子:积极或消极帖占比,用来衡量情绪一致性,发现积极帖占比高反而预示未来股价表现差,消极帖占比高则反之,暗示市场短期情绪反转。(IC均值消极1.5%,积极-2.24%)(图表17)

2. 关注度因子:主帖数量及积极/消极数量,积极帖数量因子IC均值为-6.22%,表明被关注度高的股票未来表现较差(图表22)。
  1. 关注度波动因子:关注度日内波动量(方差),波动越大,未来表现越差(IC均为负)(图表25)。

4. 整体情绪因子:积极帖数减消极帖数,整体情绪较积极股票未来表现偏好(IC均值3.89%),但分位数组合非严格单调(图表26)。
  1. 情绪波动因子:通过一周内情绪极值(最大-最小)衡量,极值越大(波动越剧烈)未来表现越弱(IC均值-5.42%)(图表29)。


因子表现均通过IC测算及分位数组合回测确认,显示整体良好预测能力,多空组合年化收益最高可达60%以上,夏普比均衡良好,最大回撤率控制在合理区间。每类因子详细图表及多空组合绩效如图表18-31所示。[page::10, 11, 12, 13, 14]

2.6 多因子合成与因子相关性分析



将以上五类因子中最优代表因子进行标准化后等权合成,形成更稳健的综合舆情因子。合成因子IC均值6.13%,风险调整IC达0.71,t统计量12.4,远超单一因子表现。分位数组合表现出良好的单调性,top组合年化超额收益接近13%(图表33-35)。

合成因子与传统选股因子(成长、价值、动量、质量、波动率、分析师预期、技术指标)相关性均低于0.3,展示了另类数据的独立信息价值。合成因子与流通市值相关系数为-0.18,表明未明显偏向大盘股。[page::15, 16]

---

3. 图表深度解读


  • 图表1(AI大模型发展进程):展示了2022年12月至2024年初,国内外大语言模型的关键版本迭代与开源情况,强调Transformer架构及大模型对自然语言理解和情感分析的驱动力。[page::3]
  • 图表2(金融论坛数据形式):展示了主帖及评论的层级结构,说明主帖包含标题与正文,评论层附加股民互动,对于抓取股民情绪具备基础数据结构[page::4]
  • 图表3(情感识别流程图):通过流程式示意,突出结合数据预处理、大模型标注、传统模型训练的复合方法,有效应对大数据文本情感分析。[page::4]
  • 图表7(样本情绪占比饼图):广泛标注样本中消极超过半数,积极次之,中性约四分之一,直观说明股民论坛整体偏负面情绪较多,反映市场心理侧面。[page::6]
  • 图表8-9(BERT-TextCNN及BERT模型结构):结构示意清晰表明结合Transformer双向编码和CNN局部特征提取,增强模型对情感信息的精准感知能力。[page::7, 8]
  • 图表13(情感分类占比):5,000万条数据采用BERT-TextCNN后,积极与消极比约1:2,反映股民市场情绪偏悲观,情绪中性区分充分。[page::9]
  • 图表14(股票对应帖子数量变化趋势):展示滚动7天内单股票平均帖子数,积极与消极数量整体呈上升趋势且震荡,说明舆情关注度逐年攀升,市场参与热情提升。[page::10]
  • 图表15(周频舆情因子计算示意):说明因子构建依据过去7个交易日数据作为输入,反映股民情绪的短期变化对下周股价影响的重要性。[page::10]
  • 图表17-19(情绪一致性因子):IC值显示积极情绪一致反而导致后市回落,消极情绪一致有正向收益,分位数组合数据显示负向因子分位收益明显,高情绪一致可能带来波段反转。[page::11, 12]
  • 图表22-24(关注度因子):积极帖数的IC均值较大负,显示关注度高对应未来股价变坏,反映市场人气过热时短线修正风险。多空收益线稳定向上,表现良好稳定。[page::12, 13]
  • 图表25(关注度波动):波动率较大因子IC为负,符合“稳定关注度带来稳健表现”的逻辑,舆情关注度的稳定性是价值判断依据之一。[page::14]
  • 图表26-28(整体情绪):整体情绪积极对应股价上涨,虽然非单调,但负情绪明显导致下跌风险,反映基本市心理效应。[page::13, 14]
  • 图表29-31(情绪波动):周内情绪极值越大,未来股票表现越差,说明情绪波动带来不确定性与风险,舆情稳定性对投资回报有重要影响。[page::14]
  • 图表33-35(合成因子表现):综合舆情因子IC显著,表现单调,分位策略凸显,收益率显著优于基准,打印出舆情因子综合优势。夏普率及回撤均处于良好风险调整水平。[page::15]
  • 图表36(舆情因子与传统因子相关系数):舆情因子与传统因子(如技术因子0.3左右,成长和价值更低)低相关,显示其信息互补性和独立性,为量化投资提供新维度。[page::16]
  • 图表37-38(因子覆盖度变化):因子覆盖度从2018年不足300只稳步增长到2023年底覆盖近900只,覆盖度稳定提升保障策略的广泛适用性。[page::16]
  • 图表39-42(策略回测表现):舆情增强策略年化收益10.85%,超额收益率13.95%,信息比率高达1.56,最大回撤率控制优良,换手率较高但在可控范围。年度表现除2019年外稳定正收益,净值、超额净值表现强劲且稳健,验证舆情因子的实际投资价值。[page::17]


---

4. 估值方法



报告主要聚焦于基于大数据情绪文本的选股因子开发及策略测试,未涉及传统财务估值模型(DCF、市盈率等)。策略建立与回测基于因子IC及多空组合收益,不涉及企业固有价值估算,故无估值模型细节讨论。

---

5. 风险因素评估


  • 模型失效风险:基于历史数据的统计模型在市场结构或环境变化时可能失效,回测结果不代表未来表现。

- 情绪分析随机性:大语言模型的情感分析结果存在一定随机性,情绪分类可能因模型输出波动产生误差。
  • 数据覆盖与质量限制:舆情因子覆盖不到全部股票,部分非情绪性内容可能影响分析质量。

- 换手率及交易成本:较高的周频调仓频率带来换手率风险,尽管设置了缓冲减少交易成本,但仍需关注实际执行风险。

报告对以上风险做了明确提示,并提出使用大语言模型结合传统NLP的样本标注流程,提升情绪评分质量以缓释随机性风险。[page::0, 18]

---

6. 审慎视角与细微差别


  • 情绪反转现象:积极情绪一致时未来表现反而较差,体现市场过度乐观时的泡沫效应,此反转特点需投资者警惕盲目跟风风险。

- 标注偏差风险:情绪分类主要依赖大模型打分,尽管采取多模型验证制度,但“中性”标签识别仍不够精准,可能对因子的边界判别产生影响。
  • 高换手率引关注:策略周平均双边换手率超过90%,虽回撤和收益表现优良,但高频调仓策略在实盘中可能面临滑点、税费、流动性风险,影响实际收益。

- 数据覆盖不完全:合成因子覆盖约800-900只股票,不及全部1000只成分股,策略对低活跃度股票信息不足或效果减弱。
  • 缺少多市场/多周期测试:报告回测仅针对中证1000,策略的普适性及跨市场有效性暂未验证,有潜在地域及市场局限。


整体上,报告展示了严谨的多方验证过程,对偏差和风险进行了合理说明,但仍需丰富实盘检验与动态调整机制以提升稳健性。

---

7. 结论性综合



本报告系统地构建了基于金融论坛大规模股民文本的舆情增强策略,创新性结合了大语言模型高质量样本标注与深度学习模型BERT-TextCNN,准确将6年多千万级股评主帖情绪分类作为投资因子。多维度选股因子涵盖情绪一致性、关注度及其波动、整体情绪及波动性,均经过严格的IC及分位数组合检验,展示显著的预测能力和投资价值。

综合因子IC高达6.13%,多空组合年化收益超54%,夏普比4.07,最大回撤9.02%,显示强烈的风险调整后优势。基于此因子,中证1000舆情增强策略在6年检验期内实现了13.95%的年化超额收益率,信息比率1.56,且超额净值稳步提升,除2019年外均表现正向。

特别注意的是,积极情绪高度一致时股价反转风险明显,显示市场情绪极端时的逆向投资机会,高关注度股票未来表现趋弱也提示需警惕市场人气过热。舆情因子与传统基本面及技术因子相关性低,提供有力的策略互补信息。

报告提供了覆盖广泛、数据量大、分析方法先进、验证充分、风险提示明确的研究成果,为投资者在中证1000指数成分股中构建新的量化选股策略提供了宝贵参考。虽然策略存在高换手率及样本标注误差等风险,整体而言此舆情增强策略为当前市场传统选股模型的有效补充,具备较强的实用性和前瞻性。[page::0-18]

---

附录:主要图表Markdown展示


  • 图表1:AI大模型发展进程


  • 图表7:标注样本中各类情绪帖子占比


  • 图表8:BERT-TextCNN模型结构


  • 图表14:单只股票对应帖子数量周平均值


  • 图表17:情感一致性因子IC测试及分位数组合测试结果


  • 图表22:关注度因子IC测试结果即分位数组合表现


  • 图表26:整体情绪因子IC测试及分位数组合测试结果


  • 图表33:合成因子IC测试及分位数组合测试结果


  • 图表36:合成因子与传统选股因子的相关系数


  • 图表39:选股策略指标统计


  • 图表42:策略分年度表现



---

(全文所有结论均源自报告相应页码内容,便于追溯与验证)

报告