`

ChatGLM医药行业舆情精选策略——大模型微调指南

创建于 更新于

摘要

本报告详述了基于LoRA参数高效微调技术对国产开源大语言模型ChatGLM2进行医药行业舆情精选策略的构建。通过采用ChatGPT3.5的情绪分类标签进行微调,模型逻辑推理能力显著提高,样本外准确率提升至0.84以上,构建的周度舆情策略年化超额收益率达30%,彰显微调大模型在成本控制和数据隐私保障下辅助投研的潜力[page::0][page::9][page::18][page::20]。

速读内容


大语言模型微调技术及应用背景 [page::3][page::4][page::5]

  • 微调可使预训练模型适应具体任务,增强专业性。

- 介绍了全量微调与参数高效微调(PEFT),重点聚焦LoRA和P-Tuning方式。
  • LoRA通过低秩矩阵补偿模型权重,显著降低训练资源需求,保持接近全量微调性能。

- 图示LoRA微调原理及BERT模型本征维度与训练效果关系。




医药行业新闻数据概况及文本特征 [page::9][page::10][page::11]

  • 新闻选取医药行业,理由为其新闻对股价具有较清晰的直接影响逻辑链条。

- 样本涵盖2014-2022年,28000条新闻,涉及448只股票。
  • 关键词高频词涵盖“药品”、“创新”、“研发”等。

- 新闻个股覆盖度随时间提升至20%以上。



以超额收益率直接作为标签的微调及结果 [page::11][page::12]

  • 采用未来5日或20日股票超额收益率作为标签微调,训练中验证集loss无显著下降,出现过拟合。

- 样本内准确率0.59,样本外仅0.34,模型难以学习直接映射关系。
  • 结论:文本到收益率的预测存在复杂非线性关系,单一步骤端到端难以完成。



ChatGPT3.5标签导入与标注对比分析 [page::12][page::13][page::14]

  • 利用ChatGPT3.5对新闻文本情绪进行分类(积极、消极、中立),标签质量较高。

- 对比ChatGPT3.5与ChatGLM2及FinBERT标签,发现ChatGLM2生成偏积极,FinBERT偏消极,中立较少。
  • 事件驱动收益显示,ChatGPT3.5与ChatGLM2标签均与未来超额收益呈单调性对应关系,FinBERT表现较弱。








ChatGPT3.5与ChatGLM2舆情精选策略实证对比 [page::16][page::17]

  • 基于标签驱动,以周度调仓构建医药行业精选策略,回测期2018-2022。

- ChatGPT3.5策略表现更为优异,年化收益率25.62%,超额收益达19.48%,Sharpe比率0.89。
  • ChatGLM2原始标签策略收益平平,存在较大提升空间。

| 指标 | ChatGPT3.5策略 | ChatGLM2策略 | 基准 |
|-------------|---------------|------------|-----------|
| 年化收益率 | 25.62% | 15.69% | 2.43% |
| 年化波动率 | 28.68% | 29.34% | 26.77% |
| Sharpe比率 | 0.89 | 0.53 | 0.09 |
| 最大回撤率 | 29.46% | 46.17% | 43.10% |
| 年化超额收益率 | 19.48% | 10.09% | |
| 信息比率 | 0.59 | 0.31 | |

ChatGLM2基于ChatGPT3.5标签的LoRA微调效果 [page::17][page::18][page::19]

  • 将前10000条新闻以ChatGPT3.5标签作为训练目标进行LoRA微调。

- 微调后模型样本内准确率达0.95,样本外准确率提升至0.84,F1-score均显著提升。
  • 微调后事件驱动收益标签单调性明显增强。

- 构建基于微调后的信号的周度舆情精选策略,年化超额收益率达30.52%,Sharpe提升至1.19,改善显著。
  • 战略对手续费较敏感,单边千分之二手续费下仍仍保持12.17%超额收益。





| 手续费率 | 年化收益率 | 年化波动率 | Sharpe比率 | 最大回撤率 | 年化超额收益率 | 信息比率 |
|-------------|------------|------------|------------|------------|----------------|----------|
| 万分之五 | 31.48% | 30.71% | 1.03 | 30.47% | 25.67% | 0.75 |
| 千分之一 | 26.60% | 30.73% | 0.87 | 31.85% | 21.00% | 0.62 |
| 千分之二 | 17.38% | 30.80% | 0.56 | 35.94% | 12.17% | 0.36 |
| 千分之三 | 8.83% | 30.89% | 0.29 | 42.72% | 3.99% | 0.12 |

风险提示 [page::0][page::21]

  • 生成基于上下文预测,存在回答不准确误导风险。

- 微调方式和超参数选择影响模型性能,避免过拟合及样本外失效。
  • 市场异常波动需动态微调模型,以修正逻辑偏差。

深度阅读

资深金融分析师深度解析报告


—— ChatGLM医药行业舆情精选策略:大语言模型微调指南



---

一、元数据与报告概览



报告标题:
ChatGLM医药行业舆情精选策略——大模型微调指南(“ChatGLM医药行业舆情精选策略——大语言模型微调介绍与一般步骤”)

作者及机构:
国金证券金融工程组,高智威(执业S1130522110003),联系人王小康,wangxiaokang@gjzq.com.cn

发布日期:
2023年,具体日期未明(据页码推断为2023年内)

报告主题范围:
报告聚焦于国产开源大语言模型ChatGLM2的微调实践,特别是在医药行业舆情文本上的应用,通过微调提升模型对舆情文本的理解与逻辑推理能力,辅助构建医药行业精选投资策略。

---

报告核心论点与信息传达:
报告主旨在阐释通过PEFT(参数高效微调)中先进的LoRA技术,对ChatGLM2模型进行针对医药行业新闻舆情的微调,以提升模型在金融文本领域的推理和判断能力,实现投资决策辅助。核心发现包括:
  • 直接用新闻文本与股票未来超额收益率构成标签进行监督学习效果不佳,模型难以直接学习文本到收益的映射。

- 采用ChatGPT3.5分类舆情作为标签对ChatGLM2微调后,模型预测准确度大幅提升,预测潜力接近ChatGPT3.5。
  • 基于微调模型生成的信号构建的医药行业周度换仓策略,在无手续费的理想条件下能实现约30%的年化超额收益,考虑合理换手手续费后年化超额收益依然达12%以上。

- microcap(个股新闻覆盖度)和换手率是影响策略表现的关键挑战。
  • 微调有助于在保证数据隐私与成本控制的前提下,利用大模型为专业投研场景提供有效辅助。


---

二、章节深度解读



2.1 大语言模型微调方式简介与实践案例



关键点总结:
  • 市面上大多数通用大语言模型在金融专业领域仍存在理解不足,且成本高昂,且ChatGPT不开源带来数据安全顾虑。

- 国产开源模型ChatGLM可通过知识库挂载初步提升专业能力,微调则是进阶方案。
  • 微调可针对具体任务用特定语料细调模型,提升专业针对性和准确性。

- 医学、法律领域均已有基于大语言模型的成功微调案例,如BianQue医疗模型与ChatLaw法律咨询模型。

支撑证据与示例:
报告对比了ChatGLM6B和Med-ChatGLM针对具体医学问诊问题的输出,显示微调显著提升专业回答的准确性和细节丰富度(图表1)。同理,ChatLaw模型预置法律法规数据进行微调训练,显著增强答案专业性(图表3)[page::3][page::4]。

2.2 微调的多种方法


  • 全量微调:调动模型所有参数,资源消耗高。

- PEFT(参数高效微调)方法
- 典型的如LoRA、P-Tuning、Prefix-Tuning、Prompt-Tuning等,均针对只训练部分新添参数,提高效率且效果较好。
  • LoRA核心原理与数学演示:

- 冻结原预训练权重矩阵\( W_0 \),加入低秩矩阵乘积\( BA \),训练这部分参数,极大节省计算资源。
- 本征维度r的概念,即模型有效学习的内在低维空间,低至数百参数就可达全量微调90%效果(图表5)[page::5][page::6]。
  • P-Tuning提供对soft prompt的改进,将可训练token插入多层,更好保留模型交互能力(图表6)。

- 数据预处理与训练流程详述,包括token化、padding、truncation及attention mask设定。
  • 梯度累积机制:解决显存限制与训练批次大小矛盾(图表9)。

- 混合精度训练方案:利用FP16和FP32混合提升运算效率与节省显存[page::6][page::7][page::8]。

2.3 LoRA微调实践举例及显存消耗


  • 以ChatGLM2-6B模型为例,LoRA微调所需显存根据batch size和精度不同约为8-28GB,远低于全量微调40GB左右,适合普通消费级显卡环境。

- 文本样例显示经过少量样本微调后,模型能准确改变认知,定制特定回答(图表11-13)[page::8][page::9]。

2.4 医药行业舆情精选策略构建


  • 选取医药行业新闻作为微调数据源,因医药新闻内容和公司业绩关系较为直接,逻辑清晰,有利于模型学习。

- 新闻数据累计逾28000条,覆盖448只股票。经词云分析,高频词集中于“药品”“增长”“创新”“通过”等行业核心关键字(图表14-15)。
  • 个股新闻覆盖度逐年提升,2022年后稳定维持在20%以上,保障策略基础信息覆盖(图表16)[page::9][page::10][page::11]。


2.5 不同标签体系对模型训练的影响及比较


  • 以未来超额收益率直接作为标签进行LoRA微调结果未达预期:训练loss收敛但验证loss无明显改善,样本外准确率仅0.34,说明模型难以直接学习文本到超额收益映射(图表17-19)。

- 说明文本与股票收益正相关性的复杂性与弱相关关系的难点。
  • 采用ChatGPT3.5作为标签对ChatGLM2进行监督训练,实现效果显著提升。

- ChatGPT3.5在FinEval金融领域模型评分中领先国产模型,特别注重金融专业知识和推理能力(图表21)。
  • ChatGPT3.5和ChatGLM2对同一新闻语料的舆情分类对比,显示ChatGPT更规范,ChatGLM2易出现格式偏差(图表23)。

- 三模型(ChatGPT3.5、ChatGLM2、FinBERT)标签分布差异显著:ChatGLM2极少中立标签,偏向积极推断,FinBERT负向情绪更加均衡(图表24)。
  • 标签预测的超额收益率呈现明确单调性,积极事件对应正收益,消极对应负收益,尤其ChatGPT3.5和ChatGLM2表现良好,FinBERT差异度较低(图表25-28)[page::11][page::12][page::13][page::14][page::15][page::16]。


2.6 医药行业舆情精选策略回测


  • 利用ChatGPT3.5和ChatGLM2标签构建的基于周频调仓的医药行业策略回测,时间范围2018.7-2022.12。

- 策略采取了新闻标签的加权衰减,处理多新闻信号,及覆盖度阈值保障买入股票数量。
  • 结果显示ChatGPT3.5策略表现优异,年化收益25.62%,Sharpe 0.89,超额收益19.48%。反观原ChatGLM2策略表现一般,回撤较大(图表29-30)。

- 基于ChatGPT3.5标签微调后的ChatGLM2-LoRA模型大幅提升预测能力:训练准确率达0.96,样本外也达0.84,F1指标均上升。
  • 微调策略年化收益提升至36.55%,超额收益率30.52%,信息比率0.90,最大回撤改善,明显超过未微调版本及FinBERT模型(图表31-37)。

- 手续费敏感性分析表明策略换手率较高,手续费对收益有一定侵蚀。千分之二手续费条件下,年化收益仍12.17%,表明实际可用潜力较大(图表38-39)[page::16][page::17][page::18][page::19][page::20]。

---

三、图表深度解读与数据趋势分析



图表1(ChatGLM-6B与Med-ChatGLM模型医药问诊输出对比)


| 描述 | Micro-adjusted Med-ChatGLM给出了详细疾病原因和药理说明,区别于原ChatGLM的泛泛答复,体现微调对领域知识掌控的效果。
|---|---|

图表4(LoRA微调原理示意图)


| 描述 | 图示具体展示原预训练权重冻结,通过低秩矩阵A、B的乘积实现参数更新的设计思想,有效减少训练参数量。
|趋势| 训练阶段权重由\( Wx \)变为\( (W+BA)x \),训练后权重合并为新的矩阵,省时省显存,效果接近全量微调。

图表5(BERT模型本征维度与准确率关系)


| 描述 | 几个Transformer模型如RoBERTa-Large在MRPC和QQP任务中准确率随内在训练参数维度的提升而显著增加,且低维参数即可达到90%的效果。
|意义| 支持LoRA只训练部分参数仍能取得几乎全量微调的性能。

图表10(不同微调方式显存消耗对比)


| 描述 | LoRA基本不用全部显存,FP16和INT4精度不同影响较大,P-Tuning相对占用更多显存。
|趋势| 显存消耗权衡精度与batch size,实操中显存需求可能会略有波动。

图表15(医药新闻词云)


| 描述 | 高频关键词如“药品”“增长”“创新”“通过”“一致性”等反映医药行业新闻扎根于药品研发、注册审批和销售业绩。
|对策略意义| 词云表示文本内主导语义,有助模型识别重点领域词汇。

图表16(医药新闻个股覆盖度)


| 描述 | 个股新闻覆盖度从不足5%逐渐提高至超过20%,说明信息逐步丰富,策略基础数据逐渐完善。

图表17-19(以超额收益率为标签训练loss及混淆矩阵)


| 描述 | 训练loss下降明显,但验证loss未改善,样本外准确率低至0.34。
|解读| 直接收益率标签映射模型泛化差,隐含关系复杂,说明新闻情感需先转换为中间标签。

图表24(ChatGPT3.5、ChatGLM2与FinBERT分类标签数量比较)


| 描述 | ChatGLM2出积极标签远多于中立和消极,FinBERT消极较均衡,三个模型标签策略差异明显。

图表25-28(标签对应未来5日超额收益率与事件驱动收益)


| 描述 | ChatGPT3.5和ChatGLM2标签单调性明显,积极标签对应正收益,消极标签负收益,FinBERT表现平缓。
|意义| 支撑基于大语言模型情绪分类信号构建投资组合的合理性。

图表29-30(ChatGPT3.5和ChatGLM2医药舆情策略净值与绩效对比)


| 描述 | ChatGPT3.5策略年化收益25.62%,超额19.48%,Sharpe0.89显著优于ChatGLM2未微调版本。
|结论| 身份标签精度决定策略表现,微调前ChatGLM2仍弱。

图表31-32(ChatGLM2微调后样本内外混淆矩阵)


| 描述 | 微调后精准率和F1指数大幅提升,样本外准确率0.84,有效反映模型“学习”ChatGPT标签特征。

图表35-36(ChatGLM2-LoRA、ChatGLM2和FinBERT微调医药舆情策略净值与指标)


| 描述 | 微调后的ChatGLM2-LoRA年化超额收益达30.52%,超过FinBERT 26.38%和原版ChatGLM2 10.09%。
|策略稳定度| Sharpe达1.19,最大回撤29.08%,说明策略风险调整后表现优异。

图表38-39(不同手续费率下ChatGLM2-LoRA医药舆情策略绩效)


| 描述 | 随手续费上升,策略净值及超额收益率均降,千分之二手续费下仍保留12.17%年化超额收益。
|意义| 策略对实盘交易摩擦费敏感,换手率控制成为实践落地关键。

---

四、估值分析



本报告并非传统意义上的公司估值报告,未包含DCF、市盈率等直接财务估值模型。其“估值”体现在不同模型对金融文本情感及逻辑推理能力提升上的“效果评估”以及构建的基于舆情信号的选股策略回测绩效分析。通过微调确定最优参数和数据设置,实现模型能力的“估价”,最终转化为策略的超额收益率作为“实际回报评估”。

---

五、风险因素分析


  • 模型预测准确性的内在不确定性:模型基于上下文概率预测,可能产生误导,影响投资者判断。

- 微调过程中的超参数及方法选择风险:不同超参数组合可能导致过拟合或模型泛化失败,影响样本外表现。
  • 市场环境变化风险:极端市场事件或突发性因素会破坏原新闻到股价的逻辑关联,导致策略失效。

- 数据覆盖度和换手率风险:新闻覆盖不足、高换手频率可能造成信号不稳定,交易成本上升侵蚀收益。
  • 模型标签偏见风险:不同模型给出的情绪分类差异大,标签偏向及分布不均可能影响策略稳定性。


报告指出需持续动态维护模型,通过再微调修正偏差应对市场变化,风险有一定缓冲方案但不可忽视[page::0][page::21]。

---

六、审慎视角与细节评估


  • 标签质量依赖超级模型:ChatGLM2依赖ChatGPT3.5生成标签,若ChatGPT分类出现偏差或市场不适用性,模型传递的误差可能放大。

- 微调效果依赖充足训练数据及时间序列合理划分,训练集取前1万条新闻可能含时序偏差。
  • 舆情信号转化到选股信号仍存在噪声:策略换手率较高,提醒需要进一步优化交易成本控制。

- ChatGLM2微调效果虽大幅提升,但样本外准确率与训练集仍存在差距,模型稳定性待加强。
  • FinBERT虽参数更小,但微调后表现良好,显示细分模型也具市场潜力。

- 对比图显示ChatGLM2过于乐观积极分类,实际舆情可能更复杂,需要后续多模型融合验证。
  • 报告未详述训练过程中的标签噪声处理和数据预处理细节,存在隐含假设风险。


总体,报告内容严谨,数据充分,符合当前行业对大模型微调及金融舆情应用的探索方向。

---

七、结论性综合



本报告围绕大语言模型ChatGLM2在医药行业舆情文本上的微调实践展开,系统揭示了如何利用PEFT(尤其是LoRA)技术实现低成本高效微调,以提升模型在金融文本逻辑推理与情感判断上的表现。通过对28000条医药行业新闻文本进行细致筛选,以ChatGPT3.5模型的情绪输出作为高质量标签进行监督学习,成功将ChatGLM2调优至接近ChatGPT3.5的专业水平。

微调后模型在舆情分类准确率达到约90%,显著提高了其对文本情绪与未来股价超额收益关联的判断能力。基于该模型输出信号构建的医药行业周度换仓策略在样本外实现年化超额收益高达30%,显著优于原模型和其他传统金融NLP模型FinBERT,展示出大语言模型微调技术在专业量化投资领域的实用价值。

图表分析显示:
  • 词云等数据支持选取医药行业作为实证领域逻辑通顺,且新闻个股覆盖度逐年提升保证策略可行。

- 微调前使用未来超额收益率作为标签训练失败,而以ChatGPT3.5的推理输出为监督成功提升性能。
  • 策略回测展现了微调后舆情模型的时间序列表现优势和稳健性,且手续费敏感性提醒实盘操作时需权衡。


报告从技术原理、训练方法、应用实例和实盘绩效等层面提供了完整框架和示范工程,具有高度参考价值。通过结合国产开源大语言模型和国产自主研发微调技术,实现高效、本地化、可控化的投研辅助新模式,创新了量化投资在深度文本分析领域的策略制定路径。

报告同时诚实揭示了当前策略运用中的风险与不确定性,强调需要动态调整与不断优化模型。其对于推动金融行业应用国产大语言模型,降低依赖国外闭源服务,具备重要意义。

总结核心观点:
  • PEFT微调尤其LoRA是大语言模型专业领域应用的技术突破口。

- 选用行业相关、高逻辑性的舆情数据至关重要。
  • 构造合理标签(如ChatGPT3.5输出)远优于直接用收益预测标签。

- 经过微调的国产模型能接近旗舰模型表现,且显著改善投资策略效果。
  • 策略表现出色但受新闻覆盖和交易成本限制,需权衡实用性。

- 大语言模型微调为金融专属投研辅助提供专业、低成本、可控方案。

---

附:全图表参考



(本文中所有图表均列入并剖析,详见原报告页码及图表目录)
  • 图表1-4、5-6(微调原理示意与效果),

- 图表7-10(数据预处理与显存消耗),
  • 图表11-13(LoRA微调认知改变示例),

- 图表14-16(医药新闻样本统计与词云),
  • 图表17-20(训练结果与文本分类流程),

- 图表21-24(不同模型标签表现),
  • 图表25-28(事件驱动超额收益),

- 图表29-30(策略整体表现),
  • 图表31-39(微调前后混淆矩阵及策略交易绩效), 包括不同手续费率下的敏感度测试。


---

免责声明与风险提示


报告明确指出模型基于上下文概率推断特性、训练样本选择性及市场环境变化均可能影响预测准确度,投资需谨慎。强调报告属于投研辅助参考,不构成投资建议,且法律范围内免责最为充分[page::21][page::22]。

---

结语



本报告展现了国产大语言模型经过参数高效微调技术定制至专业投研场景的全流程实践和成果验证,特别是在医药行业金融舆情选股上的创新应用,极大地丰富了智能投研领域的工具箱。其关键亮点在于结合ChatGPT3.5输出为标签,引导国产开源模型实现专业级推理能力,显著提升了投资策略的预测能力和收益表现,同时保持了成本、数据隐私与应用的可控性,为未来金融行业大模型国产化融合指明了一条切实可行的路径。

报告