大模型助力数据标注,赋能ETF主题跟踪
创建于 更新于
摘要
本报告聚焦利用大模型技术结合量化回测方法,构建覆盖A股市场行业&主题型ETF的基本面指标体系,实现细分主题的月度跟踪与横向对比。通过自动化Prompt设计映射指标产品与ETF主题关系,精选信号化指标进行回测验证,构建复合信号辅助主题择时。回测结果显示,多数主题择时策略实现显著超额收益,平均年化超额收益率达11.04%,尤其食品饮料、半导体和畜牧业主题表现优异,彰显大模型在ETF主题跟踪中的应用价值与投资指导意义 [page::0][page::3][page::6][page::7][page::10][page::14][page::16][page::17]
速读内容
行业&主题型ETF市场增长趋势与结构变化 [page::3]

- 截至2023年9月,行业&主题型ETF产品数463支,规模6339亿元,占ETF市场资产规模50%。
- 行业&主题ETF细分类别不断丰富,证券、消费、创新药主题发行数量较多。
一级行业月度涨跌幅排名波动加剧,推动主题轮动需求 [page::4][page::5]
| 行业 | 2023-9排名 |
|------------|------------|
| 煤炭 | 1 |
| 房地产 | 29 |
| 银行 | 4 |
| 畜牧业 | 25 |
| 建筑 | 13 |
| 传媒 | 30 |
- 2022-9至2023-9多个月份行业收益率排名呈现负相关,行业板块轮动加速,主题跟踪需求上升。
海量经济数据增长与质量挑战 [page::6]

- 中国数据量预计2027年达76.6ZB,年均增速26.3%。
- 数据质量和利用率问题依然显著,数据完整性、准确性及关联性不足。
大模型赋能指标映射及量化信号构建流程 [page::7][page::10][page::11][page::12][page::14]



- 以GPT3.5大模型借助Prompt设计自动化构建指标与ETF主题的映射关系。
- 经济指标信号化处理包含分位水平、趋势变化、幅度变化和持续变动四个维度。
- 指标选取基于回测胜率、盈亏比和相关性控制,形成Top20复合指标信号。
煤炭主题指标信号验证与策略回测示例 [page::15][page::16][page::17]



| 指标名称 | 交易次数 | 胜率 | 盈亏比 | 得分 |
|-----------------------------|---------|------|---------|-------|
| 易煤北方港动力煤指数5500K | 21 | 0.81 | 5.30 | 7.73 |
| 发电量火电山东当期值(月) | 33 | 0.73 | 3.94 | 6.55 |
| 期货成交量INE原油日 | 39 | 0.67 | 3.96 | 6.32 |
- 煤炭主题复合指标信号与ETF月度涨跌幅走势高度吻合,具备领先性和买卖信号指引能力。
- 策略回测显示,2020-2023年区间相对标的ETF累计超额收益达158.9%,月胜率69.8%。
ETF主题择时策略整体表现与行业差异化收益 [page::17][page::18]
| ETF主题 | 年化超额收益率 | 月度胜率 |
|---------------|----------------|----------|
| 食品饮料 | 26.03% | 69.70% |
| 半导体 | 24.93% | 65.38% |
| 畜牧业 | 20.61% | 77.42% |
| 酒 | -13.42% | 47.17% |
| 医疗 | 3.48%-1.01% | 55.77%-49.28% |
- 39个主题中绝大多数择时策略实现正向超额收益,胜率普遍超过60%。
- 表现优异主题多集中于消费电子、半导体、食品饮料等热点领域。[page::17][page::18]
量化因子构建及策略框架总结 [page::12][page::13][page::14]
- 利用恒生聚源和万得等经济数据库海量指标,经程序标准化至月度更新频率。
- 设计指标信号化方法,将连续指标转化为3状态离散信号,降低噪声干扰。
- 基于信号回测剔除低效指标,通过胜率、盈亏比评价指标有效性。
- 复合指标通过多维信号累加,增强主题基本面变化表征能力。
- 主题择时策略按复合信号买入卖出,根据信号正负判断持仓ETF或现金。
深度阅读
研究报告详尽分析报告
报告标题:大模型助力数据标注,赋能ETF主题跟踪
作者:赵文荣(量化与配置首席分析师)、伍家豪(数据科技分析师)
发布机构:中信证券研究部
发布日期:2023年10月18日
主题:利用大模型技术强化ETF主题跟踪与数据标注,提高ETF主题投资策略的效率和性能。
---
一、元数据与概览
本报告聚焦行业和主题型ETF(交易型开放式指数基金)的主题跟踪问题及其投资应用难点,提出并验证了基于大模型技术辅助数据标注与量化回测的方法,构建ETF主题基本面指标体系,实现了对主题基本面变化的高频跟踪与信号化,从而辅助投资者实现主题择时和主题间横向对比。
核心结论包括:
- 结合大模型智能数据处理和量化方法,构建了以73个细分ETF主题为核心、基于恒生聚源经济数据库的指标体系,实现每月主题基本面跟踪信号的生成;
- 通过“指标产品初筛”和“指标回测精选”两步筛选方法,选取Top20指标构建复合信号,辅助ETF主题择时;
- 利用构建的复合信号进行月度择时策略,相较于对应的主题ETF代表产品,实现平均年化超额收益率11.04%,平均月度胜率63.01%;
- 深入示例煤炭主题指标信号,验证策略的领先性和超额收益优势,说明指标体系具备明确的投资指导价值;
- 同时注意行业数据更新频率、数据准确性风险及大模型计算能力限制,提出相应风险提示。
本报告明确展示了大模型(如GPT3.5)在金融海量数据标注与投资策略构建上的应用路径及成效,强调其在数据资产整合、主题基本面变化信号挖掘、ETF主题横向对比等方面的赋能能力,兼顾技术创新与实际应用的有效结合[page::0,3,6,15,16]。
---
二、逐节深度解读
2.1 行业&主题型ETF发展背景与需求
报告指出,行业及主题ETF数量和资产规模持续快速扩张,截至2023年9月25日,行业&主题ETF数目达到463支,总规模6339亿元,占权益类ETF市场约50%比重,超越规模指数ETF,显示行业和主题ETF正成为市场主力产品。结构上,证券、消费、创新药为数量较多及规模较大的主题,科技主题如传媒、通信设备、云计算等行情火热。
从行业收益率相关性来看,随着市场板块轮动加速,行业排名波动明显(相关性平均-0.12且8个月出现负相关),增加了主题及产品选择的难度,凸显细分主题跟踪的挑战[page::3,4,5]。
2.2 经济数据资产现状与大模型优势
全球及中国经济数据量迅猛增长,中国占比预计由2022年的23%提升到2027年的27%,为大模型智能挖掘提供了数据基础。报告强调数据质量差和利用率低的问题:数据错误、披露延迟、不关联等造成信息噪声,计算成本高却未必有效。
大模型(GPT系列,尤其GPT3.5)通过超大参数规模压缩超大量训练样本知识,实现语言理解与知识蒸馏,能够自动化、高频率地完成海量经济指标的主题关系映射与标注,显著提升数据资产的利用效率和准确度。此外,人工标注虽精准但成本高且更新慢,而大模型自动化标注则低成本且可快速更新,满足高频主题景气追踪需求[page::5,6]。
2.3 ETF主题跟踪方法体系设计
报告设计了基于GPT3.5的PromptEngineering技术结合量化信号回测的ETF主题指标筛选流程(见图4)。流程主要包括:
- 指标梳理:利用设计好的Prompt自动批量构建指标产品与ETF细分主题映射关系,生成平均每主题1.35万个指标映射;
- ETF梳理:建立细分主题标签,筛选代表产品,确保产品成立时间、业绩表现及流动性良好;
- 指标信号化处理与回测:基于趋势状态(分位数水平、趋势变化、幅度变化、持续变动)将指标转化为离散信号(1,0,-1),再根据指标与ETF表现(胜率、盈亏比)进行排序筛选,保留Top20指标构建复合信号;
- 主题择时与横向对比:以复合信号指导月度ETF买卖策略,实现主题间的比较和投资推荐[page::7,9,11,14]。
2.4 经济指标及数据源特点
借助恒生聚源数据库,涵盖数十万个指标与近两万个产品,重点是量价类指标,占比最高,数据来源多样且覆盖面广,月度更新频率占44%,保证指标的时效性与跟踪能力。指示农业、医药和汽车工业的指标尤为丰富。指标的数量、类型分布,更新周期均体现出数据资产的广度和深度,适合于构建细分主题跟踪体系[page::8]。
2.5 指标映射的自动化实现与Prompt细节
设置基金经理身份的Prompt设计,结合示例调试,确保GPT3.5理解复杂映射任务,自动匹配指标产品与ETF主题。使用API接口进行自动化批量处理,理论上可在1天内完成上万个类别产品的标注任务。报告展示了具体API调用代码,体现技术实现透明度和可复制性[page::9,10,11]。
---
三、图表与数据深度解读
3.1 行业ETF数据量及规模(图1、图2)
- 图1:展示了2017年至2023年9月25日不同类别ETF的数量和规模。行业&主题ETF的数量高于规模指数ETF(超400个vs约200个),规模接近甚至超越指数ETF(约6300亿人民币),显示主题ETF成为市场重要组成。
- 图2:资产规模占比变化显示行业&主题ETF从不足20%迅速上升至50%左右,而规模指数ETF比重下降;策略和风格型ETF占比持续较小。说明市场结构正在向细分主题ETF倾斜,共享更多的配置机会。
这两图支持了报告关于行业主题ETF热度高、市场份额持续扩大趋势的论点[page::3]。
3.2 经济数据量及范围(图3)
- 图3中显示全球数据增长格局,中国市场快速扩张,预计占比27%,表明未来中国经济数据资产丰富,提供了重要的基础资源支撑。
- 数据利用难点在于数据质量、准确性和时效性,如图中折线和柱状体现,数据量剧增但伴随管理挑战。
此数据突出了报告选用大模型处理经济数据库的必要性[page::6]。
3.3 恒生聚源指标来源及类型(图5-图8)
- 图5:海关总署为最大数据来源,拥有超过20万条指标,远超次大聚源数据库10万,显示核心海关贸易数据也是行业动态的重量级指标源。
- 图6:指标类型中,中国出口口径数据最多,紧随其后为进口、价格、产量等反映行业基本面的维度。
- 图7:指标更新频率主要集中月度和年度,占比81%,表明可用于月度跟踪策略指标充足。
- 图8:产业分类指标数量偏向周期性和制造业,如农林牧渔、医药医药和汽车行业指标丰富,说明经济指标覆盖了市场热点和典型主题。
这些图表直观展现了底层数据资源的丰富性和多维度,为建立广泛且精准的主题跟踪指标体系提供数据支持[page::8]。
3.4 指标信号化和筛选流程(图13-图16)
- 图13示范了不同指标(如太阳能相关产量、价格指标)经过统一月度标准化后的矩阵式展示,样本丰富且多维。
- 图14明确指标信号化逻辑,综合分位数水平、趋势变化、幅度以及连续性,简化为-1、0、1, 便于量化指标趋势。
- 图15的筛选流程图清晰描述通过胜率、盈亏比打分指标,排除弱信号指标,再结合指标间相关性控制,实现指标池优质化。
- 图16展示复合指标构建示意,将独立信号叠加形成综合趋势评分,提高信号的稳定性和覆盖面。
整体工作体现了指标从原始多样数据到量化信号再到策略应用的严谨流程,模型与量化验证环环相扣[page::12,13,14]。
3.5 煤炭主题投资示例详解(图17-20)
- 图17表明煤炭主题Top20指标得分较高,胜率约60%-80%,盈亏比均大于2,覆盖价格指数、产量、库存等多层面,有效反映主题走势。
- 图18信号化结果对比了易煤北方港动力煤指数的价格走势和信号,表现出趋势信号对实际市场数据的良好匹配和放大。
- 图19绘制复合指标信号与煤炭ETF月度相对涨跌幅,信号在多个时间点具备明显先导买卖提示作用,显示策略具备超额收益捕捉能力。
- 图20表现基于复合信号的煤炭ETF择时策略累计超额收益达158.9%,月度胜率接近70%。
该案例具体揭示了指标体系和量化信号的实战价值,验证了方法有效性的重要证据[page::15,16,17]。
3.6 ETF主题择时策略汇总(表4与图21)
- 表4详细列示39个主题择时回测结果,平均年化超额收益11.04%,月度胜率63.01%。多数主题收益表现良好,尤其食品饮料(26.03%)、半导体(24.93%)、畜牧业(20.61%)超额收益显著。
- 个别主题如酒、医疗及人工智能出现负收益,但总体风险收益仍处于稳健水平。
- 图21基于综合信号打分的主题排名显示半导体、银行、有色金属等主题的基本面信号最为强劲,且对应规模较大的ETF产品,表明信号体系和资产配置相匹配。
该部分是报告量化成果的集中展现,体现出模型构建指标体系不仅能辅助行业理解,也在投资表现上得到验证[page::18]。
---
四、估值分析
报告重点不在传统公司估值,而是围绕ETF主题基本面信号的指标构建和择时策略。构建方法核心包括:
- 依托经济指标信号化(趋势信号转换与复合)方法,形成主题景气度评价体系;
- 基于指标的信号收益回测筛选具有超额表现潜力的主题指标;
- 换手策略基于月度信号判断买卖,实现主题ETF择时。
该逻辑以量化收益为目标,不涉及传统的DCF或多因子估值模型,而是以经济指标波动对基金表现的映射为核心估值参考。指标打分通过胜率及盈亏比进行量化,保证回测的策略合理性和风险控制。未提供敏感性分析细节,但通过相关性的限制等手段,系统抑制冗余指标风险[page::13,14]。
---
五、风险因素评估
报告明确指出四类风险因素:
- 底层数据产品可持续性不足:数据源可能存在更新频率下降或指标覆盖变动,影响体系连续性;
2. 底层数据准确性不及预期:错误、延迟披露等数据质量问题可能误导信号产生;
- 大模型计算准确度不足:GPT3.5或其他大模型在具体财经领域的推断错误也存在风险;
4. 科技领域与数据确权监管趋严:政策变化可能限制数据的使用范围和大模型工具的开发应用;
报告未详细说明具体缓解策略,但暗示采纳多维度回测及信号验证环节有助于减少即时误导风险,同时对数据依赖敏感,提醒投资者谨慎对待模型结果[page::0,18]。
---
六、批判性视角与细微差别
报告整体逻辑清晰,数据范围丰富,结合大模型与量化回测形成系统策略,但仍有数点可进一步审视:
- 指标信号化简化连续值为离散信号,潜在舍弃部分数值精度,可能影响对行情微妙波动的捕捉,需平衡信号灵敏度与噪声)。
- API调用及大模型稳定性:提示算力及时间成本,但并未公开具体失败率或错误率,实际应用场景稳定性尚需跟踪观察。
- 部分主题策略负收益提示模型或指标体系在特定细分领域仍有限制,需进一步扩充或调整指标仓库。
- 指标的相关性控制阈值0.5为经验值,不同主题的相关性结构可能需更灵活调整,避免非线性或隐含关系遗漏。
- 风险缓解措施描述较为笼统,实际运营时还需额外构建数据监控与模型反馈机制。
报告侧重方法与实证,投资建议较积极,适合对大模型赋能金融数据及ETF主题策略感兴趣的专业机构投资者参考[page::10,13,18]。
---
七、结论性综合
本报告系统展示了基于大模型GPT3.5技术结合量化信号分析,创新构建ETF细分主题经济指标体系与动态跟踪方法的完整路径。在面对海量数据质量不均与信息利用效率低的痛点时,通过设计Prompt工程实现大规模指标产品自动映射,辅以筛选信号化指标及回测评价,成功构建了可操作的ETF主题跟踪策略框架。
报告从宏观产业数据资产增长背景入手,强调行业&主题型ETF市场的快速扩容和板块快速轮动对高频主题跟踪的需求。通过实证显示,筛选后的指标聚合信号能有效捕捉主题基本面变化,具体策略年化超额收益11.04%,月度胜率63.01%,部分主题(如食品饮料、半导体)收益更为显著,提供投资者明确的择时和主题横向对比工具。
报告附以详实图表,例如:
- ETF行业主题规模与数量结构(图1、2)显示市场趋势;
- 数据来源及类型结构(图5-8)体现底层经济指标广度;
- 指标信号化流程图(图14、15)说明量化逻辑;
- 煤炭主题指标与复合信号效果(图17-20)提供典型验证;
- 主题择时策略表现及排名表(表4、图21)全面反映投资有效性。
风险警示聚焦数据准确性、大模型计算能力和监管环境,提示实际应用仍需谨慎。
总体来看,报告成功证明了大模型结合金融经济数据,能显著提升ETF细分主题投资策略的精度与效率,为行业&主题ETF投资者提供了具备一定先导性和实践操作价值的系统方法论和实证支持[page::0-21]。
---
参考文献与数据源
- 中信证券研究部发布,《大模型助力数据标注,赋能ETF主题跟踪》,2023年10月18日。
- 恒生聚源经济数据库,wIND数据库。
- OpenAI GPT相关官方资源与API文档。
- 各图表及数据来自中信证券研究部测算与公开统计。
---
此分析遵循报告内容和结构,秉持客观专业原则,力求详尽覆盖、精准解读,以助于深入理解大模型在ETF主题投资中的应用价值和局限。