那些年,一起追 过的财经小编策略——基于互联网财经频道文本挖掘选股
创建于 更新于
摘要
本报告基于互联网大数据时代,利用文本挖掘技术对热门财经网站荐股栏目信息进行量化,构建财经小编事件选股量化策略。实证结果表明,财经小编荐股存在显著短期超额收益效应,持有期为2个交易日收益最为显著,多财经频道的动态组合策略能够进一步提升投资表现,尤其在不区分行业或区分申万一级行业的情形下表现优异,年化超额收益率最高达64.35%(新浪财经单策略)和43.66%(动态多策略),为基于非结构化文本数据的量化选股提供了实践范例[page::0][page::4][page::12][page::19][page::21][page::23]。
速读内容
互联网财经荐股文本数据挖掘选股框架 [page::4]

- 通过爬取10大热门财经网站荐股栏目信息,利用HTML DOM解析提取个股推荐文本,建立噪音信息库去除无效数据。
- 采用多线程分布式爬取方案,保证数据覆盖率和时效性。
- 从文本中提取荐股信息形成数据库,为量化策略构建和回测提供数据基础。
各大财经网站荐股信息统计与特征分析 [page::9][page::10][page::11]


- 同花顺、华讯财经机构荐股栏目等荐股数量最大,搜狐网金罗盘荐股最少且波动较小。
- 创业板推荐比例平均约15%,沪深300成分股推荐比例多超过20%,不同网站偏好不同板块。
- 在申万28个一级行业中,不同财经网站荐股分布存在差异,反映其选股偏好和行业关注点。
单个财经频道选股策略实证结果 [page::12][page::13][page::14]
表 5 各大热门财经网站荐股策略不同持有期收益率
| 网站 | 持有期2日年化超额收益率 |
|---------------------|----------------------|
| 凤凰网-黑马集中营 | 16% |
| 搜狐证券-个股风云 | 38.64% |
| 华讯财经-内参 | 33.11% |
| 华讯财经-个股点评 | 25.23% |
| 华讯财经-机构荐股 | 29.60% |
| 新浪财经-个股研究 | 64.35% |
| 搜狐网-金罗盘 | 22.32% |
| 同花顺-个股投资 | 75.32% |
| 南方财富网-个股推荐 | 22.06% |
| 中国证券网-热点研究个股 | 42.53% |
- 持有期为2个交易日的策略获得最佳表现,特别是同花顺和新浪财经表现突出。
- 该策略采用等权买入当天荐股,持有固定天数后卖出,考虑交易费用0.2%。
不同行业与板块分布下的荐股策略表现 [page::15][page::16][page::17]
- 考虑沪深300成分股选股策略表现次于总体策略,表现短期效应明显但收益率较低。
- 创业板股票荐股表现同样存在显著短期超额收益,新浪财经和华讯财经表现较优。
- 申万一级行业策略差异明显,一些行业如医药生物、传媒等表现较优。
- 推荐构建基于行业的多策略动态组合。
多财经频道动态智能选股策略 [page::19][page::20][page::21][page::22]

- 动态策略结合多网站表现,按过去若干交易日业绩筛选前50%网站,合并其荐股形成超配组合。
- 持有期2日的动态选股策略表现优异,年化超额收益率超43%,年均胜率约49%。
- 考虑申万一级行业动态组合策略,年化超额收益率仍达约15%,展现选股效果的稳健性。
- 年度最大回撤多集中于08年金融危机,整体风险可控。
风险提示与工具介绍 [page::24][page::23]
- 量化荐股策略基于历史数据,股价受多因素影响,需结合基本面及自身判断谨慎使用。
- 提供基于广发证券开发的财经频道智能选股系统,实现实时跟踪和策略回测。
深度阅读
那些年,一起追过的财经小编策略 — 基于互联网财经频道文本挖掘选股报告详尽分析
---
一、元数据与概览
- 报告标题:《那些年,一起追过的财经小编策略——基于互联网财经频道文本挖掘选股》
- 作者与机构:广发证券发展研究中心,分析师史庆盛
- 发布时间:报告页码显示为2014年
- 研究主题:围绕互联网大数据背景下,利用热门财经网站荐股栏目中的文本推荐,构建量化选股策略,分析财经新闻文本信息转化为数据并对投资策略表现的影响。
- 核心论点:报告主题聚焦在通过文本挖掘技术,将非结构化的财经荐股信息转化成结构化数据,构建量化投资策略,并实证验证该策略在中国市场中的表现,尤其反映了财经小编荐股信息对短期股价的显著影响,强调策略的短期持有期(尤其是2个交易日)的表现优势。
- 评级/结论:并未直接给出明确股票评级或目标价,但通过大量回测数据强调了该策略的显著超额收益和适用性,认可财经频道荐股信息在投资中的潜力和价值。
---
二、逐节深度解读
2.1 报告摘要与背景(页0,页4-7)
- 报告开篇提出互联网大数据和互联网金融的发展使非结构化数据成为影响投资决策的新资源,尤其是热门财经网站上的新闻和荐股栏目文本信息对个股行情有影响,然而缺少量化利用手段。
- 财经小编荐股栏目信息通过文本挖掘技术转化成“量化数据”,建立单财经频道策略和多个财经频道的动态组合策略。
- 大样本历史回测结果显示策略短期效应显著,2个交易日持有期表现最佳,如新浪财经荐股年化超额收益率达64.35%,多频道动态策略年化超额收益率43.66%(未区分行业),区分申万一级行业时仍有21.82%年化超额收益。[page::0],[page::4],[page::5]-[page::7]
理解:此处明确提出该策略核心亮点是利用大量互联网财经荐股栏目文本数据,经预处理和噪声过滤后,提取有效荐股信息,再基于不同投资组合构建,实现可实操且收益显著的量化选股策略。
2.2 互联网财经荐股体系介绍(页4-8)
- 策略框架包含数据获取(爬虫技术及网页解析)、数据预处理(格式规范、噪音过滤)、策略构建三大部分。
- 数据来源包括10大热门财经网站(例如新浪财经、搜狐、凤凰网、华讯财经等)荐股栏目,涵盖多种类型荐股信息。
- 采用多线程、分布式爬取架构确保效率,构建噪声库确保文本数据中荐股内容的准确提取。
- 典型数据爬取实例展示网页原代码分析(图6)、个股推荐信息的提取过程(图10),以及举例文本内容和噪声过滤方法。[page::4]-[page::8]
理解:报告不仅提出策略思路,更对大规模爬取财经荐股文本数据的技术架构和挑战进行了细致阐释,表达了对数据准确性和稳定性的重视。
2.3 热门财经网站荐股信息基本统计(页9-11)
- 各财经网站荐股数量差异显著,华讯财经“机构荐股”栏目推荐量最大,搜狐网“金罗盘”最少,波动幅度亦不同,反映不同渠道荐股风格和覆盖深度的差异(表3、图11)。
- 创业板个股荐股占比普遍约15%,南方财富网创业板荐股占比最高20%,沪深300成分股荐股比例均较高,搜狐“金罗盘”达到43%(表4、图12)。
- 各财经网站推荐的申万一级行业个股数量和偏好均不均匀,显示不同网站荐股侧重点差异(图13至图18)。[page::9]-[page::11]
理解:荐股信息在产业和指数布局上表现出明显的差异性,这为后续策略的组合优化提供依据。
2.4 单财经频道选股策略构建与实证(页12-17)
- 策略规则详述:交易日当天财经网站公布荐股信息,第二天以开盘价买入,持有2/5/10/30日,卖出时扣除千分之二手续费,等权配置。
- 表5数据显示大部分频道持有期2个交易日和5个交易日收益最高,典型如新浪财经持有期2日收益64.35%,同花顺最高75.32%。
- 细分沪深300、创业板及申万一级行业的持有期2天策略收益表现突出(沪深300中新浪财经44.59%,创业板策略如华讯财经70.32%、新浪金融76.10%),个股风云、凤凰网等频道表现也优异。
- 策略胜率普遍约45%-55%,最大月内回撤及年度回撤因网站和持有期略有差异,回撤控制在可接受范围。(图19-图25,表6-表12)
- 申万一级行业策略更细化,部分行业如医药生物、汽车、传媒在荐股表现及回测收益上显示显著超额收益(表13,图26-27,表14-15)。[page::12]-[page::17]
理解:实证充分证明,财经网站荐股信息在短期具有显著指导价值,持有期越短,收益越优异,尤其聚焦行业和板块有助于提升策略表现。
2.5 多财经频道智能选股策略(页18-22)
- 基于单频道表现动态择优构建超配组合,挑选前50%表现较好的网站荐股进行合并,仍采用2日开盘买入、持有、收盘卖出交易模式。
- 实证显示,动态策略年化超额收益显著提升,前5交易日择优组合持有2日收益为43.66%,前30交易日择优组合持有2日收益仍保持21.82%(表16-19,图28-29)。
- 行业区分下的多频道策略依然保持超额收益水平(图30-31,表20-23)。该动态合并策略在每年均有显著正收益,除了2008年金融危机时表现受抑制,最大回撤控制较好。
- 图1(页0)和表1、2展示了整体动态策略的资本曲线和年度回撤收益情况,支持以上结论。[page::18]-[page::22]
理解:动态多频道策略显著优于单频道,体现了"多方合力",降低单一渠道风险,实现收益稳定增长,强化短期效应。该动态组合策略更加接近实盘投资应用场景。
2.6 总结及工具介绍(页23)
- 总结明确指出财经小编荐股存在显著短期超额收益效应,多频道策略进一步提升整体收益率,持有期两日为最佳。
- 工具推荐介绍了广发证券开发的财经频道智能选股系统,支持用户根据时间、网站、行业选择策略及回测段,方便策略测试与实时跟踪。(图32)
- 风险提示强调该模型依赖量化算法,不构成实质利好保证,股价波动受多因素影响,投资者需结合自身判断。(页24)
理解:报告不仅从学术实证角度推出实用可行策略,还推出相应产品工具,展现了研究的商业实施价值。
---
三、图表深度解读
图1 动态多策略表现(页0)
- 展示多财经频道动态超配组合策略与上证指数的累积收益对比,策略曲线明显优于大盘,尤其表现为年化43.66%的超额收益。
- 反映策略具备超额收益和一定抗跌能力,且收益曲线稳定上升,说明量化策略的有效性。
表1 策略分年度表现(页0)
- 展示2009年至2014年各年最大回撤、月内最大回撤及超额累计收益率。
- 除2008年金融危机显著回撤,后续年份最大回撤控制较好,年化收益稳定,最高78.36%。
- 表现了策略相对稳健,能够在市场波动中实现正收益。
表2 策略整体表现(页0)
- 胜率46.57%,超额累计收益达到397.37%,年化超额收益率15.38%。
- 这一绩效在现实市场具有较强吸引力和指导价值。
图2 策略框架图(页4)
- 描绘了数据采集(财经网站荐股信息爬取)、数据预处理(文本抽取及转换)、策略构建(单网站及多网站动态策略)流程,反映系统工程整体结构。
图3 数据抓取平台框架(页5)
- 展现大规模爬取系统设计,包含网页规则识别、反监控管理、异常处理机制及监控系统,保证数据抓取效率与数据质量。
图4-6 网页爬取实例及源代码(页6-7)
- 展示通过爬虫技术解析网页结构,准确采集荐股文本数据,保证了数据的完整性和准确性。
图7-10 推荐文本处理(页7-8)
- 具象化荐股文本如何存储,并阐释通过噪音信息库过滤干扰,提取纯净荐股股权信息的方法。
图11-12 各网站荐股均值与创业板/沪深300覆盖率(页9-10)
- 量化展示每日荐股数量差异及特定板块集中程度,揭示不同财经网站的荐股风格和重点差异。
图13-18 申万一级行业荐股分布(页11)
- 各网站荐股在28个申万行业的分布差异,支撑行业策略构建基础。
图19-25 单财经频道策略表现示例(页13-16)
- 以搜狐证券、华讯财经、南方财富等为例,展示不同持有期策略资本曲线及关键指标(胜率、回撤、超额收益),直观表现策略有效性。
图26-27 行业策略表现(页17-18)
- 凤凰网与新浪网申万一级行业具体策略收益曲线,对比行业配置的超额收益,支持行业差异化策略设计。
图28-31 多频道动态组合策略表现(页19-22)
- 以5日和30日历史表现择优网站构建的超配组合资本曲线,展现动态组合策略明显领先市场和单一策略的优势。
图32 智能选股系统界面(页23)
- 展示选股系统界面截图,功能齐全,支持多维度策略回测与实盘跟踪,说明研究成果的技术转化。
---
四、估值分析
- 本报告并无直接涉及传统公司估值方法,如DCF、PE等,侧重于策略表现与量化回测。
- 估值体现为策略年化超额收益及风险调整后表现,重点集中在通过不同策略参数(持有期、多频道组合、行业区分)对策略收益与回撤的调整。
- 作者通过动态网站择优机制和不同行业筛选优化权重,达到收益最大化与风险控制平衡。
---
五、风险因素评估
- 报告末尾明确风险提示:该模型完全基于量化方法推荐股票,不能保证被推荐个股必然利好;股价表现受多重因素影响。
- 投资者应结合股票基本面及自身判断,避免盲目依赖。
- 策略潜在风险包括爬取数据准确性、文本噪声比例变化、市场环境变化对策略稳定性的影响。
- 2008年全球金融危机期间回撤率高,表明策略对系统性风险存在脆弱性。
- 报告对风险没有具体缓解机制,更多提示谨慎使用。
---
六、批判性视角与细微差别
- 报告主要呈现积极结果,结论较为乐观,部分可能受历史样本期限的不均衡影响(不同网站样本长度不一)。
- 策略短期持有期表现突出,但长期持有期收益下降,提示策略适用于短线交易,实盘交易频繁可能面临较高交易成本。
- 报告对交易成本仅简单设定千分之二,未详细考虑滑点、资金限制以及市况恶化时流动性风险。
- 文本挖掘的准确性依赖于噪音库构建和爬虫稳定性,无法完全规避信息缺失或偏差,对模型适用性构成隐含限制。
- 没有提及策略的最大资金规模限制及交易可行性,实操时可能面临资金规模放大带来的收益衰减。
- 多频道动态策略虽然表现优异,但没有详细分析选股组合中成分股重叠度及潜在相关性,可能存在选股集中风险。
- 报告假设市场足够效率以支持短期超额收益,未讨论可能的市场结构变化带来的冲击。
---
七、结论性综合
本报告以互联网大数据时代财经网站荐股栏目文本为基础,创新性地通过文本挖掘技术,将非结构化荐股信息量化转化,构建包括单频道和多频道动态组合的量化选股策略。详尽的历史回测覆盖沪深股市主流板块及申万行业指数,验证文本荐股信息在短期内对个股价格具有显著正向影响,短期持有期(2个交易日)策略表现最佳。
多频道动态策略显著优于单一网站策略,年化超额超40%的收益,以及合理控制的最大回撤(除2008年危机期外),体现了财经小编荐股信息的持续投资价值。同时,行业层面策略提供了更加细致的投资选择视角,使得策略更加适配不同市场环境。
图表数据显示:
- 表1和表2的年度收益与回撤情况支持策略整体稳健有效;
- 图11、表3揭示大量网站荐股分布和力度的宽广性差异,为动态组合构建提供基础;
- 页13至16诸图表佐证短期持有收益显著,沪深300与创业板、行业板块兼顾;
- 动态策略图28-31以及相关表格体现了多维择优的策略优势。
报告后期产品化实现的财经频道智能选股系统,标志着研究向实用落地的进阶。
需注意的是,策略基于量化分析,不保证荐股必然利好,市场风险依然存在,投资者需审慎使用并结合自己的判断。模型假设及技术实施层面可能存在一定局限。
总体而言,本报告提供了一种有效挖掘互联网财经文本信息的量化方法,开拓了行为金融和文本分析结合的选股新路径,对投资实务具有较高的参考价值。
---
参考溯源
报告内容主要参考广发证券发展研究中心刊发的《那些年,一起追过的财经小编策略——基于互联网财经频道文本挖掘选股》全文[page::0]-[page::25],以上所有图表均由报告页中对应内容直接提取并结合上下文逻辑详加解读。