数据挖掘

从金融视角来看，数据挖掘是一项强大的技术，它通过先进的算法对海量数据进行深度探索和分析，以揭示隐藏的模式、趋势和关联。在金融领域，数据挖掘的应用广泛且关键。它可以帮助金融机构更准确地评估风险、发现市场机会、优化投资策略，以及提升客户服务。例如，通过分析历史交易数据，可以预测股票市场的动态；通过挖掘消费者行为数据，可以个性化金融产品和服务。数据挖掘不仅能够提升金融决策的效率和准确性，还在金融科技的驱动下，不断推动金融行业的创新和发展。

问题

https://bigquant.com/experimentshare/98c1a63396fa4a7e9b2bc1e552b124ae

更新时间：2022-12-20 14:20

报告摘要

主要观点

本篇是“学海拾珠”系列第二十三篇。作者在本文中证明，指标对因子收益的预测能力是视预测时长而定的，同时受指标与因子收益的时变关系以及数据挖掘的影响。尽管有这些挑战，但只要投资者能切实地意识到因子择时的局限性，因子择时仍有可能成为非常好的工具。

因子表现随时间变化很大

产生因子溢价的主要来源包括风险暴露的补偿、由于市场参与者的不理性而产生的回报以及市场摩擦的影响。这三个因素中的每一个因素，都会随时间变化而波动。

五类信号可以预测因子的回报

因子的回报可以通过金融环境、经济环境、情绪、价差和动量这五类信号来

更新时间：2022-10-20 05:56

机器学习应用于量化领域，还有哪些问题和挑战？

当前，越来越多的金融机构开始使用机器学习方法，以期在市场竞争中赢得优势。而量化投资机构也逐步抛弃传统的分析方法，转而使用机器学习算法预测市场走势和选择投资组合。

而机器学习的优势在于，能够提供非线性关系的模糊处理，弥补了人脑思维模式，同时利用相关算法，可以大幅提高数据挖掘、处理效率。则借用机器学习，量化投资策略会变得更加丰富。

与此同时，在量化领域应用机器学习算法，仍然存在一些问题和挑战。那么，你在实践过程中，都碰到哪些问题呢？

更新时间：2022-10-14 09:36

主流股票量化投资策略

目前国内最大的量化私募大佬明汯投资裘慧明-聊一聊主流股票量化投资策略有哪些？

https://www.bilibili.com/video/BV17D4y1U7MB

明汯裘慧明采访

明汯投资，国内第一家管理规模达到千亿的量化私募。上海明汯投资管理公司于2014年成立于上海市虹口区对冲基金产业园，公司专注于量化投资领域，借助强大的数据挖掘、统计建模和计算能力，构建了覆盖全市场、多品种的量化资产管理平台，在国内外金融市场均取得了稳健的业绩记录。2015年，明汯投

更新时间：2022-10-10 17:43

金融科技（Fintech）和数据挖掘研究（一）：数据挖掘技术框架简介-海通证券-20190221

摘要

数据挖掘对于投资决策的支持作用越发明显。随着国内资本市场的发展，证券市场中的可交易标的类型和数量都飞速增长，与市场有关的数据也快速增加。同时，随着市场监管越来越严，机构投资者的比重不断上升，市场有效性也逐步提升。如何快速准确地处理海量数据，并从中得到有价值的信息，是在这样的环境中继续获取超额收益的重要方法。

数据挖掘涵盖从数据采集到分析结果评价共7个步骤。

即，数据采集、数据清洗、数据特征提取、数据结构化、数据存储、数据分析、分析结果评价。

每一个步骤都需要大量的技术进行支撑，由此构成了完整的数据挖掘技术框架。

网络爬虫数据的使用需要审慎。

更新时间：2022-09-01 13:20

机器学习与CTA，数据挖掘与人类对世界的认识-安信证券-20180701

摘要

机器学习与CTA：数据挖掘与人类对世界的认识

这是机器学习与CTA周报的第九篇，机器学习中证500神经网络策略上周（6.25-6.29）收益0.87%，机器学习商品期货策略收益2.72%，7.2-7.6大概率看多的商品是铁矿石；大概率看空的商品是白糖，焦炭，玉米，焦煤。机器学习与基本面结合商品策略收益-1.13%，下周看多铅，看空锡。

风险提示：根据历史信息及数据构建的模型在市场急剧变化时可能失效。

正文

[/wiki/static/upload/dc/dc506e90-d4ee-4955-9482-75f52dba743e.pdf](/wiki/static/up

更新时间：2022-09-01 13:15

摘要

策略回测效果如何评估？ 量化实践中的过拟合问题一直饱受诟病，我们尝试梳理学术前沿对该领域的思考。在最新的学术文献中，不少学者已经开始反思学术界各类α因子是否只是数据挖掘的产物，一些文章开始提出一个更加严格规范的α因子挖掘框架。我们选取了一篇颇具代表性的论文，借鉴其中关于克服回测过拟合问题的一些技术方法。日常量化实践中研究人员会进行大量实验并选取其中最好的一种进行效果展示，这个过程会带来较大的过拟合问题，本文提出了一种考虑测试次数的策略效果评价调整方法。

正文

[/wiki/static/upload/d8/d83e2de1-71dc-4f14-afc3-a040f4

更新时间：2022-07-27 10:13

文档整合

AI量化策略快速理解

https://bigquant.com/wiki/doc/celve-Uu3N6WbJNJ

更新时间：2022-04-11 11:00

因子择时的前景与挑战-“学海拾珠”系列之二十三

报告摘要

主要观点

因子表现随时间变化很大

五类信号可以预测因子的回报

因子的回报可以通过金融环境、经济环境、情绪、价差和动量这五类信号来

更新时间：2021-12-16 06:32

因子过滤

https://bigquant.com/experimentshare/b6bb3c84df0c4da5bb0b495bc52feb06

更新时间：2021-12-14 13:18

基于小波分析和支持向量机的指数预测模型-国信证券-20100621

摘要

支持向量机（support vector machine,SVM）是数据挖掘中的一项新技术，是借助于最优化方法解决机器学习问题的新工具。它成为克服“维数灾难”和“过学习”等传统困难的有效办法，虽然他还处在飞速发展的阶段，但它的理论基础和实现途径的基本框架已经形成。支持向量机目前主要用来解决分类问题（模式识别，判别分析）和回归问题。而股市行为预测通常为预测股市数据的走势和预测股市数据的未来数值。而当我们将走势看作两种状态（涨、跌），问题便转化为分类问题，而预测股市未来的价格是指为典型的回归问题。我们有理由相信支持向量机可以对股市进行预测。

本报告将从实际应用角度出发，用沪深300

更新时间：2021-11-26 08:52

金融科技（Fintech）和数据挖掘研究（七）：基于机器学习和知识图谱的行业轮动-海通证券-20200721

摘要

研究背景

我们在之前的行业轮动系列报告中挖掘了几大类的行业因子，例如，量价、宏观、情绪面、高频因子、预期基本面、历史基本面、公募基金观点等。这些因子通常可以分为两类：行业本身的特征以及基于共同外生变量变动的行业预期收益，但这两类因子都没有考虑行业之间的关联性。因此，在本篇报告中，我们从另一个角度研究行业收益的可预测性：相关行业的滞后收益率。

理论基础

投资者处理信息的能力有限，当某个行业出现信息或冲击时，专门从事相关行业的投资者可能也无法迅速把握冲击的全部影响。因此，信息会逐渐在各个行业间扩散，导致不同行业的股票价格先后响应。这一现象构成了某些行业滞后收益率

更新时间：2021-11-26 07:44

金融科技（Fintech）和数据挖掘研究（七）：创业板50的产业链特征和优势-海通证券-20200306

摘要

创业板50近期的强势表现离不开它的科技属性，但过往的分析通常只关注成分股本身的特征，如行业分布，等等。而科技是一个全球化分工的行业，每家公司可能只是整个生产链条中的一个环节。近期投资者颇为关注的新能源汽车和5G等主题，均属于这种类型。因此，分析创业板50在整个产业链，尤其是科技产业链中的特征和优势，有助于更好地理解和发现创业板50的投资价值。

创业板50指数的成分股具有科技行业集中度高、科技公司的属性纯正以及与前沿科技密切相关三大特征。

创业板50中权重最高的FactSet一级行业是科技，其次是同样和创新息息相关的医疗健康。
创业板50中科技行业的营收占比

更新时间：2021-11-26 02:41

金融科技（Fintech）和数据挖掘研究（六）：利用数据挖掘构建热点主题组合-海通证券-20191205

摘要

近年来，对于主题型投资机会的研究逐渐成为市场的热点。一方面，随着被动化投资的兴起，各类主题指数基金受到越来越多投资者的关注。另一方面，同一主题下股票收益的共性及领先-滞后关系的研究，也是当前量化选股模型的一个重要补充。因此，本文借用FactSet的供应链与深度行业分类数据，提出一种自动化程度可调节的主题组合构建框架，以满足各类型投资者的不同需求。

主题组合构建步骤

找到与主题相关的若干龙头公司；
获取龙头公司的共同业务；
获取龙头公司的共同供应商及其共同业务；
将龙头公司业务交集与共同供应商业务交集合并为一个集合，遍历所有上市公司，获取至少从事

更新时间：2021-11-25 09:52

金融科技（Fintech）和数据挖掘研究（四）：FactSet供应链数据的介绍和应用-海通证券-20190714

摘要

FactSet深度行业分类（RevereBusinessIndustrialClassification System，RBICS）数据。一套精确的结构化公司分类体系。利用FactSet独有的Revere Hierarchy行业分类，构建有固定层次的6级结构。

作为一类自下而上的分类方法，该体系利用每个公司的产品与服务信息，对它们进行精确、细粒度的行业划分。这种分类方式正在为越来越多的投资者接受与认可，被广泛应用于各种细分行业或特定主题的指数编制以及投资组合的构建中。

FactSet供应链（Supply Chain Relationships）数据。供应链研究是当前证

更新时间：2021-11-25 09:51

金融科技（Fintech）和数据挖掘研究（三）：量化因子的批量生产与集中管理-海通证券-20190617

摘要

量化因子计算可以定义为一种基于初等计算函数与一阶谓词逻辑的递归过程。

量化因子的本质是股票的某种数量化特征，一般需要通过对股票某些数量信息进行计算得到。与计算机函数从“函数输入出发，输入函数计算，得到函数输出”相类似，量化计算过程也可以拆解为“从量化指标出发，输入量化计算，得到新量化指标”。由此可见，计算机函数构成的基本逻辑——递归过程也同样适用于因子计算架构。

**定义量化指标的计算过程有计算机语言与XML文本两种方式。**由于λ算子与图灵机、递归函数等价，因此无论是基于λ算子的函数式编程语言，还是基于图灵机的过程、命令范式语言，都可以用来构建量化计算过程。在定义逻

更新时间：2021-11-25 09:51

金融科技（Fintech）和数据挖掘研究（二）：知识图谱的构建与应用-海通证券-20190423

摘要

知识图谱的介绍。知识图谱的概念最早于2012年由谷歌提出，是一种直观显示各个实体关联信息的有效数据结构，旨在描述真实世界中存在的各种实体或概念及其关系。它脱胎于“语义网络”，随着网络和计算机技术的发展而逐渐演变。目前，知识图谱一词已经成为知识应用领域的一个通用词汇，不仅仅局限于谷歌搜索引擎的知识库及服务功能，而成为了人工智能领域炙手可热的概念。

知识图谱的构建与应用技术

构建知识图谱的本质是一个从数据采集，数据建模到数据存储的过程。

通过结构化数据库、爬虫等方式获取知识图谱原始数据；
对数据进行预处理。其中，文本数据往往需要借助自然语言处理技术；
提取数据

更新时间：2021-11-25 09:51

数据可视化

更新时间：2021-11-20 03:28

高频数据因子研究系列

报告摘要

传统多因子选股

在国内A股市场，传统的多因子量化选股模型得到了广泛的应用，在实际表现中，传统的多因子模型在过去几年中也表现出较为稳定的超额收益率。但随着传统多因子模型应用越来越广泛，历史长期有效的因子逐渐失效，对新因子的挖掘提出了迫切的需求。
新因子挖掘

传统的因子指标挖掘主要集中于财务报表、个股中低频率的价量等相关的数据维度，而这部分数据维度的增量价值的挖掘已逐渐饱和，需从其他新的数据维度中挖掘新的因子指标，本篇报告从个股日内高频数据出发尝试挖掘出新的因子指标。
基于高频数据因子的策略构建

基于个股高频数据，构建了动量因子

更新时间：2021-08-10 01:51

分页第1页第2页