过拟合

在金融领域，"过拟合"是一个重要概念，尤其在使用复杂模型和算法进行数据分析和预测时。过拟合主要指的是模型在训练数据上表现过于优越，以至于把训练数据中的噪声或特殊情况也考虑进去，从而使得模型在新的、未见过的数据上表现不佳。更具体地说，当一个模型过度拟合训练数据时，它会将自身调整得过于复杂，以适应训练数据中的每一个细节。这导致模型对训练数据的预测非常准确，但对新数据的预测能力大大降低。在金融市场的应用中，这可能意味着模型在历史数据上表现良好，但在实际交易中却无法实现预期的回报。过拟合的原因有很多，例如训练数据量不足、模型复杂度过高、训练时间过长等。为了防止过拟合，金融从业人员通常会采用一系列策略，如交叉验证、使用正则化方法、提前停止训练、增加训练数据量、降低模型复杂度等。这些方法的目标都是使模型能够在不见过的数据上保持稳健的预测性能，从而在实际金融决策中提供可靠的依据。

【平台使用】回测正常，模拟交易始终不出信号是什么原因

https://bigquant.com/wiki/doc/shizhi-celve-v-10-Jhc4IN7nXK

直接克隆的知识库-平台使用文档中的样例策略（https://bigquant.com/wiki/doc/shizhi-celve-v-10-Jhc4IN7nXK），回测完全正常。但是模拟交易时，始终不出交易信号。不知道模拟交易时运行各个模块的原理和回测的原理有什么不同？

注：并不是因为22天才调仓的原因，第一天运行都不出信号。感觉在模拟交易时回测模块之前连接的模块运行结果不对，输入给回测模块的数据有误。只是个人猜测。不知道真实原因，请高手指点，谢谢！

模拟交易

更新时间：2025-02-15 12:37

Machine Learning is Fun! — 全世界最简单的机器学习入门指南

你是否曾经听到过人们谈论机器学习，而你却对其含义只有一个模糊的概念呢？你是否已经厌倦了在和同事对话时只能点头呢？现在，让我们一起来改变这个现状吧！

这篇指南是为那些对机器学习感兴趣，但又不知从哪里开始的人而写的。我猜有很多人曾经尝试着阅读机器学习的维基百科词条，但是读着读着倍感挫折，然后直接放弃，希望能有人给出一个更直观的解释。本文就是你们想要的东西。

本文的写作目标是让任何人都能看懂，这意味着文中有大量的概括。但是那又如何呢？只要能让读者对机器学习更感兴趣，这篇文章的任务也就完成了。

什么是机器学习？

机器学习是一种概念：不需要写任何与问题有关的特定代码，泛型算法（Gene

更新时间：2024-12-04 08:53

Word2Vec 学习心得

好嘛博主食言了。不过本文没什么干货，主要是前后看了大概一个星期，反复去读源码和解读文章，终于感觉这东西不那么云山雾罩了。同时也发现网上很多材料有点扯淡，99% 的博文不过是把别人的东西用自己的话说一下，人云亦云。好多人自己理解错了而不自知，实在是误人误己。

我也不敢说理解得有多深，下面的内容甚至可能有自相矛盾的地方，所以阅读本文时请一定擦亮眼睛，认真思考。

源码才是根本，作者那两篇论文感觉参考价值也不高。说到底，Machine Learning/Deep Learning 的价值在于实践，而实际开发的应用中经过大量的 tricks 之后，代码跟论文推导、实验可能相去甚远。

Data Mi

更新时间：2024-06-12 06:06

Word2Vec介绍: 为什么使用负采样（negtive sample）？

1. 随机梯度下降法有什么问题？

通过对代价函数求权重的梯度，我们可以一次性对所有的参数 $theta$ 进行优化，但是如果每次等全部计算完成再优化升级，我们将等待很长时间（对于很大的语料库来说）。

所以我们采用随机梯度下降（ Stochastic Gradient Descent），也就是说每次完成一次计算就进行升级。

但是，还有两个问题导致目前的模型效率低下！

第一个问题，我们每次只对窗口

更新时间：2024-06-12 06:06

更新

本文内容对应旧版平台与旧版资源，其内容不再适合最新版平台，请查看新版平台的使用说明

新版量化开发IDE（AIStudio）：

https://bigquant.com/wiki/doc/aistudio-aiide-NzAjgKapzW

新版模版策略：

https://bigquant.com/wiki/doc/demos-ecdRvuM1TU

新版数据平

更新时间：2024-06-12 06:00

旧版声明

本文为旧版实现，仅供学习参考。

https://bigquant.com/wiki/doc/demos-ecdRvuM1TU

导语

《Machine Learning for Stock Price Forecasting》是Ali El-Shayeb撰写的机器学习系列文章，本文主要介绍其第二部分内容——《监督式机器学习算法的应用》，并将其思想和代码应用在中国股票市场，开发出具有择时功能的监督式机器学习算法，最后进行策略回测。对此感兴趣的小伙伴可以直接在

更新时间：2024-06-12 05:57

导语

本文为Mehmet Süzen撰写文章的译文，稍有删改。文章清晰地阐释和区分过度拟合及过度拟合等概念，对于本领域学习者正确理解专业术语多有帮助。正如作者在原文末所指出的：对待简单的概念，我们也应抱着积极求学的态度，了解其成立的基础。

前言

大多数从业者对”过拟合“这一概念存在误解。在数据科学界，始终存在一种类似于民间说法的观点：“利用交叉验证可以防止过拟合。在样本外对模型进行验证，如果不存在泛化误差，则模型不存在过拟合”

这个说法显然是不对的：交叉验证并不能阻止模型过拟合。样本外的良好预测性能并不能保证模型不存在过拟合。在这个说法中，前部分说的概念其实是“过度训练”。

更新时间：2024-06-12 05:53

关于线性回归、岭回归和Lasso回归的综合入门指南

https://bigquant.com/experimentshare/c451f287332a411cb4c7756c457318f6

更新时间：2024-06-12 05:48

AI量化策略，我该如何理解你？

人工智能（AI）技术得到了飞速发展，其在各个领域的运用也不断取得成果。机器学习被评为人工智能中最能体现人类智慧的技术，因此开发AI量化策略可以理解为将机器学习应用在量化投资领域。

理解机器学习算法

机器学习算法太多，本文讨论只针对适用于金融数据预测的常用有监督型机器学习（Supervised Machine Learning）算法：StockRanker。假设我们要去预测某个连续变量$ Y$未来的取值,并找到了影响变量$ Y$取值的$K$ 个变量，这些变量也称为特征变量（Feature Variable）。机器学习即是要找到一个拟合函数$f(X_1,X_2,\ldots,X_K|

更新时间：2024-06-11 03:20

AI量化交易常识

分享一些量化交易相关的常识信息。

五因子模型公式及应用

五因子模型是哪五个因子

**[多因子选股模型及优缺点](https://bigquant.com/wiki/doc/5asa5zug5a2q6ycj6ikh5qih5z6l5zcn6kn6ke

更新时间：2024-06-07 10:48

策略案例

https://bigquant.com/experimentshare/a5ed3eddf32f4e4dad4811a1acc257f0

更新时间：2024-05-24 10:28

导语

特征选择在许多方面都是适用的:它是对抗维度灾难的最佳武器；它可以减少整体训练时间；它也可以有效防止过拟合现象，提高模型的泛化能力。

如果要对动物进行分类，你可以很快的发现许多相关的属性或特征对模型毫无益处。例如，绝大多数动物都恰好拥有1颗心脏，从机器学习的角度来看， 心脏个数这一特征就毫无用处。另一方面，一个动物是否有翅膀则可能是一个很好的预测因子。

此外，好的预测因子和无关的特征夹杂在一起会对结果模型结果产生负面影响。更不用说这些无关的数据还会增加训练耗时，或者产生过拟合现象了·。

特征选择

**特征选择是一种缩小在预测建模过程中使用的特征或属性范围的过程

更新时间：2024-05-22 10:25

【历史文档】大家帮我看看是咋回事，回测数据交易有问题

本帖内容对应旧版平台与旧版资源，其内容不再适合最新版平台

https://bigquant.com/experimentshare/fd3f21c915964e5b8800b41fe1314ec9

更新时间：2024-05-20 08:29

更新

本文内容对应旧版平台与旧版资源，其内容不再适合最新版平台，请查看新版平台的使用说明

新版量化开发IDE（AIStudio）：

https://bigquant.com/wiki/doc/aistudio-aiide-NzAjgKapzW

新版模版策略：

https://bigquant.com/wiki/doc/demos-ecdRvuM1TU

新版数据平

更新时间：2024-05-20 07:17

旧版声明

本文为旧版实现，仅供学习参考。

https://bigquant.com/wiki/doc/demos-ecdRvuM1TU

策略案例

[https://bigquant.com/experimentshare/42bf93884b1246ad83c2874f06765732](https://bigquant.com/experimentshare/42bf93884b12

更新时间：2024-05-20 06:39

旧版声明

本文为旧版实现，仅供学习参考。

https://bigquant.com/wiki/doc/demos-ecdRvuM1TU

[https://bigquant.com/experimentshare/e1779fa4ec184a1fb209ebff7c588b8d](https://bigquant.com/experimentshare/e1779fa4ec184a1fb209ebff7

更新时间：2024-05-20 06:33

旧版声明

本文为旧版实现，仅供学习参考。

https://bigquant.com/wiki/doc/demos-ecdRvuM1TU

预计算因子表[数据平台] https://bigquant.com/data/datasources/cn_stock_prefactors

https://bigquant.com/wiki/doc/dai-PLSbc1SbZX

[ht

更新时间：2024-05-20 06:21

背景

机器学习的研究领域包括有监督学习（Supervised Learning），无监督学习（Unsupervised Learning），半监督学习（Semi-supervised Learning）和强化学习（Reinforcement Learning）等诸多内容。针对有监督学习和半监督学习，都需要一定数量的标注数据，也就是说在训练模型的时候，全部或者部分数据需要带上相应的标签才能进行模型的训练。但是在实际的业务场景或者生产环境中，工作人员获得样本的成本其实是不低的，甚至在某些时候是相对较高的，那么如何通过较少成本来获得较大价值的标注数据，进一步地提升

更新时间：2024-05-20 06:19