AI量化领域结合了人工智能(AI)、机器学习(ML)以及量化金融的技术和方法。这一领域的目标是使用算法和计算模型来分析大量金融数据,从而做出投资决策或提高交易效率。
一些在AI量化领域重要技术和方法,以及在金融领域的应用:
更新时间:2024-05-20 06:58
1936 年 Fisher 提出线性判别分析(Linear Discriminant Analysis),是一种有监督的数据降维与分类算法。
1950 年左右,朴素贝叶斯分类器(NaiveBayes Classifier),基于最基本的贝叶斯理论,假设特征相互独立,根据贝叶斯公式利用先验信息去计算样本被分类到每一个类别的概率。
1958 年感知机(Perceptron),神经网络的前身,结合了当时对脑细胞的研究以及机器学习的成果,首次被提出并用于图像识别。
同年,逻辑回归(Logistic Regression),用广义线性模型去预测样本被分类到每个类别的概率。
1967 年 K 近
更新时间:2024-05-20 03:21
你是否曾经听到过人们谈论机器学习,而你却对其含义只有一个模糊的概念呢?你是否已经厌倦了在和同事对话时只能点头呢?现在,让我们一起来改变这个现状吧!
这篇指南是为那些对机器学习感兴趣,但又不知从哪里开始的人而写的。我猜有很多人曾经尝试着阅读机器学习的维基百科词条,但是读着读着倍感挫折,然后直接放弃,希望能有人给出一个更直观的解释。本文就是你们想要的东西。
本文的写作目标是让任何人都能看懂,这意味着文中有大量的概括。但是那又如何呢?只要能让读者对机器学习更感兴趣,这篇文章的任务也就完成了。
机器学习是一种概念:不需要写任何与问题有关的特定代码,泛型算法(Gene
更新时间:2024-05-20 03:18
本文内容对应旧版平台与旧版资源,其内容不再适合最新版平台,请查看新版平台的使用说明
新版量化开发IDE(AIStudio):
https://bigquant.com/wiki/doc/aistudio-aiide-NzAjgKapzW
新版模版策略:
https://bigquant.com/wiki/doc/demos-ecdRvuM1TU
新版数据平
更新时间:2024-05-15 06:20
https://bigquant.com/experimentshare/75aff243f241447da1d1994ed9d29c44
如何实现分类任务啊,怎么在原有策略上修改
更新时间:2023-10-09 07:05
在深度学习中,经常有“end-to-end(端到端)”学习的提法,与之相对应的传统机器学习是“Divide and Conquer(分而治之)”。这些都是什么意思呢?
“end-to-end”(端到端)说的是,输入的是原始数据(始端),然后输出的直接就是最终目标(末端),中间过程不可知,也难以知。比如说,基于深度学习的图像识别系统,输入端是图片的像素数据,而输出端直接就是或猫或狗的判定。这个端到端就是:像素判定。
再比如,“end-to-end”的自动驾驶系统,输入的是前置摄像头的视频信号(其实也就是像素),而输出的直接就是控制车辆行驶指令(
更新时间:2023-06-14 03:02
中国有句古话:
“知错能改,善莫大焉。”
说的就是,犯了错误而能改正,没有比这更好的事了。
放到机器学习领域,这句话显然属于“监督学习”的范畴。因为“知错”,就表明事先已有了事物的评判标准,如果你的行为不符合(或说偏离)这些标准,那么就要根据“偏离的程度”,来“改善”自己的行为。
下面,我们就根据这个思想来制订感知机的学习规则。
从前面的讨论中,我们已经知道,感知机学习属于“有监督学习”(即分类算法)。感知机有明确的结果导向性。
这有点类似于“不管白猫黑猫,抓住老鼠就是好猫”的说法,不管是什么样的学习规则,能达到良好的分类目的,就是好的学习规则。
更新时间:2023-06-14 03:02
用数据挖掘领域大家韩家炜教授的观点[1]来说,
所有的监督学习(Supervised Learning),基本上都是“分类(Classification)”的代名词。
它从有标签的训练数据中学习模型,然后给定某个新数据,利用模型预测它的标签。这里的标签,其实就是某个事物的分类。
比如,小时候父母告诉我们某个动物是猫、是狗或是猪,然后在我们的大脑里就会形成或猫或狗或猪的印象(相当于模型构建),然后面前来了一条“新”小狗,如果你能叫出来“这是一只小狗”,那么恭喜你,标签分类成功!但如果你回答说“这是一头小猪”。这时你的监护人就会纠正你的偏差,“乖,不
更新时间:2023-06-14 03:02
前面我们感性认知了机器学习的三大门派(监督学习、非监督学习、半监督学习)。在传统的机器学习分类中,并没有包含强化学习。但实际上,在连接主义学习中,还有一类人类学习常用、机器学习也常用的算法—强化学习(ReinforcementLearning,简称RL)。
机器学习的本质,在于改善机器的“智能”水平。那我们就要问问,什么是智能了。关于智能的定义很多,正所谓“仁者见仁,智者见智”。比如说,中国另一位先哲孟子则说:
“是非之心,智也”《孟子·告子上》。
孟子认为,能分辨是非得失,就是有智能的表现。
而这里的“是非”之别,在西方,可用莎士比亚的名句 “**to b
更新时间:2023-06-14 03:02
本文收录在无痛的机器学习第一季。
这一回聊一下神经网络的反向传导算法问题。反向传导算法是一个比较复杂的算法,但是如果把它拆解开,其实每一个小步骤并不复杂。
在此之前需要先介绍一个概念,那就是模型训练目标。神经网络是一个用在监督学习上的模型,所谓的监督学习就是我们要提前知道输入和输出。那么我们的模型训练目标自然是希望模型在接收输入后,可以得到和我们提前知道的一样的输出。
但是怎么描述这个“一样”呢?现实中会有很多具体的表述方法。这里我们介绍并采用一种相对简单的方式,那就是二次损失函数。对于模型的输出y
更新时间:2023-06-14 03:02
chentq关于XGBoost的slides,图文并茂,浅显易懂。
先从有监督学习,回归树等基本概念讲解,然后引入Gradient Boosting的具体内容。
![](data:image/svg+xml;utf8,<svg%20xm
更新时间:2023-06-14 03:02
所有的文章都会在我的博客和我的知乎专栏同步进行更新,欢迎阅读
在上一章我们说到,机器学习中主要的两个任务就是回归和分类。如果读者有高中数学基础,我们很容易回忆到我们高中学习过的一种回归方法——线性回归。我们将这种方法泛化,就可以得到机器学习中的一种常见模型——线性模型,线性模型是监督学习的一种。我们已经说过,我们要从数据集中训练出模型,每个数据可以视为*
更新时间:2023-06-14 03:02
在本讲中,我会给大家介绍隐马尔可夫模型(HMM)的基本原理。HMM是一种非常重要的机器学习算法,在自然语言处理和语音识别中有着极其广泛的应用。HMM涉及到的内容非常的多,本次讲解无法面面俱到,希望大家能抽出时间更加系统地学习这个模型。
一个进入HMM世界的简单例子是:在赌场内有一个赌徒玩得一手好骰子,战无不胜,赌场老板怀疑赌徒偷换了骰子(不均匀的),于是通过摄像头把每次骰子出现的点数都记录了下来,现在问题是通过这一串点数你能判断赌徒是否偷换了骰子吗?如果偷换了那么用了几个作弊的骰子?这几个作弊的骰子每个点数出现的概率是多大?(该例子来源于[小小鸟小小 - 博客频道 - CSDN.NET](h
更新时间:2023-06-14 03:02
on-policy策略迭代
像之前的动态规划,蒙特卡洛方法等,值函数本质上是一种表格,其索引是对应的状态,如果状态数很多,或者状态空间是一种连续的空间,显然基于表格的方法在实际使用中是有困难的。另一种方法是对值函数建模,用一种带参数的函数去逼近,利用样本学出对应的参数值,类似监督学习。其实之前的每种强化学习方法,每次迭代都代表着值函数要向backup值接近一步,即s -> g。这个backup值就可视为对应值函数的目标值,对应每个backup值s -> g就是一个训练样本。
每种方法下的backup值:
蒙特卡洛方法:
**
![](/community/uploads
更新时间:2023-06-14 03:02
回归问题的标签设置
\
更新时间:2023-06-01 02:13
深度学习介绍及应用案例
本篇报告将焦点放在深度学习上,介绍了深度学习的常用算法和在金融领域上可以运用的场景,并给出了两个具体的案例。
监督类方法介绍
监督的深度学习算法基于神经网络结构,这种系统一般由多个层堆叠组成特定神经网络,不同算法的差别来自层的组成结构及层与层之间的关系。深度神经网络在普通神经网络的基础上,增加隐含层的数量,学习输入与输出之间的非线性关系。循环神经网络随数据的输入生成动态模型,以捕捉之前的输出和当前输出的关系,并衍生出了如LSTM的结构,解决遗忘较长时间信息的问题。卷积神经网络主要通过卷积和池化的方式连接每层的输入和输出,达到降低数据维
更新时间:2022-08-31 01:53
机器学习系列报告
本系列报告试图系统全面性的介绍各种不同的机器学习方法,并且结合具体的在投资研究领域应用实例、交易策略及code示例,说明其应用情景和实现方法。机器学习的方法可以分为以下几类:监督学习、无监督学习、深度学习及其他机器学习方法(例如强化学习),对应到具体的模型上数量则更是繁多,目前大部分机器学习模型并未广泛的应用在投研领域,因此本系列主要偏重于在投研领域有应用潜力的模型及方法。此篇将以介绍监督学习方法为主
监督学习模型之回归类模型及其应用
与普通线性回归不同,监督学习中的惩罚回归模型和非参数回归,可以分别用于处理输入变量中存在大量线性相关性关系
更新时间:2022-08-31 01:52
人工智能系列之59:强化学习初探与DQN择时
本文介绍强化学习基础概念和经典算法,并构建股指日频择时策略。有别于传统监督学习对真实标签的拟合,强化学习不存在标准答案,而是针对长期目标的试错学习。其核心思想是个体通过与环境交互,从反馈的奖励信号中进行学习,数学上使用马尔可夫决策过程刻画。本文围绕基于价值的方法和基于策略的方法两个方向,依次介绍蒙特卡洛、时序差分、Sarsa、Q学习、DQN、策略梯度、REINFORCE、演员-评委算法。使用DQN构建上证指数择时策略,原始超参数样本外2017年至2022年6月年化超额收益率18.2%,夏普比率1.31,年均调仓42.0次,
更新时间:2022-08-02 02:59
更新时间:2022-04-21 06:21
股票预测是量化投资中最为关键的任务。近年来,深度神经网络因其强大的表征学习能力和非线性建模能力,逐渐成为股票预测的主流方法。现有的预测方法均假设股票数据符合独立同分布(IID)且采用单一模型有监督地对股票数据建模。但实际上,股票数据通常会包含多种不同甚至对立的分布(Non-IID),比如动量(历史收益率高的股票未来收益率会高)和反转(历史收益率低的股票未来收益率会高)这两种分布形式同时存在于股票数据中,但是已有的模型并不具备同时学习股票数据中多种分布的能力。
因此,微软亚洲研究院的研究员们提出了 Temporal Routing Adaptor (TRA),来赋予已有模型学习多
更新时间:2021-11-26 08:24
本报告对朴素贝叶斯模型及线性判别分析、二次判别分析进行系统测试
“生成模型”是机器学习中监督学习方法的一类。与“判别模型”学习决策函数和条件概率不同,生成模型主要学习的是联合概率分布𝑃(𝑋,𝑌)。本文中,我们从朴素贝叶斯算法入手,分析比较了几种常见的生成模型(包括线性判别分析和二次判别分析)应用于多因子选股的异同,希望对本领域的投资者产生有实用意义的参考价值。
朴素贝叶斯模型构建细节:月频滚动训练,结合基于时间序列的交叉验证
朴素贝叶斯模型的构建包括特征和标签提取、特征预处理、训练集合成和滚动训练等步骤。我们的模型设置为月频换仓,在每个月月底重新训练并
更新时间:2021-11-26 07:28
机器学习里面究竟有多少经典的算法呢?本文简要介绍一下机器学习中的常用算法。这部分介绍的重点是这些方法内涵的思想,数学与实践细节不会在这讨论。
在大部分机器学习课程中,回归算法都是介绍的第一个算法。原因有两个:一.回归算法比较简单,介绍它可以让人平滑地从统计学迁移到机器学习中。二.回归算法是后面若干强大算法的基石,如果不理解回归算法,无法学习那些强大的算法。回归算法有两个重要的子类:即 线性回归 和 逻辑回归 。
线性回归就是我们前面说过的房价求解问题。如何拟合出一条直线最佳匹配我所有的数据?一般使用“最小二乘法”来求解。“最小二乘法”的思想是
更新时间:2021-08-18 06:37
首先,强化学习和(无)监督学习并不是完全分开的概念,强化学习的很多方法中都用到了监督学习,比如DQN。
监督学习中要求数据集是独立同分布的,但由于金融数据集的特殊性,有时候并不能满足这一要求,这时候如果直接把监督学习应用到金融数据集上,就可能会导致很多问题。而强化学习并没有这样的要求假设。
监督学习模型相当于是输入输出之间的一个黑盒子,模型的可解释性较低,而强化学习在某一个状态下采取某种行为,获得某些奖励,根据奖励反馈来对行为进行比较选择的这种逻辑,与在金融市场上进行买卖操作的逻辑也是一致的。
以下是一些具体应用的方向,感兴趣的朋友可以在[BigQuant AI 30](https://
更新时间:2021-08-11 05:47
这个系列是我和InfoQ合作的《无痛的增强学习入门》系列,现转载到知乎专栏中。首发地址在:无痛的增强学习入门:基本概念篇,欢迎围观。
作为机器学习中十分重要的一支,增强学习在这些年取得了十分令人惊喜的成绩,这也使得越来越多的人加入到学习增强学习的队伍当中。增强学习的知识和内容与经典监督学习、非监督学习相比并不容易,而且可解释的小例子比较少,本系列将向各位读者简单
更新时间:2021-08-10 08:58