正态分布

正态分布，又名高斯分布，是一个非常重要且普遍存在于自然界、社会科学、工程学等领域的概率分布。其形状呈钟型，具有对称性，且大部分数据集中在均值附近，而离均值越远的数据出现的概率越小。核心点：形状：钟型曲线，中间高、两边低，对称于均值（或称为期望值、中心值）。参数：主要由两个参数决定——均值（μ）和标准差（σ）。均值决定了分布的中心位置，而标准差决定了分布的宽度或分散程度。概率密度函数：描述了随机变量取某个值的概率。对于正态分布，其概率密度函数是关于均值对称的，并且在均值处达到最大值。累积分布函数：描述了随机变量小于或等于某个值的概率。 3σ原则：在正态分布中，大约68.27%的数据位于均值的一个标准差范围内，95.45%的数据位于均值的两个标准差范围内，而99.73%的数据位于均值的三个标准差范围内。适用场景：自然现象：许多自然现象，如人类的身高、体重、智商等，都近似服从正态分布。社会科学：在社会科学领域，如考试成绩、收入分布等，也常常可以观察到正态分布的影子。工程学：在工程设计和质量控制中，正态分布被广泛应用于描述各种随机误差和测量不确定性。金融：在金融领域，如股票价格的日收益率、投资组合的风险评估等，也常常使用正态分布进行建模和分析。统计学基础：正态分布是统计学中的基础分布之一，许多统计测试和方法都是基于正态分布或近似正态分布的假设进行的。总之，正态分布是描述许多自然现象和社会现象的重要工具，也是许多统计学方法和模型的基础。在实际应用中，了解和掌握正态分布的性质和特点，对于数据分析、决策制定和科学研究都具有重要意义。

问题

在机器学习中策略中，数据正态分布或方形分布对训练的准确性产生重要影响吗？如果有，有什么方法处理呢？

视频

https://www.bilibili.com/video/BV1jT4y1R7wc?share_source=copy_web

更新时间：2025-12-30 06:37

【其他】两种机器学习回归算法在金融的应用

#逻辑回归

这也称为 logit 回归。逻辑回归是一种基于过去数据预测事件二元结果的分析方法。

当因变量是定性的并且取二进制值时，它被称为二分变量。

如果我们使用线性回归来预测这样的变量，它将产生 0 到 1 范围之外的值。此外，由于二分变量只能取两个值，残差不会围绕预测线呈正态分布。

Logistic 回归是一种非线性模型，它产生一条逻辑曲线，其中值限制为 0 和 1。

将此概率与阈值 0.5 进行比较，以决定将数据最终分类为一个类别。因此，如果一个类的概率大于 0.5，则将其标记为 1，否则标记为 0。

金融中逻辑回归的用例之一是它可以用来预测股票的表现。

#分位数回归

更新时间：2025-02-16 03:24

更新

本文内容对应旧版平台与旧版资源，其内容不再适合最新版平台，请查看新版平台的使用说明

新版量化开发IDE（AIStudio）：

https://bigquant.com/wiki/doc/aistudio-aiide-NzAjgKapzW

新版模版策略：

https://bigquant.com/wiki/doc/demos-ecdRvuM1TU

新版数据平

更新时间：2024-06-12 03:09

资产配置之步步为营，尾部风险控制与优化国泰君安_20180313

摘要

均值方差理论框架的三大假设与真实的投资环境有很大偏差：资产回报为正态分布的假设，忽略了真实分布的尖峰厚尾与非对称性；波动率作为风险度量的假设，忽略了上行与下行风险的不对称性；组合优化目标为单位风险回报最大化的假设，忽略了具体回报目标，而回报目标决定了组合为此需要承担的最小风险，达不到目标也是一种风险。

本报告的目的即修正这三大假设，我们认为投资者真正关心的风险是：本金安全风险和投资目标不达风险，由此提出了一种全新的风险度量方式。同时通过核密度估计和多元正态分布变换我们拟合了资产真实分布的偏态、峰态和相关性，由此产生的随机数能帮助我们采用蒙特卡洛的方法计算风险度量，形成有效的风险

更新时间：2022-08-31 10:19

研究结论

策略Alpha收益的定义取决于投资者控制了哪些风险，Alpha因子的ZSCORE可以通过多期横截面回归取平均的方式转化成预测收益率，输入后续的组合优化过程。

在两个变量满足正态分布时，Pearson 和Spearman相关系数的数值很接近，但Spearman秩相关系数在做显著性检验时不依赖于变量的正态分布特性，更稳健，因此因子选股计算IC时多采用后者。

Alpha因子是否需要做风险中性化处理取决于做组合优化时是否做了对应的风险暴露控制，并非风险因素剔除的越多越好。当构建的组合完全控制了风险暴露时，风险调整IC（risk adjusted IC）会比Purifed

更新时间：2022-08-30 09:49

交易性择时策略研究之八：指数高阶矩择时策略-广发证券-20150520

摘要

高阶矩的存在与影响

在马科维茨的资产定价理论中，通过期望（实际上是一阶原点矩）来描绘资产的收益，方差（二阶中心矩）来刻画资产的风险。这样做的基础是假设资产价格服从正态分布。但在实际中，这一点很难保证，特别是在市场大跌遭遇危机之时，资产价格迅速下降，震幅明显上升，波动率迅速升高，资产价格会是非平稳的高斯分布，这样仅仅用一阶和二阶矩来刻画资产价格的时间序列就会是不恰当的。此时高阶矩会异常发散，迅速增大，我们不可以忽略高阶矩的存在以及影响。

高阶矩对于市场指数具有领先效果

通过观察我们发现，实际市场中二阶矩并不恒定。如果我们用采用正态分布的假设，仅仅用趋势项与波动

更新时间：2022-02-17 02:31

《因子选股系列研究之十三》：Alpha预测-东方证券-20161025

研究结论

策略Alpha收益的定义取决于投资者控制了哪些风险，Alpha因子的ZSCORE可以通过多期横截面回归取平均的方式转化成预测收益率，输入后续的组合优化过程

Alpha因子是否需要做风险中性化处理取决于做组合优化时是否做了对应的风险暴露控制，并非风险因素剔除的越多越好。当构建的组合完全控制了风险暴露时，风险调整IC（risk adjusted IC）会比Purifed alph

更新时间：2021-11-22 07:53

分页第1页

正态分布

数据正态分布或方形分布对训练的准确性的影响

问题

视频

【其他】两种机器学习回归算法在金融的应用

【历史文档】策略示例-通道突破策略——布林带指标 v1.0

更新

资产配置之步步为营，尾部风险控制与优化国泰君安_20180313

摘要

Alpha预测-东方证券-20161025

研究结论

交易性择时策略研究之八：指数高阶矩择时策略-广发证券-20150520

摘要

《因子选股系列研究之十三》：Alpha预测-东方证券-20161025

正态分布

数据正态分布或方形分布对训练的准确性的影响

问题

视频

【其他】两种机器学习回归算法在金融的应用

【历史文档】策略示例-通道突破策略——布林带指标 v1.0

更新

资产配置之步步为营，尾部风险控制与优化 国泰君安_20180313

摘要

Alpha预测-东方证券-20161025

研究结论

交易性择时策略研究之八：指数高阶矩择时策略-广发证券-20150520

摘要

《因子选股系列研究之十三》：Alpha预测-东方证券-20161025

资产配置之步步为营，尾部风险控制与优化国泰君安_20180313