量化百科

随机变量的概率分布

由iquant创建,最终由iquant 被浏览 11 用户

文章主要介绍随机变量的两类概率分布:离散概率分布和**连续概率分布。**从以下三个部分进行介绍:

  • 随机变量和概率分布相关概念和用途
  • 四种离散概率分布
  • 两种连续概率分布

一、随机变量和概率分布相关概念和用途

1、随机变量

  • 是一个量化随机事件的函数,它将随机事件每一个可能出现的试验结果赋予一个数字;
  • 分离散随机变量(数值间有间隔)和连续随机变量(有无数个结果);
  • 一般用 X 表示。

2、概率分布

  • 用统计图来表示随机变量所有结果和对应结果发生的概率;
  • 概率分布=随机变量+概率+分布(在统计图中的形状);
  • 可用Python中科学计算包Scipy的stats模块来实现。

3、概率分布的作用

  • 正态分布和幂律分布对个人未来商业模式的选择有很大帮助;
  • 概率分布对数据分析所做决策起重要作用,一些常用的分布可生成万能模版反复使用;
  • 在机器学习中,概率分布对查看数据集的规律和建模都起到重要作用。

二、离散概率分布

伯努利分布

1、检验条件:

  • 每次试验有两种可能结果,成功或失败;
  • 每次成功的概率都相同,用p表示,则失败的概率也相同,为1-p;
  • 每次试验都是独立的。

2、计算概率

概率质量函数(PMF):

成功的概率:p(k)=p

失败的概率:p(k)=1-p

3、伯努利分布的 python 实现

首先导入要用到的包和模块

![](data:image/svg+xml;utf8,<svg%20xmlns='http://www.w3.org/2000/svg' width='555' height='82'></svg>)

定义随机变量X

![](data:image/svg+xml;utf8,<svg%20xmlns='http://www.w3.org/2000/svg' width='548' height='109'></svg>)

计算分布概率

![](data:image/svg+xml;utf8,<svg%20xmlns='http://www.w3.org/2000/svg' width='548' height='137'></svg>)

绘制分布图形

![](data:image/svg+xml;utf8,<svg%20xmlns='http://www.w3.org/2000/svg' width='547' height='517'></svg>)

二项分布

1、检验条件:

  • 试验由一个包括n次相同的试验的序列组成,其中每次试验是相互独立的;
  • 每次试验都有两个可能的结果,成功或失败;
  • 每次成功的概率都相等,成功的概率用p表示,则失败概率为1-p;
  • 适用于“想知道成功k次的概率是多少”的问题。

2、计算概率

  • n次试验成功x次的概率:

P(X=k) = C_{n}^{k} p^{k} (1-p)^{n-k}

n:试验的次数

p:每次试验成功的概率

k:成功次数

  • 二项分布的期望(预期成功多少次)

E(X)=np

  • 二项分布的方差(数据波动大小

Var(X)=np(1-p)

3、二项分布的 python 实现

定义随机变量X

![](data:image/svg+xml;utf8,<svg%20xmlns='http://www.w3.org/2000/svg' width='542' height='125'></svg>)

计算分布概率

![](data:image/svg+xml;utf8,<svg%20xmlns='http://www.w3.org/2000/svg' width='541' height='108'></svg>)

绘制分布图

![](data:image/svg+xml;utf8,<svg%20xmlns='http://www.w3.org/2000/svg' width='540' height='412'></svg>)

几何分布

1、检验条件

  • 试验次数固定,用n表示,其中每次试验是相互独立的;
  • 每次试验都有两种可能结果,成功或失败;
  • 每次成功的概率都相等,成功概率用p表示;
  • 适用于“想知道第k次试验时才取得第一次成功的概率是多少”的问题。

2、计算概率

  • 第k次试验时才取得第一次成功的概率:

P(X=k)= (1-p)^{k-1}p

  • 几何分布的期望

E(X)= frac{1}{p}

  • 几何分布的方差

Var(X)= frac{1-p}{p2}

3、二项分布的 python 实现

定义随机变量X

![](data:image/svg+xml;utf8,<svg%20xmlns='http://www.w3.org/2000/svg' width='544' height='141'></svg>)

计算分布概率

![](data:image/svg+xml;utf8,<svg%20xmlns='http://www.w3.org/2000/svg' width='543' height='103'></svg>)

绘制分布图

![](data:image/svg+xml;utf8,<svg%20xmlns='http://www.w3.org/2000/svg' width='546' height='413'></svg>)

泊松分布

1、检验条件

  • 事件是独立事件;
  • 在任意相同的时间范围内,事件发生的概率相同;
  • 适用于“想知道某个时间范围内发生某件事情k次的概率是多大”的问题。

2、计算概率

  • 在某个时间范围内发生某件事k次的概率:

P(X=k)= frac{u^{k}e^{-u}}{k!}

u:给定时间范围内某件事发生的平均次数

k:事件发生的次数

  • 泊松分布的期望和方差都是 u。

3、泊松分布的Python实现

定义随机变量X

![](data:image/svg+xml;utf8,<svg%20xmlns='http://www.w3.org/2000/svg' width='541' height='141'></svg>)

计算分布概率

![](data:image/svg+xml;utf8,<svg%20xmlns='http://www.w3.org/2000/svg' width='540' height='92'></svg>)

绘制分布图

![](data:image/svg+xml;utf8,<svg%20xmlns='http://www.w3.org/2000/svg' width='544' height='411'></svg>)


三、连续概率分布

1、正态分布

  • 又名高斯分布,是具有两个参数μ和σ^2的连续型随机变量的分布;
  • 它的形状是中间高两边低 ,图像是一条位于x 轴上方的钟形曲线;
  • 服从正态分布的商业模式:

1)考试成绩

2)员工绩效(员工活力曲线)

3)产品质量(6个标准差排除不合格产品)

4)人的身高和智商

  • 计算正态分布方法:

1)确定概率范围

2)求标准分z(标准分z= frac{概率范围-平均值}{标准差}

3)查找标准正态分布表

2、幂律分布(长尾分布)

  • 对一件事情起决定作用的,往往是少数几个因素,其他大部分的因素都无关紧要。
  • 服从幂律分布的商业模式:

1)社会的财富分布理论上服从正态分布,实际服从幂律分布

2)网络效应(边际成本低,最后达到赢家通吃)

3、个人商业模式的选择

从以上正态分布和幂律分布的特点来看,个人尽可能选择幂律分布的商业模式经营自己,将很有可能获得很大成功。因幂律分布的商业模式边际成本低,如培养自己的影响力,通过网络效应将其变现(如开付费专栏、投资等)。

标签

函数风险评估资产配置投资组合优化期权定价模型