随机变量的概率分布

由iquant创建，最终由iquant更新于2023-06-14 03:02 被浏览 11 用户

文章主要介绍随机变量的两类概率分布：离散概率分布和**连续概率分布。**从以下三个部分进行介绍：

随机变量和概率分布相关概念和用途
四种离散概率分布
两种连续概率分布

一、随机变量和概率分布相关概念和用途

1、随机变量

是一个量化随机事件的函数，它将随机事件每一个可能出现的试验结果赋予一个数字；
分离散随机变量（数值间有间隔）和连续随机变量（有无数个结果）；
一般用 X 表示。

2、概率分布

用统计图来表示随机变量所有结果和对应结果发生的概率；
概率分布=随机变量+概率+分布（在统计图中的形状）；
可用Python中科学计算包Scipy的stats模块来实现。

3、概率分布的作用

正态分布和幂律分布对个人未来商业模式的选择有很大帮助；
概率分布对数据分析所做决策起重要作用，一些常用的分布可生成万能模版反复使用；
在机器学习中，概率分布对查看数据集的规律和建模都起到重要作用。

二、离散概率分布

伯努利分布

1、检验条件：

每次试验有两种可能结果，成功或失败；
每次成功的概率都相同，用p表示，则失败的概率也相同，为1-p;
每次试验都是独立的。

2、计算概率

概率质量函数（PMF）:

成功的概率：p(k)=p

失败的概率：p(k)=1-p

3、伯努利分布的 python 实现

首先导入要用到的包和模块

![](data:image/svg+xml;utf8,<svg%20xmlns='http://www.w3.org/2000/svg' width='555' height='82'></svg>)

定义随机变量X

![](data:image/svg+xml;utf8,<svg%20xmlns='http://www.w3.org/2000/svg' width='548' height='109'></svg>)

计算分布概率

![](data:image/svg+xml;utf8,<svg%20xmlns='http://www.w3.org/2000/svg' width='548' height='137'></svg>)

绘制分布图形

![](data:image/svg+xml;utf8,<svg%20xmlns='http://www.w3.org/2000/svg' width='547' height='517'></svg>)

二项分布

1、检验条件：

试验由一个包括n次相同的试验的序列组成，其中每次试验是相互独立的；
每次试验都有两个可能的结果，成功或失败；
每次成功的概率都相等，成功的概率用p表示，则失败概率为1-p；
适用于“想知道成功k次的概率是多少”的问题。

2、计算概率

n次试验成功x次的概率：

P(X=k) = $C_{n}^{k}$ $p^{k}$ $(1-p)^{n-k}$

n：试验的次数

p：每次试验成功的概率

k：成功次数

二项分布的期望（预期成功多少次）

E(X)=np

二项分布的方差（数据波动大小

Var(X)=np(1-p)

3、二项分布的 python 实现

定义随机变量X

![](data:image/svg+xml;utf8,<svg%20xmlns='http://www.w3.org/2000/svg' width='542' height='125'></svg>)

计算分布概率

![](data:image/svg+xml;utf8,<svg%20xmlns='http://www.w3.org/2000/svg' width='541' height='108'></svg>)

绘制分布图

![](data:image/svg+xml;utf8,<svg%20xmlns='http://www.w3.org/2000/svg' width='540' height='412'></svg>)

几何分布

1、检验条件

试验次数固定，用n表示，其中每次试验是相互独立的；
每次试验都有两种可能结果，成功或失败；
每次成功的概率都相等，成功概率用p表示；
适用于“想知道第k次试验时才取得第一次成功的概率是多少”的问题。

2、计算概率

第k次试验时才取得第一次成功的概率：

P(X=k)= $(1-p)^{k-1}p$

几何分布的期望

E（X）= $frac{1}{p}$

几何分布的方差

Var（X）= $frac{1-p}{p2}$

3、二项分布的 python 实现

定义随机变量X

![](data:image/svg+xml;utf8,<svg%20xmlns='http://www.w3.org/2000/svg' width='544' height='141'></svg>)

计算分布概率

![](data:image/svg+xml;utf8,<svg%20xmlns='http://www.w3.org/2000/svg' width='543' height='103'></svg>)

绘制分布图

![](data:image/svg+xml;utf8,<svg%20xmlns='http://www.w3.org/2000/svg' width='546' height='413'></svg>)

泊松分布

1、检验条件

事件是独立事件；
在任意相同的时间范围内，事件发生的概率相同；
适用于“想知道某个时间范围内发生某件事情k次的概率是多大”的问题。

2、计算概率

在某个时间范围内发生某件事k次的概率：

P(X=k)= $frac{u^{k}e^{-u}}{k!}$

u：给定时间范围内某件事发生的平均次数

k：事件发生的次数

泊松分布的期望和方差都是 u。

3、泊松分布的Python实现

定义随机变量X

![](data:image/svg+xml;utf8,<svg%20xmlns='http://www.w3.org/2000/svg' width='541' height='141'></svg>)

计算分布概率

![](data:image/svg+xml;utf8,<svg%20xmlns='http://www.w3.org/2000/svg' width='540' height='92'></svg>)

绘制分布图

![](data:image/svg+xml;utf8,<svg%20xmlns='http://www.w3.org/2000/svg' width='544' height='411'></svg>)

三、连续概率分布

1、正态分布

又名高斯分布，是具有两个参数μ和σ^2的连续型随机变量的分布；
它的形状是中间高两边低，图像是一条位于x 轴上方的钟形曲线；
服从正态分布的商业模式：

1）考试成绩

2）员工绩效（员工活力曲线）

3）产品质量（6个标准差排除不合格产品）

4）人的身高和智商

计算正态分布方法：

1）确定概率范围

2）求标准分z（标准分z= $frac{概率范围-平均值}{标准差}$ ）

3）查找标准正态分布表

2、幂律分布（长尾分布）

对一件事情起决定作用的，往往是少数几个因素，其他大部分的因素都无关紧要。
服从幂律分布的商业模式：

1）社会的财富分布理论上服从正态分布，实际服从幂律分布

2）网络效应（边际成本低，最后达到赢家通吃）

3、个人商业模式的选择

从以上正态分布和幂律分布的特点来看，个人尽可能选择幂律分布的商业模式经营自己，将很有可能获得很大成功。因幂律分布的商业模式边际成本低，如培养自己的影响力，通过网络效应将其变现（如开付费专栏、投资等）。

随机变量的概率分布

标签