随机变量的概率分布
由iquant创建,最终由iquant 被浏览 11 用户
文章主要介绍随机变量的两类概率分布:离散概率分布和**连续概率分布。**从以下三个部分进行介绍:
- 随机变量和概率分布相关概念和用途
- 四种离散概率分布
- 两种连续概率分布
一、随机变量和概率分布相关概念和用途
1、随机变量
- 是一个量化随机事件的函数,它将随机事件每一个可能出现的试验结果赋予一个数字;
- 分离散随机变量(数值间有间隔)和连续随机变量(有无数个结果);
- 一般用 X 表示。
2、概率分布
- 用统计图来表示随机变量所有结果和对应结果发生的概率;
- 概率分布=随机变量+概率+分布(在统计图中的形状);
- 可用Python中科学计算包Scipy的stats模块来实现。
3、概率分布的作用
- 正态分布和幂律分布对个人未来商业模式的选择有很大帮助;
- 概率分布对数据分析所做决策起重要作用,一些常用的分布可生成万能模版反复使用;
- 在机器学习中,概率分布对查看数据集的规律和建模都起到重要作用。
二、离散概率分布
伯努利分布
1、检验条件:
- 每次试验有两种可能结果,成功或失败;
- 每次成功的概率都相同,用p表示,则失败的概率也相同,为1-p;
- 每次试验都是独立的。
2、计算概率
概率质量函数(PMF):
成功的概率:p(k)=p
失败的概率:p(k)=1-p
3、伯努利分布的 python 实现
首先导入要用到的包和模块
![](data:image/svg+xml;utf8,<svg%20xmlns='http://www.w3.org/2000/svg' width='555' height='82'></svg>)
定义随机变量X
![](data:image/svg+xml;utf8,<svg%20xmlns='http://www.w3.org/2000/svg' width='548' height='109'></svg>)
计算分布概率
![](data:image/svg+xml;utf8,<svg%20xmlns='http://www.w3.org/2000/svg' width='548' height='137'></svg>)
绘制分布图形
![](data:image/svg+xml;utf8,<svg%20xmlns='http://www.w3.org/2000/svg' width='547' height='517'></svg>)
二项分布
1、检验条件:
- 试验由一个包括n次相同的试验的序列组成,其中每次试验是相互独立的;
- 每次试验都有两个可能的结果,成功或失败;
- 每次成功的概率都相等,成功的概率用p表示,则失败概率为1-p;
- 适用于“想知道成功k次的概率是多少”的问题。
2、计算概率
- n次试验成功x次的概率:
P(X=k) =
n:试验的次数
p:每次试验成功的概率
k:成功次数
- 二项分布的期望(预期成功多少次)
E(X)=np
- 二项分布的方差(数据波动大小
Var(X)=np(1-p)
3、二项分布的 python 实现
定义随机变量X
![](data:image/svg+xml;utf8,<svg%20xmlns='http://www.w3.org/2000/svg' width='542' height='125'></svg>)
计算分布概率
![](data:image/svg+xml;utf8,<svg%20xmlns='http://www.w3.org/2000/svg' width='541' height='108'></svg>)
绘制分布图
![](data:image/svg+xml;utf8,<svg%20xmlns='http://www.w3.org/2000/svg' width='540' height='412'></svg>)
几何分布
1、检验条件
- 试验次数固定,用n表示,其中每次试验是相互独立的;
- 每次试验都有两种可能结果,成功或失败;
- 每次成功的概率都相等,成功概率用p表示;
- 适用于“想知道第k次试验时才取得第一次成功的概率是多少”的问题。
2、计算概率
- 第k次试验时才取得第一次成功的概率:
P(X=k)=
- 几何分布的期望
E(X)=
- 几何分布的方差
Var(X)=
3、二项分布的 python 实现
定义随机变量X
![](data:image/svg+xml;utf8,<svg%20xmlns='http://www.w3.org/2000/svg' width='544' height='141'></svg>)
计算分布概率
![](data:image/svg+xml;utf8,<svg%20xmlns='http://www.w3.org/2000/svg' width='543' height='103'></svg>)
绘制分布图
![](data:image/svg+xml;utf8,<svg%20xmlns='http://www.w3.org/2000/svg' width='546' height='413'></svg>)
泊松分布
1、检验条件
- 事件是独立事件;
- 在任意相同的时间范围内,事件发生的概率相同;
- 适用于“想知道某个时间范围内发生某件事情k次的概率是多大”的问题。
2、计算概率
- 在某个时间范围内发生某件事k次的概率:
P(X=k)=
u:给定时间范围内某件事发生的平均次数
k:事件发生的次数
- 泊松分布的期望和方差都是 u。
3、泊松分布的Python实现
定义随机变量X
![](data:image/svg+xml;utf8,<svg%20xmlns='http://www.w3.org/2000/svg' width='541' height='141'></svg>)
计算分布概率
![](data:image/svg+xml;utf8,<svg%20xmlns='http://www.w3.org/2000/svg' width='540' height='92'></svg>)
绘制分布图
![](data:image/svg+xml;utf8,<svg%20xmlns='http://www.w3.org/2000/svg' width='544' height='411'></svg>)
三、连续概率分布
1、正态分布
- 又名高斯分布,是具有两个参数μ和σ^2的连续型随机变量的分布;
- 它的形状是中间高两边低 ,图像是一条位于x 轴上方的钟形曲线;
- 服从正态分布的商业模式:
1)考试成绩
2)员工绩效(员工活力曲线)
3)产品质量(6个标准差排除不合格产品)
4)人的身高和智商
- 计算正态分布方法:
1)确定概率范围
2)求标准分z(标准分z= )
3)查找标准正态分布表
2、幂律分布(长尾分布)
- 对一件事情起决定作用的,往往是少数几个因素,其他大部分的因素都无关紧要。
- 服从幂律分布的商业模式:
1)社会的财富分布理论上服从正态分布,实际服从幂律分布
2)网络效应(边际成本低,最后达到赢家通吃)
3、个人商业模式的选择
从以上正态分布和幂律分布的特点来看,个人尽可能选择幂律分布的商业模式经营自己,将很有可能获得很大成功。因幂律分布的商业模式边际成本低,如培养自己的影响力,通过网络效应将其变现(如开付费专栏、投资等)。