随机变量的概率分布对现实世界的建模和分析发挥这重要作用。有时,理论分布于收集到的某过程的历史数据十分贴近。有时,可以先对某过程的基本特性做先验性判断,然后不需要收集数据就可以选出合适的理论分布。在这两种情况下,均可用理论分布来回答显示种所遇到的问题,也可以从分布中生成一些随机数来模拟现实的行为。
这里‘均匀’是指随机点落在 区间(a,b)内任一点的机会是均等的,从而在相等的小区间上的概率相等,在任一区间(a,b)的,随机变量X的概率密度函数为一个常数。 y=P(x)=1/(b-a) (a<x<b)
均匀分布是随机抽样和随机模拟的基础,可用randint()和uniform()函数产生均匀随机数。
正态分布是统计分析的最主要分布。正态分布是古典统计学的核心,它有两个参数:位置参数均值μ,尺度参数标σ。正态分布的图形如倒立的钟,且分布对称。现实生活中,很多变量是服从正态分布的,如人的身高、体重和智商IQ。
标准正态分布曲线: 标准正态分位数: 求标准正太分布P(z<2)的累计概率。
已知标准正态分布累计概率为P(|z|<=a)=0.95,求对应的分位数a。
正态分布随机数的生成函数是random.normal(mean=0,sd=1,n),其中,n表示生成的随机数数量(或正态随机样本数),mean是正态分布的均值,sd是正态分布的标准差。
标准正态随机数。 随机产生1000个标准正态分布随机数,作其概率直方图,然后再添加正态分布的密度函数线。
一般正态随机数
随机模拟,也称蒙特卡罗模拟,是以概率统计的理论为基础的一种模拟方法,蒙特卡洛迷你又称统计实验法。蒙特卡洛模拟将所求解的问题与某个概率模型联系在一起,并再计算机上模拟随机,以获得问题的近似解。
蒙特卡洛模拟的最突出特点是,模型的解是试验生成的,而不是计算出来的,他的优点可以归纳为一下方面:
蒙特卡洛模拟方法和程序结构比较简单,只需要对总体进行大量的重复抽样,然后再求取这些模拟结果的期望值,期望值就是最终结果。蒙特卡洛模拟便于理解、使用和推广,适用范围非常广泛。收敛速度与问题维数无关,蒙特卡洛模拟的收敛是概率意义下的收敛,无论维数多大,他的收敛速度都是一样的。所以,在低维情况下,他的速度看起来比较慢,但在高维度情况下,就比其他数值计算方法的速度快很多。蒙特卡洛模拟方法的适用性非常强。在解决问题时受问题条件的限制较小,而且不需要太多前提假设,和模拟对象的实际情况较为接近。而其他数值方面受条件限制比较大,适用性不强。
相关分析是指通过对大量数字资料的观察,消除偶然因素的影响,探求现象之间相关关系的密切程度和表现形式。研究现象之间相关的理论方法成为i相关分析法。 在经济管理中,各经济变量常常存在密切的关系,如经济增长与财政收入、人均收入与消费支出等。这些关系大都是非确定的关系,一个变量发生变动会影响其他变量使其发生变化,其变化具有随机的特性,但是仍然遵循一定的规律。 回归分析研究两变量之间的依存关系,将变量区分出自变量和因变量,并研究确定自变量和因变量之间具体关系的方程形式。分析中所形成的自变量和因变量之间的关系式称为回归模型,其中以一条直线方程表明两变量依存关系的模型叫一元线性回归模型(也称直线回归模型),回归分析的主要步骤包括建立回归模型、求解回归模型中的参数、对回归模型进行检验等。
在所有相关分析中,最简单的是两个变量之间的一元线性相关(也称简单线性相关),它只涉及两个变量。而且一个变量数值发生变动,另一个变量的数值随之发生大致均等的变动,从平面图上观察,其各点的分布近似地表现为一条直线,这种相关关系称为线性相关。 线性相关分析是用相关系数来表示两个变量间相互的线性关系,并判断其密切程度的统计方法。总体相关系数通常用p表示,其计算公式为
实践中,通常要计算样本的线性相关系数,公式为: Person相关系数r的取值范围是[-1,1].-1<sr<s0表示具有负线性相关,越接近-1,负相关性越强; 0<r<1表示具有正线性相关,越接近1,正相关性越强; r=-1表示具有完全负线性相关; r=1表示具有完全正线性相关; r-0表示两个变量不具有线性相关性。相关系数是协方差的标准化形式,它消除了单位的影响。
考察一下学生身高和体重的相关关系。 散点图:
协方差及相关系数
这里相关系数为正值,并且较大(>0.9),说明学生身高与体重之间呈现较强的线性相关性。
样本相关系数r也有抽样误差。从同一总体内抽取若干大小相同的样本,个样本的相关系数总有波动。要判断不等于0的r值是来自总体相关系数σ=0的总体,还是来自σ!=0的总体,必须进行显著性检验,Python的Pearson相关系数的检验函数为:st.pearsonr
由于P=5.727e-21<0.05,于是在α=0.05置信水平上拒绝H0接受H1,可以认为学生身高与体重之间具有显著的线性相关性。
下面是Python的OLS的估算方法:
回归直线拟合图如下:
由散点图观察实测样本资料是否存在一定的协同变化趋势,这种趋势是否是线性的,根据是否有线性趋势确定应拟合直线还是曲线。由本资料绘制的散点图可见,身高与体重之间存在明显的线性趋势,所以可考虑建立直线回归方程。
由样本资料建立回归方程的目的是对两变量的回归关系进行统计推断,也就是对总体回归方程进行参数估计和假设检验, 由于抽样误差的存在,样本回归系数往往不会恰好等于总体回归系数,如果总体回归系数为0,那么模型就是一个常数,无论自变量如何变化,都不回影响因变,回归方程就没有意义。由样本资料计算得到的样本回归系数不一定为0,所以有必要对估计得到的样本回归系数进行检验。
下面对前面建立的回归模型进行假设检验:
由于回归系数的P=5.747e-21<0.05,于是在α=0.05水平处拒绝原假设H0,接受被择选择H1,认为回归系数由统计学意义,变量间存在回归关系。
用公式的方式来搭建线性回归模型,并用回归系数检验表来显示;
建立模型有三个主要作用:
进行影响因素分析进行估计用来预测对身高与体重模型的估计与预测: