数学建模期末复习,撰写博客做总结之用,主要侧重于算例的模型建立与部分代码的实现,其中不足之处望读者多多指正。
1、表示位置的统计量
平均值: X ˉ = 1 n ∑ i = 1 n X i \bar{X}=\frac{1}{n}\sum\limits_{i=1}^{n}{{{X}_{i}}} Xˉ=n1i=1∑nXi;中位数:将数据由小到大排序后位于中间位置的那个数值.2、 表示变异程度的统计量:
标椎差: s = [ 1 n − 1 ∑ i = 1 n ( X i − X ˉ ) 2 ] 1 2 s = {[\frac{1}{{n - 1}}\sum\limits_{i = 1}^n {{{({X_i} - \bar X)}^2}} ]^{\frac{1}{2}}} s=[n−11i=1∑n(Xi−Xˉ)2]21方差:标椎差的平方极差:样本的两最值的差。3、表示分布形状的统计量
偏度: g 1 = 1 s 3 ∑ i = 1 n ( X i − X ˉ ) 3 {g_1} = \frac{1}{{{s^3}}}\sum\limits_{i = 1}^n {{{({X_i} - \bar X)}^3}} g1=s31i=1∑n(Xi−Xˉ)3峰度: g 2 = 1 s 4 ∑ i = 1 n ( X i − X ˉ ) 4 {g_2} = \frac{1}{{{s^4}}}\sum\limits_{i = 1}^n {{{({X_i} - \bar X)}^4}} g2=s41i=1∑n(Xi−Xˉ)4 说明:偏度反映分布的对称性,g1 >0称为右偏态,此时数据位于均值右边的比位于左边的多;g1 <0称为左偏态,情况相反;而g1接近0则可认为分布是对称的.峰度是分布形状的另一种度量,正态分布的峰度为3,若g2比3大很多,表示分布比较“扁平”,说明样本中含有较多远离均值的数据,因而峰度可用作衡量偏离正态分布的尺度之一.4、矩
k阶原点矩: V k = 1 n ∑ i = 1 n X i k {V_k} = \frac{1}{n}\sum\limits_{i = 1}^n {X_i^k} Vk=n1i=1∑nXikk阶中心矩: U k = 1 n ∑ i = 1 n ( X i − X ˉ ) k {U_k} = \frac{1}{n}\sum\limits_{i = 1}^n {{{({X_i} - \bar X)}^k}} Uk=n1i=1∑n(Xi−Xˉ)k1、整理资料:把样本值x1,x2,…,xn进行分组,先将它们依大小次序排列,得 x 1 ∗ ≤ x 2 ∗ ≤ ⋯ ≤ x n ∗ x_1^* \le x_2^* \le \cdots \le x_n^* x1∗≤x2∗≤⋯≤xn∗,随机落入等分点; 2、求出出现在区间的频率: ( x i , x i + 1 ] (x_i,x_{i + 1}] (xi,xi+1]为 n i n_i ni则频率 f i = n i n f_i=\frac{n_i}{n} fi=nni
3、做相应的频率直方图。
1、正态分布: N ( μ , σ 2 ) N\left(\mu, \sigma^{2}\right) N(μ,σ2) 密度函数: p ( x ) = 1 2 π σ e − ( x − μ ) 2 2 σ 2 : p(x)=\frac{1}{\sqrt{2 \pi} \sigma} \mathrm{e}^{-\frac{(x-\mu)^{2}}{2 \sigma^{2}}}: p(x)=2π σ1e−2σ2(x−μ)2: 分布函数: F ( x ) = 1 2 π σ ∫ − ∞ x e − ( y − μ ) 2 2 σ 2 d y F(x)=\frac{1}{\sqrt{2 \pi} \sigma} \int_{-\infty}^{x} e^{-\frac{(y-\mu)^{2}}{2 \sigma^{2}}} d y F(x)=2π σ1∫−∞xe−2σ2(y−μ)2dy μ , 为 期 望 σ 2 为 均 值 , − ∞ < x < + ∞ \mu,为期望\sigma^{2}为均值, \quad-\infty<x<+\infty μ,为期望σ2为均值,−∞<x<+∞
标椎正态分布: N ( 0 , 1 ) N(0,1) N(0,1) 密度函数: φ ( x ) = 1 2 π e − x 2 2 \varphi(x)=\frac{1}{\sqrt{2 \pi}} \mathrm{e}^{-\frac{x^{2}}{2}} φ(x)=2π 1e−2x2 分布函数: Φ ( x ) = 1 2 π ∫ − ∞ x e − y 2 2 d y \Phi(x)=\frac{1}{\sqrt{2 \pi}} \int_{-\infty}^{x} \mathrm{e}^{-\frac{y^{2}}{2}} \mathrm{d} y Φ(x)=2π 1∫−∞xe−2y2dy2、 χ 2 {\chi ^2} χ2分布 若随机变量X1,X2,…,Xn相互独立,都服从标准正态分布N(0,1),则随机变量: Y = X 1 2 + X 2 2 + ⋯ + X n 2 Y=X_1^2 + X_2^2 + \cdots + X_n^2 Y=X12+X22+⋯+Xn2服从自由度为n的 χ 2 {\chi ^2} χ2分布,记做Y~ χ 2 {\chi ^2} χ2(n)
3、t分布 若XN(1,0)与Y χ 2 {\chi ^2} χ2(n)相互独立,则随机变量: T = X Y n T = \frac{X}{{\sqrt {\frac{Y}{n}} }} T=nY X服从自由度为n的t分布记做T~t(n)
4、F分布 如果X~ χ 2 {\chi ^2} χ2( n 1 n_1 n1),Y~ χ 2 {\chi ^2} χ2( n 2 n_2 n2),且两者相互独立,则 F = X n 1 Y n 2 F = \frac{{\frac{X}{{{n_1}}}}}{{\frac{Y}{{{n_2}}}}} F=n2Yn1X服从自由度为( n 1 , n 2 n_1,n_2 n1,n2)的F分布,记作F~F( n 1 , n 2 n_1,n_2 n1,n2)
接下的概念对菜鸡笔者有些复杂,偷懒不做展开,有兴趣的读者自行补充
2、区间估计的求法
求数学期望的置信区间方差的区间估计假设检验的一般解题步骤为:
根据实际问题提出原假设H0与备择假设H1,即说明需要检验的假设的具体内容;选择适当的统计量,并在原假设H0成立的条件下确定该统计量的分布;按问题的具体要求,选取适当的显著性水平 ,并根据统计量的分布查表,确定对应于 的临界值.一般 取0.05,0.01或0.10;根据样本观测值计算统计量的观测值,并与临界值进行比较,从而在检验水平 下对拒绝或接受原假设H0作出判断.有两种,导入向量将向量合成矩阵,或者直接导入矩阵数据:
t=78:87; x=[23.8,27.6,31.6,32.4,33.7,34.9,... 43.2,52.8,63.8,73.4]; y=[41.4,51.8,61.7,67.9,68.7,77.5,... 95.9,137.4,155.0,175.0]; save data t x y; load data; %矩阵输入 clear data1=[78,79,80,81,82,83,84,85,86,87;... 23.8,27.6,31.6,32.4,33.7,34.9,43.2,52.8,63.8,73.4;... 41.4,51.8,61.7,67.9,68.7,77.5,95.9,137.4,155.0,175.0] t=data1(1,:) x=data1(2,:) y=data1(3,:)tail的缺省值为 0, alpha的缺省值为 0.05
某校60名学生的一次考试成绩如下: 93 75 83 93 91 85 84 82 77 76 77 95 94 89 91 88 86 83 96 81 79 97 78 75 67 69 68 84 83 81 75 66 85 70 94 84 83 82 80 78 74 73 76 70 86 76 90 89 71 66 86 73 80 94 79 78 77 63 53 55 1)计算均值、标准差、极差、偏度、峰度,画出直方图; 2)检验分布的正态性; 3)若检验符合正态分布,估计正态分布的参数并检验参数.
程序求解 %作业题1 x=[93 75 83 93 91 85 84 82 77 76 77 95 94 89 91 ... 88 86 83 96 81 79 97 78 75 67 69 68 84 83 81 ... 75 66 85 70 94 84 83 82 80 78 74 73 76 70 86 ... 76 90 89 71 66 86 73 80 94 79 78 77 63 53 55 ]; %计算基本的统计量 %均值 mean(x) %中位数 median(x) %标椎差 std(x) %方差 var(x) %偏度 skewness(x) %峰度 kurtosis(x) %绘制基本的直方图 hist(x,10) %检验正态性 normplot(x) %参数估计 [muhat,sigmahat,muci,sigmaci]=normfit(x) 运行图例 直方图 正态性检验: 参数估计:muhat =80.1000 sigmahat =9.7106 muci =[77.5915,82.6085] sigmaci =[8.2310,11.8436] 即:方差为9.7106,期望为80.1000 估计置信区间同上
据说某地汽油的价格是每加仑115美分,为了验证这种说法,一位学者开车随机选择了一些加油站,得到某年1月和2月的数据如下: 1月:119 117 115 116 112 121 115 122 116 118 109 112 119 112 117 113 114 109 109 118 2月:118 119 115 122 118 121 120 122 128 116 120 123 121 119 117 119 128 126 118 125
1)分别用两个月的数据验证这种说法的可靠性; 2)分别给出1月和2月汽油价格的置信区间; 3)给出1月和2月汽油价格差的置信区间. *解题代码
%作业题2 x=[119 117 115 116 112 121 115 122 116 118 ... 109 112 119 112 117 113 114 109 109 118 ]; y=[118 119 115 122 118 121 120 122 128 116 ... 120 123 121 119 117 119 128 126 118 125]; [h,sig,ci] = ttest(x,115) [h,sig,ci] = ttest(y ,115) [h,sig,ci] = ttest2(x,y) 运行结果h = 0 sig =0.8642 ci =113.3388 116.9612 h =1 sig =1.3241e-06 ci =119.0129 122.4871 h =1 sig =3.6952e-05 ci =-8.0273 -3.1727 说法在1月可靠2月不可靠,1月的价格区间为[113.3388 116.9612];二月价格区间为[119.0129 122.4871];价格差为(1-2)-8.0273 -3.1727