多元统计实验3

多元统计实验3
一、核心知识点与详细解析知识点 1多元正态分布的定义密度函数f(x)1(2π)p/2∣Σ∣1/2exp⁡[−12(x−μ)TΣ−1(x−μ)]f(x)(2π)p/2∣Σ∣1/21​exp[−21​(x−μ)TΣ−1(x−μ)]参数均值向量 μμpp 维、协方差矩阵 ΣΣp×pp×p 正定对称矩阵记号x∼Np(μ,Σ)x∼Np​(μ,Σ)知识点 2多元正态分布的三大性质实验核心性质数学表述几何/统计含义性质1线性组合正态性若 x∼Np(μ,Σ)x∼Np​(μ,Σ)则对任意非零向量 aa有 YaTx∼N1(aTμ,aTΣa)YaTx∼N1​(aTμ,aTΣa)任何投影都是一元正态性质2边缘分布正态性若 x∼Np(μ,Σ)x∼Np​(μ,Σ)则其任意子向量也服从多元正态分布特别地单个分量服从一元正态边缘分布继承正态性性质3线性变换不变性若 x∼Np(μ,Σ)x∼Np​(μ,Σ)则对任意 q×pq×p 矩阵 AA 和 qq 维向量 bb有 Axb∼Nq(Aμb,AΣAT)Axb∼Nq​(Aμb,AΣAT)线性变换仍为多元正态知识点 3偏度Skewness与峰度Kurtosis偏度衡量分布不对称性。正态分布理论值为 0。偏度 0右偏长尾在右偏度 0左偏长尾在左。峰度衡量分布尾部厚度。正态分布理论值为 3。超额峰度 峰度 - 3正态分布为 0。超额峰度 0厚尾比正态更容易出现极端值 0薄尾。在实际应用中偏度接近 0、超额峰度接近 0 可作为正态性检验的辅助指标。知识点 4样本均值的抽样分布与多元中心极限定理CLT核心结论设 x1,…,xnx1​,…,xn​ 独立同分布于 Np(μ,Σ)Np​(μ,Σ)则样本均值 xˉ1n∑i1nxixˉn1​∑i1n​xi​ 服从xˉ∼Np(μ,1nΣ)xˉ∼Np​(μ,n1​Σ)关键推论样本均值的方差 总体方差 / nn。样本量越大样本均值越集中方差越小。多元中心极限定理即使总体不服从正态分布当 nn 足够大时xˉxˉ 仍近似服从上述正态分布。知识点 5QQ图分位数-分位数图用途直观检验数据是否来自某个理论分布如正态分布。判断标准若数据点大致落在一条直线上则说明数据与该理论分布吻合良好。本实验中用scipy.stats.probplot绘制 QQ 图。二、高频考点归纳考点类别具体内容考查形式概念辨析多元正态的三大性质偏度/峰度的理论值CLT 的含义样本均值方差与总体方差的关系。选择题、填空题、判断题计算推导给定 μμ 和 ΣΣ计算线性组合 YaTxYaTx 的均值和方差计算线性变换后的均值和协方差。计算题代码填空补全np.random.multivariate_normal、np.dot、np.linalg.eigh等函数的参数。机试/改错题实验分析根据直方图和 QQ 图判断正态性解释为何样本均值分布比总体分布更集中多中心极限定理的验证结论。论述题、分析题三、典型考试题目及参考答案题型一填空题概念题目设 x∼N3(μ,Σ)x∼N3​(μ,Σ)其中 μ(1,2,3)Tμ(1,2,3)TΣ[410130002]Σ​410​130​002​​。令 Yx1−2x2x3Yx1​−2x2​x3​则 E(Y)____E(Y)____Var(Y)____Var(Y)____。答案E(Y)1−430E(Y)1−430Var(Y)aTΣaVar(Y)aTΣa其中 a(1,−2,1)Ta(1,−2,1)T。计算Σa[410130002][1−21][4−21−62][2−52]Σa​410​130​002​​​1−21​​​4−21−62​​​2−52​​aT(Σa)1×2(−2)×(−5)1×2210214aT(Σa)1×2(−2)×(−5)1×2210214。答案E(Y)0E(Y)0Var(Y)14Var(Y)14。题型二简答题原理题目为什么样本均值的方差是总体方差的 1/n1/n请写出数学推导并说明实际意义。参考答案设 X1,…,XnX1​,…,Xn​ 独立同分布Var(Xi)σ2Var(Xi​)σ2Xˉ1n∑XiXˉn1​∑Xi​。Var(Xˉ)Var(1n∑Xi)1n2∑Var(Xi)1n2⋅nσ2σ2nVar(Xˉ)Var(n1​∑Xi​)n21​∑Var(Xi​)n21​⋅nσ2nσ2​实际意义增大样本量可以显著减小样本均值的波动使估计更精确。例如样本量从 30 增至 120方差缩小为原来的 1/4标准差缩小为原来的 1/2。这正是大样本理论的基础。题型三计算题线性变换题目设 x∼N2(μ,Σ)x∼N2​(μ,Σ)μ[12]μ[12​]Σ[4113]Σ[41​13​]。令 yAxbyAxb其中 A[1102]A[10​12​]b[1−1]b[1−1​]。(1) 求 yy 的均值和协方差矩阵(2) yy 服从什么分布参考答案(1) E(y)Aμb[1102][12][1−1][34][1−1][43]E(y)Aμb[10​12​][12​][1−1​][34​][1−1​][43​]。Cov(y)AΣAT[1102][4113][1012][5426][1012][98812]Cov(y)AΣAT[10​12​][41​13​][11​02​][52​46​][11​02​][98​812​]。(2) 由多元正态的线性变换不变性y∼N2([43],[98812])y∼N2​([43​],[98​812​])。题型四分析论述题实验结论题目在实验任务2中你观察到当样本量 n5n5 时和 n100n100 时样本均值分布有什么差异这验证了什么定理请用你自己的话概括。参考答案当 n5n5 时样本均值分布较宽方差较大与总体分布宽度差距不明显当 n100n100 时样本均值分布明显变窄方差很小数据高度集中在总体均值附近。这验证了多元中心极限定理随着样本量增大样本均值向量近似服从均值为 μμ、协方差为 Σ/nΣ/n 的多元正态分布且方差随 nn 增大而线性减小缩小为原来的 1/n1/n。四、代码考点与常见填空位置老师可能让你填写的函数参数和代码片段生成多元正态数据np.random.multivariate_normal(mu, Sigma, n_samples)计算线性组合np.dot(data, a)注意a的形状线性变换np.dot(data, A.T) b或data A.T b计算均值np.mean(data, axis0)理论均值np.dot(a, mu)或A mu b理论方差/协方差a Sigma a.T一维或A Sigma A.T多维绘制 QQ 图probplot(y, distnorm, plotplt)理论正态密度np.exp(-(x - mu)**2/(2*var)) / np.sqrt(2*np.pi*var)五、考前速记清单性质公式线性组合 YaTxYaTxE(Y)aTμE(Y)aTμVar(Y)aTΣaVar(Y)aTΣa线性变换 yAxbyAxbE(y)AμbE(y)AμbCov(y)AΣATCov(y)AΣAT样本均值分布xˉ∼Np(μ,Σ/n)xˉ∼Np​(μ,Σ/n)偏度正态0峰度正态3超额峰度 0CLT 核心大样本下样本均值近似正态方差缩小为 1/n1/n六、思考题参考答案思考题 1为什么样本均值的方差是总体方差的 1/n1/n推导见上文题型二。实际意义增大样本量可提高估计精度这是抽样调查和实验设计中确定样本量的理论基础。思考题 2n 从 5 到 100分布宽度缩小多少标准差缩小为原来的 5/1000.05≈0.2245/100​0.05​≈0.224 倍即约缩小为原来的 1/4.47。这与理论值 1/n1/n​ 一致。