正态分布和线性回归

正态分布和线性回归
正态分布和线性回归如此两个概念是统计学和机器学习中最基础、最重要的基石。本文作者为了让你轻松理解我们抛开复杂的公式用最通俗的语言和生活中的例子来拆解。一、 什么是正态分布现实世界的“默认设定”通俗解释正态分布也叫高斯分布就是数据在自然界中呈现出的**“中间多、两头少”**的规律。它的形状像一口倒扣的钟或者一座对称的山丘。生活中的例子人类身高如果你去测量 1000 个成年男性的身高你会发现大部分人的身高都在 170cm 左右山丘的最高点也就是平均值特别矮比如 150cm 以下和特别高比如 190cm 以上的人非常少山丘的两端。考试成绩大多数人的成绩集中在平均分附近考满分和考零分的人都是极少数。核心特征对称性以平均值为中心左右两边完全对称。均值决定位置平均值在哪山丘的中心就在哪。标准差决定胖瘦标准差小山丘就“瘦高”大家的数据都很集中标准差大山丘就“矮胖”大家的数据很分散。二、 正态分布跟线性回归有什么关系线性回归的核心目标是画一条最完美的直线来预测两个变量之间的关系。比如根据“复习时间”来预测“考试分数”。正态分布和线性回归的关系可以总结为以下三点1. 预测的“误差”必须是正态分布的最核心的关系当我们用一条直线去拟合数据时现实中的数据点不可能 100% 完美地落在直线上。每个真实数据点到直线的垂直距离就是**“误差残差”**。通俗解释假设你根据复习时间预测分数。有人复习了 5 小时你预测他能考 80 分。但他可能因为昨晚没睡好考了 75 分另一个人可能因为超常发挥考了 85 分。线性回归有一个基本假设这些预测的“误差”偏高或偏低的部分在整体上是符合正态分布的。也就是说大部分人的实际分数会围绕预测线上下波动偏差特别大的人极少。如果误差不是正态分布说明你的直线画得不对或者漏掉了某些重要因素。2. 寻找“最佳直线”的方法本质是在找正态分布的“山顶”我们怎么确定哪条直线是“最完美”的在数学上我们使用最大似然估计MLE。通俗地说就是寻找一条直线使得“我们观察到的这些数据发生的概率最大”。通俗解释既然我们假设误差是正态分布的那么数据点越靠近直线发生的概率就越大越靠近钟形曲线的山顶。所以线性回归寻找最佳直线的过程本质上就是在寻找一个正态分布的中心点山顶让所有的数据点离这个山顶尽可能近。3. 统计检验的“通行证”当我们用线性回归得出结论比如“复习时间每增加 1 小时分数就提高 5 分”时我们需要证明这个结论是靠谱的而不是瞎猫碰上死耗子。这时候我们需要计算 P值、置信区间等统计指标。而这些指标的计算公式全都是建立在“数据或误差符合正态分布”这个假设之上的。如果数据严重偏离正态分布这些检验结果就会失效。三、 一句话总结正态分布是大自然中数据波动的“默认规律”中间多两头少。线性回归是在寻找数据之间最合理的直线关系。它们的关系线性回归假设现实数据与预测直线之间的**“误差”是符合正态分布的**。只有在这个假设成立的前提下线性回归画出的直线才是最科学的得出的结论才是可靠的。