线性回归背后的数学 线性回归数学题


线性回归背后的数学 线性回归数学题

文章插图
你可能听说过比萨斜塔的故事 。在建造过程中,塔开始逐渐向一边倾斜 。
假设吉诺( Gino),其中一位工程师,想预测塔的未来倾斜度 。他想知道倾斜度是否会增加,到明年会增加多少 。吉诺的唯一信息是下面的表格,其中包含了每年以十分之一毫米为单位的倾斜度 。
为了更好地分析这些数据,吉诺绘制了以下散点图 。
  • 图1:散点图
散点图以图形方式直观地显示了两个定量变量之间的关系 。有时一个变量取决于另一个变量 。在这种情况下,自变量被放在横轴上,因变量被放在纵轴上 。对于比萨斜塔,倾斜度取决于年份 。因此,年份被放在横轴上,倾斜度被放在纵轴上 。
吉诺注意到,在看图时,这些数据点似乎在一条具有正斜率的直线上 。
当一组数据点呈上升趋势时的时候,变量之间呈正相关 。当一组数据点呈下降趋势时,变量之间呈负相关 。另外,如果数据点基本在一条直线或某条曲线上,那么变量之间就是强相关 。如果数据点不明显地在一条直线或某条曲线上,那么变量之间就是弱相关(见图2.a) 。也有可能根本就没有任何相关性(见图2.b) 。
  • 图2:弱相关和无相关
吉诺的目标是用他的图(见图1)来预测塔的未来倾斜度 。他可以通过计算最适合给定数据点的直线的函数来做到这一点 。换句话说,他可以用线性回归技术来实现 。
相关系数在谈论线性回归之前,我首先想谈谈相关系数r 。它不仅可以告诉我们是否值得做线性回归 。它在线性回归本身也起着非常重要的作用 。
相关系数r显示了一个线性关系的强度和方向(正或负) 。当两个变量之间存在正向相关时,r为正 。当变量之间的关系为负相关时,r也为负数 。如果数据点正好描述了一条直线,r等于1或-1 。当完全没有相关关系时,r将等于零 。如果某组数据点的相关系数相当低(0.5>r>-0.5),那么线性回归可能不会给我们带来非常可信的结果 。只有当r高于0.5或低于-0.5时才值得做线性回归 。
为了计算r,我们可以使用皮尔逊公式(Pearson’s formula):
在这个公式中,n是数据点的数量,x_i是数据点i的x坐标,x?(x上有一横,如果没有显示)是所有x坐标的平均值,y_i是数据点i的y坐标,?(y上有一横)是所有y坐标的平均值,s_x是所有x坐标的标准差和s_y是所有y坐标的标准差 。标准差计算公式为:
基本上,数据点沿x轴/y轴越分散,s_x/s_y越大 。
顺便提一下,皮尔逊公式有很多形式,但对于一组给定的点,公式的输出应该总是相同的 。
皮尔逊公式背后的逻辑虽然皮尔逊公式一开始可能有点让人不知所措,但它背后的逻辑并不难 。比方说,给定一组数据点,我们进行某种计算,如果数据点描述的是正斜率,就得出一个正值,如果是负斜率,就得出一个负值 。为了做到这一点,我们可以将点集分成四个区域(象限),用所有x值的平均值(x=x?)和所有y值的平均值(y=?)来划分象限 。
  • 图3:带有象限的散点图
当点之间存在正相关关系时(点的集合是上升的),大部分的点将在象限I和III 。在负相关的情况下,大部分的点会在第二象限和第四象限 。知道了这一点,我们可以给第一象限或第三象限的每个点分配一个正值(+1),给第二象限或第四象限的每个点分配一个负值(-1) 。然后,所有这些正负值的总和将在正相关时给我们一个正的结果,在负相关时给我们一个负的结果 。


以上关于本文的内容,仅作参考!温馨提示:如遇健康、疾病相关的问题,请您及时就医或请专业人士给予相关指导!

「四川龙网」www.sichuanlong.com小编还为您精选了以下内容,希望对您有所帮助: