第三節(jié) 直線回歸方程
作者:徐榮祥 出版社:中國科學(xué)技術(shù)出版社 發(fā)行日期:2009年7月
一、直線回歸方程的概念
所謂回歸,是說當一種觀象(y)受另一種現(xiàn)象(x)的影響,致使(y)隨著現(xiàn)象(x)的變動而有規(guī)律的變動時,這種協(xié)同變異的關(guān)系在統(tǒng)計學(xué)中稱之為回歸。回歸分析是當研究兩種事物間的相互關(guān)系時,描述其中一種事物依存另一種事物變動的規(guī)律。其表達式為:
式中y為估計值;α為常數(shù),也稱為截距,即當x等于零時在回歸直線軸上的交點;b為回歸系數(shù),它是回歸直線的斜率,其意義是每當x變動一個單位,則y隨之變動b個單位。
直線回歸分析的目的是求出一條能確切反映本資料的回歸變動規(guī)律的直線方程式,以通過此式由x值估計y值。一般要求回歸方程能滿足下述條件:即從回歸方程推算出的y值與實際y值之差的平方和[∑(y-y)]2是最小值。確立直線回歸方程式的關(guān)鍵是求出回歸系數(shù)b和截距α,它們的計算公式為:
二、求直線回歸方程的基本方法
(一)小樣本的計算方法
當原始數(shù)據(jù)不多(n<40)時,可直接按實測數(shù)據(jù)X、Y,求∑X、∑Χ2、∑Y、∑Y2及∑XY。代入下列公式(396)、(397) 、(398) 、(399),求α、b和直線回歸方程。
式中Ixx=∑(x-x)(y-y)(離均差積和)
Ixx=∑(x-X)2(離均差平方和)
示例393某研究人員觀察胃腸營養(yǎng)膠囊的營養(yǎng)價值,用大白鼠做試驗,對每只大白鼠在觀察期間胃腸營養(yǎng)膠囊的用量(g)和體重增加量(g)匯入表(394)中,根據(jù)原始資料試作直線回歸分析。
【解題步驟】
1先列出直線回歸分析計算表,求基礎(chǔ)數(shù)值(表395):
2根據(jù)表395中的基礎(chǔ)數(shù)值計算x、y的均數(shù)(x、y)、離均差平方和(Ixx、Iyy)、離均差積和(Ixy)。
3根據(jù)公式(396)、(397) 、(398),求b、α和回歸方程。
4按求得的直線回歸方程,在X值范圍內(nèi)任意取兩點(x1y1),(x22),相連即得回歸直線。
(二)大樣本的求法
當原始資料比較多時,接小樣本處理公式計算其工作量相當?shù)拇?,可按直線相關(guān)系數(shù)的簡捷方法先繪制雙變量頻數(shù)表,然后再根據(jù)表中的基礎(chǔ)數(shù)值分別計算x、y的均數(shù)(x、y)、離均差平方和(Ixx、Iyy)、離均差積和(Ixy)?,F(xiàn)以示例392為例,試用簡捷方法計算回歸方程。
示例392樣本數(shù)n=40,組距ix=02,組距iy=10,(∑fxdx)=43,∑fxd2x=139,∑fYdY=-3,∑fyd2y=79,∑fdXdY=39。
【解題步驟】
1計算均數(shù):本例假定均數(shù)(取組中值,x0為“~20”組的組中值)。
2離均差的平方和:
3離均差積和:
4按公式(396),求回歸系數(shù)b:
直線回歸方程:=2932+2276x
答:其直線回歸方程為=2932+2276x。
三、回歸系數(shù)的顯著性檢驗
回歸系數(shù)顯著性檢驗的意義與相關(guān)系數(shù)的顯著性檢驗的意義相同,其回歸系數(shù)(b)也是因抽樣研究得來的,即使嚴格按隨機抽樣,回歸系數(shù)也存在抽樣誤差的問題,也應(yīng)進行顯著性檢驗。當y變量服從正態(tài)分布時,回歸系數(shù)的顯著性檢驗可以用t檢驗,也可以用方差分析方法求得。本節(jié)僅介紹t檢驗方法。
用t檢驗方法檢驗回歸系數(shù)(b)是否顯著,先根據(jù)以下公式分別計算sy、x和回歸系數(shù)的標準誤(sb),然后計算t值。其公式分別為 (3910)、(3911) 、(3912):
當求得t值后,根據(jù)自由度(n-2)查t值表,主要目的是與P=005相當?shù)呐R界值[t(n′)005]進行比較。如果求得的t值< t(n′)005,則P>005,回歸系數(shù)無顯著意義;相反,如果求得的t值> t(n′)005,則P<005,回歸系數(shù)有顯著意義;如果求得的t值> t(n′)001,則P<001,回歸系數(shù)有非常顯著意義。
現(xiàn)以例393為例,檢驗其回歸系數(shù)有無顯著意義。
因為已知Iyy=42341, Ixx=759064, Ixy=168432,n=10, b=02219,將以上數(shù)據(jù)分別代入公式(3910)、(3911)、(3912),得:
查t界值表(附表4):n′=8(10-2)時,t(8)001=3355。本例t=77587,p<001, 回歸系數(shù)有非常顯著意義。
四、相關(guān)和回歸分析應(yīng)注意的事項
1 明確相關(guān)與回歸分析的實質(zhì)內(nèi)容
相關(guān)系數(shù)說明兩變量間關(guān)系的密切程度,回歸方程說明兩變量間的數(shù)量關(guān)系,兩者說明的問題不同,之間有相關(guān)關(guān)系。因此,如果回歸系數(shù)顯著性檢驗有顯著性的話,相關(guān)系數(shù)也一定是顯著的,反之亦然。
2正確理解相關(guān)分析的作用
相關(guān)分析只是以相關(guān)系數(shù)來描述兩個變量間相互關(guān)系的密切程度和方向,并不能闡明兩事物或現(xiàn)象間存在聯(lián)系的本質(zhì)。而且相關(guān)并不一定就是因果關(guān)系,切不可單純依靠相關(guān)系數(shù)或回歸系數(shù)的顯著性證明因果關(guān)系之存在。要證明兩事物間的因果關(guān)系,必須憑藉專業(yè)知識從理論上加以闡明。但是,當事物間的因果關(guān)系未被認識前,相關(guān)分析可為理論研究提供線索。
3不要把毫無關(guān)聯(lián)的兩個事物或現(xiàn)象用來作相關(guān)或回歸分析,否則是沒有意義的。另外,相關(guān)分析只說明相關(guān)。
4不要把相關(guān)顯著性大小誤解為相關(guān)程度的大小。相關(guān)系數(shù)是說明兩事物間密切程度的, r的絕對值越接近于1,相關(guān)越密切;越接近0,則相關(guān)程度越松散。相關(guān)系數(shù)的顯著性檢驗是說明由抽樣誤差引起這樣大的r值的可能性有多大。P>005說明由抽樣誤差引起這樣大的r值的可能性大于5%,因此而不排除它抽自于無相關(guān)的總體。只有P≤005, r才有意義。
5在回歸分析中,由x推算y或由y推算x ,其回歸方程不同,不能混用。推算公式如下:
6相關(guān)與回歸的區(qū)別和聯(lián)系
相關(guān)表示兩變量間的相互關(guān)系是雙方向的。而回歸則表示y隨x而變化,這種關(guān)系是單方向的。醫(yī)學(xué)資料中的有些資料用相關(guān)表示較適宜,比如兄弟與姐妹間的身長關(guān)系、人的身長與前臂長之間的關(guān)系等資料。但有些資料用相關(guān)和回歸都不適宜,此時須視研究需要而定。就一般計算程序來說,是先求出相關(guān)系數(shù)r并對其進行假設(shè)檢驗,如果r顯著并有進行回歸分析之必要,再建立回歸方程。
7適合作相關(guān)和回歸分析的資料通常有兩種資料
(1)一個變量x是選定的,另一個變量y是從正態(tài)分布的總體中隨機抽取的,宜作回歸分析。
(2)兩變量x、y(或x1、x2)都是從正態(tài)分布的總體中隨機抽取的,即是正態(tài)雙變量中的隨機樣本。這時,若需要由一個變量推算另一個變量可作回歸分析;若只需說明兩變量間的相互關(guān)系可作相關(guān)分析。如果變量(一個或兩個)呈明顯偏態(tài)時,須經(jīng)過適當?shù)淖兞看鷵Q(如對數(shù)代換等),使資料接受正態(tài)分布后再做相關(guān)與回歸分析,或者采用秩相關(guān)法。