第三節(jié) 直線回歸方程

作者:徐榮祥 出版社:中國科學(xué)技術(shù)出版社 發(fā)行日期:2009年7月

一、直線回歸方程的概念
所謂回歸,是說當(dāng)一種觀象(y)受另一種現(xiàn)象(x)的影響,致使(y)隨著現(xiàn)象(x)的變動(dòng)而有規(guī)律的變動(dòng)時(shí),這種協(xié)同變異的關(guān)系在統(tǒng)計(jì)學(xué)中稱之為回歸?;貧w分析是當(dāng)研究兩種事物間的相互關(guān)系時(shí),描述其中一種事物依存另一種事物變動(dòng)的規(guī)律。其表達(dá)式為:


式中y為估計(jì)值;α為常數(shù),也稱為截距,即當(dāng)x等于零時(shí)在回歸直線軸上的交點(diǎn);b為回歸系數(shù),它是回歸直線的斜率,其意義是每當(dāng)x變動(dòng)一個(gè)單位,則y隨之變動(dòng)b個(gè)單位。
直線回歸分析的目的是求出一條能確切反映本資料的回歸變動(dòng)規(guī)律的直線方程式,以通過此式由x值估計(jì)y值。一般要求回歸方程能滿足下述條件:即從回歸方程推算出的y值與實(shí)際y值之差的平方和[∑(y-y)]2是最小值。確立直線回歸方程式的關(guān)鍵是求出回歸系數(shù)b和截距α,它們的計(jì)算公式為:
二、求直線回歸方程的基本方法
(一)小樣本的計(jì)算方法
當(dāng)原始數(shù)據(jù)不多(n<40)時(shí),可直接按實(shí)測數(shù)據(jù)X、Y,求∑X、∑Χ2、∑Y、∑Y2及∑XY。代入下列公式(396)、(397) 、(398) 、(399),求α、b和直線回歸方程。

式中Ixx=∑(x-x)(y-y)(離均差積和)
Ixx=∑(x-X)2(離均差平方和)

示例393某研究人員觀察胃腸營養(yǎng)膠囊的營養(yǎng)價(jià)值,用大白鼠做試驗(yàn),對(duì)每只大白鼠在觀察期間胃腸營養(yǎng)膠囊的用量(g)和體重增加量(g)匯入表(394)中,根據(jù)原始資料試作直線回歸分析。

【解題步驟】
1先列出直線回歸分析計(jì)算表,求基礎(chǔ)數(shù)值(表395):

2根據(jù)表395中的基礎(chǔ)數(shù)值計(jì)算x、y的均數(shù)(x、y)、離均差平方和(Ixx、Iyy)、離均差積和(Ixy)。

3根據(jù)公式(396)、(397) 、(398),求b、α和回歸方程。

4按求得的直線回歸方程,在X值范圍內(nèi)任意取兩點(diǎn)(x1y1),(x22),相連即得回歸直線。
(二)大樣本的求法
當(dāng)原始資料比較多時(shí),接小樣本處理公式計(jì)算其工作量相當(dāng)?shù)拇螅砂粗本€相關(guān)系數(shù)的簡捷方法先繪制雙變量頻數(shù)表,然后再根據(jù)表中的基礎(chǔ)數(shù)值分別計(jì)算x、y的均數(shù)(x、y)、離均差平方和(Ixx、Iyy)、離均差積和(Ixy)?,F(xiàn)以示例392為例,試用簡捷方法計(jì)算回歸方程。

示例392樣本數(shù)n=40,組距ix=02,組距iy=10,(∑fxdx)=43,∑fxd2x=139,∑fYdY=-3,∑fyd2y=79,∑fdXdY=39。
【解題步驟】
1計(jì)算均數(shù):本例假定均數(shù)(取組中值,x0為“~20”組的組中值)。

2離均差的平方和:

3離均差積和:

4按公式(396),求回歸系數(shù)b:

直線回歸方程:=2932+2276x
答:其直線回歸方程為=2932+2276x。
三、回歸系數(shù)的顯著性檢驗(yàn)
回歸系數(shù)顯著性檢驗(yàn)的意義與相關(guān)系數(shù)的顯著性檢驗(yàn)的意義相同,其回歸系數(shù)(b)也是因抽樣研究得來的,即使嚴(yán)格按隨機(jī)抽樣,回歸系數(shù)也存在抽樣誤差的問題,也應(yīng)進(jìn)行顯著性檢驗(yàn)。當(dāng)y變量服從正態(tài)分布時(shí),回歸系數(shù)的顯著性檢驗(yàn)可以用t檢驗(yàn),也可以用方差分析方法求得。本節(jié)僅介紹t檢驗(yàn)方法。
用t檢驗(yàn)方法檢驗(yàn)回歸系數(shù)(b)是否顯著,先根據(jù)以下公式分別計(jì)算sy、x和回歸系數(shù)的標(biāo)準(zhǔn)誤(sb),然后計(jì)算t值。其公式分別為 (3910)、(3911) 、(3912):

當(dāng)求得t值后,根據(jù)自由度(n-2)查t值表,主要目的是與P=005相當(dāng)?shù)呐R界值[t(n′)005]進(jìn)行比較。如果求得的t值< t(n′)005,則P>005,回歸系數(shù)無顯著意義;相反,如果求得的t值> t(n′)005,則P<005,回歸系數(shù)有顯著意義;如果求得的t值> t(n′)001,則P<001,回歸系數(shù)有非常顯著意義。
現(xiàn)以例393為例,檢驗(yàn)其回歸系數(shù)有無顯著意義。
因?yàn)橐阎狪yy=42341,  Ixx=759064,  Ixy=168432,n=10, b=02219,將以上數(shù)據(jù)分別代入公式(3910)、(3911)、(3912),得:

查t界值表(附表4):n′=8(10-2)時(shí),t(8)001=3355。本例t=77587,p<001, 回歸系數(shù)有非常顯著意義。
四、相關(guān)和回歸分析應(yīng)注意的事項(xiàng)
1 明確相關(guān)與回歸分析的實(shí)質(zhì)內(nèi)容
相關(guān)系數(shù)說明兩變量間關(guān)系的密切程度,回歸方程說明兩變量間的數(shù)量關(guān)系,兩者說明的問題不同,之間有相關(guān)關(guān)系。因此,如果回歸系數(shù)顯著性檢驗(yàn)有顯著性的話,相關(guān)系數(shù)也一定是顯著的,反之亦然。
2正確理解相關(guān)分析的作用
相關(guān)分析只是以相關(guān)系數(shù)來描述兩個(gè)變量間相互關(guān)系的密切程度和方向,并不能闡明兩事物或現(xiàn)象間存在聯(lián)系的本質(zhì)。而且相關(guān)并不一定就是因果關(guān)系,切不可單純依靠相關(guān)系數(shù)或回歸系數(shù)的顯著性證明因果關(guān)系之存在。要證明兩事物間的因果關(guān)系,必須憑藉專業(yè)知識(shí)從理論上加以闡明。但是,當(dāng)事物間的因果關(guān)系未被認(rèn)識(shí)前,相關(guān)分析可為理論研究提供線索。
3不要把毫無關(guān)聯(lián)的兩個(gè)事物或現(xiàn)象用來作相關(guān)或回歸分析,否則是沒有意義的。另外,相關(guān)分析只說明相關(guān)。
4不要把相關(guān)顯著性大小誤解為相關(guān)程度的大小。相關(guān)系數(shù)是說明兩事物間密切程度的, r的絕對(duì)值越接近于1,相關(guān)越密切;越接近0,則相關(guān)程度越松散。相關(guān)系數(shù)的顯著性檢驗(yàn)是說明由抽樣誤差引起這樣大的r值的可能性有多大。P>005說明由抽樣誤差引起這樣大的r值的可能性大于5%,因此而不排除它抽自于無相關(guān)的總體。只有P≤005, r才有意義。
5在回歸分析中,由x推算y或由y推算x ,其回歸方程不同,不能混用。推算公式如下:

6相關(guān)與回歸的區(qū)別和聯(lián)系
相關(guān)表示兩變量間的相互關(guān)系是雙方向的。而回歸則表示y隨x而變化,這種關(guān)系是單方向的。醫(yī)學(xué)資料中的有些資料用相關(guān)表示較適宜,比如兄弟與姐妹間的身長關(guān)系、人的身長與前臂長之間的關(guān)系等資料。但有些資料用相關(guān)和回歸都不適宜,此時(shí)須視研究需要而定。就一般計(jì)算程序來說,是先求出相關(guān)系數(shù)r并對(duì)其進(jìn)行假設(shè)檢驗(yàn),如果r顯著并有進(jìn)行回歸分析之必要,再建立回歸方程。
7適合作相關(guān)和回歸分析的資料通常有兩種資料
(1)一個(gè)變量x是選定的,另一個(gè)變量y是從正態(tài)分布的總體中隨機(jī)抽取的,宜作回歸分析。
(2)兩變量x、y(或x1、x2)都是從正態(tài)分布的總體中隨機(jī)抽取的,即是正態(tài)雙變量中的隨機(jī)樣本。這時(shí),若需要由一個(gè)變量推算另一個(gè)變量可作回歸分析;若只需說明兩變量間的相互關(guān)系可作相關(guān)分析。如果變量(一個(gè)或兩個(gè))呈明顯偏態(tài)時(shí),須經(jīng)過適當(dāng)?shù)淖兞看鷵Q(如對(duì)數(shù)代換等),使資料接受正態(tài)分布后再做相關(guān)與回歸分析,或者采用秩相關(guān)法。