万维百科粤语版

迴歸分析

Jump to search
幅圖嘅兩條軸分別代表研究緊嗰兩個變數(x 同 y),每一個紅點代表一個個案,每個個案都喺兩個變數上各有個值。用迴歸分析可以估計出條線(綠線同藍線都係可行嘅線)並且知道,呢兩個變數大致上成正比關係,而呢條線跟住就可以攞嚟做預測。

迴歸分析粵拼wui4 gwai1 fan1 sik1英文regression analysis)係統計模型上嘅一類技術,用嚟預測兩個或者以上唔同變數之間嘅關係:喺統計學上,研究者好多時會想用一個變數嘅數值嚟預測第啲變數嘅數值;喺最簡單嗰種情況下,個統計模型會涉及兩個連續性(continuous)嘅變數[1],當中一個係自變數(independent variable;IV),另一個係應變數(dependent variable;DV),而個研究者會用個 IV 嘅數值嚟預測個 DV 嘅數值;對個研究者嚟講,一個可能嘅做法係搜集數據返嚟,用啲數據做迴歸分析,整一個模型出嚟,個模型就能夠幫佢預測「當 IV 係呢個數值嗰陣,假設第啲因素不變,個 DV 嘅數值會傾向係幾多」[2][3]

舉個簡單嘅例子說明,想像家吓有個研究者,佢想用「一個人嘅食量」嚟預測「嗰個人嘅體重」,佢可以搵班人返嚟做樣本,量度樣本入面每一個人嘅食量同體重,再根據呢啲數據,用迴歸分析方法估計一條出嚟,條線係一個統計模型,會有一條式表達兩個變數之間嘅關係,好似係噉樣[4]

;呢個係所謂嘅迴歸函數(regression function),當中 誤差(error)。

以上呢條線表示,體重()同食量()-假設兩個變數都有適當嘅單位量度-大致上成簡單嘅正比關係,而有咗呢條線,如果個研究者知道某一個人嘅食量係(例如)100 個單位,佢可以按照呢條式估計出,假設第啲因素不變,嗰個人嘅體重好有可能會接近 80 個單位噉多,而呢個模型喺醫療上會有用。呢種用兩個變數做、估計出線性(linear)關係嘅係最簡單嗰種線性迴歸分析(linear regression analysis),除咗噉,統計學上仲有一啲更加複雜嘅迴歸分析方法,可以攞嚟估計三個或者更多個變數之間嘅關係,又或者係分析一啲非線性嘅關係[2][5]

要留意嘅係,迴歸分析所俾出嚟嘅結果係唔完美嘅條件期望(conditional expectation)。噉講即係話,呢種分析法能夠俾出嘅結果係「當 IV 係呢個數值,DV 嘅數值大概會係幾多」[6]:迴歸分析方法常見於生物學心理學、同社會科學等研究複雜(complex)現象嘅領域,喺複雜現象當中,一個因素嘅值會受千百個因素嘅值影響-相比之下,喺(例如)物理學當中,一個 DV 嘅值好多時可以靠三至四個 IV 嘅值嚟預測[2];喺生物學等嘅領域當中,研究者冇可能完全知道同控制嗮嗰千百個因素,所以衹能夠靠住手頭上嘅 IV 嚟估計 DV 嘅數值,如果個 IV 嘅預測力夠勁,用佢預測 DV 數值嘅準確度會高,但準確度都仲係會明顯低過 100% [7][8]。呢句嘢用統計學行話嚟講嘅話,即係 DV 嘅數值會喺個迴歸函數周圍有個概率分佈(probability distribution)[2][9][10]

基本假設

迴歸分析做咗以下嘅假設[2][11]

  • 個樣本能夠代表所研究緊嘅總體(population);
  • 誤差值 係一個隨機嘅變數,平均值係 0;
  • 量度 IV 嘅過程當中並冇誤差;
  • IV 之間具有線性獨立性(linear independence),即係話並冇任何一個 IV 等如第啲 IV 嘅線性組合(linear combination);
  • 誤差值之間並冇任何嘅相關
  • 對唔同個案嘅觀察當中嘅誤差值嘅變異數係一樣嘅(即係所謂嘅等分散性;homoscedasticity)。

衹要手頭上嘅數據達到呢啲假設,迴歸分析所俾嘅參數值估計就會係有效率同冇偏見嘅。但係喺現實世界當中,得到嘅數據好少可能夠達到嗮呢啲假設,所以啲研究者好多時就算手上嘅數據唔完全達到嗮呢啲假設,都照樣用迴歸分析做估計;而當啲人評鑑一份噉嘅研究嗰陣,通常會以「呢個研究者手上嘅數據有幾滿足到迴歸分析嘅假設」嚟判定「呢個迴歸分析俾嘅結果有幾有用」-份研究嘅數據愈滿足到柞假設,當中嗰個迴歸分析所俾嘅結果就愈有可能正確[12]

統計模型

一個非線性迴歸模型嘅圖解;條線係個迴歸模型。

基本模型

一個迴歸模型會有以下三類主要參數同變數[2]

  • ,包括咗一啲未知、需要靠迴歸分析嚟估計(estimate)嘅參數,喺實際應用上,柞參數可以用一個向量嚟代表;
  • 指柞 IV,用嚟預測 DV 數值嘅變數;
  • 指個 DV,個迴歸模型要預測嗰個變數;

一個迴歸模型會表達出 之間嘅關係。一般嚟講,個研究者會想搵出 以及 成嘅函數嘅關係,即係話喺做迴歸分析嗰陣,個研究者預咗: