万维百科粤语版

統計學

跳去導覽 跳去搵嘢
統計成日用嘅常態分佈;幅圖 X 軸表示變數 嘅數值,而 Y 軸表示嗰個 數值喺樣本入面出現嘅機會率
藍色點代表數據庫當中嘅個體,每個個體都喺 上有個值,條紅色線係一個迴歸模型,用條線同已知嘅 值嚟預測 嘅值會俾到大致上啱,但唔完全準嘅預測。

統計學粵拼tung2 gai3 hok6英文statistics)係數學嘅一個子領域[1],專門研究點樣喺各個科學領域當中搜集、分析、演繹同埋呈現數據[2]。喺用統計方法嚟研究啲乜嗰陣,個科學家會跟以下嘅步驟(睇埋科學方法):先講明佢研究緊乜嘢變數(variable;指一個形容緊某啲嘢嘅數字);跟手就搵一個特定嘅總體(population;指一柞有某啲共通點所以俾人擺埋一齊研究嘅個體)嚟研究;由呢個總體嗰度抽個樣本(sample)出嚟[3];喺個樣本度收集數據,睇吓個樣本入面每一個個體喺啲變數嗰度嘅數值係幾多[4][5];用某啲統計分析(statistical analysis)方法嚟去搵出柞變數之間有乜嘢關係[6][7]

例如有個生物學家想研究吓獵食行為同佢哋身處地方嘅氣候之間有冇拏褦。喺呢份研究入面,佢研究緊嘅變數包含咗喺「啲狼嘅獵食行為」(應變數)同「啲狼身處嘅地方嘅氣候」(自變數);佢會將成個世界嘅狼擺埋一齊研究(「全世界嘅狼」就係佢個研究嘅總體);但世上咁多隻狼,要攞嗮佢哋嚟觀察嘥時間得滯,所以佢就用隨機抽樣(random sampling)-隨機噉由全世界嘅狼嗰度抽(例如)100 隻出嚟研究;跟住佢就要向個樣本收集數據,用各種嘅方法去量度樣本入面每一隻狼(一隻狼為止一個個體)嘅獵食行為(好似係隻狼每日用幾多個鐘頭獵食、食咗幾多公斤嘅肉呀噉)同埋佢身處地方嘅氣候(好似係嗰個地區落雨落得有幾密同平均氣溫等等);攞完數據之後,研究者就要用各種統計分析嚟計吓柞變數之間有乜拏褦。

同樣嘅做法喺物理科學社會科學嗰度都會用到[1]。因為統計學廣泛嘅應用價值,統計學知識經已成為咗現代科學研究上走唔甩嘅一個部份,大學科學學科嘅本科課程基本上冚唪唥都會教統計學嘅嘢[8][9]

基礎

黑天鵝成日俾人攞嚟做科學方法思路嘅例子-「就算之前見過嘅天鵝都係白色,都唔表示跟住見到嘅天鵝都 100% 會係白色」。
睇埋:科學同埋數學

科學方法

內文:科學方法

科學哲學(philosophy of science)係科學嘅基礎,簡單講就係指科學家對於「科學係乜同埋應該點搞」嘅睇法。科學哲學嘅基礎係科學方法(scientific method),意思即係話科學研究涉及用以下嘅步驟嚟理解宇宙當中可以觀察嘅事物,嘗試預測未來嘅現象[10][11]

  1. 根據手上已知係真嘅事實,諗一啲理論出嚟(「基於我哋經已觀察到嘅呢啲現象,我推測啲現象背後嘅物理法則係噉噉噉,令物質能量有呢啲行為」),呢啲理論最理想係用數學模型嘅方式表達嘅;
  2. 跟手就靠邏輯性嘅思考,去諗吓呢柞理論會做點樣嘅預測(「如果我提倡嘅呢個理論係真確嘅,理應會...」);
  3. 然後就做實驗觀察嚟攞數據,驗證吓個理論嘅預測係咪真確(「如果我呢個理論係真確,呢個實驗理應會得出某個某個結果,而個實際嘅實驗結果係...」);
  4. 如果數據顯示,個理論係做唔到準確嘅預測嘅話,就要一係根據攞到嘅數據睇吓個理論要點改先可以令佢做到準確啲嘅預測,一係就要諗新理論取代舊理論[12]

上述嘅過程會係噉不斷重複,直至手上嘅理論做得到完全準確嘅預測為止-於是乎科學就有持續嘅發展,做到愈嚟愈準確嘅預測。到咗現代,科學上經已有龐大嘅理論體系,按所研究嘅現象分做物理學(用科學方法研究宇宙基本定律)、生物學(用科學方法研究生命)、心理學(用科學方法研究人嘅行為)同社會科學(用科學方法研究社會)等多個領域,每個領域都有諗出用嚟描述同預測自己所研究嘅現象嘅理論,而一啲重要嘅理論(例如係進化論)往往俾科學家用實驗同觀察驗證過上百次-非常經得起考驗,所以學界一般認為呢啲理論係有返咁上下正確嘅模型(approximately accurate models)-能夠充分噉描述現實。除此之外,科學家仲會不斷噉去搵新嘅現象研究,睇吓呢啲理論能唔能夠解釋新現象,又或者使唔使諗新嘅理論,令科學知識得以不斷發展[13][14]

推論問題

睇埋:歸納不確定性同埋概率論

歸納(inductive reasoning)係科學家嘅基本諗嘢方法,指由啲個別嘅事例嗰度去推斷出一啲普遍原理。响歸納性質嘅論證入面,前提嘅真確性冇辦法保證到結論嘅真確性,只係可以靠住大量嘅事例嚟提升個論證嘅強度,好似係以下呢個論證噉[15]

前提:我之前見過嘅天鵝都係白色嘅:
結論:呢個世界上所有天鵝都係白色嘅。

呢個係一個典型嘅歸納論證:就算個前提係真,都保證唔到個結論係真-前提入面嗰個「我」並冇見過嗮世界上所有嘅天鵝,而事實係世界上有黑天鵝,個觀察者會噉諗只不過係因為佢咁啱未見過黑天鵝;如果個觀察者想佢個論證強啲嘅話,佢就一啲要去見多啲天鵝:如果佢睇勻嗮全歐洲嘅天鵝,呢個論證嘅說服力會比較強;相反,如果佢淨係見過英國嘅天鵝,噉呢個論證嘅說服力會渣好多。科學家都係跟住呢種諗嘢方式搞科學:喺驗證「萬有引力係真嘅」呢句說話嗰陣,牛頓觀察到一個蘋果由樹上面跌落嚟,佢亦都觀察到好多嘢都係跟呢條規則,但佢始終冇辦法去真係「證明」呢個宇宙入面真係所有嘢都有萬有引力-因為可能喺宇宙嘅某啲黑暗角落度會有啲冇引力嘅嘢,只係人類仲未搵到。科學家靠嘅係實驗同觀察,佢哋冇辦法好似數學家噉真係證明佢哋講嘅嘢,只可以靠住重複做實驗同觀察嚟加強自己嘅論證,但始終係冇方法排除一個可能性:呢個宇宙入面可能真係有啲嘢係唔跟佢哋諗出嚟嗰啲定律嘅,只係佢哋未搵到呢啲嘢[16]

就係因為噉,喺正式嘅科學論文入面,科學家好少可會話自己「證明」咗乜嘢乜嘢理論,只係會話「觀察同實驗嘅證據結果撐嗰個理論」,而且佢哋仲會好積極噉去搵新數據,睇吓呢啲佢哋之前未見過嘅數據會唔會推翻舊嘅理論。如果會嘅話,佢哋就會開始諗新理論,或者睇吓點樣將舊嗰個理論改吓等個理論可以同新數據夾得埋[17]

想像 表示宇宙入面一切嘅現象, 表示人類觀察得到嘅現象,而 表示宇宙當中人類觀察唔到嘅現象。原則上, 永遠會細過 一大截,所以難保 裏面唔會有啲「唔跟從人類嘅科學定律,但人類唔知佢哋存在」嘅事物。

定位

統計學就係為咗思考「點樣由手上數據(data)推導出普遍知識」而生嘅數學子領域:無論係邊個科學領域,科學家做嘅都係「由手上睇到嘅現象(樣本嘅數據)嗰度嘗試推導出能夠廣泛噉描述同類現嘅理論」,呢種做法本質上就有不確定性(uncertainty)-難以保證個樣本實係代表到個總體,例如研究者想研究體重,因為人力物力嘅限制,佢冇可能研究嗮古往今來所有嘅狼,所以佢就去搵 100 隻狼(樣本)返嚟做研究,佢量度到呢個樣本嘅狼平均體重係 40 公斤(數據),就最嚴格嘅邏輯基準嚟講,呢個數可能真係代表到全世界嘅狼,但又有可能全世界嘅狼嘅平均體重查實係 60 公斤,個研究者之所以搵到 40 公斤呢個數只係佢咁啱得咁橋唔好彩,抽到個代表唔到個總體嘅樣本-喺呢個過程當中就經已必然涉及「手上嘅樣本有幾大機會代表到全世界嘅狼」嘅問題,會用到機會率(probability)同相關嘅數學概念。好似機會率等科研工作上用嚟分析數據嘅數學概念就形成咗統計學呢門學問[18]

兩大範疇

喺統計軟件 SPSS 入面嘅數據;喺呢度佢哋只係俾咗柞變數嘅平均值等嘅資料-即係用咗敘述統計學。如果佢哋做埋分析嚟睇吓啲變數之間嘅關係,噉就係推斷統計學。

統計學專係研究點樣收集、分析、解讀、同解釋數據(尤其係有不確定性嘅數據),集中喺應用性同實證性嘅層面上[19]。喺科學上,數據係好重要嘅一環,噉係因為科學嘅基礎係實證。科學家嘅職責係諗啲理論出嚟解釋自然現象,而佢哋發表親啲乜嘢理論都一定要揾啲證據嚟驗證吓個理論係咪真。要驗證一個理論就要去現實世界嗰度收集數據-所以搞科研實會有一大柞數據要處理。統計學發展咗好多唔同嘅工具去處理數據,例如唔同嘅統計模型。統計師嘅專業知識亦包括實驗應該點樣設計同埋抽樣要點抽。統計學仲會喺商業範疇度用到:統計師會喺一啲公司嗰度幫手解答一啲研發上遇到嘅問題[20]

嚴格嚟講,統計學算係數學嘅一個子領域[21][22][23],但係因為佢零舍重要,所以啲科學家好多時都當正佢係一個獨立嘅學科噉嚟睇。讀統計嘅大學課程對啲學生嘅純粹數學水平嘅要求會低少少,反而集中喺教點樣收集數據、編碼、同埋整報告上面。

敘述同推斷

統計學大致上分做兩範,負責總括同埋形容啲數據嘅叫敘述統計學(Descriptive statistics),而用一啲分析方法嚟去估計同研究變數同變數之間嘅關係嘅就叫做推斷統計學(Inferential Statistics)[24]。前者會俾出一啲好似啲變數嘅平均值等嘅資訊,而後者會將數據入面嘅資訊變做數學模型,仲可以做出一啲預測,例如分析幾個變數之間嘅關係有幾勁。

攞返上面個狼研究嘅例子,假設做完推斷統計之後發覺一隻狼每日食嘅嘢嘅總量(以公斤嚟計)同佢身處嘅地區嘅平均氣温(以攝氏嚟計)成反比(即係一隻狼身處嘅地方愈凍,佢就愈食得多嘢),而佢哋之間嘅關係可以大致上用一條式表達:

,設 做「隻狼食咗幾多公斤嘢食」而 做「佢身處嗰度嘅平均攝氏氣温」,實數(Real number)。

收集咗一輪數據之後,就有得用啲數據嚟估計 嘅數值,打後下次再揾到隻狼嗰陣就可以用呢個模型嚟按佢身處嗰度嘅平均氣温嚟估計佢每日會食幾多嘢。一般嚟講,收集到嘅數據愈多(喺呢個例子入面即係研究過愈多嘅狼),可以做到嘅預測就會愈準。

收集數據

內文:收集數據

變數

內文:變數 (科研)

變數(Variable),又叫做「未知數」,係做統計學一定會處理嘅嘢。佢指喺宇宙入面一啲有可能變、兼且係形容緊某啲事物嘅特性[25]。例如身高體重、同宗教信仰呢啲特性都可以用嚟形容人,而且呢幾樣嘢個個人唔同,所以呢三個都係屬於「用嚟形容人」嘅變數。大細同質量呢啲可以攞嚟形容人或者物件都得,而且呢兩樣嘢個個人件件物件都可以唔同,所以都係屬於「形容人同物件」嘅變數。

變數大致上有得分做兩種:連續變數(Continuous variable)係變數嘅一種,指啲有得用數字嚟量度、兼且去到小數點後幾多位都得嘅變數,呢啲數值攞得嚟比較大細同埋做數學嘅運算。例如人有幾高有幾重都可以講係連續變數-「身高」同「體重」有得用數字嚟度(兼且可以用有小數點嘅數字)。人有得用呢柞數值嚟比較唔同人嘅身高同體重,仲可以用佢哋嚟計數;相反,「宗教信仰」係一個唔連續變數(Discrete variable)-佢唔可以用數字嚟度,而佢嘅值一般都唔可以攞嚟計數:「183 厘米」同「80 公斤」呢啲數值有得加減乘除,而「信佛」同「信耶穌」呢啲值雖然都係形容緊啲嘢,但係唔可攞計數機去撳加減乘除。連續變數喺統計學入面比較常見-因為前者先至可以攞嚟計數,而後者唔得。

以下呢條科學方程式歐姆定律(Ohm's law)就係講緊一啲變數:

呢條係電磁學(研究電同磁嘅物理學子領域)上嘅一條常見嘅方程式,意思係話通過一個導體(Conductor)嘅電流(Electric current;I)同嗰舊導體兩頭嘅電壓(Voltage;V)成正比,又同舊導體嘅電阻(Resistance;R)成反比。條式總共有三個變數:電流、電壓、同電阻,而且三個都係連續變數。

變數係科學嘅關鍵,因為無論係邊個學科,科學嘅重點基本上就係想揾出變數同變數之間有啲乜嘢關係,而「知道嗮成個宇宙入面所有嘅變數同埋佢哋之間嘅相互關係」可以話係科學嘅終極目標。

抽樣

一個抽樣嘅過程係由一大柞研究對象嗰度抽一部份出嚟研究-因為要睇嗮所有嘅研究對象通常都會太嘥時間或者太嘥錢所以唔可行。
內文:抽樣

抽樣(Sampling)係做科研嘅一個程序,指由個總體嗰度攞一部份嘅個體嚟研究[26]。所有研究都係研究緊某啲總體(Statistical population),例如喺上面個狼例子個總體就係「世界上嘅狼」,而心理學(Psychology)所研究嘅總體就係「世界上所有嘅智人(Homo sapien)」。但係研究嘅總體通常都太大,搞到研究佢哋嘅科學家好難由個總體入面嘅所有個體收集數據,例如世界上有數以億計嘅人,要逐個逐個噉嚟研究太嘥時間,根本冇可能行得通,於是乎科學家喺做研究嗰陣往往要做抽樣-由研究緊個總體嗰度抽一小部份出嚟(而呢個部份就係所謂嘅樣本),希望透過研究呢一小部份嚟去了解嗮總體入面所有嘅個體。例如係想研究黑洞嘅話,物理學家可以去揾十個特定嘅黑洞嚟研究,希望透過研究呢十個黑洞(呢十個黑洞只係宇宙成千上萬個黑洞之中嘅一小部份)嚟了解埋其餘嘅黑洞。

抽樣呢個程序係做科研好緊要嘅一環,因為做嗰個科學家一定要確保到佢抽出嚟個樣本真係代表得到成個總體,噉先至可以說服到啲人話佢個研究得出嘅結果可以普遍化(Generalize)到去個總體嗰度。例如係頭先個狼研究噉,個生物學家有至少兩個抽樣方法可以揀:(一)喺華南嗰度隨機噉攞二百隻狼嚟研究;(二)喺全世界各個洲嗰度隨機噉抽二百隻狼嚟研究。後者更加代表到嗮個總體-「全世界嘅狼」-而前者就比較有以偏概全之嫌。好多時啲科學家詏話一份研究冇辦法將佢得出嘅結果普遍化,都係指控緊佢個樣本唔夠代表性,好似係好多心理學家做心理學研究嗰陣都貪方便喺大學度攞啲大學生嚟做研究嘅樣本,搞到科學界成日都話嗰啲所謂嘅心理學只不過係「大學生嘅心理學」,根本代表唔到大學生以外嘅群體嘅心理[27]

相關性同實驗性研究

用統計搞研究嘅目標係要分析變數之間嘅關係。研究有得大致上分做兩種:相關性研究(Correlational research)同實驗性研究(Experimental research)[28]

相關性研究

相關性研究嘅目的係要揾出變數之間嘅相關(Correlation)有幾勁。「兩個變數 之間嘅相關」喺統計學上係噉樣定義嘅: