万维百科粤语版

統計學

Jump to search
統計學好多時都會用嘅常態分佈(normal distribution)圖;幅圖入面打橫嗰條表示個變數嘅數值,而打直嗰條表示每個數值喺個總體入面出現咗幾多次。喺一個常態分佈之下,出現得最多次嘅數值就係所謂嘅「平均數」。

統計學粵拼tung2 gai3 hok6英文statistics)係數學嘅一個子領域[1],專係研究點樣喺各個科學領域嗰度搜集、分析、演繹、同埋呈現數據[2]。喺用統計方法嚟研究啲乜嗰陣,個科學家會(一)先講明咗佢研究緊乜嘢變數(variable;指一個形容緊某啲嘢嘅數字);(二)跟手就揾一個特定嘅總體(statistical population;指一柞有某啲共通點所以俾人擺埋一齊研究嘅個體)嚟研究;(三)由呢個總體嗰度抽個樣本(sample)出嚟;(四)喺個樣本度收集數據,睇吓個樣本入面每一個個體喺啲變數嗰度嘅數值係幾多;(五)用某啲統計分析方法嚟去揾出柞變數之間有乜嘢關係[3][4]

例如有個生物學家想研究吓獵食行為同佢哋身處地方嘅氣候之間有冇乜嘢啦掕。喺呢份研究入面,(一)佢所研究緊嘅變數就包含咗喺「啲狼嘅獵食行為」同「啲狼身處嘅地方嘅氣候」入面;(二)佢會將成個世界嘅狼擺埋一齊研究(「全世界嘅狼」就係佢個研究嘅總體);(三)但係世界上噉多隻狼,攞嗮佢哋嚟研究太嘥時間,所以佢就用隨機抽樣(random sampling)-隨機噉由全世界嘅狼嗰度抽一部份嘅出嚟研究;(四)跟住佢就要向個樣本收集數據,用各種嘅方法去量度樣本入面嘅每一隻狼(一隻狼為止一個個體)嘅獵食行為(好似係佢每日用咗幾多個鐘頭獵食、食咗幾多公斤嘅嘢食呀噉)同埋佢身處地方嘅氣候(好似係嗰個地區落雨落得有幾密同埋平均氣溫等等);(五)攞完數據之後就用各種嘅統計分析嚟去計吓呢柞變數之間有乜嘢啦掕(例如佢哋之間係咪成正比或者反比)。同樣嘅做法喺物理科學社會科學嗰度都會用[1]

到咗現代,統計學經已係科學研究上走唔甩嘅一個部份,幾乎所有大學科學學科嘅本科課程都會教少少統計學嘅嘢[1]

內文: 統計學史

統計學最少有得追溯到公元前 5 世紀。最早嘅統計學著作嚟自公元 9 世紀嘅《密碼破譯》(Manuscript on Deciphering Cryptographic Messages)呢本書,由阿拉伯人 Al-Kindi 編寫嘅。喺呢本書入面,Al-Kindi 佢詳細噉記錄咗點樣用統計數據同頻率分析破解啲密碼。根據沙特阿拉伯工程師 Ibrahim Al-Kadi 嘅講法,統計學同密碼學分析就係噉一齊誕生咗[5][6]

14 世紀佛羅倫斯銀行家兼執政官 Giovanni Villani 編訂咗《Nuova Cronica》呢本歷史書,包括咗好似係人口、法令、商貿、教育、宗教場所呢啲嘢在內嘅統計數據,俾人話係歷史上第一本嘅統計學入門書。有啲學者就將 1663 年 John Graunt 根據死亡率統計表編訂出版嘅《Natural and Political Observations》(個名直譯係「自然與政治觀察」)呢本書定格做統計學嘅誕生[7]

統計學個英文名「Statistics」係源自於拉丁文嘅詞「statisticum collegium」(意思係「國會」)同埋意大利文入面嘅「statista」(「國民」或者「政治家」)。德文入面「Statistik」呢個字最早係由 Gottfried Achenwall(1749)用嘅,代表對國家嘅數據做分析嘅一門學問,亦即係「研究國家嘅科學」。喺 19 世紀開始,統計學喺廣泛嘅數據之中探究數據所表達嘅嘢,跟手由 John Sinclair 引進到去英文圈嗰度。

清朝末期,學者將西學引入中原,作咗「統計」呢個詞語嚟代表呢門研究數據嘅學術,沿用到而家[8][9]

範疇

喺統計軟件 SPSS 入面嘅數據;喺呢度佢哋只係俾咗柞變數嘅平均值等嘅資料-即係用咗敘述統計學。如果佢哋做埋分析嚟睇吓啲變數之間嘅關係,噉就係推斷統計學。

統計學專係研究點樣收集、分析、解讀、同解釋數據(尤其係有不確定性嘅數據),集中喺應用性同實證性嘅層面上[10]。喺科學上,數據係好重要嘅一環,噉係因為科學嘅基礎係實證。科學家嘅職責係諗啲理論出嚟解釋自然現象,而佢哋發表親啲乜嘢理論都一定要揾啲證據嚟驗證吓個理論係咪真。要驗證一個理論就要去現實世界嗰度收集數據-所以搞科研實會有一大柞數據要處理。統計學發展咗好多唔同嘅工具去處理數據,例如唔同嘅統計模型。統計師嘅專業知識亦包括實驗應該點樣設計同埋抽樣要點抽。統計學仲會喺商業範疇度用到:統計師會喺一啲公司嗰度幫手解答一啲研發上遇到嘅問題[11]

嚴格嚟講,統計學算係數學嘅一個子領域[12][13][14],但係因為佢零舍重要,所以啲科學家好多時都當正佢係一個獨立嘅學科噉嚟睇。讀統計嘅大學課程對啲學生嘅純粹數學水平嘅要求會低少少,反而集中喺教點樣收集數據、編碼、同埋整報告上面。

敘述同推斷

統計學大致上分做兩範,負責總括同埋形容啲數據嘅叫敘述統計學(Descriptive statistics),而用一啲分析方法嚟去估計同研究變數同變數之間嘅關係嘅就叫做推斷統計學(Inferential Statistics)[15]。前者會俾出一啲好似啲變數嘅平均值等嘅資訊,而後者會將數據入面嘅資訊變做數學模型,仲可以做出一啲預測,例如分析幾個變數之間嘅關係有幾勁。

攞返上面個狼研究嘅例子,假設做完推斷統計之後發覺一隻狼每日食嘅嘢嘅總量(以公斤嚟計)同佢身處嘅地區嘅平均氣温(以攝氏嚟計)成反比(即係一隻狼身處嘅地方愈凍,佢就愈食得多嘢),而佢哋之間嘅關係可以大致上用一條式表達:

,設 做「隻狼食咗幾多公斤嘢食」而 做「佢身處嗰度嘅平均攝氏氣温」,實數(Real number)。

收集咗一輪數據之後,就有得用啲數據嚟估計 嘅數值,打後下次再揾到隻狼嗰陣就可以用呢個模型嚟按佢身處嗰度嘅平均氣温嚟估計佢每日會食幾多嘢。一般嚟講,收集到嘅數據愈多(喺呢個例子入面即係研究過愈多嘅狼),可以做到嘅預測就會愈準。

基本概念

變數

內文: 變數 (科研)

變數(Variable),又叫做「未知數」,係做統計學一定會處理嘅嘢。佢指喺宇宙入面一啲有可能變、兼且係形容緊某啲事物嘅特性[16]。例如身高、體重、同宗教信仰呢啲特性都可以用嚟形容人,而且呢幾樣嘢個個人唔同,所以呢三個都係屬於「用嚟形容人」嘅變數。大細同質量呢啲可以攞嚟形容人或者物件都得,而且呢兩樣嘢個個人件件物件都可以唔同,所以都係屬於「形容人同物件」嘅變數。

變數大致上有得分做兩種:連續變數(Continuous variable)係變數嘅一種,指啲有得用數字嚟量度、兼且去到小數點後幾多位都得嘅變數,呢啲數值攞得嚟比較大細同埋做數學嘅運算。例如人有幾高有幾重都可以講係連續變數-「身高」同「體重」有得用數字嚟度(兼且可以用有小數點嘅數字)。人有得用呢柞數值嚟比較唔同人嘅身高同體重,仲可以用佢哋嚟計數;相反,「宗教信仰」係一個唔連續變數(Discrete variable)-佢唔可以用數字嚟度,而佢嘅值一般都唔可以攞嚟計數:「183 厘米」同「80 公斤」呢啲數值有得加減乘除,而「信佛」同「信耶穌」呢啲值雖然都係形容緊啲嘢,但係唔可攞計數機去撳加減乘除。連續變數喺統計學入面比較常見-因為前者先至可以攞嚟計數,而後者唔得。

以下呢條科學方程式歐姆定律(Ohm's law)就係講緊一啲變數:

呢條係電磁學(研究電同磁嘅物理學子領域)上嘅一條常見嘅方程式,意思係話通過一個導體(Conductor)嘅電流(Electric current;I)同嗰舊導體兩頭嘅電壓(Voltage;V)成正比,又同舊導體嘅電阻(Resistance;R)成反比。條式總共有三個變數:電流、電壓、同電阻,而且三個都係連續變數。

變數係科學嘅關鍵,因為無論係邊個學科,科學嘅重點基本上就係想揾出變數同變數之間有啲乜嘢關係,而「知道嗮成個宇宙入面所有嘅變數同埋佢哋之間嘅相互關係」可以話係科學嘅終極目標。

抽樣

一個抽樣嘅過程係由一大柞研究對象嗰度抽一部份出嚟研究-因為要睇嗮所有嘅研究對象通常都會太嘥時間或者太嘥錢所以唔可行。
內文: 抽樣

抽樣(Sampling)係做科研嘅一個程序,指由個總體嗰度攞一部份嘅個體嚟研究[17]。所有研究都係研究緊某啲總體(Statistical population),例如喺上面個狼例子個總體就係「世界上嘅狼」,而心理學(Psychology)所研究嘅總體就係「世界上所有嘅智人(Homo sapien)」。但係研究嘅總體通常都太大,搞到研究佢哋嘅科學家好難由個總體入面嘅所有個體收集數據,例如世界上有數以億計嘅人,要逐個逐個噉嚟研究太嘥時間,根本冇可能行得通,於是乎科學家喺做研究嗰陣往往要做抽樣-由研究緊個總體嗰度抽一小部份出嚟(而呢個部份就係所謂嘅樣本),希望透過研究呢一小部份嚟去了解嗮總體入面所有嘅個體。例如係想研究黑洞嘅話,物理學家可以去揾十個特定嘅黑洞嚟研究,希望透過研究呢十個黑洞(呢十個黑洞只係宇宙成千上萬個黑洞之中嘅一小部份)嚟了解埋其餘嘅黑洞。

抽樣呢個程序係做科研好緊要嘅一環,因為做嗰個科學家一定要確保到佢抽出嚟個樣本真係代表得到成個總體,噉先至可以說服到啲人話佢個研究得出嘅結果可以普遍化(Generalize)到去個總體嗰度。例如係頭先個狼研究噉,個生物學家有至少兩個抽樣方法可以揀:(一)喺華南嗰度隨機噉攞二百隻狼嚟研究;(二)喺全世界各個洲嗰度隨機噉抽二百隻狼嚟研究。後者更加代表到嗮個總體-「全世界嘅狼」-而前者就比較有以偏概全之嫌。好多時啲科學家詏話一份研究冇辦法將佢得出嘅結果普遍化,都係指控緊佢個樣本唔夠代表性,好似係好多心理學家做心理學研究嗰陣都貪方便喺大學度攞啲大學生嚟做研究嘅樣本,搞到科學界成日都話嗰啲所謂嘅心理學只不過係「大學生嘅心理學」,根本代表唔到大學生以外嘅群體嘅心理[18]

相關性同實驗性研究

用統計搞研究嘅目標係要分析變數之間嘅關係。研究有得大致上分做兩種:相關性研究(Correlational research)同實驗性研究(Experimental research)[19]

相關性研究

相關性研究嘅目的係要揾出變數之間嘅相關(Correlation)有幾勁。「兩個變數 之間嘅相關」喺統計學上係噉樣定義嘅: