万维百科粤语版

博弈論

跳去導覽 跳去搵嘢
一班阿伯喺度捉象棋。每個棋手要考慮自己同對手嘅可能選擇,諗吓自己行邊步棋最大機會贏。
一班人喺度玩星際爭霸。喺打機嗰陣,每個玩家都係要考慮自己同對手嘅可能選擇,諗吓自己揀邊個選擇最大機會贏。
普京當勞侵會面;世界各國喺貿易等方面會互相競爭,要考慮自己同對手可能會做乜,再諗吓自己要點做先可以得益(包括資源同影響力等)最多。

博弈論粵拼bok3 jik6 leon6英文game theory),粵文又有叫對策論或者賽局理論,係應用數學嘅一個分支領域,專門研究理性嘅決策者喺策略上嘅互動[1]:博弈論會將一場博弈(a game)想像成一件數學上嘅物體,一場博弈由某啲規則同若干個參與者組成,每個參與者手上都有一柞可能選擇同埋特定嘅資訊,而對於一個參與者嚟講,佢每一個選擇都會引致某啲得失,呢啲得失由場博弈嘅規則話事;每一個參與者會想令自己嘅利益最多,並且按照呢條原則做決策。捉棋、打機、以至國際關係等好多嘅現象都涉及博弈[2],而原則上,所有人類之間嘅互動都可以想像成博弈,所以博弈論能夠應用落去所有嘅社會科學(尤其係經濟學政治學等)嗰度,解釋各式各樣嘅社會現象。到咗廿一世紀,就連邏輯學生物學電腦科學都會用到博弈論[2]

除咗俾人攞嚟做解釋性(explanatory)嘅研究,博弈論仲有俾人用嚟做一啲規範性(normative)嘅研究:有學者運用博弈論嚟分析喺某啲情況(例如係某啲使錢上嘅決擇)之下,一個參與者有邊啲選擇同埋應該要點樣做決策先至可以令到自身利益最多[3][4]-有好多經濟分析師都興用博弈論分析企業彼此之間喺市場上嘅鬥爭,並且用呢啲分析嚟向企業提供營運方面嘅建議[5][6]

博弈論源於廿世紀初:博弈論係喺廿世紀上半橛由馮紐曼(John von Neumann)等嘅大數學家諗出嚟嘅,打後呢個理論喺廿世紀中期俾經濟學家生物學家用嚟分析佢哋各自嘅領域當中嘅現象,而且仲有多個經濟學家靠住佢哋用博弈論對經濟現象進行嘅分析攞到諾貝爾經濟學獎(Nobel Memorial Prize in Economic Sciences)。到咗今日,博弈論上嘅發展令到佢出咗大量嘅專有概念同子理論,成為咗一門獨立於第啲應用數學領域嘅領域[7]

基本概念

博弈論研究嘅重點係博弈(game),一場博弈係一件數學物體,包含咗以下嘅組成部份[1][5]

  1. 至少兩個博弈者;
  2. 每個博弈者手上有若干個選擇;
  3. 每個選擇都會為嗰個博弈者帶嚟某啲報償。

報償

圖 1;一場假想嘅博弈嘅報償矩陣;呢場博弈涉及兩個博弈者,佢哋分別各有兩個選擇,每個格仔入面嗰兩個數字代表「如果結果兩個博弈者揀咗噉做,佢哋報償分別係幾多」。
睇埋:效益

喺一場博弈當中,一個博弈者有多個行動可以揀,例如係喺商業上,一間企業喺諗點樣賣佢哋嘅產品嗰時至少有兩個可能嘅行動-加價或者減價;佢每一個選擇都會引致某啲後果,而一個選擇會引致乜嘢後果往往受到對手採取嘅行動影響-如果對手加價而我方減價,好可能會有大批客人改買我方嘅商品,令我方市場佔有率大增,而如果對手減價而我方一樣減價,噉雙方嘅市場佔有率會大致上不變;對於一個博弈者嚟講,佢每一個可能嘅結果都有一個相應嘅報償(payoff),報償可以係嘢食、或者名譽等-可以係任何人類會想爭嘅嘢。喺一般應用上,研究者會用正數字代表得益,負數字代表損失。對報償嘅量化令到博弈論嘅分析變得精確[1][5]

舉個簡單嘅例子說明,想像家吓有兩間公司,叫公司 1(firm 1)同公司 2(firm 2),喺度爭一個市場嘅買家,每間公司都有兩個選擇,一係揀「進入市場」(entry,簡稱「E」),一係揀「遲啲先進入市場」(delay entry,簡稱「DE」)。喺呢個個案之下,如果兩間同時進入市場嘅話,佢哋都會各自損失 4,000,000 文嘅盈利(-4, -4);而如果公司 1 而家進入市場,而公司 2 揀遲啲先入,噉公司 1 會得到 6,000,000 文嘅盈利,而公司 2 乜嘢都得唔到(6, 0);淨低嘅情況可以睇圖 1。喺呢個形勢之下,對於公司 1 嚟講,揀 DE 嘅話實蝕,相比之下,佢揀 E 嘅話至少會蝕少啲,甚至有機會賺(如果公司 2 揀 DE 嘅話),同一時間,就算公司 2 知道呢一點,佢都好可能都會因為唔想蝕 4,000,000 而焗住去揀 DE。如果係噉,最後結果會係公司 1 賺 6,000,000,而公司 2 冇得益冇損失。

上述呢場博弈用報償矩陣(payoff matrix)嘅形式表述出嚟嘅結果係圖 1 [8]

理性

睇埋:理性

博弈論假設咗,博弈者冚唪唥都係理性(rational)嘅,即係話假設咗[9][10]

  1. 喺場博弈途中,博弈者都係一心一意想令自身報償最大;
  2. 每一個博弈者都清楚知道自己想達到乜嘢目的同埋場博弈嘅規則;
  3. 每一個博弈者都能夠做必需嘅運算,能夠達到佢想要達到嘅結果。

睇返頭先兩個公司博弈嘅例子:如果公司 1 唔係一心一意想令自身報償最大化,噉佢未必會揀即刻進入市場;又或者如果公司 1 唔知道個報償矩陣嘅內容嘅話,噉佢都未必識要揀即刻進入市場;而且喺實行起上嚟,公司 1 要有能力執行「即刻進入市場」所需要採取嘅行動。

均衡

睇埋:經濟均衡

均衡(equilibrium)係一場博弈當中嘅一種可能情況。喺一個均衡情況之下,每個博弈者都揀咗應對其他博弈者嘅最佳策略,但唔一定係對佢嚟講最有利嘅選擇。好似係頭先兩間公司博弈嘅例子噉樣,對於公司 2 嚟講,最理想嘅情況係佢揀即刻進入市場,同時公司 1 揀遲啲先進入市場,但佢要考慮佢對手會點決定-假設佢知公司 1 知成場博弈嘅報償矩陣嘅內容,佢就會知公司 1 冇乜可能會揀遲啲先進入市場,所以公司 2 諗過佢對手嘅策略之後,決定都係揀遲啲先進入市場,最後成場博弈成一個「公司 1 揀咗即刻進入市場、而公司 2 揀咗遲啲先進入市場」嘅狀態-一個均衡嘅狀態[11]

拿殊均衡點

一場有拿殊均衡點嘅博弈
阿松揀 A 阿松揀 B
阿明揀 A +1, +1 +1, −1
阿明揀 B -1, +1 0, 0
內文: 拿殊均衡點

拿殊均衡點(Nash equilibrium;個名取自博弈論名師莊·拿殊)係均衡嘅一種。喺拿殊均衡點之下,每個博弈者都揀咗一個選擇,而且佢哋當中冇任何一個有誘因去單方面噉改變自己嘅選擇。舉個例說明,想像右手邊嗰場拿殊博弈嘅報償矩陣[12][13],成場博弈涉及兩個博弈者-阿明同阿松-而佢哋各有兩個選擇(A 同 B)可以揀;根據呢一場博弈嘅規則,如果阿明揀 A 而阿松揀 B,結果會係阿明得益 1 文阿松損失 1 文(+1, -1),如此類推;假想佢哋兩個而家都為咗將自己報償最大化而揀咗 A 嘅選項,對於阿明嚟講,如果佢改變選擇而同時阿松嘅選擇不變,噉佢自己會變成損失 1 文,阿松都係同一道理;噉喺呢個情況下,佢哋兩個喺進入咗「雙方都揀咗 A」嘅狀態之後,就再冇誘因改變自己嘅選擇-呢個狀態就係呢場博弈嘅拿殊均衡點[12][14]

唔係所有博弈都有一個拿殊均衡點-有啲博弈有多過一個拿殊均衡點,又有啲博弈係冇拿殊均衡點嘅[12][15]

博弈分類

博弈可以按照幾種屬性嚟分類:

對稱定非對稱

一場懦夫博弈
阿松揀 C 阿松揀 S
阿明揀 C 0, 0 -5, +5
阿明揀 S +5, -5 -100, -100
內文: 對稱博弈

喺一場對稱博弈(symmetric game)當中,一個選擇嘅報償衹係會受到第個(或者第啲)博弈者嘅選擇影響,但唔受選擇者嘅身份影響-同一個選擇無論由邊個博弈者揀,報償都會一樣嘅。好多成日俾人攞嚟研究嘅 2 x 2 博弈都屬於對稱博弈,包括咗好出名嘅懦夫博弈(chicken)、獵鹿博弈(stag hunt)、同監躉困境(prisoner's dilemma)呀噉[16][17]。以懦夫博弈為例,想像而家有兩個人,佢哋揸住電單車向住對方迎頭衝刺,每個都有兩個選擇揀(直去,S;做懦夫,C),如果佢哋兩個都直去唔轉軚嘅話,佢哋會相撞(報償:-100, -100),而如果其中一方轉軚另一方直去,雙方都冇事,但轉軚嗰個人會俾人笑係冇膽鬼(-5)而直去嗰個人會俾人讚佢大膽(+5)[16]。喺呢場博弈當中,每個選擇造成嘅報償衹會受第個博弈者嘅選擇影響,但唔受博弈者嘅身份影響,所以係一場對稱博弈[16]

喺一場非對稱博弈(asymmetric game)當中,唔同嘅博弈者手上嘅選擇唔一樣,又或者佢哋有同一樣嘅選擇集,但唔同博弈者做同一個選擇報償唔一樣。非對稱博弈例子有最後通牒博弈(ultimatum game)同獨裁者博弈(dictator game)等等[18]。喺最後通牒博弈當中,有兩個博弈者,其中一個(提議者,proposer)會收到一筆錢,並且要負責做一個提案提議點樣分筆錢,而另一個博弈者(回應者,responder)就負責決定接唔接受個提議,如果個回應者接受提案,筆錢就會按照提案噉分,而如果回應者拒絕,兩個博弈者都冇錢。喺呢場博弈當中,雙方手上嘅可能選擇好唔同,所以係一場非對稱博弈[19]

零和定非零和

一場零和博弈
阿松揀 A 阿松揀 B
阿明揀 A 0, 0 -1, +1
阿明揀 B +3, -3 -2, +2
內文: 零和博弈

喺一場零和博弈(zero-sum game)當中,每一個結果入面所有博弈者嘅得失加埋實係零(所以就叫「零和」),例如係右手邊嗰個報償矩陣描述緊嘅就係一場零和博弈,因爲喺呢場博弈當中,兩個博弈者嘅報償加埋永遠係零。如果一場博弈係零和嘅,噉就意味住「一個博弈者要得益嘅話,另一個博弈者就實要有等量嘅損失」[20]。好多日常生活會玩嘅遊戲當中嘅博弈都屬於零和博弈,喺好似係啤牌象棋等嘅遊戲當中,因為規則所限,其中一方要贏,另外嗰一方就一定要輸。而頭先提到嘅懦夫博弈亦都係一場非零和博弈(non-zero-sum game),因為喺呢種博弈當中,博弈雙方嘅報償加埋未必實係零[21]

現實環境裏面嘅博弈多數都係非零和嘅博弈,例子有國際貿易:喺國際貿易當中有所謂嘅貿易利得(gains from trade)現象;經濟學研究證明,當有兩個國家進行貿易嗰陣,往往有啲選擇係能夠令到雙方都得益嘅-即係話個結果當中雙方嘅報償都係正數[22][23]

同步定序貫

捉象棋係一種序貫博弈,而且具有完全資訊嘅特徵。
內文: 同步博弈 同 序貫博弈

同步博弈(simultaneous game)同序貫博弈(sequential game)嘅主要分別係在於有冇涉及時間上嘅差異:喺一場同步博弈當中,博弈者冚唪唥都要同時間做決策,又或者係先後做決策,但後做決策嘅博弈者冇能力知道喺早過佢做決策嘅博弈者做咗乜嘢決定(所以實際應用上可以當成同時做決策);而喺一場序貫博弈當中,博弈者要先後做決策,而且後做決策嘅博弈者有能力一定程度上知之前嘅博弈者做咗乜嘢決定(但未必有完全資訊),例如可能一個後做決策嘅博弈者知道之前嗰個博弈者冇揀某個選擇,但唔知佢揀咗邊個。序貫博弈通常會以決策樹(decision tree)嘅型式表述多過用報償矩陣[24][25]

序貫博弈嘅概念對於用博弈論解釋信任(trust)嚟講不可或缺。想像家陣有一場序貫博弈,規則如下:阿松首先做決策,佢可以揀「合作」或者「唔合作」,而佢做咗決策之後,阿明就要喺知道阿松揀咗乜嘅情況之下,同樣揀「合作」或者「唔合作」;如果阿松揀咗「合作」而阿明揀「合作」,報償係(2, 2),當中第一個數字表示阿松所得嘅報償;如果阿松揀咗「合作」而阿明揀「唔合作」,報償會係(0, 4);而如果阿松揀咗「唔合作」,噉無論阿明揀乜,報償都會係(1, 0)。阿松佢可以揀「合作」,噉樣做會令佢嘅最大可能報償由 1 變成 2,但噉做同時要求佢信任阿明-如果阿松揀咗「合作」,阿明將會有能力透過揀自私嘅「唔合作」選項嚟令阿松乜都得唔到,自己霸嗮所有嘅得益。上述嘅博弈喺社會科學當中有俾人攞嚟研究人與人之間嘅信任[24][26]

資訊完全性

內文: 完全資訊

完全資訊博弈(perfect information game)係一種序貫博弈。喺有完全資訊嘅博弈當中,所有博弈者都完美知道嗮之前嘅博弈者做過嘅決策。好多圖板遊戲都係完全資訊博弈,例如係象棋-喺象棋當中,每個玩家都可以知嗮對手同自己之前做過咩決策,所以具有完全資訊,而對完全資訊嘅分析喺對圖板遊戲嘅研究好有用[27][28][29]。不完全資訊博弈就包括啤牌同埋橋牌等等,喺德州話事啤(Texas hold'em)入面,每個牌手喺一局開始嗰時會獲派兩張啤牌,而呢兩張牌係乜唔到最後都唔會揭曉,牌手頂櫳都衹係有得憑對手嘅行為估對手有乜牌[30][31]

想像下面嗰幅決策樹所描述嘅一場序貫博弈(以擴展形式表達),規則如下:兩個博弈者先後做決策,而每個結果會有若干報償;博弈者 1 先做決策,而且博弈者 2 冇方法直接得知佢揀咗乜;博弈者 1 手上有三個選項,C、D、同 O,如果佢揀咗 O,會令到博弈者 2 冇得做決策,並且直接造成(2, 2)嘅報償,其他可能結果嘅報償如圖所示。假如家吓博弈者 2 俾人叫佢做決策,假設博弈者 2 清楚博弈規則,就算冇人話佢知博弈者 1 揀咗乜,佢都會有能力推斷博弈者 1 實冇揀 O,但佢冇得知到底博弈者 1 揀咗 C 定 D-所以呢場博弈具有不完全資訊[32]

一場不完全資訊博弈嘅決策樹;1 代表博弈者 1 做決策嘅點,而 2 就代表博弈者 2 做決策嘅點。

重複性

內文: 重複博弈

如果要令博弈論能夠更加準確噉描述現實,博弈論家就有需要考慮重複博弈(repeated game)嘅問題:喺現實世界,多數嘅人博弈起上嚟都會同同一班對手玩多次博弈-一個棋手會識得佢班棋友,而且重複噉同佢班棋友捉棋;而兩個國家之間往往會喺多個時間點喺某啲方面交鋒(例如係爭完石油爭土地呀噉)。所以如果想博弈論嘅分析更加符合現實,就實要考慮「同一班博弈者彼此之間玩同一個博弈,玩若干次」嘅可能性,而且重複博弈亦都意味住一樣嘢:博弈者能夠憑住過去嘅經驗估計對手將來嘅行動[33]

重複博弈嘅概念仲帶出咗信譽(reputation)呢個諗頭[32]:現實世界博弈起上嚟多數都係重複性嘅,所以博弈者好多時都有能力靠過往嘅博弈經驗估對手會用嘅策略;喺最簡單嗰種情況下,佢可以隨機斷估;但喺實際應用上,佢可以靠手上嘅有限資訊估計對手揀每個選擇嘅概率;如果佢對手喺過去嘅博弈當中大多數揀咗「唔合作」,而且假設佢具有貝氏理性(Bayesian rationality,曉按概率做決策[34]),佢就好有可能會傾向相信佢對手喺將來都會作出噉嘅選擇-佢就比較傾向會揀一啲喺「對手揀咗唔合作」嘅情況下對自己有利嘅選擇。好似係頭先信任嘅例子噉,喺貝氏理性嘅情況下,如果阿松同阿明兩個係互不相識嘅陌生人,阿松比較有理由隨機噉做決策,但如果佢識阿明,而阿明出咗名信譽唔好嘅話,噉佢比較有理由認為阿明信唔過,因而揀「唔合作」[32][33]

合作定非合作

唐朝時期吐魯番嘅一張合同;呢張嘢紀錄咗一個奴隸嘅買賣,禁止咗買賣雙方做某啲行為。

博弈可以分做合作博弈cooperative game)同非合作博弈non-cooperative game)兩大種[35][36]。喺合作博弈當中,博弈者彼此之間能夠組成一啲有制約性嘅承諾,並且講明乜嘢選擇可以揀乜嘢唔可以,例如公司同打工仔之間嘅合同指明咗,法律禁止雙方嘅某啲嘅可能行為(例如喺多數情況下,老細如果唔出糧係犯法嘅),所以公司同打工仔之間嘅博弈算得上係合作博弈[37];而非合作博弈就係指喺場博弈當中,博弈者彼此之間唔能夠組成一啲噉嘅制約,或者啲制約要靠自己嚟執行(例如係用暴力恐嚇嚟迫對方做自己想佢做嘅嘢)。對合作博弈嘅分析令到博弈論能夠進一步噉接近呢個理論想要描述嘅現實世界現象[36]

另一方面,合作博弈仲帶出咗通訊(communication)嘅概念:諗返頭先懦夫博弈嗰個例子噉,假想博弈雙方喺博弈開始之前能夠互相通訊,甚至事先講好數,應承對方會大家一齊揀轉軚(假設佢哋有理由認為對方信得過),又或者其中一方俾啲好處另一方,等後者願意特登俾對方赢呢場博弈(喺知道好處提供者會揀直去嘅情況下,特登揀轉軚),噉佢哋就有得合作令大家嘅報償最大化[38]

隨機性

內文: 隨機博弈

懦夫博弈、獵鹿博弈、同監躉困境等嘅經典博弈好多時都唔能夠充分噉模擬現實世界當中嘅博弈,其中一個原因係因為呢啲模型冇考慮到隨機性嘅問題:喺現實世界嘅博弈裏面,一個博弈者好多時都唔能夠完全噉知道一個策略嘅報償係幾多(呢個又同不完全資訊有關),又或者知道咗一個策略嘅報償係有隨機性喺入面嘅,例如「呢個結果有 80% 機會造成(2, 2)嘅報償,而有 20% 機會造成(3, 0)嘅報償」。喺博弈論史上,其中一個最至關重要嘅發展就係對隨機博弈(stochastic game)嘅分析。隨機博弈喺定義上有以下嘅特徵[39][40]

  • 博弈者會重複噉玩呢場博弈;
  • 喺是但一個時間點,場博弈會處於某一個狀態 ,而 係包括嗮所有狀態嘅
  • 每個狀態都有一系列嘅可能策略 同埋相應嘅一系列報償
  • 一個集,包含咗由每一個狀態去另外一個狀態嘅概率,,呢個概率可以受博弈者喺嗰個狀態當中揀咗乜嘢策略影響;
  • 場博弈嘅每個步驟都會維持一段時間

要模擬隨機博弈,可以用馬可夫決策過程(Markov decision process),例如係以下呢幅圖當中嘅馬可夫決策過程,模擬咗一個虛擬世界,個虛擬世界有三個狀態(、同 ),喺每一個狀態當中,玩家都有兩個可能嘅選擇()同埋相應嘅報償,而每個選擇有若干概率令到個世界變成另外一個狀態(由啲箭咀同箭咀側邊嘅數字表示)。呢一個模型可以好容易噉用電腦程式表達出嚟,喺人工智能(AI)領域上可以攞嚟(例如)教電腦喺玩遊戲嗰陣做決策[41][42]

Markov Decision Process.svg

策略分類

內文: 策略 (博弈論)

喺博弈論當中,策略又可以按幾種屬性分類[43]

純粹定混合

一個使用緊純粹策略(pure strategy)嘅博弈者會一路用死一個能夠令佢報償最大化嘅選項,係對嗰個博弈者嚟講最理想嘅狀態。相比之下,現實嘅博弈者多數會用混合策略(mixed strategy),即係話個博弈者會每一個選擇俾個概率佢,而個概率代表咗佢會揀嗰個選項嘅機會率[43][44]。以美式足球為例:美式足球比賽分攻守,進攻嗰隊目的係要帶住個波衝過對手防線,並且去到得分區達陣(達陣會得分);而要衝過對手防線,主要有兩個方法-跑陣同傳球;跑陣指由負責開波嘅四分衛交個波俾(通常)跑衛,再要個跑衛向對手防線衝刺,嘗試以個跑衛嘅速度同敏捷身手嚟突破防線;傳球就係指由啲線鋒一路護住四分衛、一路俾班外接員同跑衛跑向對手防線,再要個四分衛掟個波俾其中一個外接員或者跑衛。多數嘅美式足球隊都會採取混合策略-一時跑陣一時傳球,等對手無所適從[45]。除咗美式足球之外,好多運動都會講「要用多變嘅策略」呢樣嘢[46][47]

RB
WR1
WR2
一場美式足球比賽嘅一次進攻;而家係白色衫嗰隊做進攻,佢哋個跑衛(RB)準備好衝刺,同時佢哋兩個外接員(WR1 同 WR2)都準備向前跑-就噉睇,呢次進攻有可能係跑陣,又有可能係傳球。

佔優

一場防守方角衛好渣之下嘅美式足球博弈
B 隊集中防範跑陣 B 隊集中防範傳球
A 隊用跑陣 +3, -3 +6, -6
A 隊用傳球 +15, -15 +10, -10

佔優策略(dominant strategy)係指一個喺是但一個對手選擇之下,都能夠令到個選擇者報償最大化嘅選項[43]。又諗返美式足球嘅例子說明,想像家陣有兩隊美式足球隊打比賽,而家 A 隊進攻,B 隊防守。A 隊可以揀跑陣或者傳球,但佢哋仲知另一個資訊-B 隊啲角衛(專門負責防範傳球嘅防守位置)極之渣,完全冇能力阻礙佢哋啲外接員:如果對手揀集中防範跑陣,A 隊傳球會比較大機會成功推進;而就算對手揀集中防範傳球,因為佢哋角衛渣,傳球嘅報償依然高啲(睇報償矩陣,報償以「預計成功推進幾多」計[48])。喺呢個情況下,無論對手揀乜,揀傳球都係一個比較有利嘅選項,所以「傳球」係一個佔優策略[49]

最小最大化

最小最大化策略(minimax strategy)係指將自己嘅「最小」最大化嘅策略,即係選擇能夠令到自己嘅最低報償值最大化嘅策略。用返頭先懦夫博弈嘅例子做說明,一個採取最小最大化嘅策略嘅博弈者會永遠選擇轉軚,噉係因為揀直去嘅最低可能報償係 -100,而揀轉軚嘅最低可能報償衹係 -5,所以原則上,「係唔係都永遠揀轉軚」係一個比較安全嘅策略;又想像美式足球博弈嘅例子,由 B 隊嘅角度嚟睇,集中防範跑陣嘅最大損失係 15,而集中防範傳球嘅最大損失衹係 10,後者嘅最大可能損失比較細,所以如果 B 隊選用最小最大化策略,佢哋會集中防範傳球。會採用最小最大化策略嘅通常都表示,個博弈者想盡可能噉令到自己所承受嘅風險有噉低得噉低[43][50]

應用

經濟學

一場會造成公地悲劇嘅博弈
B 君揀合作 B 君揀背叛
A 君揀合作 3, 3 0, 5
A 君揀背叛 5, 0 1, 1
一場唔會造成公地悲劇嘅博弈
B 君揀合作 B 君揀背叛
A 君揀合作 5, 5 0, 3
A 君揀背叛 3, 0 0, 0

經濟學(economics)係一個専門研究資源分配嘅社會科學領域,經濟學家會憑住佢哋對資源等嘅事物嘅知識嚟了解經濟體嘅運作,而管理者同政府等嘅人就往往要靠呢啲知識設計經濟體系。喺經濟學上,一個經濟體入面嘅人、企業、同埋各種嘅社會團體可以分別噉當做博弈者,而佢哋爭緊嘅資源(例如係錢等)就代表報償,經濟學家會假設呢啲博弈者多數都係想要令到佢哋自己利益最大化嘅,並且按照博弈模型嚟了解唔同嘅人或者組織點解會喺資源分配上做某啲決策,跟住佢哋仲會運用呢啲知識幫手制定政策,並且形塑一個經濟體嘅設計[2]-呢個過程就係所謂嘅經濟設計學(design economics)領域[51][52][53]

例:公地悲劇

喺經濟學上,公地悲劇(tragedy of the commons)係一個成日俾人用博弈論嚟分析嘅現象:家吓想像一個由多個博弈者共同使用嘅資源(例如係石油或者第啲天然資源),如果佢哋都有節制噉開採個資源嘅話,個資源可以好襟用,但現實發生嘅係,每個博弈者往往會以自身利益行先,過度噉開採個資源,最後搞到個資源枯竭,大家都冇得用,呢個現象就係所謂嘅公地悲劇[54][55]

公地悲劇喺經濟學上係一個相當受關注嘅議題,有唔少専家都嘗試用博弈論分析呢個現象同埋研究點樣解決呢個問題。有科學家就試過噉做:佢哋用一個簡單嘅對稱博弈模型嚟模擬個世界,假想喺使用資源嗰陣,一個博弈者有合作(cooperate;乖乖地跟規矩噉用個資源)同背叛(defect;過度開採)呢兩個選擇,如果雙方都揀「合作」,報償會係(3, 3),而如果一方揀「合作」另一方揀「背叛」,合作方嘅報償係 0 而背叛方嘅報償係 5,而如果大家一齊揀「背叛」,報償會係(1, 1);喺呢個情況下,長遠嚟講,雙方都有誘因趁對手揀「合作」嗰陣揀「背叛」嚟到令自己利益最大化(而且喺呢個情況下,「大家齊齊揀背叛」係場博弈嘅唯一拿殊均衡點);佢哋做電腦模型,模擬一個有兩種博弈者-合作者同背叛者-嘅世界,顧名思義,合作者傾向合作,而背叛者傾向背叛;佢哋嘅模擬發現,喺呢個情況下,隨住時間過去,合作者嘅所得會明顯少過背叛者嘅,於是合作者就會慢慢消失-一係變成背叛者,一係因為所得太少而被淘汰-形成一個以背叛者為主嘅世界,大家齊齊過度開採資源,造成公地悲劇;跟住落嚟,班科學家唔假想人類會唔自私,而係郁手改變場博弈嘅報償規則,令到雙方合作嘅報償變成(5, 5),一齊背叛嘅報償變成(0, 0),而如果一方「合作」另一方「背叛」,合作方報償係 0 而背叛方報償係得 3 咁多,拿殊均衡點變成「大家一齊揀合作」;佢哋跟住再進行模擬,發現喺呢個情況下,就算一開始場博弈當中多數博弈者都係背叛者,合作者會慢慢因為佢哋嘅報償高而變成主流類型-背叛者所得唔夠,焗住一係改變策略、一係被淘汰[56]

基於呢個研究,一班美國佐治亞州嘅科學家向當地政府提議咗一啲系統嚟令到佐治亞州嘅水資源使用生態變成唔會造成公地悲劇嘅樣,例如係運用一個信譽系統嚟獎勵合作者(用政府干預令揀合作嘅報償上升)同懲罰背叛者(用政府干預令揀背叛嘅報償下降),令到啲人有誘因合作,最後仲成功噉解決佐治亞州水資源嘅公地悲劇問題[57]

生物學

令到利他行為進化到出嚟嘅重複博弈
B 君揀合作 B 君揀背叛
A 君揀合作 2, 2 -1, 3
A 君揀背叛 3, -1 0, 0
睇埋:進化博弈論

生物學(biology)係研究生命嘅一門自然科學領域。喺生物學對博弈論嘅應用當中,最出名嘅就係進化博弈論(evolutionary game theory)[58]:同冇生命嘅嘢比起上嚟,生物其中一個最大嘅特徵係曉進化-一群同種生物嘅基因庫會因為物競天擇等嘅過程而慢慢變化,經過幾百萬年嘅時間就會演變成截然不同嘅新物種;喺進化博弈論當中,生物學家會將同一個物種入面嘅唔同個體當成博弈者,而報償反映隻生物揀嘅策略有幾能夠幫佢提升佢嘅進化適應性(evolutionary fitness;指隻生物生存落去同繁殖嘅能力);幫到隻生物提升自身進化適應性嘅策略比較有機會通過遺傳流傳到去下一代嗰度,所以更加有機會會喺下一代嗰度出現。憑住呢啲分析,進化博弈論幫到生物學家手了解點解某啲行為零舍常見[59][60][61]

例:利他嘅進化

古典進化論入面其中一個大問題係解釋利他主義(altruism)嘅進化:利他行為係指一啲對自己冇明顯利益、而係有利他人嘅行為,例如假想有個人參與一場懦夫博弈,唔係揀對自己最有利嘅策略,而係無條件噉揀俾佢對手羸;由古典進化論嘅角度嚟講,呢種行為驟眼睇好似唔合理,因為噉做唔能夠直接噉令到個個體提升自己嘅進化適應性,正路嚟講理應唔會零舍通過到物競天擇嘅考驗流傳到落嚟。廿世紀中至後期嘅生物學家用進化博弈論嚟思考人類當中嘅利他行為,佢哋假想一個簡單嘅博弈模型,規則如下:喺呢場博弈當中有兩個博弈者,兩者各有兩個選項-合作(cooperate)同背叛(defect),如果雙方合作,報償會係(2, 2),而如果其中一方合作另一方背叛,合作方損失 1 而背叛方得益 3,最後如果雙方都選擇背叛,報償會係(0, 0)。呢個模型能夠模擬好多人類現實面對嘅問題-人類日常做嘅工作有好多都要求佢哋合作先做得成[62][63][64]

跟住呢班科學家又假想一個人類群體入面有三種人:

  • 無條件嘅合作者(係唔係都揀合作嘅);
  • 無條件嘅背叛者(係唔係都揀背叛嘅);
  • 有條件嘅合作者-呢種合作者一般會揀合作,除非佢認得個對手,而個對手之前揀過背叛。

然後班科學家用進化論嘅思路嚟諗嘢:行為係可以遺傳嘅[65],所以佢哋用一個簡單嘅模型,假想仔女所屬嘅類型同父母一樣,而一個個體「成功噉生到後代嘅機會率」同佢「最後手上嘅資源量」成正比;佢哋用呢個模型模擬,結果發現,無條件嘅合作者好容易俾無條件嘅背叛者利用,話噉快就因為損失太多資源、生唔到後代而走向滅絕;而跟住落嚟失敗嘅係無條件嘅背叛者-有條件嘅合作者喺撞到無條件嘅背叛者嗰陣識得唔好合作,但撞到其他有條件嘅合作者嗰時識得要合作令自身利益最大化,結果打低咗無條件嘅背叛者,成為咗個群體入面嘅大多數。雖然以上呢個模型做咗好多簡化嘅假設,但佢的確能夠相當準噉描述到現實:事實係,心理學等領域嘅研究表明咗,人類多數都係傾向做有條件嘅合作者-佢哋會做利他嘅行為,但前題係佢哋嘅利他對象唔會利用佢哋嘅好意。呢個進化博弈論分析幫助解釋點解利他行為喺人類裏面進化到出嚟,對進化論嘅發展作出咗貢獻[64][66]

遊戲設計

一場容易令玩家嗌交嘅遊戲
B 君揀做支援 B 君揀做進攻
A 君揀做支援 3, 3 1, 2
A 君揀做進攻 2, 1 2, 2
睇埋:MDA 框架

遊戲設計(game design)係廿一世紀初開始受重視嘅一門領域,研究點樣設計各式各樣嘅遊戲,尤其係電子遊戲[67]。喺一場遊戲當中,唔同嘅玩家係博弈者,而佢哋玩遊戲嘅目的(要贏、要攞高分、要賺多啲遊戲內部嘅貨幣等)就會反映喺佢哋嘅報償之上[68]。喺遊戲設計上,博弈論嘅一個用途係俾個遊戲設計者(尤其係喺設計線上遊戲嗰陣)模擬佢個遊戲嘅規則會引致乜嘢行為,並且睇吓佢設計嘅遊戲會形成一個點嘅遊戲環境,跟住等佢可以評估個遊戲環境係咪理想[69]

例:隊制射擊遊戲問題

喺線上遊戲嘅設計方面,玩家之間嘅互動係一個重大課題,因為玩家之間嘅溝通好多時會變成互相漫駡-呢種情況會搞到玩家唔開心,所以遊戲設計者會想減少呢種情況[70]。假想而家有一隻噉嘅射擊遊戲:呢隻遊戲每場比賽都有 12 個玩家參與,而佢哋會被分做兩組,每組 6 個人,而兩組要喺一個地圖上面戰鬥,爭取分數或者第啲嘢,目的係要贏;每個玩家都可以揀一個角色喺呢場比賽當中使用,每個角色有某啲特定嘅異能,而且可以分做兩大類-進攻型角色同支援型角色;進攻型角色主要負責殺敵,而支援型角色主要負責做幫隊友擋子彈或者回復生命值等支援性嘅作業,現實例子有絕地要塞 2(Team Fortress 2)同鬥陣特攻(Overwatch)等。事實表明咗,啲人多數都比較鍾意用進攻型角色,覺得殺敵好玩啲。家陣想像有兩個人,佢哋嗰四個隊友都經已揀咗做進攻型,而根據佢哋對隻遊戲嘅認識,一隊一般要起碼有一至兩個支援型角色先至會掂,所以如果佢哋想令贏嘅機會最大化,佢哋就要一齊揀做支援型角色[68]

呢場博弈嘅可能結果同報償如下:

  1. 如果佢哋兩個一齊揀做支援,佢哋好大機會能夠合作打贏場比賽(3, 3);
  2. 如果佢哋一個揀做支援一個揀做進攻,做支援嗰個要一個人做嗮支援工作,會覺得非常之唔好玩(1),而揀做進攻嗰個可以享受做進攻嘅樂趣,但係都仲要冒「輸嘅機會提高咗」嘅風險(2);
  3. 如果佢哋兩個一齊揀做進攻,佢哋多數會輸,但會覺得好玩(2, 2)。

雖然「一齊揀做支援」係呢場博弈嘅拿殊均衡點,但係隊友之間嘅信任可以係一個問題:假如一個玩家唔信任佢嘅隊友,認為佢嘅隊友唔會真係合作,噉佢就有理由揀「做進攻」-因為呢個係「假設隊友唔會乖乖地做支援」嘅情況下對自己最有利嘅選擇(坐底得到 2 個單位嘅報償)。而事實係,線上遊戲嘅玩家通常都係互不相識嘅陌生人,好難要佢哋吓吓都信任自己隊友,所以上述嘅呢個遊戲設計容易令到玩家嗌交-好多時其中一個玩家揀做支援但另一個玩家拒絕合作,於是兩個人開始喺聯機對話入面指住對方互鬧。呢個分析令到一啲遊戲設計者開始重新思考線上遊戲嘅設計[68][70]

人工智能

睇埋:電子遊戲嘅人工智能

人工智能(artificial intelligence;簡稱「AI」)係一個專門研究點樣教機器展示有智能行為嘅領域,屬電腦科學嘅一個子領域。人工智能其中一個受關注嘅課題係點樣教機器進行博弈-因為「曉得喺博弈當中做正確嘅決定」一般都俾人認為係智能嘅一個重要指標,而且呢方面嘅研究相當有實用價值,例如係改善電子遊戲入面嘅人工智能,創造出更加能令到玩家投入個遊戲嘅人工智能呀噉[71][72][73]。喺廿一世紀初嘅科學界,教人工智能做博弈其中一種最常見嘅做法係運用頭提到嘅馬可夫決策過程(Markov decision process;以下簡稱「MDP」)[74]

例:用 MDP 教 AI 博弈

一個 MDP 模擬一個博弈環境,有以下組成部份[75][76]

  • 一柞狀態 (state),包括咗個環境嘅所有可能狀態;
  • 一柞可能嘅行動 (action),包括個博弈者能夠採取嘅行動;
  • 一柞過渡模型(transition model),包括咗由某一個狀態變成另一個特定狀態嘅概率;
  • 獎勵(reward),包括咗喺每個狀態下,每個行動會引致嘅報償;同
  • 對策(policy),一個對策係一個函數,以「現時嘅狀態」做輸入,「應該採取嘅行動」做輸出;喺現實應用當中,對策好多時會係一個人工神經網絡(artificial neural network)。
Tic-tac-toe-game-1.png

想像一個簡單嘅例子,家陣個人工智能設計者想設計一個人工智能程式,教部電腦玩井字過三關,個程式內部要有一個數學模型用 MDP 表示個遊戲嘅環境, 包括咗「對手霸咗左上角,其他格仔全部都空」等嘅狀態, 包括咗「霸右下角個格仔」等嘅行動, 包括咗「我填咗右下角,跟住落嚟中間格仔會被霸佔嘅機會率」等嘅一柞機會率, 包括咗一柞數值代表(例如)變成呢個狀態會令自己贏嘅機會率提升幾多。喺一場井字過三關嘅遊戲入面,玩家嘅目的係要令到場遊戲嘅狀態變成對佢有利嘅樣,而最佳對策