September 6, 2007

  • Prisoner's dilemma: John von Neumann, game theory, and the puzzle of the bomb

    [世事如棋]

    這本書,說不定可以用一首粵語歌概括﹕

    不待西人想到「Game theory」一詞,中國人在千百年前,就已經「以Game為喻」了。
    (畢華流﹕「是誰仍有小孩才玩圖板遊戲的錯誤觀念﹗o下﹗﹖」)

    儘管,馮紐曼說﹕「下棋不屬於賽局理論。……你也許無法算出答案,但是理論上,任何棋局必然有一個解,也就是有一個正確的過程。」

    囚犯的兩難—賽局理論與數學天才馮紐曼的故事》William Poundstone著,葉家興譯,新店﹕左岸文化,2007
    (忘了提醒各位﹕博客來的介紹很多都附有試讀,而且不只一頁。所以近來多連到該處)

    首先提醒﹕「賽局理論」是「game theory」的譯名之一,通常會譯為「博弈論」。博弈論研究理性參與者,在一個規則和報酬確定的競爭中,如果能得到最大利益。

    本書書名雖然說是「馮紐曼的故事」,但並不單純是傳記。
    全書十三章,第一章是「兩難」的簡介,第二至九章是馮紐曼的生涯,第十至十三章討論博弈論的專題。包括馮紐曼死後的古巴飛彈危機、各種兩難賽局、博弈與生物演化、和博弈論對社會政治行為的分析。
    正如費曼,天才通常都有些很有趣的地方,馮紐曼亦如是(何況,他還是個「神童」)。但馮紐曼另一特別之處,在於他與政治和軍事介入甚深。不少參與製造原子彈的科學家在二戰結束後紛紛脫離計劃、反對各國繼續製造核武之際,馮紐曼則繼續為國防部蘭德機構當顧問、進行研究。他對核戰的看法很悲觀,但並不妨礙他為政府出力。

    囚犯兩難」是博弈論的一個著名例子。
    本書當然亦不限於「囚犯兩難」,但這是最著名的例子,在書中的篇幅亦最多。(尤其如果包括後來對「重覆的囚犯兩難」研究的話,見第十二章。)

    第一次讀到「囚犯兩難」是李逆熵《生物學新猷》的介紹(見零六年一月十三日日記),然後大學時直接去讀《自私的基因》的討論(見零五年十一月一日日記)。但這兩本書的焦點,當然是在於生物學而非博弈論。所以他們只介紹了博弈論對「重覆囚犯兩難」的研究和「以眼還眼」(即書中「一報還一報」)的結果,並從博弈論角度提出「利他行為」的演化成因。
    如果按照這個研究,由舊約時代留下來的「以眼還眼」似乎還是值得作座右銘吧﹖

    道金斯在《自私的基因》裡曾經引述別人(艾瑟羅德自己﹖)的說法﹕把所有國家的領導人關起來讀《協作的演化》(有關上述的研究),那麼世界將會得救。但在本書中,《協作的演化》作者艾瑟羅德不以為然﹕

    「許多人希望艾瑟羅德的發現能用於分析人類衝突,甚至希望政治家和軍事領袖們採用「務實的一報還一報」,從而使世界上大多數問題一夕間統統解決。

    艾瑟羅德自己卻沒有高估這種天真的想法。當筆者問他是否認為他的發現可以轉化成對政治家的忠告時,他堅定地說這不是他的目標﹕「我的目標是幫助人們更清楚認識事物,而世上的事物是極不相同的。包括賽局理論在內的任何形式化的模型,其價值在於,你可以利用它們而更清楚地看出事物運作的某些原理。但也只是某些原理,你一定還會留下許多問題,其中有些可能是非常重要的。」

    想要提倡在外交事務中應用一報還一報策略的部分問題是,在某種意義上說,大多數有理性的人雖然不知道這個策略,但實際已經這樣做了。有責任感的領導人不會去惹起麻煩,也不會輕易被激怒。現實的困難在於不清楚什麼時候應當合作,什麼時候應當背叛,但又必須做出決定。在現實世界中,某人到底是按合作或背叛的方針行事,有時候是不太明顯的,許多行動可能介於這兩個極端之間。而且我們經常不清楚對手做了什麼。當你不知道對方做了什麼時,就不可能採用任何條件式策略。」(p.329)

    如果「以眼還眼難以實際運用」已經夠糟的話,這裡還有另一段﹕

    「一報還一報的另一個問題是「回聲」效應。……看看現實的衝突,有多少是之前雙方宣稱他們只在受到攻擊時才報復﹖」(p.317)

    「在一個不確定的世界裡,類似一報還一報的策略也許是解決方案,但也許更是問題產生的一部分。在很多實際衝突中,雙方都宣稱是對方挑起了衝突,自己不過是一報還一報而已。……就像是自己有權力宣佈戰爭的門檻在哪裡

    一報還一報策略要求雙方基本上相信同樣的歷史,否則,由於每一方都要懲罰對方最近一次「不可饒恕」的違規行為,而使雙方陷入你來我往無休止的報復。然而,由於各國相信同樣歷史的事是極罕見的,因此,一報還一報策略的效用在國際事務中極為有限。通過互惠以促進國際合作的策略,因此需要對等的行動以抑制沙文主義所虛構的荒誕說法,以避免歪曲一個國家對過去的看法

    ……如果寄望一報還一報策略卻不先建立它的必要條件,我們將不可能促進合作,甚至可能造成更嚴重的衝突。」(p.330-331)

    有沒有想起以巴衝突、北愛爾蘭之類的問題﹖
    既然「共同見解」如此重要,我們亦可以想像中日韓學者合作撰寫《東亞三國的近現代史》,對於促進和平、消減民族主義,有多大的意義。

    由「囚犯兩難」可以引伸出很多不同的問題,其中一個就是跟大家每天生活相關的「公德」問題﹕Free rider (搭便車問題,我覺得譯作「搭霸王車」更貼切)。
    無論在家裡、學校、辦公室還是社會上,不斷都有一些「抽水怪」(現在的流行用語)。他們絕不會為某件事付出,但人家努力達成這件事後,他卻坐享其成。學生最熟悉的例子,大概就是做小組習作時,總會一些人不做事,卻認為分數有他一份。

    試想想,香港地鐵一天有那麼多人乘搭,一個人不給錢有甚麼影響﹖答案是幾乎等於零。但若然每個人都不給錢,地鐵就會倒閉。不付錢搭地鐵,有被捕的可能。可是在其他情境中,不付出的人可能沒有任何懲罰,於是變成其他人讓他們「蠶食」了。
    「蠶食」……你有沒有想起寄生蟲﹖正是如此。寄生蟲就是 free rider 的一種。(可見人類社會某程度上也是大宇宙的縮影,人類和禽獸確實有相類之處。)

    本書當然不會討論寄生蟲,但如果看倌讀《自私的基因》關於「鷹鴿之爭」的研究,就會想到「自私鬼」是不會消失的,因為他們的存在也是一個演化穩定策略(ESS)。有趣的是,無論全是「自私鬼」或「雷鋒」的社會都不會穩定(當然,靠宣傳教育叫人做雷鋒一樣是白費氣力),只有「自私鬼」和「雷鋒」各佔若干比例的社會,才是穩定的。
    可見,就算你多討厭自私的人,你仍然要預期見到他們,大發脾氣也只會把自己氣死而已。
    還是那句,我們自以為是萬物之靈,其實我們的社會跟禽獸的族群,本質上差不了多遠。

    基本上,「政府」(或者「收稅」)就是人類社會對付「free rider」的方法,而且似乎是唯一有效的方法。所以儘管政府效率不高,但我們必須有政府。

    博弈論可以寫多少﹖正如歌神的歌,世事無一不是博弈。
    大如治國、小如治家,遠如交友,近如求偶。
    任何人讀博弈論的書,只要他願意思考的話,一定可以聯想到很多例子。

    自問連下棋也懵懵懂懂的在下,當然也沒甚麼好意見給大家。
    我只是一個,讀讀棋譜、看著別人下棋覺得很過癮,但其實不知道人家在想甚麼的人。

    (另外推介一本簡單薄薄的、使用內地例子的入門書﹕
    《博弈生存—社會現象的博弈論解讀》潘天群,中央編譯(北京),2004
    介紹見 [書海潛遇(11)],零五年十二月二日日記。)

    ---

    筆記﹕

    p.75 「當小中取大和大中取小的結果相同時,該結果稱為「鞍點」(saddle point)。」

    是否等於納殊均衡(Nash Equilibrium)﹖

    p.227「對於大多數受實驗者,這種協商不太能影響賽局。為什麼受實驗者不願意合作﹖……按照研究人員的分析,受實驗者更感興趣的是勝過對手的報酬,而不是使自己的報酬最多。研究人員推測這是「一種受文化影響的準則,導致互不相識的人彼此防衛,最好首先保證自己和另一個人至少處於平等,而不要冒被對方擊敗的風險」。」

    所謂「贏左 banker」是也。
    不過這也不出奇,因為人是演化的成品,演化本身就是「人比人」多於看絕對值的機制。

    p.228 有一個賽局「完全沒有理由背叛。……然而不少受實驗者真的按了紅色按鈕(背叛),而且比例高達百分之四十七。在此賽局中,顯然背叛是由競爭心所推動。參與者若一直選擇合作將能拿到最高報酬,但雙方卻會因此「平手」。而如果背叛對手,自己雖然贏得少了,但跟對手比起來,報酬卻比較多。」

    一言以蔽之﹕「憎人富貴厭人貧」。很像在下時常批評香港人「鍾意睇人折墮」的心態吧﹖

    p.230 「拉波普特發現醫生、建築師和大學生選擇合作多於小企業主。」
    「盧茲克發現「國際主義」和合作是強烈相關的。他建立了一套心理測試標準以度量對國際合作的各種觀點……然後他進行了一次標準測試,發現「孤立主義者」小組比「國際主義者」小組更常按紅色按鈕(背叛)。盧茲克直率地結論﹕「『愛國主義』和『民族主義』顯然與缺乏對其他人的信任,以及不能追求互利(雖然合作能獲得更大利益)的特質相關。」盧茲克曾在迪克斯堡陸軍訓練營擔任中尉心理醫生,說這句話的語氣可真強烈。」
    正如同一段﹕「在這些研究報告中,唯一可信的結論是﹕在某一環境下傾向合作的人,在其他環境下也同樣傾向合作。有些人習慣合作,而有些人習慣背叛。」

    人民啊﹗擦亮雙眼﹗

    p.276 「在膽小鬼難題中,最令人費解的莫過於﹕非理性的參賽者反而或似乎「占便宜」。……卡恩說﹕「透過前面的敘述可以明白,為什麼許多人在國際關係中的所作所為就像年輕人玩『膽小鬼遊戲』一樣。……」」

    我突然想起「流氓國家」北韓。

    p.291 「我們已經看到了正當化合作的最常用方法,說是去問﹕「如果每個人都這樣做呢﹖」」

    「如果每個人都這樣做呢﹖」
    如果每個人都會這樣想,這就已經是個很有道德的世界。

    p.298-299「如果雙方不知道要進行多少回囚犯困境,他們就無法運用逆向歸納,也就不可能從「最後一回」賽局倒推。由於不知道賽局要進行到什麼時候結束,他們就有更多理由去合作。如果兩難賽局的次數是無限的,沒有最後一次賽局,也就不會出現矛盾。因此,永生不死的生物是能夠合作的,但我們卻不能,因為我們終有一死﹗
    「極端利己的人不會總是背叛別人,就是因為他明白不要「過河拆橋」。說不定哪天你會再遇見你這次背叛的人,而那時你卻需要他的合作。」

    這也是為何「街坊」小販較少欺騙,但遊客通常被坑的原因。

    p.314「訓練獵犬有一條規則,就是在牠犯了什麼錯後立刻懲罰。」

    很可惜,有時學生讓我們看到的表現,確實需要跟動物一樣的訓練方式。
    (也許只有讀書讀得太多的人,才會害怕不知何日到來的「you will pay」。)

    p.315「對於艾瑟羅德來說,最驚奇的發現之一就是一報還一報(以眼還眼)贏了,而且竟從來沒有「掠奪」過其他策略。艾瑟羅德解釋﹕「我們總是用自己的得分來跟別人的得分比較,但這並非獲得高分的方法。一報還一報不能打敗任何人,但它仍然贏得了這次競賽,這真是奇異的新觀念。……」」

    還是那句﹕做好自己。
    或者像馮兩努那句﹕「練好功夫等運到」。
    靠聰明可以得到一時的報酬,但並不長久。修為永遠比較重要。

    p.316「事實上,跟任何一種自以為是、不理對手的策略對抗時,最好的行動就是背叛。……不理對手的策略不會因此報復。」

    意思即是說﹕合作的前提是溝通和回應。對對方行為互相有反應的,才能合作。
    這也說明了,為何「加強溝通」對國際和平如此重要。「冇偈傾」除了打仗外就別無其他。

    p.319「這些「巧妙」的策略從總體上說都沒有好於一報還一報,它們就像瑞士刀一樣,藏有許多不同的工具,但你從來都不需要,還因為重而不便攜帶。大多數成功的策略都不是很容易被人掠奪的,想刺激它們以觀察其反應的行動,通常是得不償失。」

    可見,做人其實很簡單。
    古人已經說了﹕「智者千慮,必有一失」。

    p.326「結果顯示,曾經被其他吸血蝙蝠餵食的蝙蝠往後更願意貢獻血液,其意願的強弱取決於蝙蝠互相了解的程度。互相熟悉的蝙蝠更願意合作以期在將來持續互動。」

    這說明了為何一般人習慣互相送禮。
    (方某倒是不太喜歡收送禮物的,除非是我很想要但找不到的東西。)

    p.327-328「設想一個社會分成兩個集團﹕紅方和藍方。幾乎社會上的每個人都遵循這樣的策略﹕差別對待的一報還一報(Discriminatory Tit For Tat,簡稱 DTFT)。這種策略在面對同一集團的人時與「一報還一報」完全相同,在對付另一集團的人時則總是背叛。……(「因為你不能相信那些傢伙」)
    賴帝納和摩根證明這種安排是穩定的。如果有人盲目採用正規的一報還一報策略,結果會差於DTFT的堅持者。……
    這並不意味著當每個人都執行一報還一報時,DTFT會比一報還一報更成功,因為紅藍雙方每次互動都獲得懲罰性報酬,而不是獎勵性報酬。然而DTFT一旦建立了,基礎就是穩定的,因為它會對試圖建立「一報還一報」的個體施以懲罰。
    具有某一種標籤較少的一方因DTFT而受到的傷害,大於具有這一標籤較多的一方。」

    我們好像看到了,歧視和迫害是怎麼形成的。

    p.329 「有責任感的領導人不會去惹起麻煩」(抄了在上面)

    看到那段文字,我首先想起李登輝和陳水扁。

    p.331「我想每個人其實都知道什麼是非零和賽局,你可以在《新聞週刊》上直接用這個名詞而不必做任何解釋。我們是如此習慣於按零和賽局來思考問題,因此單單這一點就足以證明我們的智力有了重大進展。」

    就像「雙贏方案」﹖
    希望吧。

    p.344「你也許認為問題在於競拍者不具有艾瑟羅德所定義的「高尚」。那就譴責第一個背叛的人—第一個出價者吧﹗但是我們怎能去批評他呢﹖要是沒有人出價,九十九美分的獲利就會白白浪費掉啊。」

    忽然想起愛情悲劇裡,通常有個人說「我控制不到自己雙手」。

    p.346-347「在上述所有可能的開局出價中,只有九十九美分讓你能獲得保證一美分的獲利。但若對方是非理性的,甚至這一美分的利潤也無法確保,反而有損失九十九美分的輕微風險。」

    可見賺錢的確不易。(一笑﹗)

    p.349-352「如果兩個競拍者的資金數不等,其中一人可花的錢比另一人多,那麼情況就完全不同且更單純了。錢多的那個人—即使多一美分—永遠可以壓住對方出價……」
    「在真正的美元拍賣中,有多少人出價也是不確定的。在美元拍賣的實際試驗中,競拍者只能猜測他的對手有多少錢。但賽局理論的逆向分析需要從一開始就知道喊價的極限。如果喊價的極限是不確定的,那就沒法進行逆向分析。」

    可見有錢佬為何「大晒」。

    資料不確定,這是博弈論無法完全套用於現實的原因之一。
    (另一原因,是每個人心目中的報酬和喜好排列都不同。對於「義薄雲天」的人而言,根本沒有「囚犯兩難」這回事。)

    ---

    挑骨頭時間﹕

    p.65「在上面這張圖中,整個分支都可以被剪掉」

    「左」應為「右」。

    p.189「馬修斯辦公室的人把稿子直接送到了國防部的公共資訊室。……總之,公共情報局把演說稿油印以後分發給了新聞界。」

    很明顯是前後不一,原文也許是 Public Information Office/Bureau 之類,譯成前者為妥。(日本人才把所有 information 都譯成「情報」,雖然中文也有人這樣譯,但中文的「情報」一般是指 intelligence。)

    p.212「原子彈武器庫的成長情況大體上像下面這樣﹕」
    其實那張表在上一頁。

    p.216 註﹕「這個數字有些奇怪。它顯然是指在新墨西哥州試爆以及在長崎投下的那兩顆原子彈。沒有把廣島那顆計算在內,顯然是當時還沒做出來。如果情況屬實,那麼美國在長崎投下原子彈以後的一段時間裡根本就沒有核武。」

    廣島原爆先於長崎,所以這裡全部倒調了。若然不是作者出錯、譯者忙中不察,就譯者忙中有錯。

    --------------

    搜尋時在教育城找到一篇文章,讀完嚇了一跳﹕

    「各人追求自己利益而導致的最終結局就是所謂“納什均衡”(Nash Equilibrium),也是對所有人都不利的結局。從“納什均衡”中我們還可以悟出一個真理:合作是有利的“利己策略”,不過在現實生活中非合作的情況要比合作情況普遍。」

    這說法有點問題,可能令人誤會。

    1. 納殊均衡不一定是「對所有人都不利的結局」,這要視乎哪一類博弈而定。在囚犯兩難確實是,但在其他博弈就不一定。
    納殊均衡只是指合乎理性、大家重頭再玩都不會改變的決定而已。

    2. 納殊均衡並沒有告訴我們應該或不應該合作。
    合作對大家有沒有「利」,是視乎博弈的「局」而不同。在「囚犯兩難」中互相合作比互相背叛更有利,但在其他的「局」裡面,互相合作的結果可以比互相背叛更差。

    3. 在現實生活中,非合作不見得就比合作普遍。
    社會之所以能夠順利運作,其實就依賴大家每天合作,只是這些事情太平凡,平凡到大家沒留意而已。(試想﹕坐霸王車的人多,還是乖乖付費的多﹖)

    4. 還有,是博「弈」。

    教育城是教育網站,建議出文前小心檢查比較好,免得令學生誤會。

Comments (7)

  • 精彩的書介/導讀 (拍掌)。謝謝!

    讀完《萬物的尺度》,下一本就輪到它。

    方老師說得對,好書太多、時間太少。

  • 唔好因為長文就話好。

  • 很多書都有連絡,怎麼《自私的基因》反而沒有了?(因為太舊了?)

    http://www.books.com.tw/exep/prod/booksfile.php?item=0010071534

    還有末段令我摸不著頭腦:

    「4. 還有,是博『弈』。」
    如果「弈」是正字,我找不到哪段引文有別字,反而在不遠的上面第1點就「奕」和「弈」三字出現在同一句。其實你是不是想打「是博『奕』」?

    又,「囚犯兩難」通常被稱為「囚徒困境」,方老師是否認為那譯得不好而不用呢?

  • 1. 以前寫的時候沒有找連結,所以只給了書介日期。

    2. 我說的是教育城原文寫了別字(要打開原文看)。
    妳找到那個是我寫的,已更正。

    3. 我看到的反而多是「囚犯兩難」。
    Dilemma通常譯成「兩難」的。

  • 1) 那句太看不起人了。

    2) 週六在德福的商務看見《自私的基因》,不舊嘛 (新版?)

  • 1. 我沒解釋過博弈論耶。

    2. 不知道,不過如果是上面那條 link 的封面,就應該不是新版。

  • 那當我的領悟能力高,能舉一反三吧!不吵了。

Comments are closed.

Post a Comment