賽局理論,或者社會心理學的大腸桿菌:《囚犯的兩難》

《囚犯的兩難》中文版書封。

 

  二十多歲時,馮紐曼的名字就已經在全球數學界傳開了。年輕的馮紐曼曾輕率地斷言人們的數學能力一過二十六歲就會下降,只有靠著經驗,才能掩蓋這種下降趨勢——但也只能掩蓋一時而已。不過另一位數學家、他長期的朋友烏拉姆指出,隨著馮紐曼年紀增長,二十六歲這個關卡就被他提高了。

 

文|威廉‧龐士東(William Poundstone)

譯|葉家興

 

  蘭德最初的賽局理論專家小組慢慢解體了。馮紐曼愈來愈忙碌,花在賽局理論的時間愈來愈少。一九五一年,蘭德機構把馮紐曼的日薪加倍到一百美元,希望他花更多時間在蘭德,但是收效甚微。一九五五年初,馮紐曼終於放棄了和蘭德的合作,因為他被任命為原子能委員會委員,不得不縮減外務。

 

  德萊歇是少數留在蘭德、直到一九八○年代才退休的人。佛拉德於一九五三年便離開蘭德去了哥倫比亞大學,並幫助校方把蘭德的同事魯斯吸收過來;他也在那裡開始了完全不同的事業。他擔任一位電視製作人的顧問,協助修改一個益智節目的現金支付方式。近年來,他的興趣包括「投票數學」。他希望探求和推廣能更公正表達少數人利益的投票制度。

 

  納許的妄想症愈來愈嚴重。他老是古怪地想著要加強蘭德的安全措施,用這些念頭糾纏同事,最後被送到精神病醫院治療。後來康復以後他加入了普林斯頓的高等研究院。

 

  對賽局理論的批評

 

  人們對賽局理論的看法也發生了變化。《賽局理論與經濟行為》出版十年以後,最初的振奮情緒消退了。賽局理論受到非難、懷疑甚至痛斥。

 

  對許多人來說,始終與馮紐曼聯繫在一起的賽局理論,似乎是用來包裝對人類命運的無情嘲諷。有一些例子說明了這種新看法是何等嚴重。一九五二年,人類學家巴特森在給數學家維納的一封信中寫道:

 

  應用賽局理論的後果是,強化了參與者對規則和競爭前提的接受度,從而使參與者愈來愈難相信或許另有其他方式應對別人……賽局理論的應用號稱是帶來了各種改變,但我懷疑其長期改變的結果是進入一種病態的方向而令人厭惡。我不僅在思考馮紐曼模型中假設參與者互不信任的前提,也在思考人類本質不變的這個更抽象的前提……馮紐曼的「參與者」不同於人和哺乳動物,他們只是「機器人」,完全沒有幽默感,也完全不會「玩」(就像小貓、小狗那樣玩)。

 

  賽局理論專家很清楚他們的專業受到玷污的形象。一九五四年,蘭德機構的威廉斯寫道,賽局理論專家「常常被人類學領域的學生看成早熟的孩子,不懂得人以及人的工作何其複雜,只會瞪大天真無邪的眼睛胡思亂想,希望他們的玩具武器像殺死無生命的玩具龍一樣能殺死真的龍。」

 

  再看看蘭德的資深研究員魯斯和萊法在他們一九五七年的書《賽局與決策》中是怎麼說的吧:「歷史事實告訴我們,許多社會科學家對賽局理論的幻想後來破滅了。最初,他們天真地追逐流行,覺得賽局理論解決了社會學和經濟學中的無數問題,或者至少為需要經過幾年才能解決的實際問題提供了答案。結果證明情況並非如此。」

 

  一九六○年,蘭德機構經濟學部門的負責人查爾斯.希契告訴《哈潑》雜誌:「就我們的目標而言,賽局理論非常令人失望。」大眾很容易把賽局理論當作一種合理化核戰的工具。紐爾.戴維斯的《勞倫斯和歐本海默》書中引用歐本海默的話問:「我們怎樣才能創造出文明呢?文明總是把道德當作人類生活的基本要素……文明不可能談論幾乎所有人被殺死的前景,除非是深謀遠慮的賽局理論用語。」

 

  還有一些人認為許多問題要歸咎賽局理論使用者的心態。一九六二年,拉波普特為《美國科學人》雜誌寫了一篇很有見解的文章〈賽局理論的應用和誤用〉:

 

  ……賽局理論在那個以最原始、最殘忍的方式解釋培根名言「知識就是力量」的圈子裡已經被接受了。在我們的社會裡,決策者們全神貫注於權力衝突:經濟的、政治的、軍事的衝突。賽局理論是一門「衝突的科學」。這門新科學除了是為那些以最快速度攫取最高權力的人所準備的「權力的蓄水池」,還能是什麼呢?但如果你透徹理解了賽局理論,這種貪婪的希望就會消失。

 

  人們對賽局理論的疑慮持續到一九八○年代,甚至到今天。海姆斯在《馮紐曼和維納:從數學到生與死的技術》書中寫道:「賽局理論描繪了這樣一個世界,裡面有精於算計的聰明人冷酷不懈地追逐自身利益……對人類行為的這種霍布斯式的描繪是如此刺目,因而引起了許多人的反感。但馮紐曼更情願是錯在懷疑和不信任的這一邊,而不願意在對人類和社會本質充滿幻想的一邊出錯。」

 

  對賽局理論的指責分兩大類:一類認為賽局理論無非是馬基維利式的演算,用來證明戰爭或不道德行為是正當的;另一類認為賽局理論在現實世界中沒什麼用處(其純數學探討的有效性則未被質疑)。這兩種反對意見都值得檢驗。

 

John von Neumann。

 

  效用和馬基維利

 

  賽局理論中的參與者都是以「利己主義者」的面孔出現。囚犯困境的故事,包括塔克的故事和本書中其他幾種故事,都要求你設身處地把自己當作無視道德的冷酷歹徒,你的對手則同樣殘忍無情。為什麼需要這種冷冰冰的故事?

 

  這並非因為賽局理論是討論具有某種心理素質的人(自我中心或冷酷無情)如何進行賽局。它討論的是如何使策略更為有效。賽局理論講的只是「效用」,與坐幾年牢、賺多少錢等此類的事無關。你可以回憶一下前文,所謂「效用」只是一個抽象概念,可以看作參與者的「點數」。由於效用是大家不太熟悉的概念,科學家於是試圖在解釋賽局理論時,避免解釋效用這件事。這是可能的,因為效用跟賺多少錢、坐幾年牢或其他有形單位之間存在著簡單而明顯的對應關係。

 

  對於一個非道德的個人主義者,這種對應確實很簡單。錢是好東西—─錢愈多愈好!把人們的效用對應到具體的對象,袪除由背叛造成的道德顧忌以及由行善獲得心靈回報等使事情複雜化的因素之後,討論起來就容易多了。但如果認為賽局理論是專門討論這樣的人,那就錯了。

 

  賽局理論和算術一樣是一種抽象的工具,可以應用於現實世界,但前提是其嚴格的要求必須得到滿足。比如有一個人要算一下口袋裡有多少零錢。她掏出3枚一元和7枚五元的硬幣,算出她有38元。後來她發現點錯硬幣數了,五元硬幣只有6枚而不是7枚,因此她只有33元。這意味什麼?難道是算術錯了嗎?當然不是。如果你點錯了硬幣數,你不能因此怪算術的錯。同樣的,正確看待「效用」是應用賽局理論的前提。

 

  算術和賽局理論也有不同之處。兩個人只要正確點出硬幣數目,結果一定相同。但效用則隨主觀定義而有不同。如果賽局的結果不是現金獎勵,而是一些非常複雜的事物,那麼任何兩個人都可能對一組賽局的結果有不同的偏好排列。

 

  賽局理論是一個萬花筒,它只能反映應用者的價值體系。如果從賽局理論得出的結論似乎是馬基維利式的,那麼通常是因為應用賽局理論的人具有馬基維利式的價值體系。

 

  有鞍點的零和賽局和沒有鞍點的零和賽局也有嚴格的區別。即使只有結果的偏好程度排列,零和賽局也存在鞍點。而對於其他類型的賽局,效用必須有一個嚴格的數值尺度(區間尺度),否則就沒有可用來計算出正確的混合策略機率的數據了。

 

  在軍事策略這類的實際事物上,你很難有把握指定其結果(和平、局部戰爭或核武大屠殺)的數值。你可以憑空湊出「合理的」數字來,但這有違賽局理論的應用目的:提供遠比直覺更精確的建議。就像拉波普特在《美國科學人》上指出的:

 

  除非對偏好程度能做出十分精確的定量表示,否則就無法在沒有鞍點的賽局中做出合理的決策。我常常懷疑,那些被說服接受賽局理論的決策者們是否理解這種不可能性,就像用傳統工具無法做出與圓面積相等的正方形一樣。我見過許多研究報告,聽過許多長長的討論,說什麼冷戰和熱戰都可以當作賽局。假定冷戰和熱戰是零和賽局(其實不是!),那麼必須用一個差距尺度對各種結果的「效用」指定數值。這就成了問題。當然我們可以迴避它,以為可以用這樣或那樣的方法指定效用的數值,然後就可以利用賽局了。但這不是十二萬分的可笑嗎?基於任意假設而得到的結果,又會有什麼實際用途呢?

 

  在任何複雜的事物中, 我們都可以預期不同人對可能的結果有不同評價。 某位分析家認為是囚犯困境的賽局, 另一位分析家可能當作有鞍點的零和賽局, 第三位分析家卻又視為需要混合策略的賽局。 大家可能得出不同的結論, 卻也可能都是正確無誤地應用賽局理論!

 

賽局理論的建議是基於人們「理性」參與的假設;但當對手是非理性時,建議可能就不是最好的了。

 

  人是理性的嗎?

 

  九成以上的賽局理論的應用目的是預測人的行為,或對人的行為提出建議。但賽局理論並不能有效地預測人的行為。這項失敗很難漠視。賽局理論的建議是基於人們「理性」參與的假設;但當對手是非理性時,建議可能就不是最好的了。

 

  這個問題有點像零售商的「誘人上鉤再調包」的手法。你到汽車銷售商那裡去,因為他登了廣告,有一款你想要的車,售價一萬美元,該車型的最低廣告價格。但售貨員說車子已經賣完,他們有另一款車,售價一萬兩千美元。麻煩在於,你不知道這個價格是否為該款車的最好價格,或者,你甚至不知道你是否想要此款車。你到經銷商那裡去的唯一原因是想得到廣告中的那種車;現在他們沒有了,怎麼辦呢?你肯定會猶豫,因為到另一家銷售商未必更好。

 

  在賽局理論中,你通常是基於一個可能的結果(小中取大或納許均衡)而選定某個策略。如果你的對手不是照賽局理論的預測去做,那麼你可能發現換一個策略也許更好。

 

  向賽局理論提出挑戰的最初實驗之一,是蘭德機構在一九五二和一九五四年的一系列研究。研究小組中包括納許,目的是檢查馮紐曼的N人賽局理論到底是否可以應用。

 

  在蘭德的實驗中,四到七個人圍坐一桌,模仿馮紐曼理論中的一般N人賽局。受實驗者被告知,如果他們能形成聯盟就可以獲得現金報酬。一個裁判告知每個可能的聯盟所會獲得的獎勵金額,而聯盟成員可以用任何看來合理的辦法分享獎金。實驗結果可謂一團亂,跟《賽局理論與經濟行為》中的描寫大相逕庭,反倒更像小說《蒼蠅王》的情節。蘭德報告是這樣說的(引自《賽局與決策》):

 

  顯然參與者個性上的差異處處可見。一名參與者是否加入聯盟,看來跟他是否健談密切相關。當一個聯盟形成以後,經常是由最敢作敢為的成員負責其後的討價還價。在許多例子裡,即使在聯盟的首次形成過程中,積極性也扮演重要作用;在裁判發出「開始」命令以後,誰第一個大叫、叫得最響將使結果有所不同。

 

  在四人賽局中,參與者的座位安排似乎對結果沒什麼影響;但在五人賽局中,尤其是在七人賽局中,這變得十分重要……一般來說,參與者人數增加後,氣氛變得更混亂、更激動,競爭更激烈,參與者也覺得更不愉快……

 

  結果到底是證實或否定了馮紐曼與摩根斯坦的理論,極端難以判斷。而這有一部分原因或許是他們理論的主張並不是十分清楚。

 

  蘭德實驗中的激動的受實驗者雖沒有像馮紐曼和摩根斯坦所分析的那樣行動,但這不能反駁他們的數學分析。然而,對於任何可能還需要賽局理論的人來說,此實驗還是引人注意,因為賽局理論並不能很有效地預測人的行為。希望賽局理論很快使經濟學發生革命的人必然覺得實驗結果特別令人失望。經濟學理論必須預測有血有肉的人將怎樣做,不管其行動是理性的還是非理性的。

 

  我們不需要研究多人賽局就能發現非理性的證據。更令人迷惑的是囚犯困境的實驗。就像佛拉德/德萊歇實驗,大多數此類實驗涉及重複的囚犯困境,也就是一系列的囚犯困境:每個參與者都知道自己將和其他人反覆地互動。

 

  重複的囚犯困境在心理學研究中已經成為流行的題目,政治學家艾瑟羅德特別稱之為「社會心理學的大腸桿菌」。拉波普特估計,一九六五至一九七一年間發表的涉及囚犯困境的實驗報告達兩百個。

 

《囚犯的兩難》中文版書封。

 

書籍資訊

書名:《囚犯的兩難:賽局理論、數學天才馮紐曼,以及原子彈的謎題》 Prisoner’s Dilemma: John von Neumann, Game Theory, and the Puzzle of the Bomb

作者:William Poundstone

出版:左岸文化

日期:2019

[TAAZE] [博客來]

你可能會喜歡

所恐懼的想擺脫的、所珍愛的想保存的,都安置在:《大地之下》

在空間中翩翩起舞:《東京現代建築散步》

想要改變世界?別找大咖網紅

人類的第一個夜晚:《黑色的故事》(The Story of Black,2016)