通過代理來研究博弈中的合作 

      J. F. Nash Jr 納什

      在一九六六年的“科學夏令營”上,我曾經從重復與進化策略的角度,針對那些致力于合作適應的自然進化研究的理論生物學家對“囚徒困境”博弈的應用作了一個演講。自此之后,我更多地思考這樣一個理念,即把博弈看作重復博弈來研究。由此,我得到了解決如何消除在聯盟以及聯盟形成中所涉及的“言辭上的”復雜性的思路。

      原則上說,聯盟以及馮·諾依曼和摩根斯坦恩在《博弈論與經濟行為》中考慮的聯盟,可以通過類似羅馬法中的契約來實現。由于契約能夠并且理應用語言表達出來,契約本質上是一個“語言”的事物。

        

      我的想法是,在重復博弈的角度,參與者對他們之中的“代理關系”或“代理人”的選擇具有投票權。

      這樣,在博弈的第一階段,參與者(比如,參與者A)可以選擇是否接受參與者B作為他的代理人。其結果可能導致聯盟(A,B)的形成(就象一個B作主席的委員會), 并且形成中不需要A與B之間的任何言語的過程。進一步,這個過程也適用于下一階段聯盟的形成。因為如果進行下一階段的選舉,參與者B可以作為聯盟(A,B)的代理人接受參與者C的代理關系,從而C就成為代表聯盟(A,B,C)的代理人。

      通過這種方式,如果廣義的“代理關系”可以由選舉產生,“大聯盟”總可以形成(對于有限參與者的博弈);這樣的結果是,“ Pareto效率”的必要條件將得到滿足。 

      代理關系進一步討論聯盟形成、解散以及重新形成的方式不是無限的,我們必須制定一個特定的選舉程序,以構成由被轉化的最初博弈的參與者參與的非合作形式博弈的基礎。對重復博弈的研究,我們能夠制定一個選舉過程,使得選舉出的代理人可以完全獨立決策,并且在每個特定的博弈中,代理人一經選舉不得改變。(當然,因為博弈是重復的,選舉結果會發生變化)。我們需要設定一套規則,以便使在每一選舉階段中仍保持獨立的參與者(沒有接受其他參與者作為自己的代理人)均可以選擇其他參與者作為可接受的代理人。這些規則產生的結果理應是收斂的,則n個參與者的博弈最多需要  ( n-1)階段的選舉。 

             選舉規則需要解決選舉中可能出現的“僵局”問題,即在A選擇B作為代理人的同時,B也選擇A作為代理人。對于哪些選舉規則能夠以最優的方式處理此類情形,我們事先并不是非常清晰。我們已經研究過多種情況。近來我們在應用特定博弈模型進行計算中發現,當選舉不能形成任何的代理權,允許重新進行選舉可能是一個解決的方法。這個發現使我們認識到,在任何選舉階段中,能夠使至多一個代理人被選中的選舉規則是最適宜的(另外,計算的實際結果似 乎暗示:這種選舉規則是“漸進無偏見的”。因為“成功選舉”的概率趨向于1時,“同時選舉”的概率趨向于0)。 

      對于一般的CF博弈,如果博弈要求所有聯盟的收益必須通過其代理人的行為決策來實現,該代理人有權代表聯盟的所有成員,那么由此形成的“代理博弈”仍然同最初的博弈具有同樣的可導出的特征函數。本質上說,聯盟具有同以前一樣的潛能,然而,在規范的意義上,要挖掘這些潛能,聯盟的成員需要共同策劃一個可操作程序,用以成功選舉出代理人,并且最終選出的能夠代表聯盟全體成員的代理人的行動是聯盟最終的有效行動。 

      模型的目前形式 

      我們已經發現,在兩人或者三人的博弈中應用此類模型,有可能找到“討價還價均衡”。出現的一些問題和復雜的細節使我們關注模型的精煉。理想的情況是,能夠開發一個類似于應用在天氣預報中的數學方法(用偏微分方程描述氣流的研究等)。在注重物質利益商業層面,這種模型可以自然地應用于公司合并的具體交易細節(就象最近的Pfizer公司和 Pharmacia公司的合并)。或者,我們希望能夠由此更深層次的認識已經存在的價值與價值評估概念,例如,Shapley值、核。

      聯系應用代理模型研究聯盟和合作的方法,本研究將涉及以下內容:關于重復博弈中的參與者如何對自己喜愛和不喜愛的、其他參與者的行為出“反應”的各種模型;研究關于參與者如何選擇能夠規范他們反應行為的“需求”的各種概念。例如,一個類似的研究領域是,理論生物學家在PD類型的重復博弈下研究合作進化的可能性。該研究發現了不同類型的有利于形成合作的“反應本能”。除了最簡單“針鋒相對”的本能反應之外,還存在更復雜的變型。這些變型需要更多的記憶(關于最近一系列重復博弈的經驗)。代理選舉模型的一個類似的情形是,參與者被允許做出的“需求”可能或多或少地被精巧構造。 

      因為去年的簡單模型中用以減少方程個數和變量個數的做法似乎產生了一些問題,我現在正在考慮一個更為復雜的模型(三個參與者的博弈模型)。

      去年模型和當前工作的公共特征 

      這些模型均有一個產生代理權的選舉程序。較早的模型中,在第一階段選舉生效之后,采用一個簡單的程序將剩余的活躍參與者數量減少至2個。我們使用了一類簡單自然的討價還價機制,通過這個機制,剩余參與者競爭選擇的效用配置是合理的。然而,這種簡化方法并不是直接遵循象博弈開始時所有參與者進行同一類的相互博弈產生代理關系的那些基本概念。兩個版本的模型均從第一階段的選舉開始,在第一階段的選舉中,三個參與者都可以投票(或者選擇)其他任一個參與者作為自己的代理人。兩個版本中的投票或選擇行為(象在重復博弈中反復采用的)均用數字來描述。這些數字能有效表示所涉及的行為或者機會出現時采取行動的概率。

      這樣我們就有一個包含六個數字的矩陣(和三個“隱含數字”),描述為: 

      參與者1 參與者2 參與者3
      a1f2& a1f3 a2f1& a2f3 a3f1& a3f2

      這些數字描述了每一個特定投票的概率。例如,a2f1是參與者2(在第一階段博弈中)選擇參與者1作為自己授權代理人(就像“代理權”)的概率,也就是“ P2接受 P1的比率”。 

      其他aifj形式的變量具有類似的含義。有時可以利用另一類方便的符號,例如,n3=1-a3f1-a3f2表示參與者3既沒有接受參與者1也沒有接受參與者2作為其代理的概率;或者表示參與者3沒有投票或投票給自己的概率。

      既然三個參與者同時作出他們的第一次投票,就可能產生不同的結果。我們制定一個簡化過程的規則,使投票產生一個合適的結果。如果在第一次投票機會中可接受的投票數目超過1個,我們從中隨機的選擇一個作為結果。 

      那么,選舉只有兩種結果:(1)其中一個參與者選擇其他參與者作為自己的代理人;(2)沒有任何一個參與者選擇其他參與者作為代理人代表他的利益。我們又引入一個約定,如果參與者沒有達成一致以至于沒有選出任何代理關系,第一階段選舉在某一概率下可以重復進行。在前一個模型中也用到了這個思想。參與者被賦予再次投票的概率設為(1-e4)或(1-E4), 我們希望研究的是當e4趨向于0的計算結果。(我們發現,在較早的模型中,當的趨向于0時,象a1f2所表示概率也趨向于0,但是這樣代理人產生的概率將增大。因為不斷地給聯盟的基本行動(選舉代理)提供“第二次機會”)。 

      代理選舉的第二個階段 

      在我們以前的模型中,一個代理關系選出之后,只有兩個參與者保持活躍,根據剩下的這兩個參與者的指定效用的損益,已經選為代理人的參與者選擇兩個數,而余下的單個人選擇一個數字。

      當前模型的研究方法是,在某種意義上,更多的關于代理關系思想的“傳統”和所有一般合作的可能性簡化為最終選舉一個“一般性的代理人”。這樣當一個參與者已經接受另一個參與者作為他的代理人,那么剩下兩個自由行動的參與者,而適合“大聯盟”的合作層次沒有實現直至他們中的一個被另一個選為代理人。 

      但是如果最后的代理關系選舉失敗,那我們可以允許現有的代理關系去使用由兩個參與者形成的2人聯盟的資源。(在一個簡單的情形,正如我們所考慮的,這會導致簡單的使用由一對參與者形成的聯盟的特征函數決定的資源)。

      類似的想法適用于選舉的第一階段,我們允許第二階段可以重復,其概率為(1-e5),如果沒有一方推舉另一方有代理資格,我們的思路是要研究當e5漸進趨近于0時極限形式的結果。 

      一旦一個“一般性代理”選出來,那么他/她有特權能夠分配收益,將所有可獲得的收益效用資源分配給包括他自己在內的所有參與者。我們的模型將整個可獲得的資源簡化為1,這也對應于博弈的Pareto邊界。 

      每一個參與者有四種可能的方式被選為最終的代理人。兩個參與者之一可能一開始就選舉他,這有兩種情形;或者其他兩個參與者有兩種方式產生最初聯盟,任一種方式接下來都是他被選為兩人聯盟的代理人。作為最終的代理人他要在一個2維空間中選擇一個點來決定他的可達的Pareto效用配置。

      這樣每個參與者有8個維度,共3個參與者,當他們在被選為“最終代理人”之后,指定的效用配置就總共有24個選擇維度。在39個“策略變量”中24個選擇變量被看作個人的目標和參與者個人最優選擇。 

       其他15個參與者的策略選擇的維度對應于他們與反應性行為(在重復博弈中)相關聯的選項。參與者由他們反應性策略選擇所影響或控制的行為一般是他們的“接受行為”。 

      博弈的第三步:效用的配置 

      當代理選舉的前兩步完成之后,最初的參與者之一已經成為所有人的代理,并由他“配置”收益。假定配置是Pareto有效的,由此我們假設他/她指定三個特定的非負數,其和為 1。這是由對其他參與者(目前是兩個人)的分配數量決定的。這樣對所有的參與者總共就有24種可選的策略。 

      例如,在UjBijRk型的情形,數字i是固定的,即參與者 i首先由參與者j選舉,然后由參與者k選舉;參與者i選擇分配ujbijrk給j(分配ukbijrk給參與者k,但是這是另外一種配置策略的情形)。例如,u1b3r21 是由參與者3決定分配給參與者1的數量,參與者3由參與者2選出,而參與者2在第一輪由參與者1選出。而u2b3r21 是分配給參與者2的(他在選舉的過程中處于一個不同的地位)。參與者3將u3b3r21 分配給自己,但是這在我們 42個變量和42個方程的系統中被化簡,因為其他兩個參與者的配置與參與者3的配置之間有個簡單的關系。這樣就有了24個“效用配置”的變量(分別對應著參與者選擇的策略人并且分為4類:UjBijRk,UkBijRk,UjBiRjk和 UkBiRjk。 

      博弈第二階段的“需求”與行為當“第二階段”到來的時候,一個參與者成為了代理,另一個參與者根據這種代理關系被代表,而第三個參與者仍然單獨的。 

      假設現在參與者1代表參與者2,而參與者3是單獨的。我們簡單的將 a12f3記為a12,也就是現在參與者1選擇投票給3作為最終代理人的概率。(這在一個可重復的博弈中是一個可以觀察到的行為。)并且我們用af12表示參與者3愿意投票接受參與者1(他已經代表參與者2了)作為最后的代理人。這種分類導致12個數,每種6個。然而這12個數不是所有涉及的參與者的“策略”選擇,而是我們設定的他們由需求規范的“反應行為”所決定的,這是參與者真正的策略選擇。例如,a12(或 a12f3)指定為 A 12/(1+A12),其中A12是一個正數。 

      這使得a12是一個小于1的正數。而控制a12的A12是由A12=Exp[(u1b3r12-d12)/e3]得到。這里e3,或者“E3”,它在我們研究模型的均衡最終變得非常小。由于非常小,使得A12在d12和u1b3r12相對變化時變化劇烈。這里的數字“ d12”是參與者1根據環境作出的“策略性”“需求”選擇,他可以投票接受參與者3作為一般性(最終)的代理人和等著希望參與者3會接受他作為最終代理人(!)。 這個公式所要考慮的僅僅是當參與者1已經被選出代表參與者2,即 ul1b3r12的情形下,參與者3成為一般性代理時,參與者1的預期收益或支付。

      這里有6個如 d12(它控制著a12)需求策略數字。同樣,這里也有6個非常類似的策略選擇,如df23控制著af3(或a1f23)。所以“df23”是參與者1的一種選擇,因為他控制a1f23也即接受在博弈的第二階段作為獨立人的參與者1作為參與者2的代理人的概率,在參與者2已經代表參與者3前提下。這樣我們有af23=AF23/(1+AF23)或a1f23=AIF23/(1+A1F23)其中AF23=Exp[(u1b23r1-df23)/e3]被指定用于控制(策略性)需求選擇的可接受行為。或者用一個更長的記號:A1F23=Exp[(u1b23r1-d1f23)/e3] 。

      第一階段的需求和可接受的行為 

      在選舉的第一個階段,即三個參與者都是獨立的時候,我們通常已經做了一個選擇,即如何將選舉行為和“需求”聯系起來。作出的選擇并不是絕對自由隨意的,有時還更加復雜,也需要進行恰當的考慮。每一個參與者的投票都有選擇,例如參與者2,可以選擇投票給參與者1(行為的概率為a2fl),也可以選擇投票給參與者3(行為的概率為a2f3),或者票都不投給他們(描述為n2=1-a2f1-a2f3)。這個模型,和以前研究的模型一樣,將這些行為描述的數字(或概率)與一個單獨的需求參數相聯系,即d2,這涉及參與者2在博弈的第一階段所有的策略選擇。我們在模型中假定正數A2f1和 A2f3都是給定的(有d2控制)并且a2fj=A2fj/(1+A2f1+A2f3),其中j為1或3。A2fj假定為 Exp[(q2j-d2)/e3],其中 q2j 為參與者在假定博弈進行到第二階段,且他成為參與者j的代理人的前提下計算的期望收益。這樣參與者2策略性選擇需求 d2,無論在第二階段是(q21),即參與者1成為代表他的代理人,還是(q23),即參與者3成為代表他的代理人,d2 都可以解釋為參與者2他/她應該對期望收益的要求。
      那么,三個策略變量 d1,d2和 d3控制 6個行為的概率a1f2,a1f3,a2f1,a2f3,a3f1以及a3f2,它們完整的描述了真實的(可觀察到的)第一階段參與者的行為。

      模型中的變量

      在模型中我們總共有39個“策略”變量,15個“需求”變量和24個“效用配置”的選擇。但是我們可以通過相關的控制行為概率,如 a23或a1f2和 a1f3,替換所有的需求變量,如 d23或d1。這樣我們可以得到簡化的方程組,絕大部分指數類函數都消除了。實際中必須考慮的一個問題是如何找到這些方程的真實數值解。這是在以前簡單模型中就遇到的問題,然而在目前的模型中,工作還遠未完成。不過,在NSF項目資助(AK)的幫助下,模型已經到了一個推導出可以解的實際方程的程度(即處于一種好的形式,可以應用計算機軟件進行研究)。進一步,首先對完全對稱博弈然后對一般性的非對稱博弈進行的一些數值計算表明,該模型如預期的那樣。至少對2個參與者的聯盟這樣的小數據是這樣的。但是,目前還不能對解的漸進形式或對計算的結果妄加評論,這一切都還為時尚早。

      當對各種形式的非對稱博弈進行了足夠的計算,那么通過計算出的收益,推斷出的隱含值可以給出與很多相關概念,如核等,相提并論的數字。剩下來的挑戰是如何真正地發現足夠多的、由均衡模型的數值解揭示的、有指導意義的結果。結果比較模型的設計使得博弈可以分類,其中Shapley值和核給出博弈不同的“評估”。這些評估,例如“仲裁程序”中所用的指南,是好是壞(如果這些比較從任何角度都是有效的)?當然,任何其他可以用于“評價”的規則,都能成為對這些或其他評價方法的進行比較的一個基礎。 

      如同以前的模型一樣,我們的建模也有三個參數描述兩個參與者聯盟可獲取的資源。如果它們是小的正數,例如小于1/3,盡管Shapley值在對博弈評價時給予它們適度的權重,但標準的核估計容易忽視它們。我們以前的模型對這些情形給出了數值結果:根據兩個“E”的比率(相比前面描述的“e3”)這種評價可以是“上 Shapley 式”(與處于{1/3,1/3,1/3}的核相比)或者是“下Shapley式”。

      最后,我做個總結,對于“需求”選擇效果的不規則平滑化中用到的“模糊性”需要一個更加一致的概念。否則,如同2人模型早期研究所證實的,如果一個參與者有“精明”的需求,而另一個可能有“遲鈍”的需求,這樣有精明需求的參與者會變成一個“精明”的討價還價者并會在計算出的博弈結果中占據優勢!

      模糊性的引入是出于數學上的考慮,可使得光滑函數的推導能夠計算。但是,在一定的環境下,“不平衡”的模糊性會“損害”博拜評價的客觀性。相關的研究這個項目的工作,主要是尋求利用“代理”的概念,通過簡化為非合作博弈均衡的考慮,從而成功的研究合作博弈,這已經引導我對其他一些問題進行研究。

      其中之一是核的可計算性,因為如果研究各種各樣的博弈例子,并且如果它們都定義了古典的核和Shapley值,那么僅對于數值結果的比較,最好有一種快速的方法找到形成核向量的數字。對我來說,可能通過蒙特卡羅類型的程序方法,在一個高度近似的水平,利用隨機干擾發現核分量的數值。我曾試著用MATHEMATICA編程,發現博弈經常可以用合理的數字來定義,而一個對真實核的高度近似可以導致通過找到用于近似的這些簡單的合理數字來發現真實的答案。

      在逐次逼進的方法中,核的確切定義是比較生成近似向量的各種隨機擾動優劣的評判標準的基礎。后來,我從Sven Klauke在Bielefeld的工作,了解到這一類的方法已經是有效C+十編程的基礎,并且已經開發出一套有效的程序,它采用的方法就是將問題簡化為“線性規劃”問題。

      在出席去年的 Stony Brook大會之后,我考慮一個Harsanyi(在1960年左右)計算的一個與發展合作博奕中的一般解概念有關的特征函數。當時,我認識到如果這個方法用于改變三人博拜的解釋,并且如果對(常數和)博弈計算出核,那么這將導致與博弈的Shapley值相同的向量(而它本身不會由于“ Harsanyi特征函數”而改變)。

      另一方面,如果我們考慮類似的四人博弈,在通過Harsanyi特征函數轉變聯盟值的信息之后核計算一般不會與Shapley值向量相一致。

      對我而言,目前恰巧遇到和1928年馮·諾伊曼相類似的情形3人合作博率在一定程度上可以評價,但4人博拜從評估的角度看,其困難程度不是一個級別。

           
      中文字幕亚洲精品资源网| 阿v视频在线观看| 国语自产少妇精品视频蜜桃| 精品永久久福利一区二区| 91精品国产综合久久精品| 91亚洲精品麻豆| 久热这里只有精品99国产6| 一本一本久久A久久综合精品| 精品久久久久久中文字幕| 国产亚洲精品激情都市| 无码人妻精品一区二区三区东京热| 国产香蕉精品视频在| 久久久精品国产亚洲成人满18免费网站| sprd在线播放| 四虎成人精品免费影院| 欧美日韩国产精品| 国产精品国色综合久久| 国产专区日韩精品欧美色| 亚洲精品美女久久777777| 91精品国产91热久久久久福利| 亚洲国产精品专区在线观看 | 国产区视频在线观看一区| 国产亚洲精品国产| 亚洲国产精品一区二区九九 | 免费看污污的网站欧美国产精品不卡在线观看 | 国产精品123区| 久久亚洲精品视频| 中文字幕日本精品一区二区三区| 91精品国产色综合久久| 亚洲av无码国产精品色在线看不卡| 久久精品夜夜夜夜夜久久| 国精品产露脸自拍| 人妻少妇精品无码专区二区| 国产成人综合久久精品尤物| 国内精品久久久久影院不卡| 视频二区国产精品职场同事| 国产一区亚州一区欧州一区| 国产精品JIZZ在线观看老狼| 日韩精品一区二区三区中文| 国产在线精品福利大全| 97视频在线观看这里只有精品|