- 論壇徽章:
- 0
|
納什均衡,Nash equilibrium ,又稱為非合作博弈均衡,是博弈論的一個重要術(shù)語,以約翰·納什命名。
假設(shè)有n個局中人參與博弈,給定其他人策略的條件下,每個局中人選擇自己的 納什均衡
最優(yōu)策略(個人最優(yōu)策略可能依賴于也可能不依賴于他人的戰(zhàn)略),從而使自己利益最大化。所有局中人策略構(gòu)成一個策略組合(Strategy Profile)。納什均衡指的是這樣一種戰(zhàn)略組合,這種策略組合由所有參與人最優(yōu)策略組成。即在給定別人策略的情況下,沒有人有足夠理由打破這種均衡。納什均衡,從實質(zhì)上說,是一種非合作博弈狀態(tài)。 納什均衡達(dá)成時,并不意味著博弈雙方都處于不動的狀態(tài),在順序博弈中這個均衡是在博弈者連續(xù)的動作與反應(yīng)中達(dá)成的。納什均衡也不意味著博弈雙方達(dá)到了一個整體的最優(yōu)狀態(tài),以下的囚徒困境就是一個例子。
囚徒困境
(1950年,數(shù)學(xué)家塔克任斯坦福大學(xué)客座教授,在給一些心理學(xué)家作講演時,講到兩個囚犯的故事。) 假設(shè)有兩個小偷A(chǔ)和B聯(lián)合犯事、私入民宅被警察抓住。警方將兩人分別置于不同的兩個房間內(nèi)進(jìn)行審訊,對每一個犯罪嫌疑人,警方給出的政策是:如果一個犯罪嫌疑人坦白了罪行,交出了贓物,于是證 納什均衡
據(jù)確鑿,兩人都被判有罪。如果另一個犯罪嫌疑人也作了坦白,則兩人各被判刑8年;如果另一個犯罪嫌人沒有坦白而是抵賴,則以妨礙公務(wù)罪(因已有證據(jù)表明其有罪)再加刑2年,而坦白者有功被減刑8年,立即釋放。如果兩人都抵賴,則警方因證據(jù)不足不能判兩人的偷竊罪,但可以私入民宅的罪名將兩人各判入獄1年。
硬幣正反
你正在圖書館枯坐,一位陌生美女主動過來和你搭訕,并要求和你一起玩?zhèn)數(shù)學(xué)游戲。美女提議:“讓我們各自亮出硬幣的一面,或正或反。如果我們都是正面,那么我給你3元,如果我們都是反面,我給你1元,剩下的情況你給我2元就可以了!蹦敲丛摬辉摵瓦@位姑娘玩這個游戲呢?這基本是廢話,當(dāng)然該。問題是,這個游戲公平嗎? 每一種游戲依具其規(guī)則的不同會存在兩種納什均衡,一種是純策略納什均衡,也就是說玩家都能夠采取固定的策略(比如一直出正面或者一直出反面),使得每人都賺得最多或虧得最少;或者是混合策略納什均衡,而在這個游戲中,便應(yīng)該采用混合策略納什均衡。 n\m 美女出正面 美女出反面
你出正面 +3,-3 -2,+2
你出反面 -2,+2 +1,-1
假設(shè)我們出正面的概率是x,反面的概率是1-x,美女出正面的概率是y,反面的概率是1-y。為了使利益最大化,應(yīng)該在對手出正面或反面的時候我們的收益都相等,由此列出方程就是 3x + (-2)*(1-x)=(-2) * x + 1*( 1-x ) 解方程得x=3/8。 同樣,美女的收益,列方程 -3y + 2( 1-y)= 2y+ (-1) * ( 1-y) 解得y也等于3/8,而美女每次的期望收益則是 2(1-y)- 3y = 1/8元。這告訴我們,在雙方都采取最優(yōu)策略的情況下,平均每次美女贏1/8元。 其實只要美女采取了(3/8,5/ 這個方案,不論你再采用什么方案,都是不能改變局面的。如果全部出正面,每次的期望收益是 (3+3+3-2-2-2-2-2)/8=-1/8元;如果全部出反面,每次的期望收益也是(-2-2-2+1+1+1+1+1)/8=-1/8元。而任 何策略無非只是上面兩種策略的線性組合,所以期望還是-1/8元。但是當(dāng)你也采用最佳策略時,至少可以保證自己輸?shù)米钌。否則,你肯定就會被美女采用的策略針對,從而賠掉更多。
|
|