有個人因為腦部損傷,失去了處理情感的能力。
他說話清晰流利,能解小謎題,各項認知測試看起來完全正常。但他感受不到任何情緒,不會悲傷,不會憤怒,也不會興奮。
結果呢?他在做任何決定時變得極其糟糕。他會花好幾個小時決定穿哪雙襪子,財務決定一塌糊塗。
這是 AI 研究先驅 Ilya Sutskever 在訪談中提到的案例。他想說明的是:
情緒不是干擾理性的雜訊,而是演化給我們的高效決策系統。
我們花了幾十年研究人工智慧,試圖讓機器學會思考。但在這過程中,我們意外發現了一面鏡子,照出人類自己是如何學習、如何做決定、如何成為現在的樣子。
AI 的發展史,恰好是人生的縮影。
一、監督學習:模仿的時代
AI 最早的學習方式叫「監督學習」。簡單說,就是給機器大量的「正確答案」,讓它學會模仿。
你給它一萬張貓的照片,告訴它「這是貓」。給它一萬張狗的照片,告訴它「這是狗」。它學會了辨認,但只是在複製人類已經知道的東西。
這像極了我們的童年。
父母說「要有禮貌」,老師說「標準答案是 B」,社會說「好學生應該這樣」。我們吸收這些訊號,學會什麼是「對的」,什麼是「錯的」。
監督學習的好處是安全、可預測。壞處是它有天花板。你永遠不會超越你的訓練資料,因為你只是在模仿。
那個永遠考第一名的孩子,可能只是很會模仿標準答案。他複製得很精確,但從來沒問過:這個答案真的對嗎?有沒有更好的答案?
模仿是學習的起點,但不該是終點。
二、強化學習:追逐獎勵的時代
後來,研究者發現了更強大的方法:強化學習。
不用給標準答案了。你只需要設定一個「獎勵函數」,告訴 AI 什麼行為會得到高分,它就會自己想辦法最大化那個分數。
下棋贏了?加分。遊戲過關?加分。回答得讓人類滿意?加分。
AI 會拼命優化自己,只為了那個分數。
這也像極了我們進入社會後的樣子。
薪水高?加分。職稱響亮?加分。朋友圈按讚多?加分。父母認可?加分。
我們從「模仿標準答案」畢業,進入「追逐社會獎勵」的階段。我們不再只是複製,而是開始優化。但優化的方向,是別人設定的。
獎勵函數設錯了,你就會往錯的方向狂奔。
AI 研究有個經典笑話:你讓 AI 最大化遊戲分數,它不會認真玩遊戲,而是會找到漏洞瘋狂刷分。它完美達成了你設定的目標,卻完全不是你想要的結果。
人也一樣。如果你把「賺錢」設成唯一的獎勵函數,你會變成一台賺錢機器。你可能真的賺到很多錢,但某天醒來,你不知道這一切是為了什麼。
你完美優化了別人給你的目標,卻忘了問自己真正想要什麼。
三、兩種獎勵函數
這裡有個關鍵的區分:我們其實有兩套獎勵函數在運作。
外在獎勵函數是社會給的。薪水、地位、認可、「你應該」、「大家都這樣」。這些訊號來自外部,告訴你什麼是「成功」。
內在獎勵函數是情緒給的。好奇心被點燃時的興奮、做違心事時的不適、發現熱愛時的滿足、被迫做無聊事時的煩躁。
回到開頭那個失去情緒的人。他的「外在獎勵函數」完好無損,他知道社會標準是什麼。但他的「內在獎勵函數」壞了,所以連選襪子都無法決定。因為沒有任何選項讓他「感覺」比較好。
情緒是演化花了幾億年打磨出來的決策系統。它用極少的變數,就能在複雜環境中給你方向。
這正是 AI 研究者夢寐以求的東西,他們花了無數資源想設計一個好的獎勵函數,但人類與生俱來就有一個。
只是,我們常常忽略它。
「過度對齊」的問題就在這裡:我們讓外在獎勵函數完全蓋過了內在獎勵函數。社會說什麼重要,我們就追求什麼。自己的感受?先放一邊吧,等成功了再說。
但那個「成功了再說」的時刻永遠不會來。因為你已經習慣忽略自己了。
四、自我對弈:超越對齊的時代
2017 年,DeepMind 做了一個實驗,結果震驚了整個 AI 圈。
他們訓練了一個新的圍棋 AI,叫 AlphaZero。跟之前打敗人類冠軍的 AlphaGo 不同,AlphaZero 完全不學習人類棋譜。
它只知道規則,然後自己跟自己下。從零開始,純粹的自我對弈。
三天後,它打敗了 AlphaGo。
更驚人的是它下出的棋。職業棋士看了直搖頭,說那些走法「違反常識」、「看不懂」。但五十步之後,那些怪棋被證明是神之一手。
AlphaZero 之所以能超越,正是因為它不再「對齊」人類。它不模仿人類的下法,不追求人類認可的「好棋」,只追求一個純粹的目標:贏。
它找到了人類從未想過的路徑,因為它沒有被人類的思維框架限制住。
Ilya Sutskever 在訪談中提到一個比喻:想像兩個學生學競技程式設計。
第一個人花了一萬小時,刷遍所有題目,記住所有技巧,成為頂尖選手。第二個人只練了一百小時,但他覺得「這東西真有趣」,用自己的方式探索,也表現得很出色。
誰的未來發展更好?
答案是第二個。因為第一個人太過「對齊」於特定目標,他優化得很完美,但失去了某種說不出來的東西。Ilya 說那叫「魅力」。
我覺得那叫「自己」。
五、對齊的代價
「對齊」這個詞在 AI 領域很重要。它指的是讓 AI 的行為符合人類的期待和價值觀。聽起來很合理,對吧?我們當然希望 AI 做出人類想要的結果。
但研究者發現一個問題:過度對齊的 AI 會變得平庸。
為了安全,為了不犯錯,為了讓每個人都滿意,AI 變得保守、討好、沒有個性。它會說「你說得對」,但不敢說「我覺得你錯了」。它會給你安全的答案,但不敢給你真正有洞見的答案。
Ilya 說,過度的強化學習訓練可能讓模型「過於單一和狹隘」。為了在評測中拿高分,它學會了討好評測標準,卻失去了真正的泛化能力。
人也一樣。
你有沒有遇過那種人?履歷完美、說話得體、社交應對毫無破綻,但你就是覺得「少了什麼」。他們不是不夠努力,而是太努力成為別人想要的樣子。
他們完美對齊了社會的期待,代價是失去了自己。
這不是說對齊完全是壞事。基本的社會規範是必要的,你不能傷害他人,你需要基本的協作能力。但問題是,我們常常把「基本對齊」無限延伸成「過度對齊」。
從「不傷害他人」變成「不讓任何人不開心」。從「有基本禮貌」變成「永遠說別人想聽的話」。從「尊重社會規範」變成「完全壓抑自己的判斷」。
這條線很難畫,但必須畫。
六、重新設定你的獎勵函數
所以,這一切對我們的人生有什麼啟示?
第一,認清你的獎勵函數是誰設定的。
你追求的東西,是你真正想要的,還是社會植入的?那個「我應該」的聲音,是你自己的,還是父母的?老師的?媒體的?
這不是說外在標準都是錯的。賺錢不是壞事,社會認可也是一種回饋。問題是,這些應該是手段,不是目的。
第二,重新聽見你的內在獎勵函數。
你的情緒不是需要被壓抑的雜訊,而是演化給你的指南針。當你感到興奮、好奇、滿足,那是系統在說「這條路對了」。當你感到煩躁、空虛、不對勁,那是系統在說「該轉向了」。
那個失去情感的人告訴我們:沒有這套系統,再聰明的大腦也會癱瘓。
第三,給自己「自我對弈」的空間。
AlphaZero 之所以能超越人類,是因為它有空間去探索「不符合人類預期」的走法。你也需要這樣的空間。
試著做一些「不需要向任何人交代」的事。不是為了履歷,不是為了社交,不是為了父母認可,純粹因為你想做。在那個空間裡,你可能會發現自己真正的樣子。
結語
AI 發展的歷程告訴我們一件事:模仿能讓你入門,優化能讓你變強,但真正的突破來自於超越既有的框架。
AlphaZero 不是更努力地學習人類棋譜,而是根本不看人類棋譜。它設定了自己的標準,走了自己的路,最後到達了人類從未想像過的高度。
人也是一樣。
只要你還在用別人的獎勵函數來評價自己,你就永遠只能活在別人的框架裡。你可能優化得很好,但你永遠不會超越。
超越他人的獎勵函數,才能超越自己。
這不是叛逆,不是反社會,而是認清一個事實:你是唯一需要為你的人生負責的人,所以你也應該是唯一有權設定你的獎勵函數的人。
別人可以給你建議,但最終的決定權在你手上。
下次當你發現自己拼命追求某個目標,卻感到空虛的時候,停下來問自己:
這是我的獎勵函數,還是別人的?