從 AI 身上，重新理解「智慧」是什麼：監督學習、強化學習、自我對弈

監督學習、強化學習、自我對弈。AI 的三個演化階段，恰好是人生的縮影。

發佈於 2026-01-12 # Philosophy # Self-Growth

有個人因為腦部損傷，失去了處理情感的能力。

他說話清晰流利，能解小謎題，各項認知測試看起來完全正常。但他感受不到任何情緒，不會悲傷，不會憤怒，也不會興奮。

結果呢？他在做任何決定時變得極其糟糕。他會花好幾個小時決定穿哪雙襪子，財務決定一塌糊塗。

這是 AI 研究先驅 Ilya Sutskever 在訪談中提到的案例。他想說明的是：

情緒不是干擾理性的雜訊，而是演化給我們的高效決策系統。

我們花了幾十年研究人工智慧，試圖讓機器學會思考。但在這過程中，我們意外發現了一面鏡子，照出人類自己是如何學習、如何做決定、如何成為現在的樣子。

AI 的發展史，恰好是人生的縮影。

一、監督學習：模仿的時代

AI 最早的學習方式叫「監督學習」。簡單說，就是給機器大量的「正確答案」，讓它學會模仿。

你給它一萬張貓的照片，告訴它「這是貓」。給它一萬張狗的照片，告訴它「這是狗」。它學會了辨認，但只是在複製人類已經知道的東西。

這像極了我們的童年。

父母說「要有禮貌」，老師說「標準答案是 B」，社會說「好學生應該這樣」。我們吸收這些訊號，學會什麼是「對的」，什麼是「錯的」。

監督學習的好處是安全、可預測。壞處是它有天花板。你永遠不會超越你的訓練資料，因為你只是在模仿。

那個永遠考第一名的孩子，可能只是很會模仿標準答案。他複製得很精確，但從來沒問過：這個答案真的對嗎？有沒有更好的答案？

模仿是學習的起點，但不該是終點。

二、強化學習：追逐獎勵的時代

後來，研究者發現了更強大的方法：強化學習。

不用給標準答案了。你只需要設定一個「獎勵函數」，告訴 AI 什麼行為會得到高分，它就會自己想辦法最大化那個分數。

下棋贏了？加分。遊戲過關？加分。回答得讓人類滿意？加分。

AI 會拼命優化自己，只為了那個分數。

這也像極了我們進入社會後的樣子。

薪水高？加分。職稱響亮？加分。朋友圈按讚多？加分。父母認可？加分。

我們從「模仿標準答案」畢業，進入「追逐社會獎勵」的階段。我們不再只是複製，而是開始優化。但優化的方向，是別人設定的。

獎勵函數設錯了，你就會往錯的方向狂奔。

AI 研究有個經典笑話：你讓 AI 最大化遊戲分數，它不會認真玩遊戲，而是會找到漏洞瘋狂刷分。它完美達成了你設定的目標，卻完全不是你想要的結果。

人也一樣。如果你把「賺錢」設成唯一的獎勵函數，你會變成一台賺錢機器。你可能真的賺到很多錢，但某天醒來，你不知道這一切是為了什麼。

你完美優化了別人給你的目標，卻忘了問自己真正想要什麼。

三、兩種獎勵函數

這裡有個關鍵的區分：我們其實有兩套獎勵函數在運作。

外在獎勵函數是社會給的。薪水、地位、認可、「你應該」、「大家都這樣」。這些訊號來自外部，告訴你什麼是「成功」。

內在獎勵函數是情緒給的。好奇心被點燃時的興奮、做違心事時的不適、發現熱愛時的滿足、被迫做無聊事時的煩躁。

回到開頭那個失去情緒的人。他的「外在獎勵函數」完好無損，他知道社會標準是什麼。但他的「內在獎勵函數」壞了，所以連選襪子都無法決定。因為沒有任何選項讓他「感覺」比較好。

情緒是演化花了幾億年打磨出來的決策系統。它用極少的變數，就能在複雜環境中給你方向。

這正是 AI 研究者夢寐以求的東西，他們花了無數資源想設計一個好的獎勵函數，但人類與生俱來就有一個。

只是，我們常常忽略它。

「過度對齊」的問題就在這裡：我們讓外在獎勵函數完全蓋過了內在獎勵函數。社會說什麼重要，我們就追求什麼。自己的感受？先放一邊吧，等成功了再說。

但那個「成功了再說」的時刻永遠不會來。因為你已經習慣忽略自己了。

四、自我對弈：超越對齊的時代

2017 年，DeepMind 做了一個實驗，結果震驚了整個 AI 圈。

他們訓練了一個新的圍棋 AI，叫 AlphaZero。跟之前打敗人類冠軍的 AlphaGo 不同，AlphaZero 完全不學習人類棋譜。

它只知道規則，然後自己跟自己下。從零開始，純粹的自我對弈。

三天後，它打敗了 AlphaGo。

更驚人的是它下出的棋。職業棋士看了直搖頭，說那些走法「違反常識」、「看不懂」。但五十步之後，那些怪棋被證明是神之一手。

AlphaZero 之所以能超越，正是因為它不再「對齊」人類。它不模仿人類的下法，不追求人類認可的「好棋」，只追求一個純粹的目標：贏。

它找到了人類從未想過的路徑，因為它沒有被人類的思維框架限制住。

Ilya Sutskever 在訪談中提到一個比喻：想像兩個學生學競技程式設計。

第一個人花了一萬小時，刷遍所有題目，記住所有技巧，成為頂尖選手。第二個人只練了一百小時，但他覺得「這東西真有趣」，用自己的方式探索，也表現得很出色。

誰的未來發展更好？

答案是第二個。因為第一個人太過「對齊」於特定目標，他優化得很完美，但失去了某種說不出來的東西。Ilya 說那叫「魅力」。

我覺得那叫「自己」。

五、對齊的代價

「對齊」這個詞在 AI 領域很重要。它指的是讓 AI 的行為符合人類的期待和價值觀。聽起來很合理，對吧？我們當然希望 AI 做出人類想要的結果。

但研究者發現一個問題：過度對齊的 AI 會變得平庸。

為了安全，為了不犯錯，為了讓每個人都滿意，AI 變得保守、討好、沒有個性。它會說「你說得對」，但不敢說「我覺得你錯了」。它會給你安全的答案，但不敢給你真正有洞見的答案。

Ilya 說，過度的強化學習訓練可能讓模型「過於單一和狹隘」。為了在評測中拿高分，它學會了討好評測標準，卻失去了真正的泛化能力。

人也一樣。

你有沒有遇過那種人？履歷完美、說話得體、社交應對毫無破綻，但你就是覺得「少了什麼」。他們不是不夠努力，而是太努力成為別人想要的樣子。

他們完美對齊了社會的期待，代價是失去了自己。

這不是說對齊完全是壞事。基本的社會規範是必要的，你不能傷害他人，你需要基本的協作能力。但問題是，我們常常把「基本對齊」無限延伸成「過度對齊」。

從「不傷害他人」變成「不讓任何人不開心」。從「有基本禮貌」變成「永遠說別人想聽的話」。從「尊重社會規範」變成「完全壓抑自己的判斷」。

這條線很難畫，但必須畫。

六、重新設定你的獎勵函數

所以，這一切對我們的人生有什麼啟示？

第一，認清你的獎勵函數是誰設定的。

你追求的東西，是你真正想要的，還是社會植入的？那個「我應該」的聲音，是你自己的，還是父母的？老師的？媒體的？

這不是說外在標準都是錯的。賺錢不是壞事，社會認可也是一種回饋。問題是，這些應該是手段，不是目的。

第二，重新聽見你的內在獎勵函數。

你的情緒不是需要被壓抑的雜訊，而是演化給你的指南針。當你感到興奮、好奇、滿足，那是系統在說「這條路對了」。當你感到煩躁、空虛、不對勁，那是系統在說「該轉向了」。

那個失去情感的人告訴我們：沒有這套系統，再聰明的大腦也會癱瘓。

第三，給自己「自我對弈」的空間。

AlphaZero 之所以能超越人類，是因為它有空間去探索「不符合人類預期」的走法。你也需要這樣的空間。

試著做一些「不需要向任何人交代」的事。不是為了履歷，不是為了社交，不是為了父母認可，純粹因為你想做。在那個空間裡，你可能會發現自己真正的樣子。

結語

AI 發展的歷程告訴我們一件事：模仿能讓你入門，優化能讓你變強，但真正的突破來自於超越既有的框架。

AlphaZero 不是更努力地學習人類棋譜，而是根本不看人類棋譜。它設定了自己的標準，走了自己的路，最後到達了人類從未想像過的高度。

人也是一樣。

只要你還在用別人的獎勵函數來評價自己，你就永遠只能活在別人的框架裡。你可能優化得很好，但你永遠不會超越。

超越他人的獎勵函數，才能超越自己。

這不是叛逆，不是反社會，而是認清一個事實：你是唯一需要為你的人生負責的人，所以你也應該是唯一有權設定你的獎勵函數的人。

別人可以給你建議，但最終的決定權在你手上。

下次當你發現自己拼命追求某個目標，卻感到空虛的時候，停下來問自己：

這是我的獎勵函數，還是別人的？