François Chollet 說：把模型養大不會生出智慧，缺的是另一種東西

LLM 是記憶，不是智慧：Chollet 最核心的批評是，LLM 擅長的是記憶與檢索，不是「流動智能」——也就是面對沒見過的問題時，當場推理出解法的能力。
ARC 測驗專門量這件事：他 2019 年設計的 ARC，刻意讓你無法靠背題解決，要你從幾個例子歸納抽象規律。預訓練規模放大五萬倍，模型分數還是從 0% 爬到約 10%，普通人卻能輕鬆超過 95%。
把模型養大不等於走向 AGI：Scaling Law 帶來的提升，本質上是在擴大「知識庫」和「技能記憶」，不是增強推理和泛化。
測試時適應是真正的轉折：2024 年模型開始能在推理當下調整自己（如 OpenAI o3），ARC 分數才第一次明顯動起來——這是流動智能的跡象，但離 AGI 還很遠。
缺的是程式搜尋：Chollet 認為深度學習負責直覺、程式搜尋負責推理，兩種抽象要結合才解得開組合爆炸，這也是他新實驗室 Ndea 在賭的方向。

原始影片：François Chollet at YC AI Startup School

我看了 François Chollet 這場演講，整個人被一句話釘住，而且它可以濃縮成一句結論：把模型養大不會自己長出智慧，因為我們一直在量錯東西——量的是記憶，不是當場解新問題的能力。 我自己每天在搭 AI 工作流，最常犯的就是看 benchmark 分數高就以為它「會了」，結果一換場景就垮。Chollet 這場剛好把這個錯覺拆給你看，而且他不是嘴砲——他寫過 Keras，也做了一個專門打臉這種錯覺的測驗。

為什麼我信他？拆成四點給你：他先說明分數漲不等於智慧漲，再用一個小孩會、模型卡住的測驗證明，接著指出 2024 年真正的轉折在哪，最後講清楚缺的那塊到底是什麼。

一、分數一直漲，不代表我們真的在進步

過去十幾年的劇本是：把模型做大、餵更多資料，benchmark 就會更好，而且好得「可預測」。這就是 Scaling Law，很多人因此相信只要繼續放大，AGI 自然會冒出來。

Chollet 說這是搞混了兩件事：

記憶下來的技能是靜態、針對特定任務的；而流動的一般智能，是當場理解你從沒見過的東西的能力。

他用了一個我很喜歡的類比：技能像一條已經鋪好的道路，能讓你在固定的 A 點和 B 點之間通行；但智能是那家「修路公司」，能在需求變了的時候開出全新的路。把智能歸給一套僵化的技能程式，等於是把道路本身誤認成造路的能力。考試分數量的是前者，不是後者——所以分數漲，量到的只是更大的「知識庫」，不是更強的智能。

二、ARC 證明了這個差距：四歲小孩會，最強模型卻卡住

為了量「修路公司」這件事，他在 2019 年做了 ARC（Abstraction and Reasoning Corpus）。重點設計有兩個：每道題都獨一無二，你沒辦法事先準備；而且它只建立在「核心知識」上——物體、基礎物理、幾何、計數這些任何四歲小孩都有的常識，所以解題幾乎不靠專業知識，只能靠當場的推理。

數字很殘忍。從 2019 到現在，預訓練規模放大了約五萬倍，模型在 ARC 上的準確率只從 0% 爬到大約 10%。而在座隨便一個人都能拿超過 95%。

ARC 不是目標，解開 ARC 也不是目標。它只是一支指向正確方向的箭頭。

這支箭頭指的，正是第一點講的那個差距：當一個小孩輕鬆做到、最先進的模型卻掙扎，它就在提醒你——我們漏掉了某個用 scaling 補不上的東西。

三、真正的轉折在 2024：模型開始會「臨場調整」

然後 2024 年變天了。研究圈開始轉向「測試時適應」（test-time adaptation）——讓模型在推理當下，根據眼前這道題動態改自己的行為，而不是只去查預先裝好的知識。去年 12 月，OpenAI 的 o3 第一次在 ARC 上做到接近人類的表現。Chollet 說，所有現在能在 ARC 上拿分的方法，全都用了這類技術。

但他很誠實地把限制也攤開：第一，ARC-1 其實是個二元測驗，要嘛接近 0、要嘛一下子衝很高，飽和得太快，量不出細緻差異，所以他們今年三月又出了更難的 ARC-2。第二，就算是最尖端的測試時適應，要在 ARC-1 解到人類水準，仍然要燒掉數千美元的算力，而且這套還擴不到 ARC-2。在 ARC-2 上，基礎模型直接 0%，靜態推理也只有 1%~2%。

換句話說，會臨場調整證明了流動智能真的可以被推動，但它是一大步、不是終點——這也說明光靠養大模型確實到不了，得換方法。

四、缺的那塊：被冷落的程式搜尋

這是整場最戳我的地方，也是這篇結論的落點。Chollet 說智能其實是兩種抽象的結合：一種跑在連續空間，負責感知、直覺、模式辨識，深度學習很強（他叫它類型一）；另一種跑在離散空間，負責一步步的嚴謹推理，比對程式結構、找精確的對應（類型二）。Transformer 在類型一很猛，但你叫它把一串數字排序或相加都很吃力——那是類型二。

而類型二靠的不是梯度下降，是離散程式搜尋。他舉了 AlphaGo 第 37 手、90 年代用搜尋設計天線、DeepMind 的 AlphaEvolve，結論很直接：

深度學習不會創造，但搜尋會。

問題是程式搜尋會撞上組合爆炸。Chollet 的解法是讓兩者互補：用深度學習的快速直覺去「畫地圖」，縮小搜尋範圍，讓離散搜尋變得可行——就像下棋時你不是窮舉每一步，而是靠直覺先挑出幾個值得算的，再認真往下推。這套就是他新實驗室 Ndea 在做的東西，第一個里程碑是用一個對 ARC 一無所知的系統去解 ARC。缺的不是更多參數，是把直覺和搜尋接起來。

我自己的 takeaway

兩件事一直在我腦袋裡轉。

第一，別把 benchmark 分數當成「會了」。我搭工作流也常被漂亮的 demo 騙——某個 agent 在我準備好的情境裡跑得很順，換個沒見過的狀況就原形畢露。Chollet 提醒我，真正該量的是它面對「沒準備過的事」時的表現，不是它在我安排好的軌道上跑多快。

第二，通用能力不是靠把單一模型養大，而是靠把可重用的零件組起來。他講的那個「抽象函式庫」——AI 解一個新問題時，去庫裡找現成的構建塊、湊出一個臨時模型，解完再把新零件丟回庫裡——這跟我在搞的一人槓桿其實是同個形狀：我不是每個任務都重寫一套，而是累積一批能重組的 skill 和模組，遇到新需求快速拼出來。他在程式空間做，我在工作流做。

想看他怎麼一步步推到「程式搜尋才是缺的那塊」，原片在這裡：François Chollet at YC AI Startup School。

François Chollet 說：把模型養大不會生出智慧，缺的是另一種東西

一、分數一直漲，不代表我們真的在進步

二、ARC 證明了這個差距：四歲小孩會，最強模型卻卡住

三、真正的轉折在 2024：模型開始會「臨場調整」

四、缺的那塊：被冷落的程式搜尋

我自己的 takeaway

延伸閱讀

Anthropic 共同創辦人 Jared Kaplan：Scaling Laws 不是玄學，是他問了個蠢問題問出來的

Karpathy 說軟體又變了一次——這次我們是用英文在寫程式

Elon Musk 在 YC 講了 45 分鐘，但真正打到我的是「保持有用」這四個字