李飛飛說沒有空間智慧，AGI 就不算完整——我聽完她這場才懂為什麼

空間智慧是感知到行動之間那塊缺的拼圖：李飛飛認為 AI 要從「看懂」世界進到「在世界裡做事」，得先解決理解三維空間——物體的位置、關係、物理規律。她直接說：沒有空間智慧，AGI 不算完整。
ImageNet 是賭數據賭對了：2007 年她和學生做了一個大膽的押注——機器學習需要靠數據驅動的範式轉移。開源 + 公開挑戰賽，最後在 2012 年等到 AlexNet，數據、GPU、神經網路第一次湊齊。
她現在創辦 World Labs，賭三維世界模型：超越平面像素、超越語言的世界模型，要能重建、生成、推理三維世界。團隊是 Justin Johnson、Ben Mildenhall、Christoph Lassner 這種等級。
為什麼這題比 LLM 難：語言本質是一維、純生成的；現實世界是三維（加時間就四維），而且看世界是把 3D 壓成 2D 的投影，數學上是病態問題。最麻煩的是——空間數據不在網路上，在我們腦袋裡。
她招人只看一個特質：智識上的無畏：從 Andrej Karpathy 到 Jim Fan，她說把這些人連起來的不是聰明，是敢迎難而上、全心去解的勇氣。

原始影片：https://www.youtube.com/watch?v=_PioN-CpOP0

這場我最大的收穫，一句話：真正稀缺的不是聰明，也不是算力，是「敢離開舒適區、去賭一個對的難問題」。 李飛飛被叫做 AI 教母，明明可以靠 ImageNet 吃一輩子，卻跑去創業解一個她自己都說「幾乎到妄想邊緣」的題。對我這種一直在搞 AI 工作流的人來說，這比任何技術細節都有用。

為什麼我這樣看？拆成四點給你。

一、她做事的形狀是一個可複製的配方：對的問題表述 + 數據 + 算力

ImageNet 的起點其實是一個押注。2007 年左右，電腦視覺幾乎沒有數據，演算法也跑不太起來。她和學生決定賭一件事：機器學習要往前走，得靠數據驅動的範式轉移——但當時根本沒數據。於是他們去網路上抓圖、建整個世界的視覺分類法，拿來訓練和 benchmark。

但光做出來不夠。她做了兩個關鍵動作：開源，以及辦公開挑戰賽，把全世界最聰明的人引到同一個問題上。前幾年錯誤率卡在 30% 左右，不算好。直到 2012 年的某個深夜，她學生傳訊息說「我們拿到很突出的結果，你該看看」——那就是後來大家都知道的 AlexNet。

這真的是數據、GPU 和神經網路結合的第一個時刻。

我覺得這段最值得抄的不是「她有遠見」，而是她把「找到對的問題表述 + 足夠的數據和算力」當成一個可複製的配方。後來 AlphaFold 也是同一個形狀。記住這個配方，因為她下一個賭注用的是同一套。

二、她現在賭空間智慧，因為這才是 AGI 缺的那塊拼圖

她講了一個我很喜歡的對比。人類複雜語言的發展，慷慨估算也不過進化的不到一萬年。但看懂三維世界、在裡面導航互動這件事，花了進化 5.4 億年——從第一隻三葉蟲長出水下視覺開始，才掀起整場演化的軍備競賽。

她的結論很直接：

在我看來，沒有空間智慧，AGI 是不完整的。我想解決這個問題。

所以她創辦 World Labs，做的是超越平面像素、超越語言的「世界模型」——要能捕捉三維結構、重建也生成這個世界。團隊找的是 Justin Johnson（即時神經風格轉換）、Ben Mildenhall（NeRF 作者）、Christoph Lassner 這種等級。這就是上一點那個配方的下一次套用：先把問題表述對——AGI 缺的是空間智慧——剩下才是數據和算力的事。

三、她誠實地講為什麼這題比 LLM 難

這段我特別認同她「報憂」的態度。她沒有把空間智慧包裝成「再 scale 一下就會通」，反而老實列出幾個結構性的難：

語言本質是一維、純生成的：音節按順序出現，所以 sequence-to-sequence 那套很自然。語言甚至不存在於自然界，你摸不到它。
現實世界是三維（加時間就四維）：組合性的難度高一個量級。
看世界是投影：眼睛也好相機也好，永遠是把 3D 壓成 2D，數學上是病態問題，所以人和動物才需要多種感官。
最麻煩的是數據：網路上有海量文字可以餵 LLM，但空間數據「老實說都在我們腦海裡」，沒那麼好拿。

她對這件事的反應很有意思——不是焦慮，是興奮：「如果這簡單，別人早解掉了。」這正好印證我那句結論：她不是不知道難，是明知難還選它，因為難本身就是她要的。

四、她敢離開舒適區，招人也只看「智識上的無畏」

她明明可以靠 ImageNet 吃一輩子，卻說站在谷底、忘掉別人怎麼看你、專注去建，才是她的舒適區。這跟一般人想的相反——對她來說，賭一個接近妄想的難題不是冒險，是回家。

招人標準也是同一套，她只講一個詞：智識上的無畏。不管你從哪來、要解什麼，那種敢迎難而上、全心去解的勇氣，是她在 Andrej Karpathy、Jim Fan 這些人身上看到的共同點，也是她現在在 World Labs 找人的標準。

不管你從哪來、要解什麼，那種敢迎難而上、全心去解的勇氣。

她順帶回了學生一個問題：博士生現在該研究什麼？她說學術界已經不掌握大多數 AI 資源了，別去跟業界比誰晶片多、數據多，要找的是無論算力多寡都能推進的根本問題——跨學科 AI、可解釋性與因果、電腦視覺裡還沒解的表徵與小數據。這還是同一個態度：不被資源綁住，去挑對的難題。

我自己的 takeaway

兩件事一直在我腦袋裡轉。

第一，她做事的形狀其實是一個可複製的配方：找到對的問題表述，再加數據和算力。ImageNet 是這樣，她賭空間智慧也是這樣。我在搞自己的 AI 工作流時也常犯一個錯——急著堆工具、堆算力，卻沒先把「我到底要解的是哪個問題」講清楚。她提醒我，問題表述對了，後面才有意義。

第二，她敢離開舒適區去賭一個超難的題。我一個人做工作流、想靠一套底層能力撐起很多應用，常常會在「要不要再往難一點走」這裡猶豫。她的答案很乾脆：去做，別怕。

想聽她親口講 ImageNet 那個深夜、以及她怎麼描述空間智慧為什麼難，原片在這裡：https://www.youtube.com/watch?v=_PioN-CpOP0。

李飛飛說沒有空間智慧，AGI 就不算完整——我聽完她這場才懂為什麼

一、她做事的形狀是一個可複製的配方：對的問題表述 + 數據 + 算力

二、她現在賭空間智慧，因為這才是 AGI 缺的那塊拼圖

三、她誠實地講為什麼這題比 LLM 難

四、她敢離開舒適區，招人也只看「智識上的無畏」

我自己的 takeaway

延伸閱讀

摺衣服的機器人，失敗三個月後他們抄了大語言模型的作業

François Chollet 說：把模型養大不會生出智慧，缺的是另一種東西

AlphaFold 把一年的實驗壓成幾秒，John Jumper 說真正關鍵的不是模型