AlphaFold 把一年的實驗壓成幾秒，John Jumper 說真正關鍵的不是模型

一年的實驗，壓成幾秒：用傳統方法解一個蛋白質結構，要花一兩年、約十萬美元；AlphaFold 幾秒鐘給你答案。這不是效率提升，是換了一種做科學的方式。
三個關鍵裡，大家都漏掉第三個：數據、算力、研究——前兩個常被講，但 Jumper 說真正把成果放大的是「研究」這一塊，有人實測它的價值是數據的十倍。
盲測才算數：他們在一個自 1994 年起、每兩年一次、答案沒人知道的盲評估上，錯誤率只有別人的三分之一。有基準還不夠，要在不知道答案的問題上測。
開源那一刻才真的炸開：先放程式碼給專家，再把資料庫（最後長到兩億個結構）開放給全世界——後者帶來的擴散完全是另一個量級。
使用者會用你想不到的方式用它：有人把兩個蛋白質湊一起做出全球最強的交互作用預測，有實驗室靠它重設計分子注射器。工具放出去之後，發現權就不在你手上了。

原始影片：John Jumper at YC AI Startup School

這場我最大的收穫，一句話：真正稀缺的從來不是數據和算力，是那個能把現有資源放大十倍的「研究」——也就是想法本身。 我本來以為諾貝爾獎得主上來會講他多厲害，結果他花了一半時間糾正一件事：大家都把 AlphaFold 的成功歸給數據和算力，但他說真正關鍵的是被講最少的那個。對我這種一直在搞 AI 工作流的人，這句話比那個炫的數字有用太多。

為什麼我這樣看？先說這問題有多難——你的 DNA 是一條線，但蛋白質摺起來是立體的複雜形狀，而形狀決定功能，疾病怎麼發生、藥怎麼設計都看這個。過去五十年累積的蛋白質結構大約只有二十萬個，但蛋白質序列每年發現幾十億個，我們學「序列」的速度是學「結構」的三千倍。這個缺口大到值得一座諾貝爾獎。Jumper 怎麼補上的，拆成三點給你。

一、想法的價值，實測是數據的十倍

他說做這件事有三個組成，前兩個聽起來都沒什麼特別：數據是二十萬個結構，但這是公開的，每個人都有同一份；算力是最終模型 128 顆 TPU v3 跑兩週，他特別說這「不是 LLM 規模」，學術資源就做得起。差別全在第三個。

我們提出了一套關於怎麼把機器學習用在這問題上的新想法。早期系統用卷積網路，表現還行；換成 transformer，老實說差不多；但把 transformer 的想法配上大量實驗和很多中型的點子，那才是真正改變發生的時候。

他給了個量化證據：有實驗室拿 AlphaFold 2 的架構，只用 1% 的數據訓練，準確度就跟用全部數據的前一代 AlphaFold 1 一樣好。換句話說，研究這塊的價值是數據的十倍。他對台下想創業的人講得很直白：別只想著堆數據、堆算力，去想你的「想法」能把手上的資源放大幾倍。這跟「資源越多越好」的直覺剛好是反的——也正是我那句結論的硬證據。

二、好想法是不是真的好，只有盲測測得出來

有了想法還不夠，你得確認它不是自己騙自己。Jumper 講了一個我覺得每個做東西的人都該記住的點：有基準（benchmark）還不夠，因為你會對自己的基準過擬合。真正的考驗是 CASP——一個從 1994 年開始、每兩年辦一次的盲評估，大家一起預測一百個「答案還沒人知道」的蛋白質。

一旦你開始處理一個你不知道答案的問題，你才能真的測出東西好不好。你會發現很多系統，根本沒有它的作者以為的那麼強。

在這上面，AlphaFold 的錯誤率只有其他組的三分之一。這一節扣回主張的方式很直接：第一節說想法是十倍槓桿，但槓桿要拉對方向才有用——盲測就是那把尺，沒有它你根本分不清自己手上的是真想法還是錯覺。

三、對的想法做出對的工具，價值會由別人替你長出來

模型做出來只是一半。Jumper 說最有趣的是，他們先開源程式碼給專家用，再把預測資料庫（從三十萬個，最後長到兩億個）開放給全世界——這兩件事的擴散完全不同量級。一開始一般生物學家是懷疑的，直到資料庫上線，每個人都拿自己手上還沒發表的蛋白質去比對，反過來問 DeepMind「你們怎麼拿到我沒公開的結構？」信任就是這樣一個一個建起來的。

更妙的是使用者開始做他想不到的事。有人在程式碼放出兩天後把兩個蛋白質湊一起、中間塞點東西（他形容這是「對蛋白質的提示工程」），做出全球最強的交互作用預測。MIT 一個實驗室看著 AlphaFold 預測的「分子注射器」圖，當場把底部的腳換成自己設計的蛋白質，拿去鎖定小鼠腦中特定細胞做藥物遞送。

你建好對的工具、解對的問題，它會改變那些做事的人的人生——不是你自己會做的事，是別人在你的工作之上長出來的東西。

而且他很誠實，沒把這講成萬靈丹：他自己估 AlphaFold 大概讓整個結構生物學領域加速了 5% 到 10%，不是一百倍；那個漂亮的最終模型背後，真正的算力成本其實花在「那些跑很久卻失敗的想法」上，成功的版本只是冰山頂。這份誠實正好收束整個主張——一個好想法的真正放大效應，不在你自己手上的成果，而在它放出去之後別人長出來的東西。

我自己的 takeaway

第一，真正稀缺的是研究，不是資源。Jumper 用 1% 數據打平上一代那個例子提醒我：很多時候你缺的不是更多輸入，是一個能把現有輸入放大十倍的想法。這對我做一人 AI 工作流特別有感——我沒有大公司的資源，但我可以在「怎麼組合手上這些工具」上下功夫，那才是槓桿真正的所在。

第二，東西要放出去才知道它能幹嘛。AlphaFold 最有價值的用法幾乎都不是團隊自己想到的。我常想把流程打磨到完美才敢拿出來用，但他的故事是反過來的——先開放，讓別人替你發現它的邊界。我下次大概會更早一點把半成品丟出去跑。

想看他怎麼講那個「努力一年才結晶」的論文、和使用者那些意外用法，原片在這：John Jumper at YC AI Startup School。

AlphaFold 把一年的實驗壓成幾秒，John Jumper 說真正關鍵的不是模型

一、想法的價值，實測是數據的十倍

二、好想法是不是真的好，只有盲測測得出來

三、對的想法做出對的工具，價值會由別人替你長出來

我自己的 takeaway

延伸閱讀

李飛飛說沒有空間智慧，AGI 就不算完整——我聽完她這場才懂為什麼

François Chollet 說：把模型養大不會生出智慧，缺的是另一種東西

摺衣服的機器人，失敗三個月後他們抄了大語言模型的作業