- AlphaFold 把幾十年的難題壓縮成幾秒鐘:蛋白質結構預測過去需要數月的實驗或計算,AlphaFold 讓這個過程縮短到幾秒——這不只是效率提升,而是科學研究方式的根本改變。
- 機器學習讓生物學進入了新紀元:John Jumper 從物理學跨入計算生物學,最終打造 AlphaFold——這段跨領域的歷程說明,AI 最大的突破往往發生在學科交界處。
- 數據、算力、問題表述缺一不可:AlphaFold 的成功不只靠模型架構,還需要大型實驗數據庫(PDB)、強大的算力,以及將蛋白質折疊重新定義為可學習問題的深刻洞察。
- 開源釋放了巨大的科學價值:DeepMind 免費開放 AlphaFold 資料庫和程式碼,讓全球研究者能夠加速藥物研發、疾病研究,已有超過百萬種蛋白質結構被預測和應用。
- AI 正在加速科學發現的飛輪:AlphaFold 只是開始——Jumper 認為 AI 將在材料科學、化學合成、基因組學等更多科學領域帶來類似的突破性加速。
John Jumper [00:02]
這確實是一個不錯的變化。我發表過很多科學演講,通常在我登台時沒有人會鼓掌和歡呼。一般來說,即使我上台時也不會。這真的令人興奮。能在這裡真是太棒了。我想我應該假設這個寬敞的禮堂裡並不是每個人都知道我是誰。我是誰呢?我是一名在科學AI領域有所作為的人,真的相信我們可以利用這些AI系統、這些技術、這些理念,以非常具體的方式改變世界,使科學更快地進行,促進新的發現。我認為這真的很棒。我們有機會將這些工具、這些想法對準問題:我們如何建立適合的AI系統,使病人能夠康復並能從醫院回家。而我能走到這裡,這段旅程真的非常美好且曲折。我最初是以物理學家的身份接受訓練。我曾認為我會成為一名宇宙法則的物理學家。如果我運氣很好,我可以做一些最終會出現在教科書中的事情。我學了物理,實際上攻讀了物理的博士學位。但我所從事的工作並沒有真正吸引我。我只是感覺這不是我想做的事情。所以我退學了。我沒有創業,這對本事件來說將是非常合適的,但我退學後,最終在一家公司工作,該公司從事計算生物學。我們如何讓計算機對生物學說些聰明的話?我喜歡這個工作。我喜歡它不僅是因為它很好玩,更因為它讓我可以做我認為自己擅長的事。寫程式碼、操縱方程式、深思世界的本質,並將它用於這個非常應用的目標,最終我們希望能夠製造藥物或使其他人能夠製造藥物。然後我真的變成了一名生物學家和機器學習者。實際上是機器學習者,因為我離開了那份工作,回去攻讀生物物理和化學的研究生學位,而我不再能夠使用我之前工作時擁有的那款驚人的計算機硬體,事實上,他們擁有專門的ASIC來模擬蛋白質這個你身體的一部分的運動。因為我不再擁有它,但我仍然想在同樣的問題上工作。那麼,我不想僅僅以較少的計算資源嘗試相同的事情。因此,我開始學習,並對統計學和機器學習產生了極大的興趣。我們
John Jumper [02:38]
當時並不稱之為AI。事實上,我們甚至不稱其為機器學習。這有點不光彩。我會說,我從事的是統計物理學的工作。但你知道,我們將如何開發算法呢?我們將如何從數據中學習,而不是依賴非常龐大的計算?而結果顯示,除了非常龐大的計算資源來解決新問題之外,AI也變得至關重要。之後,我加入了Google DeepMind,真正加入了一家想要探索如何利用這些強大技術和所有這些理念的公司,並且這些技術的強大應用變得非常明顯,尤其是在遊戲等領域,但也包括數據中心等其他事項。我們將如何利用這些技術來推進科學,並真正推動科學的前沿?我們如何能在這種工業環境下,以驚人的速度與一些非常聰明的人合作,利用出色的計算資源進行工作?在這一切中,你最好能夠取得一些進展,這真的很有趣,而我今天站在這個舞台上的事實表明我們已經取得了一些進展。我認為對我來說,指導這項工作的原則是,當我們進行這項工作時,最終我們是在建立工具,使科學家能夠進行發現。我認為我們所做的工作中最令人鼓舞的部分,以及我認為在我內心深處仍然引起共鳴的部分是,AlphaFold引用次數約為35,000次。在這之中,有數以萬計的例子顯示人們使用我們的工具進行科學研究,而這些研究是我自己無法完成的,但他們卻利用這些工具取得了發現,無論是疫苗、藥物開發,還是身體運作的方式。我認為這真的非常令人興奮。我今天想和你們談的部分,以及我想講述的故事,與問題有關,有關我們如何做到的。特別是研究和機器學習研究的角色,以及它不僅僅是現成的機器學習,然後我想告訴你一些關於當你創建一些偉大的東西時會發生什麼,人們如何使用它以及它對世界的影響。因此,我將從世界上最簡短的生物學課程開始。細胞是複雜的。對於那些只在高中或大學學過生物的人來說,你可能會認為細胞由幾個部分組成,這些部分上貼有標籤,而顯得簡單,但實際上,細胞的樣子更像屏幕上顯示的圖像。它密集而複雜。在擁擠感上,就像獨立日的游泳池一樣,並且充滿了巨大的複雜性。人類大約有20,000種不同類型的蛋白質。這是你在屏幕上看到的某些斑塊。它們聚集在一起完成你細胞中幾乎每一項功能。你可以看到那種綠色的尾巴是大腸桿菌的纖毛。這是它如何運動的。你實際上可以看到它如何運動。你可以看到那個看起來像是轉動的東西,事實上它會轉動並驅動這個馬達。所有這些都是由蛋白質組成的。當人們說DNA是生命的說明書時,這就是它告訴你的如何運行。它告訴你如何構建這些微小的機器。而生物學進化出了一種驚人的機制來構建所需的機器,即字面上的納米機器,並用原子來構建它們。因此,你的DNA提供了說明,告訴你建造一種蛋白質。現在你可能會說,你的DNA是一條線,從某種意義上講,蛋白質也是一條線。這是如何將一顆珠子接著一顆珠子黏在一起的指令,而每顆珠子都是特定的原子分佈的分子排列。你應該想知道,如果我的DNA是一條直線,而我完全不是一維的,那麼中間會發生什麼?答案是,在你製造這種蛋白質並將其一片片組裝起來後,它會自發地摺疊成一種形狀,就像你打開你的宜家書架一樣,而不是必須艱難地工作,它會自動構建自己,並且你會得到這種相當複雜的結構。你可以看到相當典型的蛋白質,對於在場的生物學家來說,這是激酶。你可以看到這一非常複雜的原子排列,而這種排列是功能性的,並且並非所有蛋白質在你身體中都會經歷這一轉變,而這正是它所起的功能,並且這是極小的。因此,光本身的大小只有幾百納米,而這一大小卻只有幾納米。因此,它比顯微鏡所能看到的還要小。長久以來,科學家們希望理解這種結構,因為他們利用它來預測該蛋白質的任何變化可能如何影響疾病。那是如何運作的?生物學是如何運作的?通常如果你製造一種藥物,它的目的是干擾某種蛋白質(例如這種)的功能。現在科學家們通過大量的智慧搞清楚了很多蛋白質的結構,但至今這仍然非常困難。對吧?你不應該想像成我想確定一個蛋白質的結構,因此我將打開蛋白質結構確定的實驗室協議。我會跟隨那些步驟。它由許多創意和尋找多種方式的聰明程度組成。在這種情況下,我描述的是一種蛋白質結構預測或蛋白質結構確定的實驗測量,在這裡你說服那種我剛剛展示的大而醜陋的分子形成一種正則晶體,有點像食鹽。沒有人能輕鬆獲得這個食譜。因此,他們嘗試了許多事情。它非常困難且充滿失敗,像科學中的許多事情一樣。你真實地看到這種困難的其中一種方式。這只是一篇普通的論文,我翻到最後一頁,上面寫著,你知道,在他們的協議中,經過一年多的努力,結晶開始形成。對吧?因此,他們不僅執行了這麼多困難的實驗,還必須等大約一年才能知道是否成功。而這一年可能並不是在等待,而是試了其他一千樣也沒有成功。一旦你做到這一步,你就可以帶這個去一個同步輻射設施,一個模擬的東西。你可以看到車輛駐紮在這個儀器的外圍,以便你可以用非常明亮的X射線照射,獲取所謂的衍射圖案,然後你可以解決它並將其存儲在所謂的PDB或蛋白質數據庫中。其中一件促使我們工作的事情是,五十年前的科學家們具有前瞻性,認為這些是重要的且困難的。我們應該將它們收集在一個地方。因為有一個數據集幾乎代表了社區所有的蛋白質結構的學術產出,並且對所有人都可用。所以我們的工作是在非常公共的數據上進行的。已知約有200,000種蛋白質結構。它們每年以大約12,000的速度規律增長。但這仍然遠遠小於需求。獲得能夠告訴你蛋白質的DNA類型信息要容易得多。因此,每年有數十億個蛋白質序列被發現。我們對蛋白質序列的學習速度大約是對蛋白質結構的3000倍。好吧,這都是科學內容,但我應該跟你談談我們所做的小事情,這有一個類似的示意圖。我們想建立一個AI系統。事實上,我們甚至不在乎它是否是AI系統。這就是在科學中從事AI工作的好處之一,你不在乎如何解決問題。如果最終成為一個電腦程序,如果變成其他任何東西,我們想要找出一種方法,從左側開始,那裡每個字母表示一個特定的蛋白質構建模塊,按順序排列。我們想在中間放入AlphaFold,然後最後得到右側的東西。如果你仔細查看,你會看到那裡有兩種結構,藍色代表我們的預測,綠色是經過實驗的結構,需要一到兩年的努力。如果你想給它一個經濟價值,大約在100,000美元的範疇內,而你可以看到我們能做到這一點,我想告訴你如何做到這一點,實際上做這一切有三個組成部分,或者你可以說你有數據,你有計算,你有研究,我覺得我們對前兩者講得太多,而對第三者講得太少。在數據方面,我們有200,000種蛋白質結構。每個人都有相同的數據。在計算方面,這不是LLM規模。最終模型本身是128個TPU v3核,大約相當於每個內核一個GPU,持續兩週。這再次是在學術資源範疇內,但值得一提的是,當你考慮到你需要多少計算資源時,真正的計算成本不是最終模型的數字,而是那些冗長卻失敗的想法所付出的成本,以及你必須做的所有工作。最後是研究,我可以說,這一切實際上大約有兩個人參與,其中只有一小組人進行了整個工作。因此,當你看到這些機器學習的突破時,可能參與的人比你想像的要少,而這實際上是我們的工作有差異化的地方。我們提出了一套新的想法,如何將機器學習應用於這一問題。我可以說,早期的系統主要基於卷積神經網絡的性能還不錯。他們確實取得了進展。如果用變壓器替換這個,你誠實地會大致相同。如果你採取變壓器的想法,經過許多實驗和很多想法,那才是實現真正改變的時候。在幾乎所有現在可以看到的AI系統中,都涉及到大量的研究和想法,我會稱之為中標準的思路。這不僅僅是轟動性新聞,許多人會說變壓器、擴展、測試時間推理。這些都很重要,但它們只是在強大系統中的許多成分之一,事實上我們可以衡量我們的研究值多少。因此,有人說,AlphaFold 2是一個相當著名的系統,是一個非常大的改進。AlphaFold 1是世界上最好的,但有人在Alcesi實驗室做了一項非常小心的實驗,他們用可用數據的1%訓練了AlphaFold 2的架構,並且能夠顯示,AlphaFold 2在1%數據上訓練的準確度與先前的最先進系統AlphaFold 1一樣或更為準確。因此,有一個非常整潔的說法,顯示第三個這些成分中的研究是第一個這些成分中數據的十倍。我認為這通常非常重要,當你們所有人都考慮創業或思考創業時,考慮一下研究發現如何放大數據,放大計算,它們是如何相互協作的。我們不希望使用比我們擁有的數據還要少的數據,並且不希望使用比我們擁有的計算資源還少的計算資源,但在進行機器學習研究時,思想是一個核心組成部分,並且真的幫助到轉變世界。
John Jumper [05:12]
而這種構造會看起來像其他問題的典型例子。不少科學都在嘗試解決這些小細節。你知道,像一般的普通論文。從我們的論文中可以看到,這是與基線相比的差異。你可以看到,如果取這些,看到你可以識別出我們系統中每個想法的情況,這部分,某些非常受歡迎的研究區域,這項工作出來了,這部分是等變的,人們說這種等變性是答案,AlphaFold是一個等變系統,而且這很棒,我們必須進行更多的等變性研究以獲得更偉大的系統。好吧,這我感到非常困惑,因為第六行那個沒有等變點的注意力,剛好去掉了AlphaFold中的所有等變,這樣稍微會有細微影響,但影響也不大。AlphaFold本身在你可以在左側圖表上看到的GDT尺度上,AlphaFold 2比AlphaFold 1好約30 GDT,而等變性解釋了兩三個。這不僅僅是關於一個想法,而是許多中型想法的結合,這些想法加起來形成一個轉型系統。這在構建這些系統時非常重要,我們稱之為這個背景下的生物學相關性。我們擁有更好的想法。我們的系統在逐漸進步,1%的一段時間。但真正重要的是,當我們通過準確度達到一個實驗生物學家所重視的水平,而這些生物學家並不在乎機器學習。你必須通過大量的實驗來實現這一點,這是極具挑戰性且需要努力的。而當你做到這一點時,這是非常具轉變性的。我們可以在這個軸上進行測量,深藍色的軸上是當時其他可用系統的情況。這被評估為蛋白質結構預測在某種程度上遠遠超過LLMs或一般的機器學習空間,並且在某種盲目的評估中自1994年以來,每兩年,所有對預測蛋白質結構感興趣的人會聚在一起,為一百種其答案對任何人都未知的蛋白質進行結構預測,除了剛解決這個問題的研究小組。因此,你真的知道什麼有效。在這項評估中,我們的評分錯誤率僅為其他小組的三分之一。這很重要,因為一旦你開始處理的問題你不知道答案時,你就能真正測量事情的好壞。你會發現,很多系統的表現不符合人們對他們研究的看法。即使你有基準,我們仍然會對我們的想法過擬合,對於基準都是這樣。除非有保留。而事實上,你在現實中遇到的問題幾乎總是比你訓練的問題要難,因為你必須從大量數據中學習,並將其應用於極為重要的具體問題。因此,非常重要的是,你要良好地進行測量,無論是在開發過程中,還是在決定人們是否應該使用你的系統時。外部基準對於找出什麼有效至關重要,這正是推動世界前進的助力。這裡有一些相當驚人的例子。這是我們的典型表現。這些都是盲預測。你可以看到表現相當不錯。還有一個重要的事,我們讓其向公眾開放。我們進行了很多評估,但我們認為非常重要的是以兩種方式開放:一是我們開源了代碼,實際上我們在發布一個包含最初30萬個預測的數據庫之前大約一週就開源了代碼,後來這個數據庫擴展到2億,幾乎涵蓋了所有已解析基因組的生物中的所有蛋白質。這造成了巨大的差異。最有趣的社會學現象之一是我們釋放專家可以使用的代碼的時候,與我們把它以數據庫形式對世界公眾開放之間的巨大區別。這真的非常有趣。你知道,你發佈了一些東西,然後每天查看Twitter或者檢查X,看看發生了什麼。我們看到,即使在那次CASP評估之後,我會說,結構預測者們堅信這顯然是一個巨大進步,解決了這個問題。但一般的生物學家,對我們希望能使用的生物學家,對結構預測並不在意,他們關心的是用蛋白質進行實驗,他們沒有那麼肯定。他們說,"好吧,也許CASP很簡單,我不太清楚。"然後這個數據庫出來了,人們開始變得好奇,開始訪問,這種社會證明的強度非比尋常,人們開始詢問DeepMind如何獲得我未公開的結構。你知道,這是一個關鍵時刻,他們真正信任了這個系統,每個人都有一個蛋白質,要麼是他們自己還沒有解決的,要麼有朋友擁有未發表的蛋白質,他們可以進行比較,這正是造成差異的原因。擁有這個數據庫,這種可及性和便利性,導致每個人都嘗試並找出怎麼運作。口耳相傳的確是構建這種信任的方式。你可以看到一些這樣的證言。對吧?我花了三到四個月的時間來嘗試執行這一科學任務。你知道,今早我得到了AlphaFold的預測,現在好了很多。我想要回我的時間,對吧?你知道,你真的會感謝AlphaFold,當你在一種在一年的時間裡拒絕表現並純化的蛋白質上運行時。這些是真正重要的事情。當你構建正確的工具,當你解決正確的問題時,這是有意義的,並且改變了那些從事這些事情的人的生活,不是你會做的事,但在你的工作之上進行建設。我認為看到這些真的非常驚人,並且我跟很多人交談。真正讓我知道這個工具重要的時刻。實際上,在這個工具推出幾個月後,《科學》的一期特刊專門講述核孔復合體。而這一期特刊的內容全是關於這個特定的幾百種蛋白質的大型系統。在《科學》上出現的四篇論文中,有三篇大量使用了AlphaFold。我想我數過,AlphaFold在《科學》上超過一百次被提及,而這一切都與我們無關。我們不知道這回事,我們沒有合作。這只是人們在我們構建的工具之上做新科學,而這是世界上最美好的感覺。實際上,用戶所做的事情讓人感到驚奇。他們會以你不知道的方式使用工具。
John Jumper [07:51]
左邊的推文來自Yoshaka Morowaki,在我們的代碼可用兩天後就發布。儘管我們預測了單個蛋白質的結構,但我們認為我們正在構建一個預測蛋白質如何聚集的系統。但這位研究人員說,「好吧,我有AlphaFold。為什麼不將兩個蛋白質放在一起,並在中間放入一些東西呢?」你可以將這視為對蛋白質的提示工程。突然之間,他們發現這是全球最佳的蛋白質相互作用預測,對吧?當你針對這些問題進行訓練時,一個真的非常強大的系統,會隨之發展出額外的技能,只要它們是協調一致的。人們開始找到各種各樣的問題,AlphaFold可以應用,而我們並未預見到。能夠看到科學界在真實時間內對這些工具存在的反應,發現它們的限制和可能性,這真的非常有趣,這仍在持續發生,人們在更具刺激性或對於我們所構建的系統的想法上展開各種激動人心的工作。 有一個應用,我認為非常重要的是,人們開始學會如何利用它來設計大型蛋白質,或在某種程度上使用它。我要講這個故事有兩個原因。一個是我認為這是一個非常酷的應用,另一個是它如何改變科學的工作。經常,人們會說科學是實驗和驗證。但你獲得所有這些AlphaFold預測真是太好了。現在我們需要做的就是用傳統方法解決所有的蛋白質,以確認你的預測是否正確或錯誤。他們對一件事是對的:科學是關於實驗的。科學在於進行這些實驗。但他們在另一件事上是錯誤的。科學在於建立假設並進行測試,而不是特定蛋白質的結構。在這種情況下,問題是他們帶著左邊的這種蛋白質叫做收縮性注射系統,儘管這名字很長。他們喜歡稱其為分子注射器。它的作用是附著於一個細胞並將蛋白質注入其中。麻省理工學院的Jang實驗室的科學家們在探討,能否利用這種蛋白質進行靶向藥物遞送?我們能否利用它將基因編輯技術如CRISPR-Cas9導入細胞?他們嘗試了超過一百種方法,希望找出如何處理這種蛋白質,儘管他們沒有這個結構。這僅僅是事後的描述,並且詢問:「我們如何改變它所識別的東西?」我認為這最初涉及植物防禦或類似的東西,但他們不知道該怎麼做。然後他們運行了AlphaFold的預測,看看圖像,左邊的預測。我並不認為這是一個很棒的AlphaFold預測,但幾乎在一開始他們看著圖像,說:「等等,那些底部的腿是怎樣進行識別和附著在細胞上的。我們為什麼不可以用一種設計的蛋白質替代它們呢?」因此幾乎在獲得AlphaFold預測後,他們重新設計了這個蛋白質,將你在紅色中看到的設計蛋白質放上去,以針對一種新的細胞。他們拿走這個系統,然後顯示他們確實可以選擇小鼠中的細胞,並且能夠注入蛋白質,在這種情況下是荧光蛋白。因此,你會看到顏色,並且能夠在小鼠大腦中選擇他們想要的細胞。因此,他們正在使用這一系統開發新型的靶向藥物發現。我們還看到更多例子,科學家們正在利用這一工具來嘗試成千上萬的相互作用,以確定哪些可能成立,事實上,發現了如何在受精上整合卵細胞和精子的新組件。在此基礎上還有許多發現。我喜歡認為我們的工作使所謂的結構生物學(涉及結構的生物學)整體提速了5%到10%。但是,這一進程對於整個世界的影響是難以估計的。我們將會擁有更多這樣的發現。我認為最終,結構預測以及更大範圍的AI在科學中應被視為一種令人難以置信的能力,它成為實驗科學工作的一個放大器,我們從這些分散的觀察和自然數據開始。這是我們對應所有互聯網文字的等價體。然後我們訓練一個理解底層規則的通用模型,並能夠填補剩下的畫面。我覺得我們會看到這種模式將繼續下去,並將變得更加通用,我們會找到適當的基礎數據源來實現這一點。我覺得另一個屬性是你從你擁有數據的地方開始,然後找到它能應用的問題。因此,我們發現了巨大的進展,巨大的理解細胞互動或其他科學的能力,這是從提取這些預測的科學內容入手,然後它們所使用的原則也可以適應到新用途。我認為這正是我們看到AlphaFold或其他狹窄系統的基礎模型方面的地方。事實上,我認為我們將會看到這種情況出現在更廣泛的系統中,不論是LLMs還是其他方面,我們將在人類的科學知識中發現更多,並將其用於重要的目的。我認為這真的就是這個方向。我覺得在講AI為科學服務的最令人激動的問題是:它將有多廣泛。我們會發現幾個狹窄的地方,使其產生變革的影響,還是我們會有非常廣泛的系統?我預期最終會是後者,隨著我們的理解深化,謝謝你。
John Jumper [10:32]
事實上,我們甚至不在乎這是否是一個AI系統。這就是在科學AI領域工作的美好之處,你不需要在乎怎麼解決問題。如果最後是一個電腦程式,如果最後是其他任何東西,我們都想找到一種從左側開始的方法,其中每個字母代表某種特定的蛋白質建構塊,我們想在中間放置一些東西進入alpha fold,然後想要在右側得到某種結果。如果你仔細看看,你會看到那有兩個結構,藍色是我們的預測,而綠色是實驗結構,這花了某人一年或兩年的努力。如果你想給這項工作賦予經濟價值,大約是在$100,000的範圍內,你可以看到我們能做到這一點,我想告訴你們我們是如何做到的,這裡實際上有三個部分來解決這個問題或者進行任何機器學習問題,你可以說你有數據,你有計算資源,你有研究。我覺得我們談論前兩者的故事太多,而第三者的故事則不夠。在數據方面,我們擁有200,000個蛋白質結構。每個人都有相同的數據。在計算方面,這並不是LLM規模。最終的模型本身是128個TPU v3核心,大約相當於每個核心一個GPU,持續兩週。這又是在所謂的學術資源範疇內,但值得一提的是,當你考慮你需要多少計算資源時,真正的計算成本是那些失敗想法的成本,也就是你為了達到那個結果所必須付出的所有努力。然後最後是研究,我會說這幾乎只有大約兩個人一起參與,這是一小群人最終完成這項工作。所以當你看到這些機器學習的突破時,可能比你想像的還要少人,這也是我們工作的區別所在。我們提出了一套新的想法,關於如何把機器學習引入這個問題。我可以說,早期系統主要基於卷積神經網絡的表現還不錯,當然取得了一些進展。如果將此替換為變壓器,實際上表現相當。若加上變壓器的想法與更多的實驗和眾多新想法,這時你開始看到真正的變化。幾乎所有今天你看到的AI系統中,都涉及大量研究和想法,我會稱這些為中尺度的想法。這不僅僅是一些人所提到的頭條,說變壓器,
John Jumper [13:15]
人們會說變壓器、你知道,擴展、測試時間推理。這些都是重要的,但它們只是强大系統中許多成分之一,事實上我們可以衡量我們的研究價值。舉例來說,AlphaFold 2這個系統是相當有名的,它是一個相當大的改善。AlphaFold 1是當時世界上最好的,但如果有人提到這個事情,Alcesi實驗室做了一個非常謹慎的實驗,他們用可用數據的1%訓練AlphaFold 2的架構,並證明AlphaFold 2在1%的數據上訓練的準確度與先前的先進技術系統AlphaFold 1一樣好,甚至更好。所以有一件事很清楚地表明,這第三項成分研究的價值是第一項成分數據的十倍。我認為這是非常重要的,當你們都在思考創業或想著創業時,思考這些想法、研究、發現如何提升數據、計算的數量,它們之間是相互協作的。我們不想使用少於我們擁有的數據,我們也不想使用少於我們擁有的計算資源,但想法是進行機器學習研究時的核心組成部分,它們確實幫助改變了世界。>> YC的下一批次現正接受應用。你有創業的潛力嗎?請在ycombinator.com/apply申請。從來不會太早。填寫申請表將提升你的想法。好的,回到視頻中。我們甚至可以回去進行消融實驗,並可以說哪些部分是重要的。不要過於關注細節。我們從我們的論文中提取了這一段。你可以看到這是與基準相比的差異。你取走任一部分,便可以看到任何你可能會刪除的想法在我們最終系統中的作用,那些都是一些在該領域內非常受歡迎的研究方向,例如這項工作推出得到的部分是等變性,人們認為等變性才是解答,AlphaFold是一個等變系統,這很棒,我們必須進行更多有關等變性的研究,來獲得更優秀的系統,但我對此感到非常困惑,因為第六行的無IPA不變點注意力去除了AlphaFold中所有的等變性,這使得結果稍有下降,但只是稍微下降。AlphaFold自身在這個GDT尺度上,您可以在左側圖看到,AlphaFold 2的表現比AlphaFold 1好體現了約30 GDT,
John Jumper [15:57]
表現了約30 GDT,等變性解釋了其中的二或三個。這並不是關於單一的想法,而是關於許多中尺度的想法,它們加總起來形成一個變革性的系統。在構建這些系統時,思考我們在這個背景下稱之為生物相關性是非常重要的。我們會有更好的想法。我們的系統幾乎是每次以1%的速度穩步提升。但是,真正重要的是,當我們超過一個實驗生物學家所關心的準確度的時候,機器學習的過程對他們來說才是有意義的。你必須通過大量的工作和努力才能到達那裡。一旦到達,那將是令人難以置信的變革性。我們可以對這個軸進行測量,其中深藍色的軸是當時可用的其他系統。這一評估是針對蛋白質結構預測,在某些方面可以說已經遠遠領先於大型語言模型(LLMs)或一般的機器學習空間,在盲評估方面,自1994年以來,每兩年就有一次,所有關心蛋白質結構預測的人聚集在一起,預測一百個沒有其他研究小組知道答案的蛋白質結構,對吧?未發佈的。因此,你真的知道什麼方法有效。並且我們在這一評估中,只犯下了其他任何小組約三分之一的錯誤。但這是重要的,因為一旦你在一個你不知道答案的問題上工作,你就能真正測量事情的好壞。你會發現很多系統不如人們在其研究過程中所相信的。此外,即使你有基準,我們所有人也都是過度擬合到我們的思想和基準上,對吧?除非你有保持住的樣本。而且事實上,你在現實世界中遇到的問題幾乎總是比你訓練的問題要難,對吧?因為你必須從大量數據中學習,並把它應用到非常重要的特定問題中。因此,無論是在開發階段還是當人們在決定是否使用你的系統時,你進行良好的測量都是非常非常重要的。外部基準對於弄清楚什麼有效至關重要,正是這一點真正推動了世界的進步。因此,這些都是我們的典型表現的一些精彩例子。這些都是盲目預測。你可以看到它們的表現相當不錯。另外,我們也覺得它非常重要,並進行了大量評估,但我們決定非常重要的是以兩種方式使其可用。一種是我們開源了代碼,而實際上,
John Jumper [18:18]
我們開源了代碼,而實際上,我們在發布一個包含300,000個預測的數據庫的前一週就開源了這些代碼,後來這個數據庫增長到2億個預測,基本上涵蓋了所有已經被測序的生物體的蛋白質。這產生了巨大的變化。其中一個最有趣的社會學現象是,當我們釋出一段代碼給專家使用時,我們得到了某些信息,然後當我們以這個數據庫形式將其提供給全世界時,變化是驚人的。這真的很有趣,你知道,你釋出了一些東西後,每天都檢查Twitter或者X,看看有什麼事情發生。而我們真正看到的是,即使在那之後的CASP評估,我會說結構預測者仍然相信這明顯是一次巨大的進步,解決了問題。但一般生物學家,那些我們希望使用的、對結構預測不感興趣的人,他們關心的是蛋白質來做他們的實驗,他們不那麼確定。他們會說:「好吧,也許CASP很簡單。我不知道。」然後這個數據庫發布後,人們開始產生好奇,點擊進來,證明其社會公司的程度是非凡的,人們會問「DeepMind是怎麼獲得我未發表結構的?」你知道,這瞬間他們真正相信了,大家都有一個蛋白質,或者有一個朋友有一個尚未公開的蛋白質,他們可以進行比較,這才是真正的差異。擁有這個數據庫、這個可達性、以及便利性,使每個人都嘗試使用並弄清楚它的工作方式。口耳相傳正是建立這種信任的方式。你可以看到一些這些推薦,對吧?我花了三到四個月在這個科學任務上掙扎。你知道,今天早上我得到了AlphaFold的預測,現在好得多。我希望可以再回到以前的時間。你知道,你真心感激AlphaFold當你在一種已經拒絕表達和純化的一年才能進行的蛋白質上運行它。這些是非常重要的。當你構建對的工具,解決對的問題時,這是重要的,並改變了那些做事情的人的生活,這些不只是你會做的事情,卻是在你的工作基礎上建設的。我覺得看到這些是非常了不起的,與我交談的人數量。當我真正知道這個工具重要的時候,事實上,在這個工具推出幾個月後,科學雜誌上關於核孔復合物的一個專題出現了。這個專題全都是關於這個特定的幾百個蛋白質系統。而《科學》上發表的四篇文章中,有三篇廣泛使用了AlphaFold。我想我在《科學》中數過超過100次提及AlphaFold這個詞,而我們與此毫無關係。我們不知道這麼做。我們並沒有合作。這只是人們基於我們所建設的工具進行新科學的結果,這是世界上最美好的感覺。事實上,用戶會以你不知道的方式使用工具。左側的推特來自Yoshitaka Morowaki,發布於我們的程式碼可用兩天後。我們曾經預測過個別蛋白質的結構,但我們考慮著正在建立一個預測蛋白質聚合的系統。但這位研究者說:「好吧,我有AlphaFold,何不將兩個蛋白質凑在一起,並放一些東西在中間?」你可以把這個視為針對蛋白質的提示工程。結果他們發現,這是全球最佳的蛋白質相互作用預測,對吧?當你在這些健壯系統上進行訓練時,它會有額外的某種意義上的突現技能,只要它們是對齊的。人們開始發現各種各樣的問題,AlphaFold能夠解決,而我們並沒有預料到。看到科學領域實時對這些工具的存在進行反應,找到它們的局限性、找到它們的可能性,這是非常有趣的,這一直持續著,人們在各種類型的激動人心的工作中,無論是蛋白質設計還是其他,關於我們所建構的想法和系統上。對於一些我認為非常重要的應用,人們已經開始學會如何使用它來設計大型蛋白質或用它進行部分使用,我想講這個故事有兩個原因。一是我覺得這是一個非常酷的應用;另外一個是它對科學工作真的帶來了變化,經常有人會說科學全是關於實驗和驗證。因此,你擁有這些AlphaFold的預測是很棒的,現在我們所要做的就是通過經典的方法解決所有的蛋白質,以便告訴你預測的正確與否。另一方面,他們在某事上是對的,科學就是關於實驗。
John Jumper [20:45]
我交談過的人數。我真正知道這個工具重要的時刻——事實上,工具發佈幾個月後,《Science》期刊出了一期關於核孔複合體的特刊。整期特刊都在討論這個由數百個蛋白質組成的龐大系統。《Science》上關於這個主題的四篇論文中有三篇大量使用了 AlphaFold。我數了一下,《Science》裡提到 AlphaFold 這個詞超過一百次,而我們跟這些完全沒有關係。我們不知道這件事正在發生,我們沒有在合作。只是人們在我們建造的工具之上做新的科學研究,這是世界上最棒的感覺。事實上,使用者會做出你想不到的事情。他們會用你不知道可能的方式使用工具。左邊來自 Yoshaka Morowaki 的推文是在我們的程式碼可用後兩天發出的。我們預測了單個蛋白質的結構,但我們正在考慮建構一個能預測蛋白質如何組合在一起的系統。但這位研究者說:「好吧,我有 AlphaFold。為什麼我不把兩個蛋白質放在一起,中間放點東西呢?」你可以把這想像成蛋白質的提示工程。突然間他們發現這是世界上最好的蛋白質交互作用預測。當你在一個真正強大的系統上訓練時,它會具有某種意義上的湧現能力,只要方向一致。人們開始發現各種我們沒有預料到的 AlphaFold 能解決的問題。看到科學領域即時對這些工具的存在做出反應、發現它們的局限性、發現它們的可能性,這真的非常有趣。這仍在持續,人們在蛋白質設計等領域之上做著各種令人興奮的工作。一個我認為真正重要的應用是,人們已經開始學習如何用它來工程化大型蛋白質。我想講這個故事有兩個原因:一是我認為這是一個很酷的應用,二是它真正改變了科學的工作方式。人們常常會說科學完全是關於實驗和驗證的。所以你有所有這些 AlphaFold 預測很好,現在我們只需要用傳統方法解出所有蛋白質,就能判斷你的預測是對是錯。他們說對了一件事:科學就是關於實驗的。
John Jumper [23:15]
科學就是關於實驗。科學就是要進行這些實驗。但他們關於另一些事卻是錯的。科學是關於假設的建立和測試,而不是關於特定蛋白質的結構。在這種情況下,問題是他們取了一種名為收縮注射系統的蛋白質,它有點絮叨。他們喜歡稱它為分子注射器。其功能是它附著在細胞上,並將一種蛋白質注入其中。麻省理工學院的Jang實驗室的科學家表示,他們能否利用這種蛋白來進行靶向藥物遞送?我們能否利用它將基因編輯器如Cas9送入細胞?他們嘗試了超過一百種方法,以弄清楚如何使用這種蛋白質的結構。我們沒有結構,這只是一個實際上的圖示,他們怎麼做,能改變他們所辨識的東西?我想這最初涉及植物防護或類似的東西,而他們不知道該怎麼做。他們進行了一個AlphaFold的預測。你可以看到左側的預測。我甚至不會說這是一個偉大的AlphaFold預測,但他們幾乎立即看著它,說:“等一下。這些底部的腿就是它必須識別和附著到細胞的方式。為什麼不把這些換成一種設計的蛋白呢?”於是幾乎立即在得到AlphaFold預測後,他們重新設計了以添加這個看到的紅色設計蛋白,來針對一種新的細胞類型。他們拿下這個系統,然後實際上顯示他們能選擇小鼠內的細胞,並且他們能注入蛋白質,在這種情況下是熒光蛋白。因此,你會看到顏色,他們能夠針對小鼠大腦中的細胞。我們看到許多更多的例子。我們看到一些科學家正在使用這個工具來嘗試數以千計的相互作用,以找出哪些可能發生。事實上,發現了雞蛋與精子在受精過程中如何結合的全新組成部分。許多這些發現都是在此基礎上建成的。我喜歡認為我們的工作使結構生物學領域的整個領域,加快了五或十%的進步,但是這對於世界來說意義重大,我們將會有更多這樣的發現。而我認為結構預測與更大範圍的科學AI應被視為一種令人難以置信的能力。
John Jumper [25:49]
被視為一種令人難以置信的能力,以便成為實驗者工作的擴音器,我們從這些零散的觀察、這些自然數據開始。這是我們在互聯網上的所有詞語的等價物。然後我們訓練一個理解其底層規則並可以填補餘下全貌的一般模型。我相信我們會繼續看到這種模式,並且會變得更為普遍。我們將會找到合適的基礎數據來源來實現這一目標。而且,我認為另一個真正的特性是,你從有數據的地方開始,但隨著過程你將會發現可以應用的問題。因此,我們發現了巨大的進展、了解細胞內的相互作用的巨大能力,或其他擴展出來的科學內容以及這些預測使用的規則能夠適應新的目的。我認為這正是我們看到AlphaFold或其他狹義系統的基礎模型的地方。事實上,我認為我們將開始在更通用的系統上見到這一點,例如大型語言模型或其他系統,我們會在這些系統中找到越來越多的科學知識,並在重要的目的上使用它們。我認為這將是這種趨勢的方向。而我認為在科學的AI中最讓人激動的問題是它的通用性會有多大。難道我們會在幾個狹窄的地方找到變革性的影響,還是會有非常廣泛的系統?我預計這最終將是後者,我們會找到答案。謝謝。