- LLM 是記憶,不是智慧:Chollet 對主流 AGI 論述最核心的批評是:LLM 擅長的是記憶和檢索,而非真正的「流動智能」(Fluid Intelligence)——即在沒見過的情況下,即時推理解決新問題的能力。
- ARC 基準測試衡量真正的推理能力:他設計的 ARC(Abstraction and Reasoning Corpus)刻意避免用可背誦的知識解決,要求模型從少量例子中歸納抽象規律——目前 LLM 的表現仍遠不如普通人類。
- 擴大訓練規模不等於走向 AGI:現有的 Scaling Laws 帶來的能力提升,本質上是在擴大「知識庫」和「技能記憶」,而不是增強真正的推理和泛化能力。
- 「測試時適應」是一個積極的方向:近期模型(如 o1 系列)開始讓模型在推理過程中動態調整,這是朝向流動智能邁進的跡象,但離 AGI 仍有相當距離。
- 重新定義智能的評估標準:Chollet 呼籲 AI 研究界應更聚焦於測量「創新解決新問題的能力」,而非在可以刷題的基準測試上不斷刷新分數。
François Chollet [00:03]
大家好,我是Francois。我非常興奮能與大家分享一些我對HGI的想法,以及我們要如何實現它。這裡的圖表顯示了關於世界的最重要事實之一。自1940年以來,計算成本每十年一直穩定下降兩個數量級,並且沒有任何跡象顯示這種趨勢將會停止。在人工智慧領域,計算和數據長期以來一直是我們所能達成的主要瓶頸。在2010年代,大家都知道,隨著基於GPU的計算和大型數據集的出現,深度學習真的開始見效。突然之間,我們在計算機視覺和自然語言處理等問題上取得了快速進展,這些問題在過去長期以來似乎克難無法解決。特別是,自我監督的文本建模開始發揮作用。AI的主導範式變成了擴大LM3的訓練,而這種方法幾乎壓倒了所有基準,並且值得注意的是,在模型規模和訓練數據規模隨著完全相同的架構和訓練過程擴大時,它的基準結果變得可預測地變得更好。這就是Jared幾分鐘前告訴你的擴展法則。因此,似乎所有的事情都被搞定了,許多人推測更大的規模是解決一切、達成AGI所需的唯一因素。我們的領域對於一般智能將會自然而然地出現的這一觀點變得著迷,只需將更多數據塞進越來越大的模型中。然而,問題來了。我們對這些基準的真正含義感到困惑。記憶技能是靜態且特定任務的,而流動的一般智能則是即時理解從未見過的事物的能力。回到2019年,在LLMs崛起之前,我發布了一個AI基準來突出這種差異。它稱為抽象推理語料庫(ARK1)。從2019年到現在,以像GP4.5這樣的模型為例,基準的擴大約為50000倍,而我們在該基準上的準確率從0%提高到約10%。這還不是很多。如果考慮到你們中的任何一位在座的人的得分會遠超95%,那麼這個數字就非常接近於零。因此,要解開一般流動智能,結果我們需要的不僅是擴大預訓練和靜態推理的新想法。這個基準並不是關於重複記憶技能的,而是關於理解從未見過的新問題。
François Chollet [02:54]
這個問題是你從未見過的新問題。但是,去年2024年,一切都發生了變化。AI研究社區開始轉向一種全新且非常不同的模式——測試適應,創建能在測試時改變自身狀態以適應新事物的模型。因此,這不再是查詢預先裝載的知識,而是真正關乎在推理時學習和適應的能力,突然間我們開始在ARC上看到顯著進展。因此,我們終於有了顯示出真實流動智能跡象的AI。特別是在去年12月,OpenAI預覽了他們的03模型,他們使用的一個版本是專門在ARC上進行微調的,並首次在該基準上顯示出人類級別的表現。而今天,2025年,我們突然從預訓練擴大的模式中轉變,現在完全進入了Tesla適應時代。Tesla適應的重點在於模型基於推理過程中遇到的特定數據動態修改其行為的能力。因此這涵蓋了像測試時訓練、程序合成、思維過程合成這樣的技術,其中模型試圖重新編程自己以適應當前的任務。今天,所有在ARC上表現良好的AI方法都在使用其中的一種技術。因此,今天我想回答以下問題。首先,為什麼預訓練擴大範式沒有使我們達到AGI?如果你回顧兩年前,這是標準教條。每個人都這麼說,而今天幾乎沒有人再相信這一點。那麼,發生了什麼事?接下來,這種適應這次能讓我們達到AGI嗎?如果是這樣,也許AGI已經在這裡。有些人這樣認為。最後,除了這種適應之外,AI的未來還可能有什麼?要回答這些問題,我們必須回到一個更根本的問題上來。什麼才是智能?當我們說我們在努力建設AGI時,我們到底是什麼意思?如果你回顧過去幾十年,人們對智能的定義和AI的目標有兩種思路。一種是Minsky風格的觀點。AI是為了創造能執行本來會由人類完成的任務的機器。這非常接近當前主流公司的觀點,即AGI將是一個能執行大多數經濟上有價值的任務的模型,通常會引用80%的數字。另一方面,則是另一種看法,AI的目的是讓機器處理它們未經準備的問題。它是讓AI能夠處理新事物。因此,我的觀點更接近MATI的觀點。智能是一個過程,而技能則是該過程的輸出。
François Chollet [05:43]
技能本身並不是智能,在許多任務上展現技能並不顯示出智能。這就像是道路網絡與道路建設公司之間的區別。如果你擁有一個道路網絡,那麼你可以在特定的預定A點和B點之間通行。但是如果你擁有一個道路建設公司,那麼你可以根據需求的演變,開始連接新的A點、新的B點。智能是處理新情況的能力,開辟新道路並建造新道路的能力。因此,將智能歸因於僵化的行為程序,即技能程序,這是一種類別錯誤。你在混淆過程和其輸出。所以不要混淆道路和創造道路的過程。為了更正式地表達一下,我將智能視為你擁有的信息與你在潛在未來情況空間中的操作範疇之間的轉換比率,這將特徵出高度的新奇性和不確定性。因此,智能就是你高效地運用過去的信息以應對未來的能力。這是一個效率比率,這也是為什麼使用考試類似基準模型是一個糟糕主意的原因。它們不會告訴你我們距離AGI有多近,因為人類考試並不是為了測量智能而設計的。它們是為了測量特定任務的技能和知識而設計的。它們是根據對人類來說合情合理的假設設計的,但對機器則不然。例如,大多數考試都假設你在考試之前沒有閱讀並記住所有問題和答案。因此,如果你想明確定義和測量智能,這裡有一些關鍵概念需要考慮。首先是靜態技能與流動智能之間的區別。這是擁有解決已知問題的靜態程序集合的能力,與能夠即時生成全新程序以面對從未見過的新問題的能力之間的區別。當然,這並不是二元的,它們之間存在著一個光譜。第二個概念是對於給定技能的操作範圍。僅在非常接近你之前見過的情況下擁有技能與能夠在非常廣泛的範疇中應對任何情況之間存在著巨大的區別。例如,如果你會駕駛,你應該能夠在任何城市駕駛,而不僅僅是在特定的地理圍欄內。就像你可以在聖荷西學會駕駛,然後搬到薩克拉門托,仍然能夠駕駛一樣。再次強調,這裡仍然有一個光譜,並不是二元的。最後,你應該考慮對於特定技能的信息效率。為了獲得該技能,你需要多少信息、多少數據、多少練習?當然,較高的信息效率意味著較高的智能。
François Chollet [08:29]
事實上這些定義之所以重要,因為作為工程師,我們只能構建我們所測量的東西。因此,我們定義和測量智能的方式不是技術細節,它真正反映了我們對認知問題的理解。它為我們將要提出的問題設置了範疇,因此決定了我們將獲得的答案。這是驅動我們朝向目標前進的反饋信號。在工程中不斷出現的一種現象是捷徑法則。這意味著當你專注於實現單一的成功度量時,雖然你可能會成功,但卻會以犧牲所有其他未能被你的度量捕獲的東西為代價。因此,你命中目標卻錯過了要點,你在Kaggle上經常會看到這一點。我們在Netflix獎中看到了這一點,當時獲獎系統的準確度很高,但它太過複雜,根本無法用於生產環境,因此最終未能被使用,實際上是無意義的。我們也在AI中看到了這一點,尤其是撲克AI。在70年代,AI社區試圖創造能夠下棋的程序,因為人們預計這將有助於我們了解人類智能。幾十年後,當Deep Blue擊敗世界棋王Kasparov時,我們達成了目標,但在這個過程中我們並沒有真正學到什麼關於智能的知識。因此,你命中目標卻錯過了要點。幾十年來,AI一直追逐特定任務的技能,因為這是我們對智能的定義。但是,這個定義只能導致自動化,這正是我們在今天擁有的系統。我們其實希望AI能夠進行自主創新。我們不想停留在自動化已知任務的層面上。我們渴望能夠解決人類最困難挑戰的AI,並加速科學進步。這就是AGI的目的。為了實現這一點,我們需要一個新的目標。我們需要停止以流動智能本身為目標,即適應和創新的能力。一種對AGI的定義僅僅包含了自動化。這會提高經濟生產力。顯然,這是極具價值的,但它也可能導致失業。另一个定义则解锁了创造力和科学进展的加速。只有通过衡量你真正关心的事物,我们才能够取得进展。因此,我们需要更好的目标,需要更好的反馈信号,这样看起来将是怎么样呢?我第一次尝试创造一种测量AI系统智能的方法是RKGI基准。我在2019年发布ARK1,它就像是机器和人类的智商测试。ARK1包含1000个任务,像这个任务一样。每个任务都是独特的,这意味着你不能为ARC准备。你必须通过使用你的通用智能即兴解决每个任务,而不是依靠记忆知识。當然,解決任何問題始終需要某種知識。至於大多數基準所需要的知識先前,通常都是隱性地存在的。在ARK的案例中,我們使它們明確化,因此所有ARC任務都是完全基於核心知識的前提而構建的,這些知識的內容例如對象性、基本物理學、基本幾何學、拓撲和計數等。因此,解決ARK幾乎不需要專業知識,而且這些知識非常不具特殊性。因此,您不需要為了解決ARK而進行準備。而使ARK獨特的是,您無法僅通過記憶模式來解決它。它真的是需要您通過智能來證明。
François Chollet [11:07]
能夠解決人類最艱難挑戰並加速科學進步的人工智慧。這就是AGI的目的。要實現這一點,我們需要一個新的目標。我們需要停止以流動智力本身作為目標,即適應和發明的能力。因此,一個對AGI的定義僅限於自動化。它提高了經濟生產力。很顯然,這是非常有價值的。也許這樣也會增加失業率,但另一個定義則解鎖了發明和科學時間表的加速。通過測量你真正關心的事物,我們才能取得進展。因此,我們需要一個更好的目標。我們需要一個更好的反饋信號。那看起來像什麼?我第一個試圖創建衡量人工智慧系統智力的方法是RKGI基準。因此我在2019年發布了ARK1。這就像是針對機器和人類的智商測試。ARK1包含1,000個類似於此的任務。每個任務都是獨特的。這意味著你不能恆心準備ARC。你必須利用你的通用智力而非記憶的知識即時解決每個任務。當然,解決任何問題始終需要某些知識。在大多數基準的情況下,你需要的先驗知識通常都是隱含的。在ARC的情況下,我們將其明確化。因此,所有ARC任務都完全建立在核心知識先驗上,如物體性、基礎物理學、基本幾何學、拓撲學、計數等。這些概念是任何四歲孩子已經掌握的。而解決arc所需的知識非常少,而且這些知識並不專門。因此,你不需要為了解決arc而做準備。使arc獨特之處在於,你無法僅僅通過記憶模式來解決它。它真正要求你通過智力來展示。而與此同時,幾乎所有其他的基準都是針對固定的已知任務。因此,它們不能僅僅通過記憶來解決或攻克。這就是使ARC對人類相對簡單,但對AI非常具挑戰性的原因。當你看到這樣的問題,一個人類孩子表現得非常好,但最先進、最複雜的AI模型卻掙扎,這就像是一個大紅色閃爍的燈告訴你我們錯過了某些東西,需要新的想法。我要提醒你的是,ARC不會告訴你一個系統是否已經達到GR。這不是它的目的。Arc實際上是一個工具,旨在引導人們注意到...
François Chollet [13:51]
與此同時,幾乎所有其他基準都旨在針對已知的固定任務。因此,它們無法僅依靠記憶來解決或黑客攻击。這就是為什麼ARC對於人類來說相對容易,但對於AI卻非常具有挑戰性的原因。當你看到一個問題時,像這樣一個人類的孩子能表現得非常好,但最先進的AI模型卻在艱難應對時,這就像一個閃爍的紅燈,告訴你我們遺漏了什麼,需要新想法。我要提醒你的是,ARC無法告訴你一個系統是否已經達到G或不達到。這並不是它的目的。ARC確實是一種工具,旨在引導研究社區關注我們認為在通往AGI途中最重要的未解決瓶頸。因此,ARC並不是目標,解決ARC並不是目標。ARC只是一個指向正確方向的箭頭,而ARC完全抵制了預訓練擴大範式。即使經過50,000倍的預訓練擴展,它們在ARC的表現仍然幾乎為零。因此,我們可以確定地得出結論:流動智能並不是通過擴大預訓練而出現的。您必須絕對依賴測試適應來真正展示真正的流動智能。而重要的是,當測試適應的出現發生在去年時,ARC當時也是唯一一個對出現的重大變化提供明確信號的基準,其他基準都已飽和,無法區分真正的智力增長與單純的強制擴大。因此,現在你看看這個圖表,你可能會在想,《ARK1》顯然也要飽和了。那麼,這是否意味著我們現在擁有了人類等級的AI?暫時還沒有。你在這個圖表上看到的是,《ARK1》是一項二元測試。它是流動智能的最小重現。因此,它真的只提供兩種可能模式。要麼你沒有流動智能,在這種情況下,你的得分接近於零,就像BASEL一樣,要麼你有非零流動智能,在這種情況下,你會像OpenAI的O3模型那樣瞬間獲得很高的分數。當然,在座的每位都會在距零值的距離內接近100%。因此,ARC飽和了,而ARK1則在非常低的流動智能水平飽和。因此,現在我們需要一種更好的工具,一個更敏感的工具,它能提供更有用的帶寬,並能與人類智力更好地進行比較,而這個工具就是在今年三月發佈的ARKGI 2。在2019年,ARK1旨在挑戰深度學習模式,當時模型是用於靜態推理的巨大參數曲線,而今天的ARK2挑戰推理系統,改變了測試適應範式。基準格式仍然是相同的,對組合標準化的探測焦點大大提高。因此,任務對人類仍然非常可行,但它們變得更為複雜。因此,ARK2並不容易被迫批量處理。在實際中,這意味著在ARK1中,對於許多任務,你可以看到解決方案,而無需過多思考。而對於ARK2,所有任務都需要某種水平的深思,但仍然對人類非常可行。我們知道這是因為我們在聖地牙哥的幾天內親自測試了400人。我們不是在說擁有物理PhD的人。我們招募了隨機的普通人,例如Uber司機、UCDS學生和失業者。換句話說,任何試圖在業餘時間賺錢的人。ARK2的所有任務至少被看見兩次,每個任務在平均上被約七個人看到。因此,這告訴你,一組10位隨機人的多數投票將在ARK2中獲得100%的得分。這告訴我們,這些任務對普通未經專業培訓的人來說是完全可行的。
François Chollet [16:44]
那麼,AI模型做得怎麼樣呢?如果你以如GPT4.5、Lama 4這樣的基本模型來看,它們的表現很簡單:得分為0%。根本無法僅利用記憶來完成這些任務。接下來,如果你看靜態推理系統,即利用生成的思考鏈的一個單一的思路來處理任務,表現也並不會更好,會在1%-2%的範圍內。這告訴你,為了解決ARK2,您真的需要測試適應。所有表現在0以上的系統都在使用TTL,但即便如此,它們仍然遠低於人類水平。因此,與ARK1相比,ARK2使得對DTS系統的評估變得更加細緻。例如,03模型就是其中一個例子。這就是這樣你會發現,像03和其他類似系統仍然遠未達到人類水平。在我看來,只要我們能輕易找出你們之中任何一個人能勝任的、對人類來說容易的任務,而AI卻無法解決,不論電腦再怎麼努力,我們就無法擁有AGI。你會知道我們距離AGI的邊界愈來愈接近,當出現這樣的任務時仍然會越來越艱難。我們顯然還沒有達到這一點。明確地說,我不認為ARK2是最後的測試。我們不會在ARK2停止。我們在RKGI 3上已經開始開發,ARK3與ARK1和ARK2的輸入輸出對應格式有著顯著的不同。我們正在評估代理性的能力,包括探索、互動性學習、設定目標和自主實現目標的能力。因此,AI將被放置在一個全新的環境中,在那裡它不知道控製和玩法的具體情況,它不知道目標是什麼,甚至不知道遊戲機制,因此只能即興解決一切,首先要弄清楚它應該做什麼。每一款遊戲都是完全獨特的,所有遊戲都建立在核心知識的基礎之上,就像在ARK1和ARK2中一樣。我們將有數百個交互式推理任務,這些任務的設計強調效率,因此模型不僅僅是通過能否解決任務來得分,還會根據它們解決任務的效率來評分。我們還設立了模型可以採取的行動數量的嚴格限度,並以人類觀察到的同一水平的行動效率為目標。我們將在2026年初推出這項技術,而下個月7月,我們將發布開發者預覽版,讓大家可以開始玩。在解決ARK2的這方面,目前距離還很遙遠。至於如何解決ARK3,我們距離那仍然更遙遠。也許未來我們會解決ARK4,最終達成AGI。我們還缺少什麼呢?我曾經說過,智能是以高效地運用過去,以面對不斷變化的未來的能力。然而,當然,如果你所面對的未來與過去完全沒有任何共同之處,無法與任何你已經見過的事物產生聯繫,不論你有多智能,你都無法理解它。可是,事情是,沒有什麼事情是真正新穎的。你周圍的宇宙由許多不同的事物組成,但它們彼此之間都有相似之處。就像一棵樹與另一棵樹所相似,也和你的神經元或電磁學相似,還有流體力學,也和重力相似。因此,我們被同構所包圍。我稱這種現象為萬花筒假設。我們的世界經驗似乎突顯出一種不斷的創新和複雜性,但描述它所需的獨特意義原子實際上非常少,而周圍的一切都是這些原子的重新組合。智能就是挖掘你的經驗,識別這些可以在許多不同情境中重複使用的意義原子,而在很多不同的任務之間這種尋找涉及確定不變性結構,即那些似乎重複的原則。這些構建塊稱為抽象。而每當你遇到新的情況時,你都會通過即時重組你的原子,創造一個全新的適合那個情況的模型。因此,實現智能將有兩個關鍵部分。首先是抽象獲取。你需要能夠高效提取可重用的抽象,無論來自於過去經驗還是從數據流中獲得。第二部分是即時重組。你要能夠高效選擇和重組這些構建塊,以創建適合當前情況的模型。而這裡強調的效率至關重要。你的智能不僅在於你是否能完成某件事,還在於你從過去經驗中多高效獲取良好的抽象以及你能多高效重組它們來應對新穎事物。
François Chollet [19:34]
它應該在遊戲中做什麼。每一款遊戲都是完全獨特的。它們都是僅基於核心知識先驗構建的,就像在AR一和二中一樣。因此,我們將有數百個互動推理任務,像這樣的。效率是AR 3設計的核心。因此,模型不僅僅會根據是否可以解決任務來評分,而是根據它們解決任務的效率。我們還設立了一個模型可以採取的行動數量的嚴格限制。我們的目標是達到與人類相同的行動效率水平。因此,我們將在2026年初推出這個項目,而在下個月七月,我們將發布開發者預覽版,讓你可以開始試玩。解決AR 2需要什麼,而我們至今仍然距離很遠。然後解決AR 3,我們離該目標更進一步。也許將來解決AR 4,最終達到AGI。我們還缺少什麼?我曾說過,智慧是你用來操作過去以面對不斷變化的未來的效率。但如果你面對的未來與過去沒有任何共同之處,無論你多麼聰明,你都無法理解它。但問題是,沒有任何東西是真正新穎的。你周圍的宇宙由許多不同的事物組成,這些事物彼此相似。比如一棵樹與另一棵樹類似,這也與你的神經元相似,或者電磁學與流體力學相似,也與重力相似。因此,我們被同構體所環繞。我稱之為萬花筒假說。我們的世界經驗似乎特徵著無盡的新奇與複雜性。但描述它所需的獨特意義原子數量實際上非常少。而你周圍的一切都是這些原子的重新組合。智力是從你的經驗中挖掘,識別可以在許多不同情境和任務中重用的意義原子的能力。這涉及到識別不變的結構,即似乎是重複的原則。而這些構建塊,這些原子被稱為抽象。而每當你遇到新情境時,你都會通過重新組合你集中的抽象,將其應用於此情況,創造出一個全新的適應模型。因此,實現智力將有兩個關鍵部分。首先是抽象獲取。你想要的是...
François Chollet [22:18]
智能不僅僅是展現出高技能,而是以高效率獲得和展現這些技能的能力。這同時涉及數據效率和計算效率。這也是為什麼你會開始了解,僅僅使我們的AI模型變得更大、在更多數據上進行訓練並不會自動導致AGI。我們缺少幾樣東西。首先,這些模型缺乏即時重組的能力。因此,在訓練時,他們學習了很多,獲得了許多有用的抽象,但在測試時,它們完全靜態。你只能使用它們來提取並應用預錄的模板。這是一個關鍵的問題,而測試適應正在解決這個問題。TTA給我們的AI添加了重組能力,而這實際上是讓我們接近AGI的一大進步。但這不是唯一的問題,重組並不是唯一缺失的東西。另一個問題是這些模型的效率依然非常低。如果以梯度下降為例,梯度下降需要大量的數據來提煉簡單的抽象,這比人類需要的數據多幾個數量級,差不多多達三到四個數量級。如果你看看重組效率,即使是最新的尖端TTA技術,它們仍然需要數千美元的計算資源才能在AGI的水準上解決ARK1。而且這甚至無法擴展到ARK2。根本問題在於深度學習模型缺乏組合性泛化。而這正是ARK2試圖測量的東西。原因是,抽象的不止一種,而這一點相當重要。我曾經說過,智能是從數據中挖掘抽象,然後再進行重組,而有兩種抽象形式。第一種類型和第二種類型相似,彼此相互映射。兩者都與比較事物、比較實例並通過消除某些細節將個別實例合併為公共模板有關。因此,基本上你會拿一堆東西,進行比較,丟掉不重要的細節,而你所剩下的便是抽象,而兩者之間的關鍵區別在於一種運行在連續域上,另一種運行在離散域上。因此,第1類或價值型抽象是透過連續距離函數的比較事物,這樣的抽象與感知、模式認知和直覺有關,當然也包括現代機器學習,而第2類或程序型抽象是關於比較離散程序,也就是說圖形,而不是嘗試計算它們之間的距離,而是專注於尋找精確的結構匹配,尋找精確的同形性、子圖同形性。這些正是人類推理的基礎,在軟體工程師重構一些代碼時,所做的就是這些。如果你聽到軟體工程師談論抽象,他們指的是這種抽象。因此,兩種抽象,都是依賴於比喻做推理的。所有的認知都是這兩種形式抽象的結合。你可以想起它們,這是左腦和右腦的比喻。左半邊用於感知、直覺,而右半邊則用於推理、計畫和嚴謹。變壓器在第1類抽象上表現出色,能完成所有第1類抽象能有效應對的任務,即感知、直覺、模式認知等,但在第2類抽象上仍然不合適。因此,這就是為什麼你會發現訓練這些模型來完成非常簡單的第2類任務,例如對一串標記進行排序或相加的話,會非常困難。我們將如何達到第2類呢?你必須利用離散程序搜尋,而不是僅僅操作連續插值空間進行梯度下降。搜尋是解鎖超越自動化的創新的關鍵。如今所有已知的能夠進行某種創造力或創造性的AI系統,都依賴於離散搜尋。甚至在90年代,我們已經使用巨大搜索來提出新的天線設計。或者你可以舉個例子,AlphaGo在第37步的行動就是離散搜索,或者更近的例子是,DeepMind的Alpha Evol系統,都是離散搜索系統。因此,深度學習不會創造,但是搜索會。
François Chollet [25:00]
那什麼是離散程序搜索?它基本上是針對某種語言或DSL中操作符的圖形的組合搜索。為了更好地理解,您可以試著在程序合成和您已經知道的機器學習技術之間畫出一個類比。在機器學習中,您的模型是一個可微分的參數函數,因此是一個曲線。在程序合成中,它將是一個離散圖形,一個運算符的圖形,來自某種語言。在機器學習中,您的學習引擎,即創建模型的方式是梯度下降,這在計算上非常高效。順便提一下,梯度下降將使您能夠非常快且高效地找到一個適合數據的模型。但在程序合成中,學習引擎是搜索,這是極其高效的。顯然,在機器學習中,您遇到的主要障礙是數據密度。為了擬合模型,您需要對數據流形進行密集取樣。您需要大量數據,而程序合成正好相反。程序合成非常具數據效率。您只需要兩到三個示例就能適合一個程序。為了找到該程序,您必須在潛在程序的巨大空間中篩選。該空間的大小隨著問題的複雜性增加而指數增長。所以,你們會遇到這個組合爆炸的瓶頸。我之前提到過,智能是兩種形式抽象的結合。第一類和第二類。如果只追求其中一種,你實際上無法走得太遠。不論是全心全意追求第1類還是全心全意追求第2類。我認為,若要真正釋放它們的潛力,您必須將它們結合在一起,這正是人類智能賦予我們的特殊之處。我们结合了感知和直觉,以及明确的逐步推理,将这两种形式的抽象结合在我们所有的思想和行为中。比如当你下棋时,你运用的是类型二抽象,当你一步一步展开一些潜在的动作时。但你不会对每一个可能的动作都做出这样的计算,因为它们实在是太多了。你只会对几个不同的选择展开计算,比如看看马和王后。因此,你通过直觉的方式进行选择,利用板上的模式识别缩小选择范围。你也正是通过体验潜移默化地提取这些模式,这正是类型一的抽象。所以,在类型一与类型二的推出如何结合呢?关键的系统二技术是离散搜索,超越组合爆炸,当中的阻碍是组合爆炸。而系统一的关键技术则是曲线拟合和对曲线的插值。因此,你收集大量数据,将它们嵌入到某种插值流形中,以便迅速、近似地做出对目标空间的判断,而大主意就是利用这些快速但近似的判断来抵抗组合爆炸,并让程序搜索变得可行。一个可以理解的简单类比是绘制地图。因此,你可以从一个离散物体的空间出发,拥有着离散关系,通常需要组合搜索而去做的事情,比如在地铁系统中找出路径,然后将这些物体嵌入某个潜在空间中,使用连续距离函数,可以快速做模糊的猜测,从而理解这些事物之间的潜在关系,而这能够使你在搜索时抵抗组合爆炸的影响。这就是当前我们正在开发的系统的全貌。AI将向相似程序员的系统发展,处理新任务就如同为其编写软件一样。当面对新任务时,程序员般的元学习者将即兴合成出一项适合该任务的程序或模型。这个程序将结合深度学习子模块与特定问题的类型二算法模块。这些模型将由一个离散的程序搜索系统組合而成,依托于对程序空间结构的深度学习驱动的直覺引導。这一搜索過程並不是從零開始,而是會使用現有的可重用抽象構建塊的全局庫,並且該庫會隨著不斷增長的任務而演化。因此,當出現新問題時,系統便會在這個庫中尋找相應的構建塊,任何在解決新問題的過程中合成出來的新構建塊,會被上傳回庫中。好比是,當你作為軟體工程師時,如果開發出一套對自己工作有用的庫,你會將其上傳至GitHub,以便其他人可以重用它。最終的目標是讓AI能面對一種全新的情境,利用其豐富的抽象庫,快速組合出一個有效的模型,正如人類軟體工程師利用現有工具和庫快速創造出軟體以解決新的問題一樣。而這個AI將通過拓展其抽象庫以及洗煉對程序空間結構的直覺,不斷改進。這個系統是我們在印度新研究實驗室正在構建的。我们启动印度的原因是,我们相信为了显著加速科学进步,我们需要能够独立发明和发现的AI。我们需要能够拓展知识边界的AI,而不仅仅是在其中操作。我们坚信,新的AI形式将是这种加速的关键。深度学习在自动化方面表现出色,极具价值,但科学发现需要更多。我们的Tendia方法是利用深度学习指导的程序搜索来建立这种编程者似的元学习者。为检验我们的进展,我们的第一个里程碑将是使用一套从未涉及ARKGI的系统来解决ARKGI。最终我们希望能利用这一系统推动科学,帮助人类研究员提速科学的时间线。
François Chollet [27:39]
目前已知的人工智慧系統可以進行某種形式的發明、某種創造性,它們依賴於離散搜索。早在90年代,我們已經在使用龐大的搜索來提出新的天線設計。或者你可以看看AlphaGo的第37步,那就是離散搜索,或者最近的DeepMind的AlphaFold系統,都是離散搜索系統。因此,深度學習不能創造,但搜索可以。那麼什麼是離散程序搜索?它基本上是針對某種語言或一些DSL中的操作符圖的組合搜索。為了更好地理解它,你可以試著在程序合成和你已經知道的機器學習技術之間畫一個類比。在機器學習中,你的模型是一個可微分的參數函數。所以它是一條曲線。在程序合成中,它將是一個離散圖,一個由某種語言中的符號操作組成的操作圖。在機器學習中,你的學習引擎,創建模型的方式是梯度下降,這在計算上非常高效。順便提一句,梯度下降會讓你非常快地、非常高效地找到適合數據的模型。在程序合成中,學習引擎是搜索,而搜索是極其計算高效的。顯然,在機器學習中你所面臨的主要障礙是數據密度。為了擬合模型,你需要對數據流形進行密集抽樣。你需要大量數據,而程序合成恰恰相反。程序合成極其數據高效。你僅使用兩到三個示例就可以擬合一個程序。但是,為了找到那個程序,你必須在潛在程序的龐大空間中篩選。而那個空間的大小隨著問題的複雜性增長而指數上升。因此,你會遇到這個組合爆炸的牆。我之前提到,智力是兩種形式的抽象組合。我認為如果你只專注於一種形式,如全心全意投入於類型一或類型二,你將無法走得太遠。我認為,如果你真的想解鎖它們的潛力,你必須將它們結合在一起。而這正是人類智力擅長的。那正是使我們特別的原因。我們將感知和直覺與明確的逐步推理結合在一起。我們在所有的思考、所有的行動中融合了這兩種形式的抽象。例如,當你在下棋時,你使用的是類型二,當你逐步計算潛在的移動時。但你不會對每一個可能的移動這麼做,因為數量太多了,對吧?你只會針對幾個不同的選擇這麼做,對吧?例如在這裡,你會查看騎士、皇后。而你縮小這些選擇的方式是通過直覺,通過對棋盤的模式識別。因此,你非常通過經驗來建立這一切,對吧?你無意識地挖掘你的過去經驗,以提取這些模式,這絕對是類型一。所以,你在使類型二的計算可行時使用了類型一的直覺。所以,類型一和類型二之間的合併將如何運作呢?關鍵的系統二技術是針對程序空間的一種離散搜索,而你面臨的障礙是爆炸。而與此同時,關鍵的系統一技術是對曲線的曲線擬合和插值。因此,你採集大量數據,將其嵌入到某種插值流形中,使你能夠對目標空間做出快速但近似的判斷,而這個大想法是利用這些快速但近似的判斷來對抗組合爆炸並使程序搜索可行。一個簡單的類比理解這一點就是繪製地圖。因此,你採取一個具有離散對象和離散關係的空間,通常需要連接搜索,例如在地鐵系統中找路徑,並將這些對象嵌入到潛在空間中,您可以使用連續距離函數來快速但近似地對這些關係做出猜測,這能讓你在進行搜索的同時保持爆炸性控制,這就是完整的圖景。這是我們目前正在努力的系統。人工智慧將朝向更像程序員的系統發展,處理新任務的方式是為其編寫軟件。而當面對一個新任務時,你的程序員式元學習者將即時合成一個適合這個任務的程序或模型。這個程序將融合深度學習子模塊用於類型一的子問題,例如感知,和算法模塊用於類型二的子問題。而這些模型將通過受深度學習引導的直覺來組織,基於程序空間的結構的離散程序搜索系統。這個搜索過程不是從頭開始的,而是將利用一個可重用的抽象構建塊的全局庫。這個庫會隨著不斷學習而不斷演變...
François Chollet [30:17]
不斷演變,從即將到來的任務中學習。因此,當出現新問題時,系統將在這個庫中搜尋相關的構建塊。而在解決新問題的過程中,每當你合成一個新構建塊時,你將其上傳回庫中。就像一位軟件工程師一樣,如果你為自己的工作開發了一個有用的庫,你會將其放在GitHub上,以便其他人可以重用它。而這裡的最終目標是擁有一個能夠面對全新情況的AI,並將利用其豐富的抽象庫,快速組建一個有效的模型,就像一位人類軟件工程師能夠迅速創建一段軟件來解決新問題,通過利用現有的工具和庫。這個AI將隨著時間的推移不斷改進自己,不僅能擴展其抽象庫,還能精煉對程序空間結構的直覺。我們在我們的新研究實驗室Tindia構建的就是這個系統。我們創建Tindia是因為我們相信,為了顯著加速科學進步,我們需要能夠獨立發明和發現的AI。我們需要能夠擴展知識邊界的AI,而不僅僅是在邊界內運作。我們真的相信,新的AI形式將是這一加速的關鍵。深度學習非常擅長自動化,對於自動化來說,它無比強大,但科學發現需要更多。我們在Tindia的做法是利用深度學習引導的程序搜索來構建這個程序員式的元學習者。為了測試我們的進展,我們的第一個里程碑將是使用一個對RKGI一無所知的系統來解決RKGI。最終,我們希望利用我們的系統來促進科學,以賦能人類研究人員,並幫助加速科學的時間表。
François Chollet [32:49]
不斷演化,從傳入的任務中學習。所以當一個新問題出現時,系統會在這個函式庫中搜尋相關的建構模組。每當在解決新問題的過程中,你合成了一個新的建構模組,你就會把它上傳回函式庫。就像作為一個軟體工程師,如果你為自己的工作開發了一個有用的函式庫,你會把它放到 GitHub 上讓別人可以重複使用。最終目標是擁有一個 AI,能夠面對全新的情境,利用它豐富的抽象函式庫快速組裝出一個可用的模型——就像人類軟體工程師可以利用現有的工具和函式庫快速建立軟體來解決新問題。這個 AI 會隨著時間不斷自我改進,既透過擴展它的抽象函式庫,也透過精煉它對程式空間結構的直覺。這個系統就是我們在 Tendia——我們的新研究實驗室——正在建造的。我們創立 Tendia 是因為我們相信,為了大幅加速科學進步,我們需要能夠獨立發明和發現的 AI。我們需要能夠擴展知識邊界的 AI,而不只是在現有知識內運作。我們真的相信一種新形式的 AI 將是這種加速的關鍵。深度學習在自動化方面很出色,但科學發現需要更多。我們在 Tendia 的方法是利用深度學習引導的程式搜尋來建構這個程式設計師般的元學習器。為了測試我們的進展,我們的第一個里程碑是用一個對 ARC-AGI 一無所知的系統來解決 ARC-AGI。最終我們希望將我們的系統應用於科學,賦能人類研究者並幫助加速科學的時程。