- 通用機器人模型是終極目標:Chelsea Finn 共同創辦 Physical Intelligence,致力於開發能跨場景、跨任務執行的通用機器人模型——而非針對單一任務的專用系統,類比語言模型從特定任務到通用對話的發展路徑。
- 真實數據 > 模擬數據:機器人學習需要大量真實世界的操作數據,工業自動化的重複性數據雖然量大,卻缺乏多樣性,無法讓機器人學會折疊衣物、備餐等日常任務。
- 物體多樣性是最大挑戰:抓取、折疊、搬運各種形狀和材質的物體遠比看起來困難,真實世界的物理變異性使訓練充滿失敗——但也正是不斷從失敗中迭代,才有突破。
- 語言模型技術遷移到機器人:將 Transformer 架構、大規模預訓練、從示範中學習等 LLM 概念引入機器人訓練,已讓 Physical Intelligence 在折疊衣物等複雜任務上取得顯著進展。
- 通用模型比垂直專用模型更具潛力:就像 GPT-4 對程式設計師的幫助遠超為程式設計特別訓練的專用模型,通用機器人模型有望比逐一建造垂直解決方案更高效、更易用。
Chelsea Finn [00:02]
大家好。嗯,我真的很高興能夠談論開發通用機器人,以及我們如何實際上可以真正地開發並將智能帶入物理世界。因此,首先我想談談這個問題,即如果你想真正解決一個機器人應用程序,你基本上需要圍繞該應用程序建立整個公司。你需要為物流、濕實驗室自動化、廚房的機器人、外科手術機器人等建造不同的公司。而這實際上是非常困難的,因為那個公司需要製造新硬體、開發定制軟體、為該應用設計獨特的運動原理,處理邊界情況等等。如果你想解決一個機器人問題,你不得不從零開始完成這一切。因此,很多機器人公司在實際將機器人成功引入我們的日常生活方面並不太成功。我共同創立了一家叫做物理智能的公司,旨在解決這個問題。尤其是,我們正在努力開發一種通用模型,使任何機器人可以在任何環境中執行任何任務。嗯,我們認為這種通用模型可能比專用模型更有效且更易於使用,就像我們在語言和其他應用的基礎模型發展中看到的那樣。例如,如果你想構建一個編程助手,如今你不會專門為編程開發某種東西,而是開發和建立在大量數據上訓練的模型,這些數據不僅限於代碼。從本質上講,這是試圖開發這些基礎模型並將這種智能帶入物理世界而不是今天的大部分數字世界的問題。那么,我們該如何做到這一點呢?嗯,在這次演講中,我想談談我們是如何做到的。如果我們從語言模型中學習,我們知道語言模型教會了我們規模的重要性。因此,可能的結論之一是,規模或許是開發這些模型的最重要成分。如果你說這個結論是正確的,那麼你可能會尋找某些數據來源,以獲得大量的數據。例如,我們可能會查看來自工業自動化的數據,這樣你可以獲得大量的數據,機器人一遍又一遍地執行任務。但這種數據不會讓機器人進入災後區域或製作三明治,或裝袋雜貨。因此,這樣的大規模數據並不具備我們在解決這個普遍問題所需要的多樣性行為。
Chelsea Finn [02:32]
進入災後區域或製作三明治,或裝袋雜貨。因此,這樣的大規模數據並不具備我們在解決這個普遍問題所需要的多樣性行為。或者,我們也許可以查看YouTube的數據,它也有大量的數據來源,包含許多人執行任務的影片,這可能對機器人的訓練有所幫助。然而,與此同時,我們並不是通過觀看其他人寫作來學會寫作,而是通過實際的寫作學會的。我們並不是通過觀看溫布頓的比賽來成為專業的網球選手。因此,即使有大量的數據,我們也很難使用這些數據,並且機器人與人類之間也存在著差距。最後,我們可能會查看來自模擬的數據,這裡也可以獲得大量的數據,但這些數據缺乏現實感,並且與現實之間也存在著鴻溝。因此,我覺得這裡的教訓是,規模對於開發可以在開放世界條件下進行泛化的模型是必要的,但對於實際解決問題則是從屬的。因此,你需要規模,但這對於整個問題來說並不充分。所以在物理智能,我們一直在……這是一個我們收集的數據事件的例子。這是我們第一次周年紀念的紀念,幾個月前的事。在這裡,你可以看到一個遠程操作員正在親自操作一些機器臂來控制機器人,點燃一根火柴並用火柴點燃一支蠟燭。借助這種數據,我們可以訓練機器人執行各種不同的任務,因此,我想談談我們最近的成果,試圖開發某種物理智能,並使用大規模的真實機器人數據。我應該提到這在今天的機器人標準下是大規模的,而且比起未來我們應該擁有的那種機器人數據量來說可以說是微不足道。特別是,我們將看看機器人是否能夠執行各種靈巧的長期任務,機器人是否能夠在從未到過的地方取得成功,機器人是否能夠響應開放式提示和插入。即使你對機器人不感興趣,我認為我們嘗試解決這些問題所學到的教訓在物理世界之外也是可以適用的。因此,我們能否開發出能夠執行完美靈巧長期任務的機器人?在本部分中,我想談談我們是如何訓練一個pi零基礎模型以執行這項任務,即卸下乾衣機並折疊衣物。
Chelsea Finn [04:49]
卸下乾衣機並折疊衣物。到目前為止,我認為這是我在物理世界中見過的機器人能夠做到的最令人印象深刻的事情。這真的很困難。[掌聲] 這是一個極具挑戰性的問題。你可以看到它並不完美。這裡它出現了一些錯誤,犯了一些錯誤,但這真的非常困難,因為你必須處理衣物的變異性以及衣物可能的位置和褶皺的方式,並且能夠處理所有這些問題。在進行這項任務的過程中,機器人需要大約10分鐘,有很多機會會失敗,有可能會災難性失敗。例如,將物品掉在地上,這是很難恢復的。你必須能夠從即使是小錯誤中恢復過來。我個人其實和Michael以及Siraj一起在這個折衣機器人上工作了不少,當然還得到了整個物理智能團隊的支持和貢獻。那么你甚至該如何接近這類問題呢?這對於一個機器人來說真的是一件非常困難的事情,我們所做的就是從簡單開始。我們開始時問:機器人能否折疊單一尺寸、單一品牌的襯衫?機器人能否动态图地拉平一件襯衫,同樣是單一品牌、單一尺寸?如果你從簡單入手,這會讓問題變得簡單很多。我們進行了一些數據收集,通過遠程操作並利用模仿學習訓練了一個策略,我們的模型有大約1億個參數,以從機器人攝影機的影像映射到機器人手臂上的目標關節位置。我們在機器人上以50赫茲的頻率進行這種控制。嗯,我們是在2024年3月中旬成立公司的。在完成所有設置後的幾個月內,我們能夠建立一個策略,這個策略能夠相當可靠地折疊單一尺寸、單一品牌的襯衫。你可以看到我在這裡測試這個策略。我們還想测试一些动态动作,因为你需要能够准确匹配控制频率,以执行这些动态动作。因此,这些是我们在解决这种折衣问题时进行的一些非常初步的测试。然后,从那里我们想让任务逐渐变得更困难。因此,我们不再从平放在桌子上的衬衫开始,而是从像这样的皱巴巴的位置开始。结果,它实际上使问题变得更加困难。这里有一些我们尝试训练机器人折叠这些衬衫的初始尝试的视频。机器人在挣扎。机器人做了一些看起来有点合理的事情,但通常无法在任务上取得进展。经过多次测试,我们在这个系统的测试中经常得到了0%的成功率,真的很难取得进展。
Chelsea Finn [07:12]
真的很難取得進展。因此,這引入了處理襯衫在桌面上可能摺皺的變異性挑戰。我們在去年的6月底有了一些早期的生機。在這個案例中,機器人能夠在拉平襯衫方面取得一些進展。它還能夠從那個初始狀態中不錯地折疊襯衫。仍然不完美。正如你所看到的,這需要相當長的時間。所以這是一段加速的影片。所以這不是你可能對一個機器人所具備的耐心的事情。嗯,因此,隨著一些早期的生命跡象,成功率也非常低,我們開始過渡到稍微困難的任務版本,洗衣物放在籃子裡。我們還在混合中加入了變數尺寸的襯衫和短褲。嗯,機器人真的掙扎。因此,在我們的許多測試中,我們整體的成功率為0%,並且我們真的在努力讓機器人學會如何做這些任務。此時,我們正在考慮許多不同的事情。嗯,我們認為這也許是機器人需要記憶,需要某種方式的歷史。也許我們需要訓練我們的模型更長的時間。也許我們應該在末端執行器空間而不是機器人的關節空間中進行控制。我們知道我們的編碼器存在校準問題,也許我們需要讓這個校準變得更加一致。也許我們需要根據數據的更多信息來調整模型。也許我們需要階層,因為這是一個相當長期的任務,需要將其分解為不同的子任務。也許我們需要更高解析度的圖像。嗯,也許我們需要在數據收集中引入一些干預。我們也嘗試了許多這樣的事情。 我們經歷了大約兩到三個月的失敗,根本沒有什麼有效地解決這一任務。但在某個時候,我們確實有了一些突破,那就是我們發現一項看起來確實能顯著提升機器人執行任務能力的做法。這實際上是從語言建模的領域中汲取一些靈感來進行的。數據,然後在一個高度策劃和一致的高質量展示數據集上進行微調。當我們這樣做時,我們發現機器人實際上能夠更加可靠地進行進展並折疊衣物。嗯,我認為這個視頻是機器人連續折疊五件物品並將它們堆放的第一次。嗯,我在那一天回家時感到非常興奮。嗯,這是在2024年9月,所以是我們初步測試後的幾個月。嗯,現在這距離完美還很遙遠。嗯,折疊五件衣物需要20分鐘。但同時它也暗示這種配方能解鎖機器人實際折疊這些衣物的能力。你可以看到這些失敗的情況。在這種情況下,它試圖折疊那件藍色襯衫大約七次,最後才真的弄明白如何做到這一點。嗯,還有其他失敗的模式。因此,這是一個例子,機器人將堆疊推到桌子的角落,決定稍微玩弄一下,然後最終將其滑下桌子,然後就像什麼事都沒發生過,繼續折疊。我們繼續對此配方進行迭代。我們選擇並工作,在策劃更高質量展示數據集的策略。我們將這五件物品的折疊時間從20分鐘減少到12分鐘。這大體上是我們如何評估我們的機器人系統的。嗯,它仍然會犯錯誤。質量仍然變化很大,但這對我們之前的策劃配方來說顯著改善。現在,在這一點上,我們仍然主要是在洗衣數據上訓練模型,我們沒有利用社區中的預訓練模型。實際上在物理智能中,有一些人正在開發一個在所有機器人數據上訓練的預訓練模型。我們然後開始嘗試將這些模型引入我們的配方。因此,我們採取了一個開放源碼視覺語言模型,一個三十億參數的模型,這叫做Polygeemma。之前我們使用的視頻都是100到300百萬參數的模型。我們的模型將機器人的影像作為輸入,還要一個語言命令,然後用一個擴散頭來關注所有視覺語言模型的內部值。
Chelsea Finn [09:24]
從語言建模的世界中獲取一些靈感,實際上我們不是僅僅在所有數據上訓練政策,而是先在所有數據上進行預訓練,然後在一組精心策劃的一致高質量示範數據上進行微調。當我們這麼做時,我們發現這個機器人實際上能夠取得進展,並且更可靠地摺疊衣物。因此,我認為這個視頻是機器人能夠連續摺疊五件物品並將它們堆疊的第一個視頻。我那天回家時非常興奮。這是在2024年9月,所以是在我們初始測試幾個月後進行的。現在這還遠未完美。摺疊五件衣物需要20分鐘。不過,這同時也暗示了這種配方能夠解鎖機器人摺疊這些衣物的能力。所以你可以看到這裡的失敗情況。在這個案例中,它嘗試折疊藍襯衫大約七次,最終才弄明白該怎麼做。此外,還有其他的失敗模式。例如,這裡有一個例子,機器人將堆疊的衣物推到桌子的角落,然後決定稍微擺弄一下,最後將其滑出桌面,然後繼續摺疊好像什麼都沒有發生過。我們繼續對這個配方進行迭代。我們選擇並改進了策展策略,以策劃出更高質量的示範數據。我們把摺疊五件衣物的時間從20分鐘縮短到12分鐘。這就是我們如何評估我們的機器人系統表現的情況。它仍然會犯錯誤,品質仍然會有所變化,但它的表現顯著好於我們之前的策展配方。現在,在這個階段,我們仍然主要在洗衣數據上訓練模型,我們並沒有利用社區中的預訓練模型。而且,物理智慧方面的一些人也在努力開發基於所有機器人數據的預訓練模型。我們隨後開始將這些模型引入我們的配方中。因此,我們使用了一個開源的視覺語言模型,一個三十億參數的模型,叫做Polygeemma。之前我們使用的模型參數都是100到300百萬的,這次我們在這個模型上進行了訓練。
Chelsea Finn [11:39]
擴散頭來關注所有視覺語言模型的內部值。並且通過關節角度來預測未來50個動作的塊。因此約1秒的動作步驟,我們使用流匹配,一種擴散的方法來輸出這些動作並輸出連續動作。嗯,我們採取了這個預訓練的模型,而不是僅僅在洗衣數據上進行預訓練,我們在已收集的所有機器人數據上進行預訓練。然後我們只是用與我們開發的相同後期訓練配方進行微調,並未使用視覺語言模型。當我們這樣做時,我們實際上看到機器人當我們插入那個新的預訓練模型時,繼續變得更好的情況。所以在左側的視頻中,它能在9分鐘內完成五件物品,比我們以前的12分鐘更快。在右側的視頻中,我們測試了一些新穎的衣物,發現它在連續折疊多件物品的表現也相當高效。嗯,還有因此的結果,使用這個大約十倍的模型,數據的質量更加一致,並且已經看到了更多的機器人數據作為輸入。要看幾個亮點,這裡有一條短褲,機器人之前從未見過,這是一個有點棘手的情況,因為要壓平它,實際上需要伸手到短裤底部。這是它能夠做到的。能夠理解它應該伸手到短裤的左邊來最終將其壓平。嗯,然後一旦它成功壓平它,它也能夠成功折疊它。在某些情況下,折疊襯衫時也必須做類似的事情。因此,在這種情況下,它需要實際上將襯衫上的一側折疊到另一側,這是在某種程度上使其處於更皺摺的狀態,但允許它找到襯衫的邊角,然後進行折疊。嗯,正如我提到的,它還能夠處理看不見的衣物。因此,這裡有一個V型襯衫的例子,能夠折疊,即使後訓練數據集沒有這件襯衫,並且後訓練數據集中沒有任何V型襯衫作為輸入,還能夠折疊有鈕扣的襯衫。因此,它對不同衣物有一定程度的泛化。嗯,最後,由於這個策略是一個神經網絡,並且它正且當前影像作為輸入,它能夠處理中斷情況。因此這裡有一個例子,Michael持續干擾這個機器人,而這個機器人意識到它應該在嘗試折疊另一件襯衫的時候把這件襯衫放開。在這種情況下,Michael將一側展開,機器人會做出反應。Michael再次進入,機器人在這裡犯了一些錯誤,但能夠恢復。Michael又搞砸了。因此,這些是機器人能夠做到的一些結果。現在我談到了這種預訓練和後訓練配方是非常重要的。我們實際上可以量化測量這一點,並確保這確實是導致改進的原因。因此,我們將這個預訓練和後訓練配方與不使用任何預訓練進行比較,只是在策劃數據集上進行訓練,與沒有後訓練的情況進行比較,其中您是在所有數據上進行訓練,而不是對策劃數據集進行微調。嗯,我們對這些模型的評價是基於它們在任務進展上的進步,即使是將其從箱子中拿出——這是最容易的部分,然後進一步進行壓平、折疊和堆疊這些物品的進步。我們看到,預訓練和後訓練配方能夠獲得遠高於省略預訓練和省略後訓練的性能。嗯,值得注意的是,省略預訓練和後訓練基本上能夠將物品取出箱子,並且之後的進展非常有限。而當我們結合預訓練和策劃後期訓練時,則獲得遠高的性能,能夠可靠地壓平和折疊物品。嗯,我將在這方面提到的最後一件事情是,這種配方中的任何內容都不是專門針對洗衣服任務的。因此,我們採用相同的配方,並在其他任務上進行微調。這裡的任務是清理桌面。機器人也能夠成功地完成這一任務,儘管我們主要在洗衣上進行大量迭代,但它也能夠將這個配方應用到這個任務上。它還能夠將咖啡豆舀入咖啡研磨機。這一任務相當困難。它需要構建一個紙箱的底部,這需要相當多的靈巧度,然後,最後,通過火柴自動點亮蠟燭,再次使用這一類似的預訓練和後訓練配方。因此,這指出了我之前提到的基礎模型的好處,即要執行這些不同的任務,您不必從完全零開始,而可以實際上在多個機器人和多個任務之間利用預訓練。然後,我們還能夠將這種配方應用於其他公司的機器人。這是一個我實際上從未見過的機器人。他們收集了數據,將數據發送給我們。我們在他們的數據上進行了微調。我們實際上甚至不確定是如何控制該模型的。嗯,淨化他們的行為後,通過對這個新的機器人進行微調,模型能夠控制機器人以便製作一杯咖啡。因此,這一部分的幾個執行要點是,我們能夠獨立發展後期訓練和預訓練,將問題解耦,最終獲得兩者的最佳效果。我們發現,在所有數據上進行訓練不適合複雜任務,這種預訓練後期訓練在策劃數據上能夠導致明顯更好的性能。並且我們通過逐步開始折疊單件襯衫,而後逐漸進入更加複雜的任務來解決這一非常困難的問題。現在,這裡有一些限制,我想指出的一個限制是,這些機器人在案例中必然是在測試的環境中進行訓練的。因此,這意味著在原則上,您可以使用這些方法在一個環境中收集大量數據,然後再將其部署在其他環境中。但最終,環境和場景將會變化,而我們希望將這些機器人實際應用於他們從未見過的環境中。因此,機器人如何能夠在他們未曾到過的地方獲得成功?我們從其他地方的機器學習中學到的教訓是,我們應該收集多樣的數據。因此,我們開始收集整理臥室和廚房的數據,這些數據是在各種不同的環境中收集的。這裡是一個數據的樣本。我們在舊金山的家庭中收集了機器人的數據,並在各種模擬廚房和模擬臥室中收集了數據,總共在數據集中表示了超過100個獨特的房間,最終成為更大預訓練混合的一部分。
Chelsea Finn [13:53]
對不同服裝項目的概括程度。而最後,由於這個策略是一個神經網絡,並且它會根據當前影像作為輸入,所以它能夠處理中斷。因此,這裡,Michael繼續擾動機器人,而機器人則理解它應該在試著摺疊另一件襯衫的同時把那件襯衫放到一旁。在這種情況下,Michael會繼續擾動機器人。Michael打開一邊,機器人就有了一些反應。Michael再次插手,機器人這裡犯了一些錯誤,但能夠恢復。Michael再次搞亂了它。所以這些是機器人能做到的一些結果。現在我講到的這個預訓練和後訓練的配方是非常重要的。我們實際上能夠量化測量這一點,確保這實際上是導致改進的原因。因此,我們將這個預訓練和後訓練的食譜與不使用任何預訓練、僅用策劃數據集進行訓練的情況相比較,還有不進行後訓練的情況,即僅在所有數據上進行訓練,而非在策劃數據集上進行微調。我們根據它們在任務上的進展評估這些模型,並且您在塑造方式上會取得部分進展,從箱子中取出物品是最簡單的部分,然後進一步進展摺疊、平整和堆疊這些物品。我們看到預訓練和後訓練的配方能夠取得比省略預訓練和省略後訓練高得多的性能。值得注意的是,省略預訓練和後訓練的結果基本上能將其從箱子中拿出來,但之後的進展非常小。而當我們將預訓練和策劃後訓練結合起來時,就能實現更高的性能,並且能夠可靠地平整和摺疊物體。然後我要提到的最後一點是,這個配方中的任何內容都不是特定於洗衣的。因此,我們採用相同的配方並對其他任務進行微調。這個任務是清理桌面。儘管我們主要在洗衣上進行了大量的迭代,但機器人同樣能夠成功地執行這個任務,它還能夠把咖啡豆倒入咖啡研磨機。這項任務相當困難,需要組裝紙箱的底部,這需要相當高的靈巧性,然後最後,能夠自主地用火柴點燃蠟燭,這又是這種相同的預訓練和後訓練的配方。
Chelsea Finn [16:19]
和這個相同的預訓練和後訓練配方。因此,這指出了一種我之前提到的基礎模型的好處,這就是要做這些不同的任務,您不必完全從零開始。您實際上可以跨多個機器人和多個任務利用預訓練。然後,我們還能將這種配方應用於其他公司的機器人。這是一個我其實從未見過的機器人。他們收集了數據,將數據發送給我們,我們在他們的數據上微調了我們的模型。實際上,我們甚至不知道模型是如何被控制的,具體的行動表現形式。然而,通過在這個新機器人上微調模型,該模型能夠控制機器人以製作一杯咖啡。因此,這部分的幾個重點是,我們能夠獨立開發後訓練和預訓練,並將問題解耦,最終獲得兩者的最佳結合。我們發現對所有數據進行訓練在複雜任務上並不奏效,而這種在策劃數據上進行的預訓練和後訓練能夠導致更好的性能。然後,我們通過逐漸開始摺疊單件襯衫,將這個相當困難的洗衣問題拆開,並逐漸進入更複雜的任務版本。現在這裡有若干限制,而我想指出的一個限制是,這些機器人在這種情況下必然是在它們被測試的環境中進行訓練的。因此,這意味著原則上您可以利用這些方法在一個環境中收集大量數據,然後再在該環境中進行部署。但最終,環境和情況會變化,我們希望將這些機器人實際應用到它們從未見過的環境中。因此,機器人如何能夠在它們從未去過的地方成功?我們從其他地方的機器學習中得到的教訓是,我們應該收集多樣化的數據。因此,我們從收集各種不同環境中整理臥室和廚房的數據開始。這裡是這些數據的樣本。我們收集了在舊金山各家庭中的機器人數據,還收集了在各種不同的模擬廚房和模擬臥室中的數據,總共在數據集中有超過100個獨特房間的數據,最終成為較大預訓練混合物的一部分。因此,我們在這些行動上進行了訓練。
Chelsea Finn [18:36]
更大預訓練混合的一部分。因此,我們在這些多樣的移動操作數據上進行預訓練,包括低級動作預測和預測如何完成任務的高級子任務命令。但我們還在先前收集的靜態操作數據上進行訓練,這些數據也相對多樣。靜態的操作數據是我們在辦公室和實驗室以及網頁數據中收集的,以及高度指導性的數據。我應該指出,整理臥室和廚房的移動操作數據只占整體預訓練混合的2.4%。因此,這裡的教訓是,您基本上能夠啟動一個新任務,甚至全新的機器人。混合的其餘部分並不包含任何移動操作數據,沒有重新進行所有數據收集。我們能夠在以前所做的一切基礎上進行構建。這是一個基礎模型能夠更容易啟動新問題和新應用的故事。現在這並不完全容易。我們面臨幾個挑戰,其中一個挑戰是,這種模型會天真地忽略語言指令。因此,我們實際上在這種情況下要求它拿起切菜板,而它卻選擇拿起了盤子。現在我們又要求它拿起切菜板。然而,機器人意識到自己有自己的想法,選擇了拿起盤子。然後我們告訴它把盤子放進水槽。最終,它決定,在遠離切菜板後,實際上會選擇拿起切菜板。因此在我們模型的早期開發中,我們發現它經常忽略語言。為了解決這個問題,我們思考了視覺語言模型實際上如何很好地跟隨語言。因此,也許有某種方式可以在解決這個任務時保留預訓練模型的內在能力。因此,我們所做的就是用這個PI零架構,這個使用擴散的動作頭是隨機初始化的。這最終會惡化在視覺語言模型中存在的預訓練知識。我們發現,如果我們能防止這種惡化,我們可能會獲得更好的語言跟隨效果。因此,我們提出的配方在某種程度上是相似的,但我們將預測分詞的動作。然後,當我們有擴散頭時,我們將阻止隨機初始化的擴散頭的梯度,以防止其惡化視覺語言模型主幹的語言跟隨能力。我們發現,這首先導致更快的訓練,因為分詞的動作是一個更直接的監督信號。其次,它也能更好地遵循語言。跟隨率達到80%而不是20%。這表明我們能夠保留視覺語言模型主幹的那種預訓練效果。因此,我們將這些部分結合在一起。我們將那個配方融入訓練,進行了預訓練,包括移動操作的數據。我們在多樣環境中的移動操作數據上進行了微調。然後我們在從未之前的地方測試這個模型。因此,我們租了三個從未去過的Airbnb。我們將機器人放置在這些家裡,在這種情況下,在廚房裡,我要求它關閉櫥櫃。我要讓它把碗碟放好。還有從未見過的這些碗碟、這些叉子、這些物品。即使機器人從未來過這裡,它也能夠成功做到這一點。桌面的不同、家具的不同、物品的不同等等。最後,我要求它清理溢出的食物,機器人能夠滿足並擦拭溢出的食物,並最終把海綿放入水槽中。它在臥室裡也能做到這點。因此,Laura在這種情況下要求它清理臥室,它把衣物放入。丟掉了垃圾,然後能夠通過將枕頭放在床的上方來整理床,整理床單或被子。YC的下一批現在正接受申請。你有創業想法嗎?請在ycombinator.com/apply申請。從來不算太早,填寫申請將有助於提升你的點子。好了,回到視頻上。因此,量化地說,我談到了這個混合中只有2.7%左右的資訊,因此那個其他數據到底幫了多少?我們是否可以僅在那2.7%上進行訓練?我們發現,右側這些欄位排除了實驗室和環境中的靜態機器人的數據,導致性能顯著下降。因此,在新家中進行評估時,當排除這些數據時,性能下降到60%以下;而如果使用完整的預訓練混合,其性能提高了20%以上。最後,我们还查看了数据的多样性是否有帮助。这很重要。因此,我们增加了这些环境中的数据量以测试这一点。做一些氛围评价总是很好,但实际测量这些东西的效果真的很有帮助,因此这是我们所测量的,我们发现,如果我们实际增加住所的数量,环境的数量在数据中体现出,性能就会提高,这很好,实际上达到了与我们在目标环境的数据上训练时相同的性能水平。因此,这意味着我们基本上关上了泛化的差距,并表明此类任务的瓶颈不在于收集更多样化的数据,而在于获得更高的可靠性和更高的表现。嗯,我还应该提到,这里有诸如80%的成功率这样的故障模式。还有很多改进的空间。嗯,这里有一些故障模式的例子。因此,嗯,机器人被告知把物品放在抽屜中。它能够把物品放入抽屜內,但在最後物品並未完全放進抽屜中,它決定不再處理這一任務,並開始進行下一個。因此,在這裡,機器人需要把衣服放入洗衣籃。它就推著襯衫過去,然後就卡住了,無法把它撿起來。在這最後一個實例中,也許是我最喜歡的情境,它被告知把鏟子放入抽屜中,它卻誤以為烤箱長得和抽屜一樣,因此它打開了烤箱,嗯,試圖將其放進去。嗯,除此之外,還存在速度、局部可觀察性和長期規劃的挑戰。因此,嗯,還有很多工作要做。所以這裡的結論是,透過多樣化的數據,機器人可以在未到過的環境中遵循各種指令。這比許多培訓於它們正在測試的情境的機器人場景要大幅提升。現在,我想談論最後一部分,這個模型的指令集非常有限。它只能遵循某種特定的命令。如果我們思考其他形式的AI技術如何被部署,人們真的喜歡定制,實際上告訴機器人他們想要什麼,或者告訴系統他們想從這些模型中獲取什麼。因此,就像我們提示語言模型一樣,能否讓機器人回應開放式提示和開放式插入呢?為了做到這一點,實際上為了進行過去的工作,我們正在利用層次化的視覺語言動作模型。因此,我們將設置高級策略將請求分解為中級口頭反應和中級原子語言命令。高級提示可能是:“可以給我做三明治嗎?”這個高級政策將其分解為一個子任務,即拿起一片麵包。這將傳遞給一個低級模型,實際執行並預測目標關節角度,以滿足拿起一片麵包的低級命令。現在,單靠這個是無法處理所有類型的提示的,實際上處理開放式語言相當棘手,因為在與真正的機器人進行人機交互中收集大量的數據是非常具有挑戰性的。而這將相對較難擴展。因此,我們所做的是將所有現有的機器人數據,而我們實際上可以為現有機器人數據生成合成數據。特別是,我們可以利用語言模型對機器人所處的場景進行標記,生成假設性的人類提示。因此,這樣的情形是,我們會收集到數據,說這是一段視頻,然後下一個技能就是拿起一塊Kit Kat,因為這是機器人下一步所執行的基本低級標記。然後對於下一個場景,其中機器人即將拿起Kit Kat,我們可以問視覺語言模型,人類可能問出什麼樣的假設性提示,導致機器人選擇拿起Kit Kat。然後我們可以在這些合成的提示上訓練我們的高級策略,以基本上用各種人類交互來增強機器人數據,這些人類交互可能促成那些不同的情景。因此,結果是我們能夠實際使機器人遵循各種不同的提示。因此,在左側,我們問:“嗨,機器人。你能幫我做一個火腿起司三明治嗎?”機器人回答:“當然,我會從麵包開始,然後再加火腿和起司。” 那麼它能夠將這項任務細分為各種子任務:拿起一片麵包,把它放在切菜板上,拿起一片起司,放在麵包上,哦,拿起一些火腿,依此類推。我還可以遵循更複雜的提示,例如:“嗨,機器人。你能幫我做一個素食三明治嗎?不過我不喜歡泡菜。” 在這種情況下能夠將其分解並決定要為三明治加入生菜和番茄,而不是加入泡菜,也不加起司,並且不加肉。此外,我們還能夠訓練機器人處理不同的插入。嗯,其實這裡有一個不同類型的提示的例子。因此,在左側,我們訓練機器人清理桌子。因此,放置垃圾並將碗碟放入箱子裡。然後在右側,我們指示機器人只清理垃圾而不清理碗碟。機器人能夠理解這意味著什麼,並將它與其低級動作相連接,只放置垃圾,然後在所有垃圾都放置完畢時完成任務。最後,它還能夠處理插入和在情境中的更正。因此在這種情況下,機器人正在為用戶獲取物品。用戶插入時說:“給我一些籃子裡沒有的甜的東西。”就在它將Kit Kat放入籃子之後,機器人說:“嗯,好。讓我給你一些Skittles。”並進行基本推理,滿足用戶的請求,能夠回應那些類型的更正,這是嵌入到機器人所在世界中的。現在,你可能還想知道,是否有現有的基礎模型可以作為機器人的高級規劃者,進行這類高級推理,而無需訓練單獨的模型。因此,我們也進行了評估。
Chelsea Finn [20:52]
行動。然後當我們有擴散頭時,我們會停止從隨機初始化的擴散頭的梯度,以防止它削弱VLM骨幹的語言跟隨能力。我們發現,這首先導致更快的訓練,因為標記的行動是一個更直接的監督信號。其次,它也能更好地遵循語言。跟隨率為80%,而不是20%。這表明我們能夠保留視覺語言模型骨幹中的那種預訓練。於是,我們將這些部分整合在一起。我們採用了這個配方,對我們的所有數據進行了預訓練,包括移動操控的數據。我們在各種環境下對移動操控數據進行了微調,然後我們在這些它從未去過的地方測試了模型。因此,我們租了三個我們從未去過的Airbnb。我們把機器人放在這些房子裡,在這種情況下放在廚房裡,我要求它關上櫃子。我要求它把碗碟放好。它也從未見過這些碗碟或這些叉子,這些物件。機器人即使從未來過這裡,仍然能成功。不同的工作台,不同的家具,不同的物體,等等。最後,我要求它清理溢出物,機器人能夠遵循並擦拭清理,最終將海綿放進水槽。同樣,在臥室中也都可以做到。因此,Laura在這種情況下要求它清理臥室,機器人則將衣物放好。它扔掉垃圾,然後將枕頭放在床的最上面,整理床單或被子。YC的下一批現已開始接受申請。你有創業的想法嗎?請造訪ycombinator.com/apply。從來不會太早,填寫申請將有助於提升您的想法。好的,回到視頻中。因此,從量化的角度來看,我談到了只有約2.7%或類似的數據混合,那麼其他數據實際上有多大的幫助呢?我們實際上可以只在這2.7%的數據上進行訓練嗎?我們發現,右側的條形圖,排除靜態機器人在實驗室和環境中的數據會顯著降低性能。所以,當评估在新家居中時,使用不到60%時的性能下降。而如果使用完整的預訓練混合數據,其性能提高了超過20%。
Chelsea Finn [23:27]
性能提高了超過20%。最後,我們還考量了數據的多樣性是否有幫助?這是否重要?於是我們增加了來自這些環境的數據量來測試這一點。進行這種評估總是很有幫助的,所以我們發現,如果我們實際上增加了家庭的數量和數據所代表的位置,性能會提高,這很棒,實際上可以達到與在目標環境數據上進行培訓相同的性能水平。這意味著我們在實際上大多數關閉了概括差距,並表明在這類任務中瓶頸所在不在於收集更多多樣化的數據,而是在於實際上獲得更高的可靠性和性能。我還必須提到有失敗模式,成功率約為80%。仍然有很大的改進空間。這裡有幾個失敗模式的例子。例如,在這裡,它被告知要把物品放進抽屜。它能夠將物品放入抽屜,但物品最終並未完全放入抽屜,它認為自己完成了並繼續下一個任務。在這裡,機器人需要將衣物放入洗衣籃,卻撞到了襯衫,然後卡住,無法將其抬起。在這個案例中,我們請它將碗碟放入水槽,機器人能成功放入多個碗碟,但在特定情況下無法拿起砧板,因為它非常薄且與料理台的表面平齊。在最後一個案例中,也許是我最喜歡的情況,它被告知將鍋鏟放進抽屜,卻認為烤箱看起來像抽屜,因此將烤箱打開,並試圖把它放進去。在此之外,還有其他關於速度、部分可觀察性和長期規劃的挑戰。因此,是的,仍然有許多工作要做。因此這裡的結論是,通過多樣化數據,機器人可以在機器人從未去過的環境中遵循各種指令。這比許多機器人情境中在其被測試的場景中訓練更進一步。現在我要談論的最後一點是,這個模型的指令集相當有限。它只能遵循一組特定的命令。如果我們考慮如何
Chelsea Finn [25:46]
因此,在遵循指令和推動任務進展的性能方面,出現了顯著的降低,與我們系統的性能相比,這在概括上來看情況也不理想。那麼我們的模型相對而言表現出更好的效果。嗯,一般來說,這些前沿模型通常在與機器人學相關的視覺理解方面存在困難,這是有原因的,因為一般來說,這些模型並不是主要針對許多物理應用,而且在物理世界中幾乎沒有任何數據。好吧,嗯,總結一下,我提到了一些,我談到機器人如何通過預訓練和後訓練執行多樣的靈巧長期任務。 如何使機器人能夠在從未到過的地方獲得成功,如何通過利用從我們收集的機器人數據上方的語言模型生成的合成數據來回應開放式提示和插入。嗯,現在結尾幾點,我們在這場演講中看到幾種不同的情境,其中通用機器人的成功率可能比專業機器人更高,但因為我們基本上並不需要為每個具體應用從零開始,而是可以建立在現實世界物理智能的更廣泛基礎之上。嗯,我們還看到,實際世界中的大數據對開發這些事物非常有幫助,而我們找到了——我認為這對於物理智能是必要的,但並不充分,還有很多挑戰,我們需要做的研究,以及通過開源貢獻,才能使機器人真正準備好應對開放世界。我還想提到,物理智能正在招聘許多職位。如果你對我們討論的某些事情感興趣,你可以在pi網站上查看開放職位的列表。太棒了。很高興接受一些問題。我們從左側開始。>> 嗯,嗨,Chelsea。所以,我首先想說謝謝你在機器人學習方面所做的一切。它們都真的令人印象深刻。是的,此外,我主要有兩個問題,特別是與你提到的後期訓練部分有關。因此,第一件事是,你提到了後面訓練中最重要的部分是擁有高品質的行為數據。我想知道那些組件會是什麼?然後第二個問題是,你覺得強化學習在後期訓練中能發揮什麼樣的作用?>> 是的,當然。因此,我認為不同的組件中,有很多部分是關於數據的一致性和所遵循的策略,還有機器人是否進行了有效且可靠的任務完成。其次,關於第二個問題,我認為強化學習在後期訓練中可以發揮非常重要的作用。我認為,來自機器人的在線數據——強化學習允許你使用的數據,可以讓機器人擁有更高的成功率,而且速度更快,甚至比僅用模仿學習要快。>> 是的,謝謝。>> 嗨,非常感謝你的演講。嗯,你的工作真的很迷人,毫無疑問將在未來產生很大影響。但是,我可以問你這個階段如何找到資金嗎?因為老實說,我無法想象說服人們投資於一個摺衣服和處理碗碟的機器人是多麼困難。是的。因此,這是一個好問題。首先,我想提的是,我們不僅專注於家庭中的應用。嗯,我們實際上希望解決這個更廣泛的物理智能問題,我們從這些應用開始,因為這些應用相對容易在可推進的方面取得進展。但我們也在處理插入以太網線,這也是我在演講中提到的,還有構建紙箱等任務。總體來看,我認為這類問題在各個領域潛力巨大,不僅僅是家庭任務,而是各個領域。而且即使是在家庭任務方面,我認為這種技術擁有巨大的市場。嗯,我們自己在籌集資金上沒有遇到很多挑戰,我認為最近許多機器人公司也做得很好,發現這類技術實際上受到很多期望,因為事情似乎越來越能夠真正推進。嗯,我開始從事這項技術已經有10年以上的時間,當時事情真的不行,因此嗯,我認為現在開始有很多人對這項技術感到興奮並渴望為其提供資金。>> 好吧,非常感謝你。>> 是的。>> 嗨。嗨,謝謝你。嗯,我有兩個問題,一個更廣泛的問題和一個更技術的問題。因此,技術問題就是,VAS在我看來,至少在我理解上是一種框架,和世界建模稍微有些分離,我想知道它們如何相互作用。在一起,是否有計劃一起使用。嗯,因為我現在看到的VAS是更為明確的一種策略,這從世界建模的角度看似乎會很受益,從B的角度,我想知道哪些基礎設施層可能是最有用的。例如,可解釋性、可追溯性或一般的安全性,以便在現實世界裡部署這些模型。>> 是的,好問題。嗯,首先,這是我們的框架,因為其實在視覺語言行動模型中,有自然的方式將世界模型的目標納入其中。我們做過一些工作,取代“僅僅預測下一個動作”,你預測一些中間的子目標圖像,像是將會在未來發生的情況以便完成任務,然後在此基礎上預測一個動作。從這一點上看,我們看到這方面的一些潛力。因此,我認為合併這兩種範式是可行的。與此同時,我認為世界建模面臨許多挑戰,這些挑戰主要來自於你放入世界模型中的數據,這不一定反映你將如何使用它。你可以在成功的數據演示數據上進行訓練,然後進行評估,但實際上試圖使用它來評估沒有最佳完成任務的動作。在這種情況下,世界模型會幻覺出一個成功完成任務的視頻,儘管給予的輸入動作並未實際上能夠成功導致一個良好的結果。因此,這裡存在需要克服的挑戰,並不是什麼——還有許多需要綜合融合的方面。至於你的第二個問題是什麼?>> 有哪些基礎設施層是你希望在短期內工作,以便帶來最大的>> 嗯,改善,我們可以將其實際應用於機器人?你需要有實時的系統,必須能夠達到一定頻率,以便實際上成功執行動作。假如系統中有延遲等等,則會引入各種挑戰。因此,考慮快速推斷和基礎設施,這實際上將在機器人上運行,是我們軟體團隊大部分工作的重點。同時,我們還考慮大規模機器學習基礎設施,訓練大型模型,攝取大量數據。我們擁有的數據與很多典型數據集不同,因為它的多模態性質。它包括視頻、行動、語言片段以及其他多種組件。因此,嗯,我認為在機器人方面和模型訓練方面都有一些有趣的基礎設施問題。>> 非常感謝。>> 是的。>> 嗨,我是Frederick,我對整體模型大小有問題。我認為目前所看到的普遍趨勢是,實際上大型模型大小更能提高準確性。例如,你的實驗也是如此,或者OpenAI、Enthropic和其他公司現在也都在這方面進行著。然而,還有一種方法是使用相對較小的模型,然後將世界知識外包到某種類型的數據庫中,供模型交互使用。你對此有什麼看法?你認為這是一種有效的方法,還是認為將所有世界知識封裝在模型內部更好或更有效呢?>> 是的,這是一個有趣的問題。因此在我對檢索式系統的經驗中,我發現它確實有點困難,首先要確定甚麼應當外包與模型的實際操作。第二,有時候模型會忽略檢索的內容,試圖自己生成一些內容,因此實際上要從技術上成功地運作通常是會面臨挑戰的。嗯,我認為這可能會取決於應用和使用案例,以及如何最好地使用這些排序,但在我的經驗中,弄清楚什麼樣的勞動分工是相當困難的。甚至模型的部分也需要具備一定程度的智能,才能實際利用檢索到的信息,因此,我認為這是一個非常迷人的研究問題,但它仍然需要大量的研究來成功做到這一點。謝謝你。>> 是的。>> 嗨,Chelsea。我也是,正如其他人一樣,非常喜愛你所有的工作。因此,謝謝你展現這些。嗯,我最近一直在閱讀你們團隊的很多工作,特別是閱讀Siraj的博士論文。我獲得了很多關於如何使用數據擴大現實機器人學習的經驗。我的問題是,你如何看待合成數據在未來如何擴大機器人學習的作用?正如我們在LMS中看到的,我們已經從人類收集數據轉向更多創建合成數據,以及大量過濾和自我評分。那麼,如何使用生成合成數據來創建環境或獎勵模型會影響機器人呢?>> 是的,我在這個話題上有很多想法。嗯,我認為最終還是沒有可替代的真正數據,因此我們將需要大量真實的機器人數據,作為任何能夠實現泛化運作的系統的必要組件。嗯,我認為這一點是必需的。嗯,與此同時,我認為模擬和合成數據的工具,尤其是在評估方面,可能會發揮很大的作用,因為在你一般化多個環境時,實際評估該模型的泛化能力相當具挑戰性。因為這樣做,不僅在一個新環境中,但在全新的十個環境中進行評估,是非常複雜的;因為你實際上需要將機器人帶到這十個環境中,或者構造十個環境。因此,在模擬中,這將變得更容易。因此,我對將模擬和合成數據用於該用途感到十分興趣。我還應該提到,我認為合成數據在語言模型中的類似概念,實際上不僅是在機器人學中,而是更接近於強化學習。我認為大量的合成數據是由模型生成的,這個模型試圖完成任務,並推理出完成任務的不同方法。我認為類比是機器人在嘗試任務的過程中學習並不斷進步,這種模型的在線數據也將在後訓練中發揮至關重要的角色,而這是我們正在努力實現的。因此,嗯,我認為這一點確實非常重要且有幫助。>> 謝謝。>> 好吧,我想我們還有時間再回答一個問題。抱歉,我們無法回答所有問題。是的。>> 嗨,看到你作為麻省理工學院EES的校友,如今正在做很酷的機器人學工作,並與我們分享機器人學和創業的話題,真的很棒。嗯,但我一直在想,涉及硬體組件的機器人學研究在學術界與工業界的表現出現不同的情形是怎樣的?一個環境通常會擁有更多資源,較少的限制,或者在一種環境中有更廣泛的應用?你認為哪些人物或者目標可能更適合每一條路線?>> 是的,這是一個有趣的問題。嗯,我仍然喜愛創業環境和學術環境,還有工業環境。我認為它們都有各自的優勢和劣勢。嗯,當然,我認為學術界並不具備大數據收集產出的資源,輸入效率、評估效率以及計算能力等,這些都不如創業和工業實驗室來得好。但同時,我認為有許多問題,即使不需要大量資源,我們也能夠解決,例如在算法方面。因此,我認為這方面還有很多有趣的工作可以做。嗯,而在工業和創業方面,我認為進行這些大型模型的研究,擴大數據,以及在大規模下觀察發生的事,是非常適合這裡的工作。嗯,我認為這兩者都有其存在之地。此外,我也認為差距並沒有很多人所想地那麼大。嗯,經常在工業環境中的人會希望有更多的計算能力,就像你總是希望擁有更多的資源。嗯,而有時候,當你擁有大量資源的時候,對於你要做的運行的思考就不那麼仔細了,因此當你擁有更多的資源時,可能會很浪費計算能力,而這在我看來也有負面影響。>> 我很抱歉。我能再問一個有關架構、超過的問題嗎?我知道擴展法則適用於基於變壓器的架構,我想知道你現在是否看到了VLM基礎的架構的限制,這些架構是為文本標記而設計的,因為它們沒有具備物理感知模塊。是的,您是如何處理這一點的?>> 是的。因此,我們對動作進行標記。因此,我鼓勵您查看我們發布的快速標記生成器論文,這是為了達到這個目的。嗯,我們也會在這裡結束。嗯,非常感謝大家,並希望大家享受這次活動。
Chelsea Finn [28:03]
即透過多個子任務拆解這個任務,比如拿起一片麵包,放在砧板上,拿起一片奶酪,放在麵包上,然後拿起一些火腿,依此類推。我還可以遵循更複雜的提示,比如「嗨,機器人,你能幫我做一個素食三明治嗎?不過,我不喜歡泡菜。」在這種情況下,它能夠將這個任務拆解,並決定添加生菜和番茄進入三明治,而不添加泡菜、不添加奶酪以及肉類。除了提示之外,我們還能訓練機器人處理不同的插話。事實上這裡有一個插話的案例。因此,在左側,我們訓練機器人去清理桌面,將垃圾放好,並將碗碟放進箱子。而在右側,我們要求機器人僅清理垃圾,但不清理碗碟。機器人能理解這意味著什麼,並將其與低級行動相連接,僅放置垃圾並在所有垃圾放置完成時結束。最後,機器人能夠處理插話和場景中的修正。因此在這種情況下,機器人為用戶準備物品,用戶插嘴說:「給我一些不在籃子裡的甜食。」這句話正好是在它將一個Kit Kat放入籃子之後,機器人回答:「好的,讓我給你一些Skittles。」它能進行基本的推理以滿足用戶的要求,並對機器人身處的環境中的這些修正做出回應。現在你可能也會想,也許一些現有的基礎模型可以作為機器人的高層規劃者,無需訓練另一個模型來進行這種高層推理。因此,我們也評估了這一點,我們發現,在藍色方面,後續執行指示以及在任務上進展的表現顯著低於我們系統的綠色表現。一般來說,我們發現這些前沿模型在視覺理解方面在機器人技術上通常遇到困難是有道理的,因為一般來說,這些模型並不像真正針對許多實際應用,並且在實體世界中幾乎沒有數據。
Chelsea Finn [30:14]
好的,因此我們開始總結,然後還有些時間可以提問。我談到了機器人如何通過預訓練和後訓練來完成各種靈巧且長期的任務。機器人如何能夠在其從未見過的地方取得成功,並且如何能夠透過利用來自語言模型的合成數據來回應開放式的提示和插話,以此來增強我們收集的機器人數據。現在總結一下,我們在這次演講中看到的一些不同情況,顯示一般用途的機器人可能比專門用途的機器人更成功,因為我們基本上不必為每個應用從零開始進行建設,而是可以在真實世界的物理智能上建立更廣泛的基礎。我們還看到,現實世界的大規模數據對於開發這些技術非常有幫助,我們發現這一點,我認為這在物理智能中是必要的,但不充分,還存在很多挑戰,我們需要進行更多的研究,包括我們自己和透過開源貢獻,才會讓機器人真正準備好應對開放式世界。我還想提到,物理智能目前正在招聘多個職位。如果您對我們談論的某些事情感興趣,可以查看pi上的職位清單。非常好,樂於回答問題。我們從左側開始。
Chelsea Finn [32:42]
嗨,Chelsea。首先,我想感謝您對機器人學習的所有努力,它們都令人印象深刻。是的。我的問題主要有兩個,特別是關於您提到的後訓練部分。首先,您提到後訓練中最重要的是擁有高質量的行動數據。因此,我想知道這些組成部分是什麼?然後第二個問題是,您認為強化學習在後訓練中會扮演什麼樣的角色?是的,當然。因此,我認為不同的組成部分在許多方面取決於數據的一致性和遵循的策略,以及機器人是否依賴數據高效地完成任務。如果數據以可靠的策略有效地完成任務,那麼就會很重要。對於第二個問題,我認為強化學習在後訓練中可以發揮非常大的作用。強化學習所允許的機器人在線數據可以使機器人的成功率大幅提升,並且也比僅用模仿學習的訓練更快。謝謝。
Chelsea Finn [35:08]
嗨,謝謝你的演講。你的工作真的很吸引人,毫無疑問未來會有很大的影響。但我想問一下,在這個階段你是如何找到資金的,因為說實話我無法想像如何說服人們投資一個摺衣服和處理碗碟的機器人。是的,所以這是一個好問題。我想首先提到的是,我們不僅僅專注於家庭應用。我们真的想解决这个更广泛的物理智能问题,我们一直从那些应用入手,因为它们是相对容易取得进展的任务。但我们也在做一些诸如插入以太网电缆这样的任务,我在演讲中也提到了这点,以及构建一个纸箱。一般来说,我认为这种问题在各个领域都存在巨大的潜力,不仅仅是在家庭任务中,在其他领域也同样如此。即便在家庭任务中,我认为对于这类技术也存在巨大的市场。我们自己在筹款方面没有遇到太大的挑战,我认为最近许多机器人公司也做得很好,发现对这种技术实际上也有很多兴奋感,因为我认为事情实际上开始逐渐变得可行。我在这个技术领域工作已经超过10年了,那时候事情真的不奏效,所以我认为人们对这项正在成熟、准备应对现实世界的技术感到很兴奋。當然,我認為仍有很多工作要做,但一般看來,對這項技術感興趣並急於投資的人有很多。
Chelsea Finn [37:21]
是的,謝謝你。我是Frederick,我對模型大小有一個問題。根據我們目前的觀察,通常更大的模型尺寸會帶來更好的準確度。例如,在您的實驗中,或者OpenAI、Anthropic等其他公司目前在他們的LLM中所做的事情。然而,還有一種使用相對較小的模型然後將世界知識外包到某種數據庫的做法,讓模型可以與之互動。您對此的看法是什麼?您認為這是一種有效的方式,還是將所有的世界知識封裝在模型中更好,或更有效?是的,這是個有趣的問題。根據我在檢索基礎系統方面的經驗,首先確定什麼應該被外包而不是由模型來完成是有點棘手,然後模型有時會忽略檢索內容,試圖生成一些自己的東西。這樣技術上實現的確相當困難,我認為這將根據應用場景和使用案例的不同而有所區別。至於怎麼最適合地利用這方面的知識,我的經驗是,確定最有效的勞動分配是一個相當棘手的問題。甚至模型本身也需要有一定程度的智力來利用檢索到的信息,因此這是一個非常吸引人的研究問題,但它也需要大量的研究才能成功實現。謝謝你。
Chelsea Finn [39:38]
是的,很感謝您的問題。首先,當然,在機器學習的框架內,推理和地形建模將會需要整合,還有许多高层问题无论是解决方法、模型、环境都是会有许多的机会,比如可解释性,轨迹追踪和往下到安全性等,这都是很有趣的问题。是的,我們可以選擇進行各種不同的組合。在機器人工作方面,當頻率符合時,系統能成功運行,根據我的經驗,這相對是很困難的。特別是當你在一個大模型之上執行時,必須先考量執行的效能和計算的要求。這點非常重要,特別是在實際環境中的培訓。我們的數據是多模態的,因此我們的模型訓練系統需要適當的、能夠處理多模態數據的基礎設施。這也是我們在基礎架構中需打下的基礎之一,還有對計算資源的探討。
Chelsea Finn [41:47]
這也是包含在操作層面的一部分。謝謝你。嗨,我是Charu Thomas。首先,真的很感謝您的演講,它非常引人入勝,並且我一直是您作品的忠實粉絲。當您思考軟體與硬體如何持續發展時,今天對於您所想的物理智慧構建者的最大機遇是什么?我認為,確實存在很多不同的機會來使事物運行得更好,還有很多未解的問題。我提到的像以前,思考如何改善基礎設施,尤其是在機器人的方面,我認為在這方面的機會並不多。還有很多人能在那個方面上有所作為。我也相信AI和計算機科學本身就是一個非常大且活躍的開源社群,因此實際上有很大機會去進行開源工作,因而能對更大的社區有所貢獻,這些社區都在試圖收集數據,改進開源模型,修復模型中的錯誤,將這些模型進行精細化,找出有效的精細化配方,所以在研究方面尤其在開源領域有各式各樣的問題。
Chelsea Finn [43:51]
是的,謝謝。我還想在機器人學習和物理智慧方面談談一些想法。這些問題和機遇都是我感興趣的研究話題。包括如何在現實世界中開發能夠進行廣泛任務的機器人,是否會因為限制性因素而導致未來物理智慧的發展?這些都是非常值得考慮的問題。是的,謝謝大家,感謝您們的參與!希望您們能夠享受這次活動!