- 空間智慧是感知與行動之間的關鍵橋樑:李飛飛認為,讓 AI 從「看懂」世界到「在世界中行動」,需要解決空間智慧——理解三維空間中物體的位置、關係與物理規律,這是通往真正具身智慧的缺失拼圖。
- ImageNet 開啟了現代 AI 革命:2009 年啟動的 ImageNet,透過開源大規模影像資料集和公開競賽,推動了 AlexNet 等深度學習突破,成為現代 AI 革命的重要基石之一。
- World Labs 聚焦於三維世界理解:李飛飛創辦 World Labs,目標是讓機器真正理解三維世界——不只是電腦視覺,而是讓 AI 具備在現實環境中推理和規劃的能力。
- 大規模資料 × 算力 × 正確問題定義 = 突破:AlphaFold 和 ImageNet 的成功都指向同一教訓:找到正確的問題表述方式,加上足夠的資料和算力,往往能解開看似不可能的難題。
- AI 研究需要跨學科的長期承諾:她的學術歷程橫跨物理、計算機視覺、神經科學,強調 AI 最大的突破往往來自跨領域的深度結合,而不是在單一技術路徑上的線性推進。
Fei-Fei Li [00:03]
我整個職業生涯都是在追尋那些難以解決的問題,幾乎到了妄想的邊緣。在我看來,AGI 沒有空間智能就不會完整。我想要解決這個問題。我真的很喜歡創業。忘記你過去做過的事情,忘記他人對你的看法。專注於建設,這是我的舒適區。[音樂] 我在這裡感到非常興奮,因為有 Dr. Feay Lee。在 AI 領域她有如此悠久的職業生涯,我相信你們中的許多人都認識她,對嗎?舉手吧。我也認識你。嗯,她被稱為 AI 的教母。你創建的第一個項目之一是在2009年成立的 ImageNet,距今已經16年了。哦我的天,不要提醒我。這有超過80,000次引用,真正啟動了 AI 領域的一個支柱,那就是數據問題。告訴我們這個項目是怎麼開始的。那時候真的是開創性的工作。是的。首先,謝謝 Diana、Gary 和大家邀請我來這裡。嗯,我很高興能在這裡,因為我覺得我就像你們其中一員。我現在也是一位企業家,我剛剛創辦了一家公司。因此,非常高興來到這裡。ImageNet 是,嗯,你是對的。我們幾乎是在18年前構思它。時間真的過得很快。那時候我還是普林斯頓的第一年助理教授。哦,哇。嗨,嗨,老虎們。是的。在那個時代,AI 和機器學習的世界截然不同。當時幾乎沒有數據。算法,至少在計算機視覺方面,沒有起作用。沒有行業。你知道,對於公眾來說,AI 這個詞根本不存在。但是,還是有一小群人在努力,從 AI 的創始人約翰·麥卡錫開始,然後有像 Jeff Hinton 這樣的人。我想我們擁有一個 AI 的夢想。我們真的很希望讓機器能夠思考和工作。以這個夢想為出發點,我個人的夢想是讓機器能夠看見,因為視覺是智能的基石。視覺智能不僅僅是感知,實際上是理解世界並在世界中做事情。因此,我對讓機器能夠看見這個問題感到著迷。在那個時候,我專注於發展機器學習算法,我們試過神經網絡,但沒有成功。我們轉向了貝葉斯網絡,支持向量機,不管是什麼。但有一個問題總是困擾著我,那就是泛化問題。如果你正在從事機器學習,你必須承認泛化是機器學習的核心數學基礎或目標。
Fei-Fei Li [03:22]
是機器學習的核心數學基礎或目標。為了實現泛化,這些算法需要數據。然而,在計算機視覺的時候,沒有人擁有數據,而我是第一代涉足數據的研究生,因為我是第一代看到互聯網的研究生。所以快進到2007年左右,我的學生和我決定我們必須做一個大膽的押注。我們必須打賭,機器學習需要在數據驅動方法下實現範式轉移,但當時沒有數據。因此,我們想,好的,讓我們去互聯網上下載十億張圖片,那是我們能在網路上獲得的最大數量,然後就創建整個世界的視覺分類法,然後用它來訓練和基準機器學習算法,這就是 ImageNet 的誕生,這個想法得以實現,並且直至有 promising 算法出現。直到2012年,當 AlexNet 問世,那是達成 AI 目標的第二個重要因素,就是獲得計算能力並大力投入到算法中。告訴我們,你在什麼時候開始看到,哦,你用數據來種植它,現在人們開始,社群開始慢慢弄清楚 AI 的更多事情。對的。所以在2009年,我們發表了這個小小的 CVPR 海報。嗯,從2009年到2012年,AlexNet 在這三年裡,我們真的相信數據會驅動 AI,但我們在這方面幾乎沒有返回信號告訴我們這是否有效。因此,我們做了幾件事情。一個是我們開源。我們從一開始就相信我們必須開源給整個研究社區,讓每個人都能參與其中。另一件事是我們設立了一個挑戰,因為我們希望全世界最聰明的學生和研究者能到這個問題上來工作。所以這是我們所稱的 ImageNet 挑戰。所以每年我們都會發布一個測試數據集。整個 ImageNet 用於訓練,但我們發布測試數據,然後公開邀請所有人參加。前幾年我們真的在設置基線。你知道,表現的錯誤率在30%的範圍內。並不是零,或者說完全隨機,但也不算太好。但在第三年,2012年,我的書中也有提到這個,我還記得那是在夏末的某個時候,我們正在收集 ImageNet 挑戰的所有結果並在我們的伺服器上運行。我記得有一天深夜,我的研究生給我發了一條信息,我在家,他說我們得到了非常突出的結果,你應該看看。我們查看了一下,結果是卷積神經網絡某些東西。那時候並不叫 AlexNet,那個團隊是 Jeff Hinton 的團隊,叫做 Supervision。這是一個非常巧妙的詞語使用,既有超級的意思,也有監督學習的意思。因此,我們查看了 Supervision。那是一個舊的算法。卷積神經網絡早在1980年代就已經發表過。嗯,算法方面有一些調整,但最初對我們來說看到如此大的變化是相當驚人的。而當然,你們都知道,其餘的就是歷史了,我們在那一年的 ICCV 在意大利佛羅倫薩的 ImageNet 挑戰研討會上展示了這個成果,Alex Kushvsky 來了,很多人來了。我記得 Young Lak 也來了,現在全世界都知道這一刻就是 ImageNet 挑戰 AlexNet 時刻。我想說的是,這不僅僅是卷積神經網絡,這也是 Alex 和他的團隊第一次將兩個 GPU 結合在一起並用於深度學習計算。因此,這真的是數據、GPU 和神經網絡結合的第一個時刻。跟隨這個計劃,計算機視覺的智慧弧,ImageNet 真的解決了物體識別的概念。然後,就在那之後,AI 也達到了能夠解決場景的地步,因為你和你的學生,如 Andrew Kaparthy 合作,能夠描述場景。告訴我們從物體過渡到場景的過程。
Fei-Fei Li [06:34]
從物體過渡到場景的過程。是的。ImageNet 解決了這樣的問題:你被呈現一張圖片,然後你叫出物體的名稱。那裡有一隻貓,還有一把椅子等等。這是視覺識別的一個基本問題。但是,自從我作為研究生進入 AI 領域時,我有一個夢想。我認為這是一個為期百年的夢想,就是對於世界講故事,當人類睜開眼睛時,想像一下你只是在這個房間裡睜開眼睛。你不僅僅是看到一個人、一個人、椅子、椅子,而是你其實看見的是一個會議室,裡面有屏幕、有舞台、有很多人、擠滿了觀眾、那裡有攝影機,你其實能描述整個場景。這是一種人類的能力,它是視覺智能的基礎,對於我們的日常生活至關重要。因此,我真的覺得這個問題會伴隨我一生。我當時對自己說,假如我能夠創建一個可以講述場景故事的算法,那我就成功了。我的職業生涯會這樣展開。IC Alex 那個時刻來臨,深度學習開始蓬勃發展,當安德烈,隨後的賈斯廷·約翰遜進入我的實驗室時,我們開始看到自然語言和視覺的信號開始碰撞,然後安德烈和我提出了圖像標註或講故事這個問題,長話短說,大約在2015年,安德烈和我發表了一系列論文,是其中一些首次使計算機能夠給圖像加上標題的研究。這幾乎讓我有一種,我將來該做什麼的感覺,這是我的終身目標,你知道嗎?這是對我們兩個來說激動人心的時刻。嗯,去年我做了 TED 演講,我實際上引用了安德烈幾年前推特上發的內容,那個時候他剛完成了圖像標註的工作。那幾乎就是他的論文。我實際上和他開玩笑,我說:“嘿,安德烈,我們為什麼不顛倒過來?拿一個句子然後生成一個圖像。”當然他知道我在開玩笑,他說:“哈哈,我要出去了。”那個時候,世界還沒準備好。但現在快進到現在,我們都知道生成 AI,現在我們可以拿一個句子,生成美麗的圖片。因此,這個故事的道德是,AI 見證了驚人的增長,對我來說,我感到自己是世界上最幸運的人,因為我的整個職業生涯開始於 AI 冬天的結束,AI 開始起飛,而我自己的工作也成為這一變革的一部分或幫助了此變革。因此,我感到非常幸運和驕傲,某種程度上甚至還是更大的夢想。即使是達成你終身的夢想,描述場景,並用擴散模型生成這些場景,你實際上是在做更大的夢想,因為整個計算機視覺的弧線是從物體到場景再到這個世界的概念,你實際上決定了要從學術界轉移成為世界實驗室的創辦人和 CEO。告訴我們世界實驗室是什麼。這甚至比場景和物體更難。
Fei-Fei Li [09:40]
這甚至比場景和物體更難。是的,這是一回事,有點瘋狂。因此,你們都知道過去的事情,總結過去五六年真的很困難。對我來說,我們正在生活在這些技術進步的文明時刻。作為計算機視覺科學家,我們看到從 ImageNet 到圖像標註,再到使用一些擴散技術進行圖像生成的驚人成長。儘管這一切都在以非常激動人心的方式發生,但我們還有另一個非常令人興奮的話題,那就是語言,也就是 LLM,事實上在2022年11月,ChatGPT 開啟了真正運行的生成模型的大門,基本上能夠通過圖靈測試等等。因此,這對我這麼年長的人來說仍然非常激勵人心,讓我想得更大膽。作為一名計算機視覺科學家,我有一個習慣,我的靈感很多來自於進化以及大腦科學。我發現自己常常在尋找下一個北極星問題來解決時,會問自己,進化做了什麼,大腦發展做了什麼。需要注意或者感謝的事情是,人類語言的發展大約花了,如果你非常慷慨地估算,讓我們說大約耗時3到5億年,實際上是不到一萬年。這就是進化發展人類語言所需的時間。幾乎只有人類擁有複雜的語言。我們可以爭論動物語言,但在交際、推理、抽象的工具的整體性方面,真正的語言是人類。因此,這用了不到50萬年。但想想看視覺。想想理解三維世界的能力,弄清楚如何在這三維世界中做事,導航這三維世界,與這三維世界互動,理解這三維世界,交流這三維世界的能力。這個過程耗費了進化5.4億年。第一個三葉蟲在5.4億年前發展出水下視覺的感知。從那時開始,視覺成為了這場進化武器競賽的原因。在視覺出現之前,動物都很簡單。在視覺出現的半個世紀之前,動物只是一些簡單的動物。然而接下來的500年,因為看見世界的能力,理解世界的能力,進化的武器競賽開始了,動物智能開始互相較量。因此,對我來說,解決空間智能的問題,理解三維世界,生成三維世界,推理三維世界,在三維世界中做事,對於 AI來說是一個根本問題。在我看來,沒有空間智能,AGI 是不完整的,我想解決這個問題,這涉及到創建世界模型。超越平面像素的世界模型,超越語言的世界模型,真正捕捉三維結構和世界空間智能的世界模型。對我來說,人生中最幸運的事情是,不管我多大年紀,我總是能夠與優秀的年輕人合作。因此,我成立了一間初創公司,與三位令人難以置信的年輕但世界級的技術專家 Justin Johnson、Ben Mildenhal 和 Kristoff Lassner,探討我認為最難的 AI 問題,就是不可思議的天賦。我是說,Chris 是 Pulsar 的創造者,這是 Gosh 和 Splats 的初始種子,可做很多可微分的渲染。Justin Johnson 是你以前的學生,擁有出色的系統工程思維,實現了實時神經風格轉換。然後是 Ben,他是 Nerf 論文的作者。這是一支超級精英團隊,你需要這樣一支團隊,因為我們稍微提到了,視覺在某種程度上比 LLM 更難。也許這是一個具有爭議性的說法,因為 LLM 基本上是1D的,對吧?但你在談論理解很多的三維結構。這為什麼這麼難,與語言研究相比,這又是怎麼回事?好吧,我真的很感激你能夠察覺到我們的問題多麼困難。
Fei-Fei Li [12:59]
是的。所以,語言本質上是一維的,對吧?音節是按順序出現的。這就是為什麼序列到序列、序列建模這麼經典。還有語言的某些方面,人們並不太了解。語言本質上是生成性語言的。自然界中並沒有語言。你無法觸摸語言,也看不見語言。語言完全來自每個人的頭腦,這是一種純粹的生成信號。當然,你把它寫在紙上,它就存在。但生成、構建和使用語言的能力,都是非常生成的。而現實世界則更加复杂。首先,現實世界是三維的。如果你加入時間,那就是四維的。但我們就限制在空間之內,現實世界本質上是三維的。因此,這本身就是一個更具組合性的困難問題。第二,感知視覺世界的接收是一種投影。無論是你的眼睛、視網膜還是相機,都總是將3D壓縮到2D。你必須認識到這是多麼困難。這在數學上是病態的。因此你知道這就是為什麼人和動物擁有多種感官。然後你必須解決這個問題。還有第三,世界並非完全是生成的。是的,我們可以生成虛擬的三維世界,但它仍然必須遵循物理學等等。不過,還有一個真實的世界在那裡。現在,你在生成和重建之間進行微妙的轉換。用戶行為、效用和使用案例是完全不同的。如果你完全轉向生成,我們就可以談論遊戲、元宇宙等等。但如果你完全轉向真實世界的話,我們就談到機器人技術等等。但是所有這些都是一個世界建模和空間智能的連續過程。因此,當然,房間裡的象徵問題是,互聯網上有很多數據可用於語言,然而,對於空間智能來說,說實話,數據都在我們的腦海裡,當然,但這並不像語言那樣容易獲取。因此,這就是問題所在。但坦白說,這讓我感到興奮,因為如果這是簡單的話,別人早就解決了,而我的整個職業生涯都是在追逐那些難以解決的問題,幾乎邊緣妄想,我覺得這就是這個妄想的問題。謝謝你對這一點的支持。甚至從基本原則思考,大腦在視覺皮層和處理視覺數據的神經元數量遠超語言。因此,這如何轉化為模型架構,與 LLM 的整體設計非常不同,你得出的結論,對吧?是的,這確實是個很好的問題。我是說,外面有許多不同的學派,對吧?LLM 中許多我們所看到的,實際上是在遵循寫作的增長法則,走到美好結局,而你幾乎可以不斷使用自我監督進行運算。構建世界模型可能更加微妙。世界更加結構化。我們可能需要一些信號來引導這個過程。你可以把它稱作是一個先驗的形式,你可以把它看作是數據中的監督,無論它是什麼。我認為這些都是我們需要解決的未解決問題。但你是對的。如果你考慮人類,首先,我們甚至對人類感知的所有答案都沒有,對吧?人類視覺中的3D是如何工作的,這還是一個沒有解的問題。我們機械地知道雙眼需要對信息進行三角測量,但即使在那之後,數學模型在哪裡?我們人類作為立體動物並不是那麼出色。因此,還有很多問題需要解決。所以我們在 World Labs 正在努力,我只是在寄希望於一件事。就是我希望我們有最聰明的人在像素世界裡來解決這個問題。是否可以公平地說,在 World Labs 裡你正在建立這些全新的基礎模型,其輸出是三維世界?你想像中的應用端是什麼?因為我想你列出了從感知到生成的所有任務。所以在這之間總是會有生成模型和判別模型之間的張力。那麼,這些三維世界能做什麼呢?是的,我不會過多談論 World Labs 的詳細內容,但在空間智能方面,這也讓我感到興奮。就像語言一樣,應用端非常大,包括設計師、建築師、工業設計師,還有藝術家、3D藝術家、遊戲開發者,從創造到機器人、機器人學習,空間智能模型或者世界模型的效用真的很大。因此,有很多相關行業從市場行銷到娛樂,甚至元宇宙。我實際上對元宇宙非常感興趣。我知道有很多人仍然覺得這還沒有起飛。我知道它仍然沒達成。這就是為什麼我感到興奮,因為我認為硬件和軟件的融合即將到來。所以這也是未來另外一個出色的應用前景。我個人非常高興你正在解決元宇宙的問題,我在之前的公司也嘗試過。因此,我非常興奮你現在的工作。是的。我想我認為有更多的信號。我確實認為硬件是障礙的一部分,但你知道,沒有內容創造,元宇宙很難,創建元宇宙內容需要世界模型。讓我們換一個話題。
Fei-Fei Li [16:24]
讓我們換一個話題。因此,對於觀眾來說,他們可能會覺得你從學術界轉型成為創辦人兼 CEO 有些突然,但事實上你在整個生命中有著非凡的旅程。這不是你第一次零到一的歷程。你告訴我你是如何移民到美國的,青少年時期并不會說英語,甚至還經營了一家自助洗衣店很多年。告訴我們這些技能是如何塑造今天的你的。對的。我相信你們在這裡想聽聽如何創辦自助洗衣店。嗯,對,那是在你19的時候,對吧?是的,我那時19歲,這是出於絕望。因此,嗯,我沒有支持我父母的手段,還需要上大學,成為普林斯頓的物理專業學生。所以我開了一家乾洗店,依照硅谷的語言,我融資了。我是創辦人兼 CEO,同時也是收銀員及其他。然後我退出了。所以七年後。[音樂] 好吧,你們真的很好。我從來沒有因為我的自助洗衣店而獲得過掌聲,但謝謝你。所以,無論如何,我認為 Diana 的觀點,特別是對於你們所有人,我看著你們。 我對你們感到非常興奮,因為你們真的只有我的一半年齡,甚至三分之一,並且你們非常有才華。去做吧,不要害怕。你知道,我整個職業生涯,當然,我經營了自助洗衣店,但即使作為教授,我有好幾次選擇去那些我成為第一個計算機視覺教授的系。但是那是違反了很多的建議,你知道嗎,作為一名年輕的教授,你應該去一個有社群和資深導師的地方,當然我也希望有資深的指導者,但如果他們不在,那我仍然得開辟自己的道路,對吧?所以我不害怕。而且我去了 Google 學習了很多有關商業的東西,Google Cloud 和 B2B 以及所有這些。然後我在斯坦福大學創辦了一家初創公司,因為在2018年,AI 不僅僅是佔領產業,這已經成為一個人類的問題。人類將始終推進我們的技術,但我們不可以失去我們的人性。我真正關心的是在 AI 的進步中創建一個光明的指路明燈,試圖想像 AI 如何能以人類為中心,如何能創建 AI 來幫助人類。因此我回到斯坦福大學,創建了人類中心的 AI 研究所,並將其運行為初創公司已有五年。嗯,可能有些人並不太高興我將其作為初創公司運行,但我為此感到非常自豪。
Fei-Fei Li [19:30]
但我覺得,我真的喜歡當企業家。我喜歡置身於谷底的感覺,就像站在谷底一樣。忘記你過去做過的事情,忘記他人對你的看法,專注於構建,這是我的舒適區,我真的喜歡這樣的感覺。你的另一件非常酷的事情是,除了你完成的所有驚人成就,你還指導了很多傳奇研究者,如 Andre Kaparthy、Jim Fan(他在 Nvidia 工作)、Jad Deng(你 ImageNet 的合著者),他們後來都取得了非凡的成就。他們作為學生時期哪些方面讓他們與眾不同,可以給這個觀眾一些建議,讓他們知道,啊這個人會改變 AI 領域?首先,我是幸運的那一個。我不認為我應該比我的學生更值得稱讚,因為他們讓我成為更好的人、更好的教師和研究者,能和這麼多你所說的傳奇學生一起工作是我一生的榮幸。他們真的非常不同。其中一些純粹是科學家,努力專注於解決科學問題。有些是行業領導者。有些則是優秀的 AI 知識傳播者。但我認為有一件事情將他們統一起來,我想鼓勵你們每個人都思考這一點。我對於那些創始人來說,這也是我的招聘標準,我尋找的是智力上的無畏。我認為無論你來自何方,無論我們要解決什麼問題,那種勇氣、無畏和迎接艱難事物的勇氣,以及全心全意去解決,無論以什麼方式,真正是成功者的一個核心特點。我從他們身上學到了這一點,我真的希望能找到年輕人,我也在 World Labs 的招聘中尋找這種特質。因此,你在 World Labs 也同樣尋找這個特質,對吧?是的。我得到了 Diana 的許可,說我們正在招聘。所以,是的,我們正在招聘很多專業人才。我們正在招聘工程人才、產品人才、3D 人才和生成模型人才。所以,如果你覺得你無畏並且對解決空間智能充滿熱情,請跟我聯繫或來我們的網站看看。很酷,我們將留出10分鐘的時間來提問。
Fei-Fei Li [22:51]
很酷,我們將留出10分鐘的時間來提問。嗨,Fay,謝謝你的演講。我是你的忠實粉絲。我想問的是,二十多年前你在視覺識別方面工作。我想開始攻讀博士學位,我應該專注於什麼,以便成為像你這樣的傳奇人物?我想給你一個深思熟慮的答案,因為我可以隨便說,做任何讓你感到興奮的事情。首先,我認為 AI 研究已經改變了,因為如果你正在開始撰寫博士學位論文,你就會在學術界。學術界現在並不擁有大多數 AI 資源。這與我當時的情況大相徑庭,對吧?晶片、計算能力和數據在學術界的資源非常有限,然後有一些行業問題可以更快的推進。因此,身為博士生,我建議你尋找那些不與業界問題互相冲突的北極星,而是找那些即使不論晶片有多少還是能夠獲得進展的問題。首先,跨學科的 AI 對我來說是學術界非常令人興奮的領域,特別是在科學發現方面。有如此多的學科可以跨越 AI,我認為這是一個重要的領域,大家可以朝這個方向發展。在理論方面,我發現 AI 能力遠遠超過理論測試,尤其是在可解釋性方面。我們仍然無法理解因果關係,還有許多尚未理解的模型。因此,這又是一個可以進一步推進的方向。在計算機視覺方面,我們仍然有代表性問題尚未解決,還有小數據,這也是一個有趣的領域。因此,這些都是可能性。非常感謝你,Fay。
Fei-Fei Li [25:53]
謝謝你,教授 Lee,還有再次恭喜你獲得耶魯大學頒發的榮譽博士學位。我很榮幸上一個月目睹了那一刻。我的問題是,從你的角度看,AGI 更有可能作為一個統一的單一模型出現,或者是一個多代理系統?你提問的方式實際上已經包含了兩種不同的定義。一個定義更理論化,定義 AGI 就像是有一個 IQ 測試通過過的標誌。你問題的另一部分,更具實用性,功能是什麼?如果它基於代理的話,能做什麼任務?老實說,我對 AGI 的定義有些掙扎。這是為什麼。AI 的創立者們於1956年在達特茅斯會議上集合,比如約翰·麥卡錫和馬文·明斯基,他們想要解決能思考的機器問題,這是一個艾倫·圖靈幾年前提出的問題,無論是十年前還是更早提出的,而這個聲明不是狹義的 AI,這是為了創造智力的聲明。因此,我不真的知道如何區分 AI 的創立問題與這個新詞 AGI。對我來說,它們是同一個東西。但我明白,今天的行業喜歡將 AGI 說成超越 AI 的東西。我對此有些掙扎,因為我覺得我不確定 AGI 與 AI 究竟有什麼不同。如果我們說今天的 AGI 系統表現要比80年代、90年代或更早的狹義 AI 系統更好,我認為這是事實。這只是該領域的進步。然而,基本上,我認為 AI 的科學就是智力的科學,創造能夠思考和做事情的機器,像人類一樣智慧,甚至更智慧。 所以,我不知道如何定義 AGI,沒有定義的話我真的不確定它是否是單一體。如果你看大腦,這是一個整體的組織,但它確實具有不同的功能,甚至可以區分出布洛卡區用於語言、視覺皮層、運動皮層。因此,我不知道怎麼回答這個問題。嗨,我的名字是 Yashna,我想說謝謝。我認為看到女性在這個領域中擔任領導角色非常鼓舞人心。作為研究者、教育者和企業家,我想問,在這種迅速崛起的 AI 領域裡,你認為哪種類型的人應當進入研究生院?這是一個好問題,甚至是父母們也會問我。我真的認為研究生院是那四、五年讓你有強烈的好奇心。你的好奇心驅使著你,這種好奇心是如此之强,以至於沒有其他地方可以去。這與初創公司不同,因為在初創公司中,通常也需要謹慎。創業不能僅僅依賴好奇。如果它只是好奇,投資者會對你感到不滿。創業的目標更加專注在商業上,某部分是基於好奇,但不僅僅是基於好奇。而在研究生院中,解決問題或問正確問題的好奇心是非常重要的,我認為那些懷著強烈好奇心進入研究生院的人會非常享受這四五年的時光,即使外面的世界以光速過去,你依然會高興,因為你在追隨你的好奇。
Fei-Fei Li [29:01]
首先,我想要感謝你花時間和我們交談。你提到開放源碼是 ImageNet 增長的重要部分,現在隨著最近大型語言模型的發布和增長,我們看到組織採取不同的方法來對待開放源碼,有些組織完全保持閉源,有的組織則完全開放整個研究堆棧,還有一些則處於中間地帶,開放權重或擁有限制性許可等。因此,我想問一下你對這些開放源碼不同方法的看法,以及作為一家 AI 公司,你認為該如何正確進行開放源碼?當生態系統存在不同的方法時,我認為這是健康的。我不會對必須開源或必須閉源抱有宗教信仰。這取決於公司的商業策略。例如,很明顯為什麼 Facebook(Meta)想要開源,對吧?它們目前的商業模型並不是在銷售模型,而是利用這來促進生態系統發展,讓人們來到他們的平台。因此,開源是非常合理的。另一方面,另一家真的在盈利的公司,你可以考慮開源與閉源的層次。因此,對於那一類的層次,我相當開放。我認為開放源碼應該受到保護。我認為,無論在公共部門如學術界,還是私營部門的開放源碼努力都是非常重要的。這對創業生態系統至關重要,也對公共部門十分重要,因此我認為這應該受到保護,不應該受到懲罰。嗨,我的名字是 Carl。我從愛沙尼亞飛來的。我有一個關於數據的問題。你非常準確的預測了機器學習朝數據驅動方法的轉變,這是 ImageNet 的展現。現在你正在研究世界模型,你提到互聯網上並沒有空間數據,這些數據只有在我們的腦海裡。你打算怎麼解決這個問題?你賭注在哪裡?你在從現實世界中收集這些數據嗎?你在進行人造數據?你相信人造數據?還是相信舊有的先驗?謝謝。你應該參加 World Labs,我會告訴你。哦,這句話好有趣。嗯,作為一家公司,我不會分享太多,但我認為重要的是要認識到,我們正在採用一種混合的方法。擁有大量數據非常重要,但同時,數據的質量也同樣重要。最終,數據質量很差會導致垃圾進垃圾出,如果你不十分注意數據質量的話。因此,我們還有最後一個問題。 嗨,李博士。我叫安妮,非常感謝你和我們交談。在你的書《我所見的世界》中,你講述了作為移民女孩與女性在 STEM 領域面對的挑戰。我很好奇是否有過感受到在職場上的少數群體時刻,如果有,你是如何克服或者說服他人的?謝謝你提出這個問題。我想要非常謹慎和深思熟慮的回答你,因為我們都來自不同的背景,每個人的感受都是獨特的。你知道,這幾乎不重要我們來自何處。所有人都有時刻感覺到自己是少數或是房間裡的唯一一個人。當然,我也曾感受過這種情況。有時候是基於我的身份,有時候是基於我的想法,有時候只是基於我的衣服顏色,不管是什麼原因。這時我確實想要鼓勵每一個人。或許是因為我自小來到這個國家,我幾乎已經發展出一種能力,不會對此過度關注。像每一個人一樣,我就在這裡。我在這裡學習,做事情或創造東西。謝謝你。這是一個精彩的回答。我真的希望你們所有人即將開始一段旅程或在其中,並且你們會有時刻感到脆弱或異樣,或我每天都有這種感覺,特別是創業生活。有時我會想:“哦我的天,我不知道我在做什麼。”所以專注於做事情。用梯度下降將自己優化到解決方案的最佳狀態。是的。好吧,這是一個很好的結束方式。謝謝你,李博士。
Fei-Fei Li [32:14]
網站。太酷了。我們會在接下來的10分鐘內開放問題。嗨,Fay,謝謝你的演講。我是你最大的粉絲。嗯,我的問題是,二十多年前你在視覺識別方面工作,我想開始我的博士學位,我應該研究什麼,才能像你一樣成為傳奇人物。我想給你一個深思熟慮的答案,因為我總是可以說,做任何讓你感到興奮的事情。首先,我認為人工智慧研究已經改變了,因為如果你是要開始攻讀博士學位,你就身處學術界。學術界不再擁有大部分的AI資源。這跟我那時候非常不同,對吧?芯片、計算能力和數據在學術界的資源方面都相對較少,然後還有一些問題,產業可以運行得更快。所以作為一名博士生,我建議你尋找那些不是與產業更好利用更好計算能力、更好數據及團隊科學之問題碰撞的北極星。但是,我們在學術界仍然可以識別出一些非常根本的問題,無論你擁有多少芯片,你仍然可以取得巨大的進展。首先,對我而言,跨學科的人工智慧是一個非常非常激動人心的領域,尤其是對於科學發現而言。有很多學科都可以交叉進入AI。我認為這是一個很大的領域,可以去探索。在理論方面,我發現AI能力超越理論的情況非常迷人。我們不知道為什麼,我們沒有解釋性。我們不知道如何理解因果關係。我們在模型中有如此多不理解的內容,這是可以推進的。你知道,清單還可以繼續,計算機視覺中仍然存在著我們尚未解決的表徵問題,還有,嗯,小數據,這是另一個非常有趣的領域。所以,是的,這些都是可能性。非常感謝你,Fi。謝謝李教授,恭喜你再次獲得耶魯大學的榮譽博士學位。我很榮幸在一個月前目睹了那一刻。我的問題是,根據你的觀點,AGI更可能以一個統一的單一模型的形式出現,還是作為一個多代理系統。你問這個問題的方式其實已經涉及兩種定義。一個定義更為理論,將AGI定義為如果有一個智商測試,通過了它就代表AGI。你的問題的另一部分,則更加實用。它是功能性的嗎?
Fei-Fei Li [35:24]
它是功能性的嗎?如果是基於代理的,它可以執行哪些任務?老實說,我對這一AGI的定義很掙扎。原因如下:1956年,在達特茅斯參加會議的人工智慧創始人們,例如約翰·麥卡錫和馬文·明斯基,他們希望解決可以思考的機器的問題,而這也是艾倫·圖靈在他們之前的幾年提出的問題,十年前或更早。那個前提不僅僅是狹義人工智慧,這是一個關於智力的聲明。所以我並不真的知道如何區分AI的創建問題和這個新名詞AGI。對我而言,它們是同一件事情。但我明白當前的行業喜歡將AGI稱為超越AI的東西。我對此感到困惑,因為我不知道AGI與AI究竟有什麼不同。如果我們說當前的AGI系統在性能上超過了80年代、70年代或90年代的狹義AI系統,我認為這是正確的,這只是這一領域的進步。但從根本上來看,我認為AI的科學就是智力的科學,旨在創造能夠像人類一樣思考和行動的機器,甚至更智能的機器。所以我不知道該如何定義AGI。就算不定義AGI的情況下,我不知道它是否是單一的。如果你看大腦,它是一個整體,你可以稱之為單一的,但它確實擁有不同的功能,而且你甚至可以找到布羅卡區用於語言。還有視覺皮層和運動皮層。所以,我真的不知道該如何回答這個問題。嗨,我的名字是Yashna,我想說謝謝。我覺得看到一位女性在這個領域中擔任領導角色真的很振奮人心,身為研究者、教育者和企業家,我想問問你認為在這個快速崛起的AI時代,應該追求研究生學校的人是什麼樣的人?這是一個很好的問題,這也是父母們常常向我詢問的問題。我真心認為研究生學校是四到五年的燃燒好奇心的時期。你被好奇心驅使,而這種好奇心是如此強烈,以至於沒有更好的地方可以進行這樣的探索。這與創業公司不同,因為創業公司不僅僅是這樣,你必須稍微小心。創業公司不能僅由好奇心驅動,否則你的投資者會對你感到不滿。創業公司有更專注的商業目標,而其中某些部分確實源於好奇心,但並不只限於好奇心。對於研究生來說,解決問題或提出正確問題的好奇心是如此重要,我認為那些帶著強烈好奇心進入的人會非常享受這四到五年的時光,儘管外面的世界以光速推進,但他們仍會感到快樂,因為他們在追隨這種好奇心。
Fei-Fei Li [38:45]
追隨這種好奇心。我首先想說謝謝你抽出時間和我們交談。你提到開源是ImageNet成長的重要組成部分,而現在隨著大型語言模型的最近發布和增長,我們看到組織採取了不同的開源方法,有的組織完全保持閉源,有的組織完全釋放他們的整個研究堆疊,有些則在中間,開放源代碼權重或以限制性許可的形式釋放。所以我想問你對這些不同的開源方法有什麼看法?你認為作為一家AI公司的開源正確方式是什麼?我認為生態系統在不同方法之間是健康的。我不會對必須開源或必須關閉源持有宗教般的看法。這取決於公司的商業策略。例如,很明顯Facebook(Meta)為什麼想要開源,對吧?他們目前的商業模式並不是銷售模型。他們正利用它來增長生態系統,讓人們來到他們的平台。這樣的開源是有意義的。而另一家公司如果真的在獲利,即使是收益,也可以考慮一個開源和閉源的層級。因此,我對這種分類保持相當開放,或者在更高層面上,我認為開源應受到保護。我認為如果在公共部門(例如學術界)和私人部門中都有開源的努力,那是非常重要的。這對於創業生態系統來說是如此重要,對於公共部門來說也是如此,我認為這應該受到保護,而不應該受到懲罰。嗨,我的名字是Carl,我從愛沙尼亞飛來。我有一個關於數據的問題。你提到機器學習朝著數據驅動的方法轉變,這一點你說得很好。現在你正在研究世界模型,而你提到我們在互聯網上沒有空間數據,它只存在於我們的腦海中。你們是如何解決這個問題的?你們的部署考慮是什麼?你們是從現實世界收集這些數據的?還是…
Fei-Fei Li [41:29]
是從現實世界收集這些數據的?還是做合成數據?你相信這一點嗎?還是相信舊的先驗知識?謝謝。你應該加入世界實驗室,我會告訴你。哦,這很好。嗯,作為一家公司,我並不會分享太多,但我認為承認我們正在採取混合的方法非常重要。擁有大量數據非常重要,但也必須有高質量的數據;最終,還是會發生“垃圾進,垃圾出”的情況,如果你不仔細考慮數據的質量。所以,我們最後再問一個問題。嗯,嗨,李博士。嗯,我的名字是Annie,非常感謝你和我們交談。嗯,在你的書《我所見的世界》中,你談到作為移民女孩和女性在科學、技術、工程和數學領域面對的挑戰。嗯,我很好奇你是否有過在工作場所感到少數派的時刻,如果有的話,你是如何克服這一點或說服他人的?謝謝你的問題。我想非常小心或深思熟慮地回答你,因為我們都來自不同的背景,而我們的感受也都是非常獨特的。你知道,這幾乎不再重要了,大小類別都不是什麼大問題。我們每個人都有感到自己是少數派或唯一一個人的時刻。所以我當然也有過這樣的感覺。有時這是基於我的身份,有時是基於我的想法,有時只是基於我不知道的、不知道我的襯衫顏色,無論那是什麼。嗯,我知道這是我想鼓勵每個人的地方。也許因為自小來到這個國家,我有過這樣的經歷。我幾乎發展出一種能力——不過度強調這一點。我就像你們每個人一樣,來這裡是為了學習、做事或者創造東西。謝謝你。這是個很好的回答。你們都即將開始某些事情,或者正在開始某些東西,而你們會有脆弱或奇怪的時刻,或我每天都有這種感覺,尤其是在創業生活中。有時我會想:“哦,天啊,我不知道我在做什麼。”只需專注於去完成它。將梯度下降到最優解。是的。好吧,這是一種很好的結尾方式。謝謝你,李博士。