李飛飛發(fā)起一場(chǎng)機(jī)器人家務(wù)挑戰(zhàn)賽|當(dāng)前關(guān)注
李飛飛要用ImageNet的方式,推動(dòng)具身智能了。
(資料圖)
依然是一個(gè)“挑戰(zhàn)賽”。
就在最近,由李飛飛團(tuán)隊(duì)發(fā)起、英偉達(dá)贊助(其中之一)的首屆BEHAVIOR家務(wù)挑戰(zhàn)賽正式啟動(dòng)。
這一次,他們下定決心凝聚學(xué)術(shù)界和產(chǎn)業(yè)界的力量,共同向機(jī)器人做家務(wù)這一高地發(fā)起沖擊。
簡(jiǎn)單來(lái)說(shuō),參賽者需要統(tǒng)一使用星海圖R1 Pro(雙手操作+輪式移動(dòng))作為本體,在逼真的BEHAVIOR-1K虛擬家庭環(huán)境中,解決50項(xiàng)完整的家務(wù)任務(wù)(涵蓋重新布置、烹飪、清潔等各種活動(dòng))。
參賽者可以自由選擇算法,官方還提供了1萬(wàn)條專(zhuān)家演示軌跡(約1200小時(shí)),方便大家用模仿學(xué)習(xí)快速上手。
具體賽道則有兩條可選:
標(biāo)準(zhǔn)賽道(Standard Track):機(jī)器人只能用“自己能看到的東西”決策。
特權(quán)賽道(Privileged Track):機(jī)器人可以獲取更詳細(xì)的環(huán)境狀態(tài)信息(比如物體坐標(biāo)、房間結(jié)構(gòu))。
然后官方會(huì)在固定的50個(gè)任務(wù)上,讓所有機(jī)器人跑相同測(cè)試,用以下標(biāo)準(zhǔn)打分(主要):
任務(wù)完成率:能否完全把任務(wù)做完,比如“把餐具放進(jìn)洗碗機(jī)”真的被完成。
部分完成度:如果只做到一半,比如“拿起盤(pán)子但沒(méi)放進(jìn)去”,也會(huì)給部分分?jǐn)?shù)。
其他次要指標(biāo)包括:模擬時(shí)間(完成任務(wù)用了多長(zhǎng)時(shí)間)、導(dǎo)航距離(走了多遠(yuǎn))、手部位移(動(dòng)了多少次機(jī)械臂)、穩(wěn)定性等。最終排名主要看平均任務(wù)完成率。
比賽提交截止期日為2025年11月15日,最終獲獎(jiǎng)前三名還有最高1000美元獎(jiǎng)金及RTX 5080可拿。
OK,說(shuō)完比賽內(nèi)容,那么接下來(lái)的問(wèn)題是——
為什么要發(fā)起B(yǎng)EHAVIOR?
關(guān)于發(fā)起B(yǎng)EHAVIOR的背后原因,李飛飛在和Jim Fan(英偉達(dá)具身智能實(shí)驗(yàn)室聯(lián)合負(fù)責(zé)人、也是李飛飛學(xué)生)、 Edmar(英偉達(dá)Omniverse社區(qū)經(jīng)理) 的一場(chǎng)爐邊談話中進(jìn)行了詳細(xì)闡述。
整體而言,BEHAVIOR的發(fā)起正是受到ImageNet的啟發(fā)。
2009年,李飛飛帶領(lǐng)的研究團(tuán)隊(duì)在CVPR發(fā)表論文《ImageNet: A Large-Scale Hierarchical Image Database》。伴隨著ImageNet挑戰(zhàn)賽舉辦,這一成果已然成為了計(jì)算機(jī)視覺(jué)領(lǐng)域的試金石,開(kāi)啟了一個(gè)新的時(shí)代。
此時(shí)再回顧ImageNet,李飛飛坦言最初并未預(yù)想到它會(huì)完全重塑AI,她只是追隨自己的好奇心。
在她看來(lái),ImageNet與神經(jīng)網(wǎng)絡(luò)(特別是卷積神經(jīng)網(wǎng)絡(luò))以及英偉達(dá)的GPU一起,共同定義了深度學(xué)習(xí)的開(kāi)端。
所以這一次,回到當(dāng)下大熱的具身智能領(lǐng)域,她打算用同樣的方式再做一遍。
而具體到機(jī)器人做家務(wù)這件事上,目前機(jī)器人學(xué)習(xí)存在的痛點(diǎn)包括:
機(jī)器人學(xué)習(xí)缺乏標(biāo)準(zhǔn)化;
任務(wù)選擇通常是零散的,使得論文之間的結(jié)果很難進(jìn)行比較;
訓(xùn)練數(shù)據(jù)匱乏,這有點(diǎn)類(lèi)似于ImageNet出現(xiàn)之前計(jì)算機(jī)視覺(jué)領(lǐng)域所面臨的問(wèn)題。
因此,李飛飛將BEHAVIOR也看做機(jī)器人領(lǐng)域的“北極星”任務(wù),她希望借助社區(qū)力量推動(dòng)具身智能向前發(fā)展。
BEHAVIOR挑戰(zhàn)賽有哪些看點(diǎn)?
另外,BEHAVIOR除了自帶李飛飛光環(huán),這個(gè)挑戰(zhàn)賽本身也很有看點(diǎn)。
首先從理念上,BEHAVIOR被設(shè)計(jì)為以人為中心,尤為強(qiáng)調(diào)AI是為了增強(qiáng)(augment)和賦能(empower)人類(lèi),而非取而代之。
這種理念貫穿著B(niǎo)EHAVIOR的所有環(huán)節(jié)。例如,團(tuán)隊(duì)會(huì)在任務(wù)定義、數(shù)據(jù)選擇和倫理價(jià)值導(dǎo)向上,來(lái)始終確保機(jī)器人的目標(biāo)與人類(lèi)的需求相符。
其次,BEHAVIOR核心瞄準(zhǔn)做家務(wù)這一賽道,并首次明確提出了相關(guān)標(biāo)準(zhǔn)——
一個(gè)真正的家庭機(jī)器人,必須同時(shí)具備跨房間導(dǎo)航、雙手精細(xì)操控、長(zhǎng)期規(guī)劃與動(dòng)態(tài)適應(yīng)等多項(xiàng)能力。
而且為了訓(xùn)練機(jī)器人學(xué)習(xí)相關(guān)能力,BEHAVIOR的規(guī)模也講求一個(gè)“大”。
它覆蓋了1000個(gè)家庭活動(dòng),50個(gè)完整長(zhǎng)程挑戰(zhàn),平均單個(gè)任務(wù)需要6.6分鐘連續(xù)操作。
所以,以人為本、目標(biāo)清晰、規(guī)模巨大的BEHAVIOR,無(wú)疑具備成為“下一個(gè)ImageNet”的潛力。至于最終結(jié)果如何,一切都要交給時(shí)間,畢竟ImageNet也不是一朝一夕成就的。
Anyway,如果說(shuō)ImageNet開(kāi)啟了視覺(jué)智能的黃金時(shí)代,那BEHAVIOR,或許正是具身智能的*聲號(hào)角。
以及關(guān)于機(jī)器人做家務(wù)這件事,最近也都成了具身智能項(xiàng)目爭(zhēng)相整活的任務(wù)。以后拍視頻,可能就都是家務(wù)場(chǎng)景了。
大語(yǔ)言模型的檢測(cè)是做題,具身智能機(jī)器人的檢測(cè)是做家務(wù)。
潮水趨勢(shì),已經(jīng)很明確了。
大賽詳情頁(yè):https://behavior.stanford.edu/challenge/index.html
參考鏈接:
[1]https://x.com/TheHumanoidHub/status/1976355634510737626
[2]https://x.com/drfeifei/status/1976472217438531889