人形机器人，怎么又行了？

人形機器人，怎么又行了？

鋅產業 ·

山竹

2023/07/14

我們現在已經清晰地看到了一條路，一條在三年、五年內有可能跑出通用人形機器人平臺，甚至在某些特定場景中跑出人形機器人產品的路。

本文來自于微信公眾號“鋅產業”（ID：xinchanye2021），作者：山竹，投融界經授權發布。

在剛剛過去(qu)的WAIC2023上(shang)，沒到(dao)(dao)現場的馬斯克，把“擎天柱”派到(dao)(dao)了現場……

盡管這臺人形機器人被放在(zai)(zai)了罩子，在(zai)(zai)現場也沒(mei)有做什么表演或動作展示(shi)，但在(zai)(zai)會場中依然被幾度圍觀(guan)。

再結合馬斯克在開幕式視頻演講(jiang)中(zhong)發表了的觀點：

“在(zai)將來某個時(shi)刻，地球上機器人(ren)與人(ren)類的比例(li)可能會超(chao)過(guo)1：1，這(zhe)意味(wei)著機器人(ren)的數量將超(chao)過(guo)人(ren)類，甚(shen)至會多很多。”

人(ren)形機器人(ren)無疑成了WAIC2023上關注(zhu)度最高的一個話題。

人形機器人，怎么又行了？

實際上(shang)，我們發現，WAIC2023上(shang)，僅(jin)僅(jin)是關(guan)于人形機器人的(de)主題(ti)論壇就有不(bu)下五個(ge)，參展(zhan)機器人廠商更是超(chao)過(guo)了20家。

此(ci)外，據鋅產業了解，現在國(guo)內但凡機(ji)器人(ren)做(zuo)得(de)還(huan)不(bu)錯的團隊，不(bu)少都(dou)已經開(kai)始(shi)涉足人(ren)形(xing)機(ji)器人(ren)領域。

除(chu)了(le)康復(fu)機(ji)器人領域獨角獸(shou)企業傅(fu)利葉(xie)智能在WAIC2023期間(jian)首發人形機(ji)器人外，今年下半年我們將會看到有更多(duo)人形機(ji)器人面世。

似乎，一夜(ye)之間，人形機器人猶如雨后春筍般，從各地相繼冒出(chu)。

為什么圈內(nei)人都(dou)覺得，人形機器(qi)人真得又行了(le)呢？

暴力美學造(zao)就通(tong)用(yong)AI

大(da)家之所以會覺得人(ren)形(xing)機(ji)器人(ren)又行了，同樣和現在科技圈最火爆的大(da)模型不無關(guan)系。

2022年11月30日，ChatGPT正式問世，隨(sui)后(hou)，ChatGPT僅僅用了(le)兩(liang)個月，就擁有了(le)1億用戶。

一個對比數據是(shi)，增長(chang)到1億用(yong)戶(hu)量，Facebook用(yong)了(le)4.5年，Instagram用(yong)了(le)2.5年，即便是(shi)如今仍屬新鮮事物的TikTok也用(yong)了(le)9個月。

之所以列出這么一組數據，是為了更直觀地體現(xian)ChatGPT當時在全(quan)球的火爆(bao)程(cheng)度(du)，而一般這樣(yang)全(quan)球性的現(xian)象級產品，必有(you)其顛(dian)覆性所在。

ChatGPT的顛覆性(xing)(xing)(xing)在于它的“通用(yong)性(xing)(xing)(xing)”，準確地說，應該是人工智能的通用(yong)性(xing)(xing)(xing)。

ChatGPT的(de)(de)背后，是(shi)一家曾經少有人知（至少在(zai)國內(nei)是(shi)），如(ru)今卻(que)無人不知的(de)(de)AI創業團隊(dui)OpenAI，這(zhe)個創業團隊(dui)最(zui)早是(shi)由(you)特斯(si)(si)拉創始人馬斯(si)(si)克、PayPal創始人彼得(de)·蒂爾、YC創始人利文斯(si)(si)頓，以(yi)及現(xian)在(zai)OpenAI的(de)(de)掌(zhang)舵人奧特曼等硅(gui)谷大佬(lao)創辦(ban)，目的(de)(de)就是(shi)為了研究(jiu)人工智能技(ji)術(shu)。

當然，據(ju)馬斯(si)克曾經(jing)透露(lu)，創立OpenAI其實(shi)還有另一個原因(yin)，是幾(ji)位(wei)大(da)佬(lao)為了聯(lian)合對抗(kang)谷(gu)歌(ge)的AI霸(ba)權。

人形機器人，怎么又行了？

這樣(yang)的(de)(de)硅(gui)谷最強天團(tuan)，既不缺錢，也(ye)(ye)不缺資源，于是他(ta)們走了一條別(bie)人(ren)敢(gan)想不敢(gan)干的(de)(de)路——用巨量算(suan)力資源訓練一個巨量參(can)數的(de)(de)通用人(ren)工智能大(da)模型(xing)，也(ye)(ye)就是LLM，通用大(da)語(yu)言模型(xing)。

這里我們再(zai)列舉(ju)兩(liang)個數據來看一下，LLM訓練究(jiu)竟(jing)有多消耗資源：

GPT-3使用1萬塊V100GPU，花(hua)了(le)30天才訓(xun)(xun)練(lian)完(wan)了(le)1750億參數，訓(xun)(xun)練(lian)一次要消耗19萬度(du)電，整(zheng)體訓(xun)(xun)練(lian)成本約(yue)為140萬美元；

GPT-4參數(shu)規模更是(shi)達(da)到(dao)了1.76萬億(yi)個，理論上(shang)來(lai)說，消耗資源量至少是(shi)GPT-3的(de)10倍。

我們完(wan)全有(you)理由認為，這是一群科學(xue)瘋子，在通(tong)過巨(ju)量資源嘗試引發一次AI質變(bian)，他們信(xin)奉的是暴力美學(xue)。

幸運的(de)(de)是，他們成功地訓練出了通用(yong)(yong)大語言模型(xing)，這從(cong)ChatGPT問(wen)世后的(de)(de)使(shi)用(yong)(yong)效(xiao)果和科技巨頭的(de)(de)追捧熱度就能有一(yi)個直觀感(gan)受。

人形機器人，怎么又行了？

那么，通用大語言模型，能為人形(xing)機器人帶來什么呢？

人(ren)形(xing)機器(qi)人(ren)的死亡陷阱

人(ren)形機器人(ren)一直被認為(wei)是機器人(ren)的終(zhong)極(ji)形態。

之所以如此，是因為，人形機器人理論上(shang)可以完成所有人類在(zai)做的非標(biao)任務(wu)。

因而(er)，幾乎每個機(ji)器(qi)人創業團隊，或多或少都有過搞(gao)人形機(ji)器(qi)人的念頭。

在(zai)之前很長一(yi)段時間里(li)，大(da)概是早(zao)稻田大(da)學(xue)搞出WABOT后(hou)，人(ren)(ren)形(xing)機(ji)器(qi)人(ren)(ren)一(yi)直(zhi)處于一(yi)個在(zai)硬件能(neng)力上尋求突破(po)的(de)階段。當時大(da)家都是在(zai)想，如何通過工程結構、制造能(neng)力、系(xi)統動力學(xue)來(lai)(lai)讓人(ren)(ren)形(xing)機(ji)器(qi)人(ren)(ren)像人(ren)(ren)一(yi)樣地(di)動起來(lai)(lai)。

于是(shi)，在(zai)過去幾(ji)十(shi)年里，隨著機器(qi)(qi)(qi)人的(de)電機、控制器(qi)(qi)(qi)、減速器(qi)(qi)(qi)等核心器(qi)(qi)(qi)件(jian)的(de)工藝、性(xing)能不斷提升(sheng)，以及機器(qi)(qi)(qi)人系統能力逐(zhu)漸完善(shan)，人形(xing)機器(qi)(qi)(qi)人最終如愿(yuan)逐(zhu)漸能夠走了起來。

我們看到，本田(tian)在1972年搞出了(le)阿西(xi)莫（ASIMO）震驚(jing)行業，波士頓動力(li)在2016年亮(liang)出了(le)Atlas秀翻全網。

就(jiu)在(zai)波士(shi)頓動力Atlas在(zai)網上(shang)又是表演(yan)(yan)后(hou)空翻，又是表演(yan)(yan)踩梅(mei)花樁時，一(yi)個一(yi)直未(wei)能(neng)解(jie)決的問(wen)題(ti)——商(shang)業化問(wen)題(ti)，讓波士(shi)頓動力始終困于熒幕(mu)之(zhi)上(shang)、網絡之(zhi)中。

我們(men)看到，無法很(hen)好地(di)實(shi)現商業化的(de)波(bo)士頓(dun)動(dong)力，在最近十年里相繼被最喜歡工程(cheng)師的(de)谷歌、最喜歡機(ji)器人的(de)軟(ruan)銀先后收購后，最終又轉手給了(le)現代汽車。

汽(qi)車工業是(shi)(shi)自動(dong)(dong)化、信(xin)息(xi)化最(zui)高(gao)一個場景，也(ye)被認為是(shi)(shi)軍工之(zhi)外最(zui)有可能率先用上(shang)波士頓動(dong)(dong)力四足機(ji)器(qi)人(ren)，甚至(zhi)人(ren)形機(ji)器(qi)人(ren)的(de)地方。

2021年6月，波士(shi)頓動(dong)力正式歸(gui)于現代汽車門下，而(er)這(zhe)很有可能將是他們最后一站，如果這(zhe)一站商(shang)業(ye)化再(zai)沒什么成果，人形(xing)機器人很有可能會(hui)再(zai)次掉(diao)入死(si)亡曲線(xian)中的又一個(ge)低谷，沉寂再(zai)所難免。

可能(neng)有人會問(wen)，為(wei)什么(me)人形機器人這(zhe)么(me)難商業化？

這是(shi)因(yin)為人形(xing)機器(qi)人是(shi)完全仿照人的(de)外(wai)形(xing)研發的(de)一種機器(qi)人，因(yin)而(er)天然需要面對更復雜的(de)、不確定的(de)場景。

這(zhe)有點類似人工智(zhi)(zhi)(zhi)能技術的發展，會下棋的AlphaGo只(zhi)能算是(shi)專(zhuan)用(yong)人工智(zhi)(zhi)(zhi)能，這(zhe)種專(zhuan)用(yong)人工智(zhi)(zhi)(zhi)能算法研發只(zhi)需要瞄著(zhu)一(yi)(yi)個應用(yong)場景，用(yong)大(da)量數據一(yi)(yi)直進行訓練，總(zong)有修成(cheng)神功的一(yi)(yi)天。

對應到機器人(ren)(ren)領域，面向各類工(gong)業環境(jing)研發(fa)的專用(yong)機械臂(bei)已經十分成熟，尤其在汽車工(gong)業的沖壓、焊接、噴涂(tu)、總裝等環節(jie)中早已有了(le)廣泛應用(yong)，這(zhe)也(ye)就是為什么工(gong)業機器人(ren)(ren)在全球(qiu)能有超(chao)過1400億產值(zhi)規模的主(zhu)要原因(yin)。

人(ren)形(xing)(xing)(xing)機器(qi)人(ren)要解(jie)決(jue)的不(bu)是這些(xie)問(wen)題(ti)(ti)，或者說人(ren)們期望作為機器(qi)人(ren)終極(ji)形(xing)(xing)(xing)態的人(ren)形(xing)(xing)(xing)機器(qi)人(ren)要解(jie)決(jue)的，不(bu)是這類問(wen)題(ti)(ti)，而是真(zhen)實世界中更復雜的問(wen)題(ti)(ti)，這就需要解(jie)決(jue)機器(qi)人(ren)的通用性問(wen)題(ti)(ti)。

我(wo)們這里先(xian)說一下人工智能的(de)本質，我(wo)的(de)簡(jian)單理解是：

人(ren)工(gong)智能的(de)本質就(jiu)是算法。

算法應(ying)用(yong)到軟件上(shang)，就形成(cheng)了有(you)智(zhi)能(neng)推薦系(xi)統(tong)的搜索(suo)引擎、有(you)智(zhi)能(neng)客服系(xi)統(tong)的電商平(ping)臺；

算法應(ying)用(yong)到硬件上，就(jiu)形成(cheng)了(le)有(you)(you)智(zhi)能(neng)語音系(xi)統的音箱、有(you)(you)智(zhi)能(neng)規劃(hua)系(xi)統的掃地機器人。

所(suo)以(yi)，當(dang)通(tong)用(yong)大(da)語言模型這樣(yang)的通(tong)用(yong)人(ren)工智能算法出現后，苦(ku)苦(ku)尋(xun)找提升人(ren)形機(ji)器人(ren)通(tong)用(yong)性的機(ji)器人(ren)團隊，就興奮了起來(lai)。

人形(xing)機(ji)器人+通(tong)(tong)用大語言(yan)模(mo)型(xing)，不就有(you)了通(tong)(tong)用人形(xing)機(ji)器人了嗎？

具身智能，一次(ci)機器人的能力(li)泛化

在討論具身(shen)智能之前，我們先要做一個假設：

假設人(ren)形(xing)機器人(ren)所需要的電機的扭(niu)矩(ju)密度、電池的能量(liang)密度都(dou)已經足以支撐(cheng)人(ren)形(xing)機器人(ren)進行各種高強度運(yun)動，控制器、減速器也(ye)都(dou)已經不(bu)是問題。

這(zhe)時候，軟實力就變得(de)尤為(wei)(wei)重要，而以ChatGPT為(wei)(wei)代表的通(tong)用大語言(yan)模型，顯然已經為(wei)(wei)人(ren)形(xing)機器人(ren)打了一(yi)個樣兒。

ChatGPT當然可以直接應用(yong)到人(ren)形機器人(ren)上(shang)，這就(jiu)能讓人(ren)形機器人(ren)在(zai)對我(wo)們(men)這個真實世界的認知上(shang)，有一個極大的提(ti)升，人(ren)機交(jiao)互(hu)能力也會有一個階躍式提(ti)升。

這(zhe)(zhe)也(ye)是為什么今年上半年，阿里、百度(du)分別將(jiang)通用大語言模型首先加(jia)載到了旗下天貓精靈、小(xiao)度(du)智能音箱上，這(zhe)(zhe)也(ye)或將(jiang)是我(wo)們真正走出(chu)弱(ruo)人工智能的第一步(bu)。

不過(guo)，人形機器人，目前當(dang)務之急，還是(shi)將運動(dong)能(neng)力提(ti)上去(qu)，如果以人類(lei)運動(dong)能(neng)力為(wei)標準的(de)話(hua)，至少要(yao)讓人形機器人能(neng)先達(da)到及格線(xian)以上。

是(shi)(shi)的(de)，現在(zai)(zai)市面上大家能看到的(de)人(ren)(ren)形機器人(ren)(ren)，即(ji)便(bian)是(shi)(shi)最基本(ben)的(de)運動能力，仍處在(zai)(zai)及(ji)格線以(yi)下（不是(shi)(shi)說人(ren)(ren)形機器人(ren)(ren)的(de)運動能力差，實(shi)在(zai)(zai)是(shi)(shi)人(ren)(ren)類(lei)運動能力太強了），這是(shi)(shi)當下行(xing)業的(de)一個普遍共識。

而據鋅產(chan)業(ye)了解(jie)(jie)，現(xian)在(zai)已(yi)經(jing)有機器人(ren)公司(si)在(zai)通過ChatGPT提升人(ren)形機器人(ren)運動(dong)能力(li)，例如優必選(xuan)就已(yi)經(jing)在(zai)用類ChatGPT大模型做運動(dong)規(gui)劃，通過大模型做長序列、長周期的(de)動(dong)作序列拆解(jie)(jie)。

通過(guo)大模型做人(ren)形機器(qi)人(ren)的運動(dong)規(gui)劃的好處是，可以提升(sheng)機器(qi)人(ren)在動(dong)作(zuo)執行(xing)過(guo)程中的決策和規(gui)劃能(neng)力。

這其(qi)中體(ti)現大模型通用性(xing)的，是一個(ge)被稱作“泛化”的能(neng)力。

我是在清華(hua)大學交叉信息(xi)研究院助理教授許華(hua)哲的演講中了(le)(le)解的這個(ge)概念，他用(yong)機器人切豆腐為(wei)例解釋了(le)(le)泛(fan)化能力對于具身(shen)智能的重要性(xing)：

一臺(tai)機器(qi)人學會用一把(ba)刀(dao)切豆腐后(hou)，當這把(ba)刀(dao)的顏色、姿態、位置無論怎樣變化(hua)(hua)，這臺(tai)機器(qi)人都能識別出這把(ba)刀(dao)，并完成切豆腐這個任務，這就(jiu)是(shi)泛(fan)化(hua)(hua)能力的體(ti)現。

如(ru)果人形機(ji)器(qi)人在運(yun)動規劃(hua)上(shang)也(ye)有(you)了這樣的泛化(hua)能力，那么(me)，理論上(shang)，人形機(ji)器(qi)人只要學會(hui)在一種地形上(shang)走路，就能夠自(zi)己學會(hui)在全地形場景下(xia)自(zi)由行走。

也就是(shi)說，走路就成(cheng)了(le)(le)人形機器(qi)人的一個(ge)(ge)目(mu)標，人形機器(qi)人只(zhi)要在一個(ge)(ge)環(huan)境下實(shi)現了(le)(le)這(zhe)個(ge)(ge)目(mu)標，就能夠在所有環(huan)境中自適應完成(cheng)目(mu)標。

這時(shi)，機器人就(jiu)從程序執行導向(xiang)，轉向(xiang)為目標完(wan)成導向(xiang)。

這樣的人形(xing)機器人也就(jiu)有了(le)感知運動(dong)智(zhi)能，甚(shen)至有了(le)一定的認知能力(li)，人形(xing)機器人由此也就(jiu)完成了(le)一次(ci)高維進化。

具(ju)備泛化能力，正是人形機(ji)器人成為通用機(ji)器人的第一(yi)步。

人(ren)形機器(qi)人(ren)的N種可能

首(shou)先說(shuo)一(yi)個我自己的(de)判斷(duan)：

無論是否有被冠(guan)以“通用(yong)”二字，人(ren)形(xing)機器人(ren)本質上(shang)就(jiu)是一類(lei)擁有通用(yong)能力的(de)機器人(ren)。

如果不是為了做通用(yong)機器(qi)人，完全(quan)沒(mei)有必要做成人形。

在(zai)自動(dong)化(hua)能力更高的倉儲系統中，AGV效(xiao)率本就更高；在(zai)汽車(che)總(zong)裝車(che)間里，機(ji)械(xie)臂(bei)效(xiao)率也已經很(hen)高。

如果追求極(ji)致(zhi)高(gao)效，應用于這(zhe)些場(chang)景中(zhong)的機器人(ren)完(wan)全沒(mei)有必要做成人(ren)形。

所以，這幾年陸續(xu)出現(xian)的(de)人形機(ji)器人，某種意義上，都可以被認(ren)為是通用人形機(ji)器人。

但人(ren)(ren)形機器(qi)人(ren)(ren)在實際(ji)應用時，會率先在哪些場景落地？

我們(men)現在能夠看(kan)到的是(shi)，特斯拉正在嘗試將人形(xing)機器人應用于(yu)工(gong)廠中，前不久發布了人形(xing)機器人的傅(fu)利葉智(zhi)能本(ben)就(jiu)是(shi)醫(yi)療康養機器人領域的明星(xing)企(qi)業，養老(lao)(lao)、助老(lao)(lao)也(ye)就(jiu)成了人形(xing)機器人落地(di)場景(jing)之一。

顯然，制造工廠、醫療康養(yang)，已經成了如今人形機器人兩個黃金賽道。

如果再往(wang)長遠來看，就像大模(mo)(mo)型在各個行(xing)業(ye)中都已經裂變出了行(xing)業(ye)大模(mo)(mo)型一樣，搭載行(xing)業(ye)大模(mo)(mo)型的(de)人(ren)形機器(qi)人(ren)，也會隨之進(jin)入各個行(xing)業(ye)。

不(bu)過，這(zhe)其中(zhong)還有兩(liang)個關(guan)鍵難(nan)題需(xu)要解決(jue)：

一個是硬件難題，關鍵零部件的(de)(de)技(ji)術突破，將成(cheng)為擁有優秀的(de)(de)運動能(neng)力的(de)(de)平(ping)臺級人形機(ji)器(qi)人成(cheng)形的(de)(de)關鍵；

我們看到，國內越(yue)來越(yue)多(duo)硬科(ke)技團(tuan)隊涌入人(ren)(ren)形(xing)機器人(ren)(ren)這一賽道(dao)中(zhong)，但是人(ren)(ren)形(xing)機器人(ren)(ren)的關鍵零部件(jian)仍需進一步突破，才(cai)能支撐起一個通用人(ren)(ren)形(xing)機器人(ren)(ren)平臺的成形(xing)。

以電(dian)機為例，目前，電(dian)機扭矩密(mi)度做(zuo)得最(zui)高的是MIT和UCLA做(zuo)的電(dian)機，已(yi)經(jing)能實現38N.m/kg的扭矩密(mi)度，但這(zhe)尚(shang)不足以支(zhi)撐一臺(tai)標準體重的成年男(nan)人自由彈跳或奔(ben)跑。

一(yi)個是軟件難題，人(ren)形(xing)機(ji)器人(ren)現在還沒有足夠的場(chang)景數據，來在某個場(chang)景中訓練出一(yi)個通用人(ren)工智(zhi)能大模型，讓人(ren)形(xing)機(ji)器人(ren)基(ji)于此進行自我進化。

前(qian)文提到，以(yi)ChatGPT為代(dai)表的(de)通用人工(gong)智(zhi)能本身追求(qiu)的(de)是暴力美學，需要大(da)量(liang)樣本數據(ju)來訓練，才能形成具備通用知識(shi)的(de)理解、分析(xi)、決策能力的(de)通用人工(gong)智(zhi)能大(da)模(mo)型。

對于(yu)人形(xing)機器人而(er)言(yan)，由于(yu)尚且沒有得到批量(liang)化(hua)應用的場(chang)景(jing)，也就沒有這么多(duo)直接的場(chang)景(jing)數據。

例如在工(gong)(gong)業場景中(zhong)，由于此前并沒(mei)有人(ren)(ren)形機(ji)器(qi)人(ren)(ren)直接參與，相應的(de)運行數(shu)據(ju)自然也(ye)就無從談起，可(ke)以用(yong)于人(ren)(ren)形機(ji)器(qi)人(ren)(ren)訓練的(de)場景數(shu)據(ju)，更多(duo)是來自空間(jian)位置(zhi)數(shu)據(ju)、機(ji)械臂及制(zhi)造設備的(de)運行數(shu)據(ju)，以及工(gong)(gong)人(ren)(ren)的(de)工(gong)(gong)作日志等。

不(bu)過，清華大學(xue)鄧志(zhi)東(dong)教(jiao)授也指出(chu)，大模型+思維(wei)鏈等提示(shi)詞工程，可(ke)以(yi)實現零樣本學(xue)習(xi)，這(zhe)將推動(dong)智能機器人的產業落地。

總體(ti)而(er)言，人形(xing)機器人發展道路上依然有諸多困(kun)難(nan)。

不(bu)同的(de)是，我(wo)們現在已經清晰地看到了一條(tiao)路，一條(tiao)在三年、五年內有可能(neng)跑出(chu)通用(yong)人(ren)形(xing)機器(qi)人(ren)平臺(tai)，甚至在某(mou)些特定場(chang)景中(zhong)跑出(chu)人(ren)形(xing)機器(qi)人(ren)產(chan)品的(de)路。

就在(zai)五年(nian)前(qian)，整個行(xing)業的(de)判(pan)斷還是要十年(nian)、二(er)十年(nian)，乃至更長時間才能(neng)到來。

這就是當下這個時代，一個讓(rang)機器人團隊(dui)再(zai)次興奮起來的時代。

AI 人形機器人

評論

還可輸入300個字

發布留言

2018高清国产一区二区三区-国产黄色视频免费在线观看-欧美激情欧美精品一区二区-免费国产一级片内射老妇