12月23日,“2025中國信通院深度觀察報(bào)告會(huì)”在北京舉辦。中國信息通信研究院副總工程師許志遠(yuǎn)在大會(huì)期間發(fā)表了自身對機(jī)器人領(lǐng)域的觀點(diǎn)和見解。
他表示,以大模型為代表的人工智能技術(shù)突破性發(fā)展,為實(shí)現(xiàn)通用機(jī)器人打開了大門。目前硬件解決方案基本收斂,但軟件算法仍在快速迭代創(chuàng)新,數(shù)據(jù)稀缺性是機(jī)器人能力泛化的關(guān)鍵制約。
人工智能為實(shí)現(xiàn)通用機(jī)器人打開大門
在許志遠(yuǎn)看來,人工智能技術(shù)突破性發(fā)展,為實(shí)現(xiàn)通用機(jī)器人打開了大門,其核心是增強(qiáng)了機(jī)器人的認(rèn)知與交互能力,并賦予機(jī)器人在物理世界中執(zhí)行任務(wù)的強(qiáng)大泛化能力。
“能力泛化可以理解為一種遷移學(xué)習(xí),即把從過去的經(jīng)驗(yàn)中學(xué)習(xí)到的知識(shí)、策略和行為應(yīng)用到新的領(lǐng)域,這使機(jī)器人能夠在在動(dòng)態(tài)和復(fù)雜環(huán)境中自主進(jìn)行任務(wù)理解,并通過感知、決策規(guī)劃和運(yùn)動(dòng)控制實(shí)現(xiàn)任務(wù)的閉環(huán),機(jī)器人真正成為一個(gè)可以與世界交互、存在自主智能的個(gè)體!痹S志遠(yuǎn)進(jìn)一步解釋稱。
可以看到,這兩年投資市場和產(chǎn)業(yè)界對機(jī)器人的關(guān)注熱度高漲,具身智能和人形機(jī)器人這兩個(gè)詞匯出現(xiàn)的頻率很高。而中國和美國是最活躍的兩個(gè)國家,谷歌、特斯拉、OpenAI等國外頭部科技企業(yè)紛紛加碼機(jī)器人投入,國內(nèi)也涌現(xiàn)出銀河通用、智元這樣的優(yōu)秀企業(yè),小米、小鵬等也在造人形機(jī)器人。
未來仍需聚焦硬件及軟件算法創(chuàng)新
據(jù)許志遠(yuǎn)介紹,機(jī)器人的概念最早起源于上個(gè)世紀(jì)20年代,經(jīng)過多年的發(fā)展,相關(guān)硬件技術(shù)趨于成熟,模塊化、高度集成等成為重要特點(diǎn),移動(dòng)機(jī)器人形態(tài)基本收斂至人形、四足、輪式等。
硬件創(chuàng)新方面,機(jī)器人主要涵蓋執(zhí)行機(jī)構(gòu)、傳感器、芯片、電池和新材料等技術(shù)。執(zhí)行機(jī)構(gòu)作為機(jī)器人本體的核心,近兩年已從液壓驅(qū)動(dòng)轉(zhuǎn)向電驅(qū)動(dòng),相關(guān)旋轉(zhuǎn)和線性運(yùn)動(dòng)方案也基本清晰!拔磥恚S著技術(shù)進(jìn)步和需求聚焦,機(jī)器人將進(jìn)一步與前沿仿生、類腦等技術(shù)結(jié)合,結(jié)合新材料、電子皮膚、仿生設(shè)計(jì)等技術(shù),實(shí)現(xiàn)類人級感知與精巧操作!
軟件算法方面,目前業(yè)界主流的智能機(jī)器人解決方案是將大腦和小腦分層,大腦負(fù)責(zé)交互、感知、決策,是基于現(xiàn)有大語言模型(LLM)或視覺語言模型(VLM),小腦負(fù)責(zé)具體的運(yùn)動(dòng)控制,有的是基于傳統(tǒng)動(dòng)力學(xué)建模,也有基于模仿學(xué)習(xí)、強(qiáng)化學(xué)習(xí)等技術(shù)!拔磥砜矗S著邊緣計(jì)算增強(qiáng)、交互數(shù)據(jù)豐富,軟件技術(shù)可能逐步向端到端大模型驅(qū)動(dòng)的一體化架構(gòu)演進(jìn),以全面實(shí)現(xiàn)自學(xué)習(xí)、自適應(yīng)和自演化能力,即只需要一個(gè)模型便可以驅(qū)動(dòng)多個(gè)不同的異構(gòu)機(jī)器人,例如人形、四足等!
人形機(jī)器人仍不夠成熟,需漸進(jìn)落地
談及人形機(jī)器人距離走入我們生活還有多遠(yuǎn)這一問題,許志遠(yuǎn)坦言,工業(yè)制造、商業(yè)服務(wù)、家庭服務(wù)將是人形機(jī)器人落地三個(gè)主要的場景,并且呈現(xiàn)依次漸進(jìn)落地的關(guān)系,1-3年內(nèi)用于汽車制造、商超補(bǔ)貨等封閉/半封閉場景的人形機(jī)器人將出現(xiàn),而與我們共處同一環(huán)境,可幫助執(zhí)行家務(wù)、助老等人形機(jī)器人產(chǎn)品落地可能在5年甚至10年以上。
究其原因,許志遠(yuǎn)表示,人形機(jī)器人在環(huán)境適應(yīng)性、人機(jī)交互的自然性和接受度等方面更具有優(yōu)勢,是通用機(jī)器人追求的終極形態(tài)。但人形機(jī)器人不一定是完全仿照人來設(shè)計(jì),因?yàn)楝F(xiàn)階段人形并不一定是商業(yè)化落地的最優(yōu)解,短期內(nèi)市場上應(yīng)該還是存在“主體人形”搭配“定制化組件”,例如腿部采用輪式底盤或輪腿組合,上肢采用機(jī)械臂,手部為三指靈巧手或夾爪、吸盤等。
目前,人形機(jī)器人仍然不夠成熟。硬件方面,頭部公司的人形機(jī)器人產(chǎn)品除手部以外,全身有50多個(gè)自由度,如果在復(fù)雜的環(huán)境中行走需要更強(qiáng)大的運(yùn)動(dòng)控制能力。機(jī)器人上肢要想實(shí)現(xiàn)精細(xì)化操作,則依賴高自由度的靈巧手,但手部觸覺傳感器、執(zhí)行機(jī)構(gòu)等關(guān)鍵部分仍存在問題。此外,電池續(xù)航、成本、端側(cè)算力等也是機(jī)器人規(guī);瘧(yīng)用的重要難題。
除硬件以外,軟件其實(shí)是機(jī)器人落地的更大挑戰(zhàn)。大模型的本質(zhì)是數(shù)據(jù)驅(qū)動(dòng),只有基于龐大的數(shù)據(jù)量來訓(xùn)練,才能實(shí)現(xiàn)智能的涌現(xiàn)。而機(jī)器人大模型與這兩年成熟的大語言模型不一樣,語言模型的數(shù)據(jù)可以來自龐大的互聯(lián)網(wǎng),機(jī)器人還需要物理世界中高精度操作數(shù)據(jù),這些數(shù)據(jù)是互聯(lián)網(wǎng)沒有的。只有解決了這些問題,機(jī)器人才能大規(guī)模走入我們的生活。