成都人形機(jī)器人創(chuàng)新中心(以下簡稱“創(chuàng)新中心”)在四川成都發(fā)布了我國首機(jī)器人多模態(tài)模型以及雙臂協(xié)作系統(tǒng)。該模型能夠使機(jī)器人理解、推理抽象的語義指令,并調(diào)度雙臂協(xié)作系統(tǒng)執(zhí)行任務(wù)。
多模態(tài)數(shù)據(jù)協(xié)同推理是指融合兩種或兩種以上不同感知來源,進(jìn)行綜合推理,并完成復(fù)雜任務(wù)的過程。創(chuàng)新中心研究人員將多模態(tài)應(yīng)用于人形機(jī)器人領(lǐng)域,使機(jī)器人融合圖像、語義、力感知、環(huán)境感知等多種因素,綜合判斷、生成任務(wù)并執(zhí)行。這是人形機(jī)器人具有自主思考能力的關(guān)鍵核心技術(shù)。
創(chuàng)新中心董事長張睿睿介紹,語義指令包括相對明確地將飲料和非飲料進(jìn)行區(qū)分和分揀,也包括相對抽象地將圓柱體和長方體物體、可食用和不可食用物品進(jìn)行區(qū)分和分揀。完成以上任務(wù),需要機(jī)器人通過多模態(tài)模型自主對所有物品進(jìn)行提取歸納。特別是對多個相似瓶子形狀的物體,機(jī)器人需進(jìn)一步通過瓶身包裝上的文字、圖片等要素綜合判斷其是否為可食用物品而非化妝品等非食用瓶裝物,才能完成任務(wù)。
“多模態(tài)模型的發(fā)布,不僅加速了‘AI物理化’的進(jìn)程,也讓人形機(jī)器人從‘預(yù)設(shè)擺拍’‘遙控操作’進(jìn)化到擁有更強(qiáng)的‘大腦’和自主執(zhí)行能力。”張睿睿表示,下一步,創(chuàng)新中心將繼續(xù)深化技術(shù)研發(fā),不斷優(yōu)化多模態(tài)模型與雙臂協(xié)作系統(tǒng)的融合應(yīng)用,提升人形機(jī)器人在復(fù)雜環(huán)境中的感知、決策與執(zhí)行能力。