9月23日,繼今年1月AgiBot World具身智能百萬真機數(shù)據(jù)集開源后,智元機器人正式宣布其通用具身基座大模型GO-1(Genie Operator-1)也在GitHub開源,成為全球首個采用Vision-Language-Latent-Action(ViLLA)架構(gòu)、向全球開發(fā)者免費開放的通用具身智能模型,將降低具身智能的技術(shù)門檻,加速產(chǎn)業(yè)發(fā)展進程。

作為具身智能領(lǐng)域的重大技術(shù)突破,GO-1采用的ViLLA架構(gòu)通過引入隱式動作標記,成功填補了圖像-文本輸入與機器人執(zhí)行動作間的語義鴻溝。該架構(gòu)采用三層協(xié)同設(shè)計:VLM多模態(tài)理解層基于InternVL-2B構(gòu)建,可處理多視角視覺圖像、力覺信號、語言輸入等多模態(tài)信息,為系統(tǒng)提供卓越的場景感知和指令理解能力;Latent Planner隱式規(guī)劃器通過預(yù)測隱式動作標記完成復(fù)雜任務(wù)的高層次理解和規(guī)劃;Action Expert動作專家則依托擴散模型生成高頻精準的連續(xù)動作序列,確保機器人執(zhí)行精細操作。相較傳統(tǒng)的VLA架構(gòu),ViLLA在動作理解與執(zhí)行精度上實現(xiàn)質(zhì)的提升。

此外,智元機器人專為具身智能場景打造了Genie Studio,作為一站式開發(fā)平臺為開發(fā)者和合作伙伴提供全棧式解決方案。該平臺提供從數(shù)據(jù)采集與管理、模型訓(xùn)練微調(diào)、仿真評測等全流程的支持,開箱即用的GO-1基座模型更是集成Video Training方案和統(tǒng)一訓(xùn)練框架,內(nèi)置完整開發(fā)工具鏈,實現(xiàn)真機一鍵編譯和部署,有效提升開發(fā)效率,加快具身智能技術(shù)的落地和應(yīng)用。
在社區(qū)共建層面,GO-1雖然僅基于AgiBot G1機器人數(shù)據(jù)預(yù)訓(xùn)練,但已在松靈機器人、方舟機器人、Franka機械臂等不同本體上完成充分驗證測試,展現(xiàn)出良好的可移植性。仿真環(huán)境測試中,其在Genie Sim和Libero等主流仿真平臺均取得了領(lǐng)先的性能表現(xiàn)。在真機部署場景中,為滿足用戶多樣化平臺需求,GO-1模型特別集成通用LeRobot數(shù)據(jù)格式,確保非Genie本體的機器人也能完成數(shù)據(jù)采集、模型微調(diào)與部署。
即日起,全球開發(fā)者可訪問智元機器人的GitHub倉庫下載GO-1模型,開啟具身智能創(chuàng)新之旅。無論是資深A(yù)I研究者還是行業(yè)新手,都將獲得GO-1強大的技術(shù)支撐與無限的創(chuàng)新可能。
申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機遇!
