具身智能如何再进化?庞江淼:“虚实贯通”将成推动机器人自主演进的可行路径
上海人工智能实验室青年科学家负责人庞江淼
出品|搜狐科技
作者|任婧瑄
编辑|杨锦
2月21日-23日,2025 GDC 全球开发者先锋大会在上海举办。
在“浦江AI生态讲坛”上,上海人工智能实验室青年科学家负责人庞江淼发表题为《面向通用具身智能的“虚实贯通”之路》的演讲。
会后,庞江淼告诉搜狐科技,今年的具身智能关键词是“智能化”。欣喜地看到宇树的机器人登上春晚,展现了精准的机器人控制和动作协调能力,同时也让人形机器人这一细分领域几乎“家喻户晓”。在庞江淼看来,机器人的自主决策性或在今年迎来较大提升。
回顾具身智能发展历程,庞江淼认为,“具身智能活泼起来的根本点在于它背后代表着一种生产力,这个是大家对它最关注的一个原因。”虽然目前机器人仍在“从炫技走向实用”的一个阶段,离真正看到生产力的成效还有一定距离,但庞江淼预测,“在人形机器人上,两到三年能见到一个比较醒目的进展。”
近日,美国人形机器人独角兽Figure AI重磅推出一款通用型视觉语言动作(VLA)模型——Helix,能够统一感知、语言理解与学习控制,首次实现了对人形机器人完整上半身高速连续控制。
庞江淼认为,VLA(视觉语言动作模型)一直是具身智能领域的研究热点,但是其泛化性到现在为止还没有被攻破,当前,技术上仍存在着“把A(动作)加进去之后,会让VL(视觉语言)能力下降”的问题。
“它(VLA)并不像多模态大模型已经到了一个可用的状态,想驱动一个机器人泛化到一个场景去作业,还有较遥远的距离。”庞江淼说。
当下,庞江淼认为最关键的仍是数据怎么来。他在论坛上表示,当前具身智能领域存在“数据金字塔”,塔尖是真实机器人数据,稀缺但价值高。其次是仿真数据和互联网开源数据,数量庞大但不能被直接应用,仍需加工。
因此,上海人工智能实验室构建了具身智能“虚实贯通”技术体系,覆盖“真实-模拟-真实”(Real-to-Sim-to-Real)全闭环路径,具体来看,利用AIGC技术快速将真实环境重建到“桃源”仿真平台,通过仿真器生成海量数据供机器人在仿真环境中训练,再对机器人的能力进行评测,最后将模型部署到现实机器人,从而形成闭环。
庞江淼介绍,最新发布的通用具身智能仿真平台桃源2.0(GRUtopia2.0)集成了10万个具体的场景,覆盖89种功能性场景,通过AI脚本增广数据,目前单台服务器已经日产1.5万条高质量导航数据,大幅降低了成本。
“它可以少量采集,海量扩增并达零样本泛化。”庞江淼在会上强调,仅通过单一平台、简单代码输入,即可实现仿真环境中机器人灵活训练,形成低门槛、高效率的数据采集需求。
谈及其开源策略对具身智能领域的影响,庞江淼认为,大模型的本质是大脑,可以为机器人提供基础的知识和推理能力。对于当前具身智能大脑层面发展,核心挑战仍在于如何突破基础推理能力的天花板,实现从简单推理向中难度逻辑推导的认知跃升。
“如果把A拿到B,它(机器人)其实知道怎么办。但是如果我把一个绿色的东西放到一个东西上,它的成功率可能会降到50%,这就带了一个浅层的推理。如果再难一些,比如把几个东西拼成一个笑脸,它就完不成。即使是当前最先进的模型也完不成。”庞江淼举例解释道。
在交互中,如何让具身智能像大模型一样有记忆、有规划能力,同时能与人交互、有推理、在未来有更难的自主进化、真正变成具身的大脑,是实验室具身智能团队正在研究的部分内容。
“大模型需要通专融合、再虚实贯通,我们要让大模型从数字空间走向物理空间,这就是具身智能要干的事。”庞江淼说。
评论