北京大学(University)刘畅教练：寻找阿拉丁神灯 —— agent insights

李宗轩 2024-04-08 11:08 320

"北京大学刘畅教练：寻找阿拉丁神灯 —— agent insights,这篇新闻报道详尽，内容丰富，非常值得一读。这篇报道的内容很有深度，让人看了之后有很多的感悟。作者对于这个话题做了深入的调查和研究，呈现了很多有价值的信息。这篇报道的观点独到，让人眼前一亮。新闻的写作风格流畅，文笔优秀，让人容易理解。 " 账号设置我的关注我的收藏申请的报道退出登录登录搜索36氪Auto数字时氪将来消费智能涌现将来城市启动Power on36氪出海36氪研究院潮生TIDE36氪企服点评36氪财经(Finance)职场bonus36碳后浪研究所暗涌Waves硬氪媒体品牌企业号企服点评36Kr研究院36Kr创新咨询企业服务核心服务城市之窗行政部门服务创投发布LP源计划VClubVClub投资机构库投资机构职位推介投资人认证投资人服务寻求报道36氪Pro创投氪堂企业入驻创业者服务创投平台首页快讯资讯推荐财经(Finance)科技(Technology)企服城市最新创投汽车(Car)AI创新直播视频专题活动搜索寻求报道我要入驻城市合作首都大学(University)刘畅教授：寻找阿拉丁神灯 —— Agent Insights绿洲资本·2024-04-07 11:37关注2024 年英伟达 GTC 大会上，创始人兼 CEO 黄仁勋以人形机器人压轴，并表示构建通用人形机器人的基本模型是今天(Today)能在 AI 领域解决的最令人兴奋(Excited)的问题之一。在具身智能中有一类任务特别富有挑战：零样本物体导航（ZSON），该方法要求 Agent 在未知环境中完成导航。为了解决现有数据集与现实世界情况存在明显差异的问题，开放词汇零距离物体导航在动态环境中的数据集 DOZE 应运而生。让我们(We)与首都大学(University)刘畅教授，和 Agent 一起，寻找阿拉丁神灯。Enjoy

《DOZE: A Dataset for Open-Vocabulary Zro-Shot Object Navigation in Dynamic Environments》

解决问题：过去具身智能机器人强调零样本物体导航（Zero-Shot Object Navigation），需要达成 Agent 在陌生环境中自主定位并接近未见过的物体的能力，然而在零样本物体导航评测过程中缺乏具有动态障碍物、开放词汇（Open-Vocabulary）物体、多样场景的数据集，DOZE 数据集为零样本物体导航提供了一个复杂、动态、开放的高保真世界场景

模型框架： DOZE 仿真环境建立在 ArchitecTHOR（传统静态目标导航数据集）之上并进行(Carry Out)改造，团队在此之上利用(Use) Unity 3D（3D开发引擎）制作了人形障碍物在环境中行走，并利用(Use)文生 3D 大模型（例如DreamFusion等）生成开放词汇 3D 物体

使用效果： DOZE 评估了四种不同的方法（Random、Frontier、C-L3MVN、C-LGX）在三个级别的 ZSON 导航任务中的表现，这些任务涉及开放词汇目标物体、具有空间属性的目标物体以及具有外观属性的目标物体，结果(Result)展示现有的 ZSON 导航方法在包含动态移动障碍物的场景中仍然存在不足，且在搜寻开放词汇目标物体的效果存在较大改进空间

应用方式：具身智能、文生 3D、XR

评估结果(Result)：四种目标导航方式从第 1 级到第 3 级，所有方法的 SPL（成功(Success)率加权路径长度）都持续下降，碰撞率持续上升。由此可见现有 ZSON 方法虽然在传统 ZSON 任务中表现出色，但在包含动态移动障碍物为特征的场景中存在明显不足

绿洲：近期 Figure 01 利用(Use)神经网站进行(Carry Out)端到端视频数据分析，您如何看待 Figure 01当前技术发展？

刘教授： Figure 01 是将 OpenAI 的智能决策能力放到人形机器人的载体之上，让大家惊艳的是其硬软件及其智能部分的高质量结合。从交互可能智能性方面来看也有其他工作能达到类似能力，但能够把智能和具身载体结合得好，尤其是手部操作灵巧、效果如此丝滑的不多。

从视频和公开资料来看，Figure 01 手部操作基本是端到端，通过深度学习神经网站达成，再加上全身控制（Whole Body Control），全身控制应该是用了经典的控制方法来保证身体平衡。视频中展示的双手配合不是特别多。递苹果，移动垃圾筐，将盘子放到架子上，大部分时间是单手操作。其背后的算法在更复杂场景的能力有待评估。

目前(Currently)还没看到关于 Figure 01 数据集的形式，大概率是基于人的动作采集，不确定是公开数据集还是重新制作的专业数据集。

绿洲：您的研究主要集中在什么领域呢？

刘教授：总体来说我一直在做机器人的决策和运动规划工作，一方面是基于传统的控制可能数值优化方法，另一方面是结合大模型功能，更好的帮助机器人决控。我做完博士后之后在英伟达自动驾驶部门全职做软件开发，主要负责自动驾驶的行为规划，保证车在路上平滑行驶，同时保证安危性、舒适性等。

回到北大之后，我研究方向集中到大规模机器人集群决策和规划，以及具身智能相关的对象目标导航（Object Goal Navigation）应用，方法本身和数据集都做研究。DOZE 就是我们(We)做的一个数据集，我们(We)还做了算法让机器人更好地利用(Use)环境语义信息和地图中的关键信息量节点作决策，帮助机器人更好地找到相关物体。

绿洲：能展开说说与具身智能相关的对象目标导航（Object Goal Navigation）么？

刘教授：对象目标导航是具身智能较早的应用，该任务是指在室内未知环境中，以语言可能图片形式告诉机器人想要寻找的物体，譬如说需要找一个红色杯子，机器人根据描述找到具体属性物体。

目前(Currently)已经有一些数据集可以用于对象目标导航训练和测试。数据集分为两类，一类从真实环境中重构，比如用激光雷达可能摄像头进行(Carry Out) 3D 扫描后进行(Carry Out)数据重建，建好场景，例如 HM3D，Gibson 等。数据重建的场景非常真实，复杂度高，物品种类繁多，缺点是扫描效果还未尽人意，经常会出现中间数据缺失。因此大家很多转向在仿真环境中搭建的纯合成数据集，比较有名的是 RobotTHOR 和 HSSD-200，它们(They)具备了我们(We)需要的基本元素，包括室内环境、常见物体等，但是物品种类相对匮乏。

绿洲：DOZE 数据集解决的问题是什么呢？

刘教授： DOZE 解决了数据集中的物品种类匮乏的问题，加了四类物体到现有场景之中。

第一类是有不同属性的物体。例如一只猫可以处于不同空间位置，在椅子上可能桌子下，这种不同语义信息定义的空间概念物体过去很少出现，另外也包含具有不同外观可能纹理的同一类物体，譬如一个篮球可以有不同的颜色和花纹等等；

第二类是开放词汇物体。比如阿拉丁神灯，机器人在寻找的过程中首先要去识别物体，并把看到物体和阿拉丁神灯的概念对应上，这既考察机器人本身的定位能力，又考察机器人是否具备开放词汇（Open Vocabulary）物体识别能力；

第三类是移动物体。现实生活(Life)中房间里总会有人可能物体在运动，现有的数据集都是静态的，现有的目标导航方法也不具备对移动物体进行(Carry Out)避障的功能。

此外，我们(We)还加入了提示物体（Hint Objects），例如有一些纸片上写的部分文字信息，能够帮助机器人更快定位到要找的物体，以此考察机器人是否具备语义可能文字理解的能力。

绿洲：人形移动障碍物和提示对象数据是怎么做？

刘教授：我们(We)的仿真环境是基于数据集 ArchitecTHOR 进行(Carry Out)改造的，有十个房间，这个数据集基本上是静态的传统的对象目标导航数据集。在此之上我们(We)添加人形障碍物信息，利用(Use) Unity 3D 制作的人形物件，再人为设计动作与运动轨迹，达成环境内的行走。

提示对象中的文字信息则是在 Unity 环境中对白板物体的表面贴图进行(Carry Out)编辑，生成带文字的图片放到白板上后放入环境的恰当位置。

在这个过程中，我们(We)还使用大模型用于开放词汇形容的物件生成，对于比较新奇的物体，则使用 DreamFusion（文生3D大模型）生成。目前(Currently)文生 3D 能力有限，生成的内容需要经过筛选，如果生成的物体无法使用，我们(We)也会去找一些免费的 3D 素材进行(Carry Out)补充。

绿洲：DOZE 数据集的优势在哪里？相比过去的数据集，DOZE 在应用空间上有什么不同？

刘教授： DOZE 最大的优势在于其生成物体的多样性。DOZE 中移动障碍物，提示对象，开放词汇生成的物体有不同的属性、外观和纹理。物体的多样性能带来机器人本身更强的对未知物体和动态物体感知和应对能力，也是以往数据集无法很好考察的方向。

数据集中的训练数据永远是有限的，现实中永远有过去数据集中没有出现过的物体，开放词汇生成物体过去在计算机视觉里也是一个比较大的问题，我们(We)希望(Hope)在目标物体识别的环境理解过程中，解决感知模型的泛化能力。

从应用空间而言，DOZE 和过往的数据集类似，都强调室内环境。但传统算法放到真实环境中能力会有缺失，譬如在真实环境中要找一个带哆啦 A 梦图案的抱枕。已有的数据集上进行(Carry Out)训练并不能检测这个算法是否具有开放词汇生成物体识别的能力，会导致在传统数据上训练得非常好的识别算法在真实环境中完全找不到目标，因为它不知道什么是带有哆啦 A 梦的抱枕。但对于在 DOZE 而言，它为这类具有开放词汇能力的导航算法提供了验证平台，在 DOZE 中验证过的导航算法，在实际场景中也能保证其具有未知物体识别能力和更强的动态避障能力。

DOZE 中核心是做感知、决策、交互，在 VR 环境中可以复用的，包括通过视觉能力生成新的物体，定位建图等。

绿洲：您对 Agent 的理解是什么？

刘教授： Agent 概念在 AI 和自动化里不太一样。在 AI 中，早期 Agent 更多是一个智能体，在软件层面帮助人机交互达成决策；在自动化里，Agent 更多是一个集成载体，把智能决策过程与传统机器人领域经验进行(Carry Out)结合。再往后， Agent 软件层面智能化需求，包括大模型能力会继续变大，同时硬件层面也有很多空间。

目前(Currently)具身载体有限，四足机器人和人形双足机器人，都是仿生概念。但人有很多柔性关节可能者软组织，和机器人在能力表现上必然会有诸多不同。现在的硬件平台更多还只是关注全刚体组成，因此真正类人可能类动物的机器人硬件发展，也是将来很值得关注的方向。

绿洲：您觉得大模型对于 Agent 和具身领域带来最大的变化是什么？

刘教授：早些年，深度学习带来的变化主要集中在感知可能自然(Nature)语言处理，当年我们(We)认为神经网站是个黑盒，没有安危性保障，可解释性也很差。之后我们(We)发现神经网站最大的特点在于生成式 AI 对决策和控制规划带来了令人惊艳的能力提升。生成式 AI 对于决策规划控制的优势是对复杂、高自由度的机器人规划控制做的比较好，尤其在环境难以建模的情况之下。例如在不平坦的室外路面上行走任务，传统自动化方法需要建模，动力学模型相当复杂，但如果使用深度模型配合强化学习，就能让它在无模型的情况下不断探索环境，学出更优策略。这是我觉得这一波深度学习带来的最大进步。

传统方法能从原理上保障机器人动作模拟到真实环境的差距较小（Sim2Real Gap），但深度学习网站的动作达成效果就不一定那么好了。在决策控制层面，我觉得两条路都值得探索，一是融合神经网站的传统方法，另一种是直接的端到端方法，目前(Currently)各有优势应用领域。

绿洲：关于合成数据我们(We)听到不同声音，您如何看待合成数据的发展？

刘教授：合成数据是很有意思的话题，合成数据的同质性可能会导致用大模型训练遇到上限，但至少在具身智能领域，利用(Use)合成数据训练大模型进行(Carry Out)决策控制这条路径的性能上限还比较高，目前(Currently)离达到这一上限还有距离。短期内我们(We)更关注数据和真实场景之间的差距如何能缩小。具身智能领域的合成数据集还有很多值得挖掘的地方，这也是为什么我们(We)领域的研究人员开始往数据集中加入操作（Manipulation）的元素，上限肯定会有，合成数据在将来会变得越来越重要。

绿洲：您怎么看人形机器人形态的将来？

刘教授：人形是重要的形态之一，但不一定是将来发展的唯一方向。人形机器人强大的操控能力可以在居家环境中有很大想象空间，包括之前提到的导航、操控、交互能力。人形加上机械臂如果效果足够好，能够完成的任务就很多了。此外，人形形态能满足人们对于仿人形态的期待，也确实能够拓展能力边界，所以我觉得人形是重要的大方向之一。

当然人形也有局限，譬如载荷有限，运动能力较弱，例如双足在崎岖的路面上稳定性不如四足。因此我觉得在发展人形的同时也不应该放弃其他形态，比如在大载荷需求可能者崎岖室外环境中，地面运动的足式已经比较成熟了且比人形具有更大优势。

*马骥同学是该工作主要负责人之一，并参与了该讲稿的校对。

本文来自微信公众号“緑洲资本 Vitalbridge”（ID:Vitalbridge），作者：参赞生命力，36氪经授权发布。

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

+13

好文章，需要你的鼓励

绿洲资本特邀作者0收藏+10评论打开微信“扫一扫”，打开网页后点击屏幕右上角分享按钮微博沉浸阅读返回顶部参与评论评论千万条，友善第一条登录后参与讨论(Discuss)提交评论0/1000你可能也喜欢这些文章一家云厂商，怎么向传统行业卖大模型？ | 最前线多肽载体升级“老药”，「N1 Life」开辟研发新路径，多条管线将进入临床｜早期项目明星(Star)开始买单AI高定礼服，AI设计平台「CHIMER AI」完成数百万元种子轮融资 | 36氪首发AI独角兽融资太快，投资人开始反思130亿现金卖掉祖国创新药企，老股东爆赚N倍｜焦点分析开发碳化硅材料深刻蚀工艺，「中锃半导体」完成数千万元天使轮融资丨36氪首发「浙江奥氏」完成超亿元A轮系列融资，专注国产膜分离技术研发｜硬氪首发「世纪云安」完成数亿元A+轮融资，持续推进目的地充电智能解决方案 | 36氪首发小米汽车(Car)上市后，汽车(Car)产业生态将“卷”向何处？——九鼎投资关注最新文章推荐一家云厂商，怎么向传统行业卖大模型？ | 最前线前证监会女处长，赴任40000亿投行祖国区董事长日美欧央行将开展数字货币世界结算试验首都大学(University)刘畅教授：寻找阿拉丁神灯 —— Agent Insights米国经济(Economy)“一强”格局，美元全面走高胖东来的“导师”，前景不妙王兴减持，李想反思2024年3月河南新三板企业市值TOP100：15家企业冲击北交所企业数字化需要达成从管控到服务的进化我国数据局推进城市全域数字化转型人工智能与数据要素产业再获国策支撑

绿洲资本特邀作者

作者有点忙，还没写简介

发表文章33篇最近内容首都大学(University)刘畅教授：寻找阿拉丁神灯 —— Agent Insights23分钟前具身智能的月亮与六便士2024-04-01华中科技(Technology)大学(University)陈伟教授：Grey s Agent | Agent Insights2024-04-01阅读更多内容，狠戳这里下一篇米国经济(Economy)“一强”格局，美元全面走高

英国(Britain)LSEG的数据显示，从市场预测的截至6月的降息概率来看，米国为60.6%，而欧洲是82.7%，欧美的差异明显。

23分钟前

热门标签急先锋黑河中俄首都航空米国警察事件营销海报字体地球物理学cut鲜榨玉米汁彭小峰郭家学艾佳张嵩保时捷718跑车排行榜玛丽·盖茨红海igg美食(Food)家潘龙江王喆生活(Life)家生活(Life)家装饰张若兰阿甘阿甘精神黄金储备农庄岗位工资关于36氪城市合作寻求报道我要入驻投资者关系商务合作关于我们(We)联系我们(We)加入我们(We)网站谣言信息举报入口热门推荐热门资讯热门产品文章标签快讯标签合作伙伴