机器人 / 具身

聚合最近三天命中该分类的公开资讯,适合快速观察这个主题在不同来源里的密度与变化。

机器人启蒙,需要一所能“犯错”的幼儿园
36氪

机器人启蒙,需要一所能“犯错”的幼儿园

2024年,强化学习奠基人理查德·萨顿与他的导师安德鲁·巴托共同获得了图灵奖。 这个奖项来得不算早。过去三十年,萨顿的理论支撑了AlphaGo、ChatGPT等系统的进化,但他三十年前写下的理论,直到今天才被具身智能行业真正理解: 智能体要从试错中学习,要从真实经验里进化。 2023年,萨顿参与创办非营利研究机构Openmind。2025年4月,萨顿在联合发表的文章《欢迎来到经验时代(Welcome to the Era of Experience)》中,再次一针见血地指出: “新一代智能体,必须拥有像人类一样在长时间尺度上不断推进的经验流,在真实的物理反馈中实现自我进化。” 这一次,除了理论之外,萨顿把目光投向了更远的地方。 今年5月,萨顿与他山科技在加拿大正式签约,以长期合作的形式共同推进一个名为“机器人幼儿园”的项目。 一位图灵奖得主,与一家中国触觉公司一拍即合,共同为具身智能的下一个十年提前做出了判断:训练机器人的全新路径,也许就在真实的触摸与试错之中。 具身智能,缺的是“第一人称经验” 他山科技CEO马扬给出了一个很直白的判断。机器人要干活,无非解决两个问题:一个是机器人自己在物理世界的里移动,通过双足、四足、轮式等途径,很多公司都在做。 另一个就是操作目标物体,用手去抓、去放、去拧,行为流畅且不会被上一个动作的偏差打断。这两件事加起来,基本能覆盖目前人类需要机器人做的90%-95%的工作。 从一开始,他山科技想的就是从触觉切入,做好后面这件事。 2017年他山科技刚成立的时候,大多数机器人厂商都在做移动平台,展示的是跑跳翻滚的能力。 然而,人类90%以上的物理交互,其实是通过手指完成的。 手指不像腿,它要一直和不同的目标物体接触,感知、决策、调整,是一个难而持续的过程。 把具身智能的“手指位置”解决好,触觉感知能力是一个核心变量,也是“让机器人干活”的底层方法论。在这条路上,他山科技一做就是将近十年。 具身智能的主流训练方向,依赖的是静态数据集下端到端的模仿,就像在套用题库。人类演示的数据,本质上是第二人称经验,机器人在学习人的做法,但不能亲手“摸”出来,也就无法理解物理世界的运作规律。 他山科技很早就意识到这条路线面临的问题:正如人类幼年时需要从模仿和实践中成长,机器人“启蒙”训练需要的不仅是模仿,更是属于自己的第一人称经验。 在行动中感知后果、在反馈中调整行为的训练方式,可能是最接近能让具身智能进行“自我训练”的方法论。 这个判断,与萨顿的想法不谋而合。 萨顿提出的“经验流”概念,要求智能体的学习过程与行为过程完全融合,每一次行动都是数据采集,每一次反馈都是训练信号。因此,能提供第一人称体验的真实环境,是这个概念落地的关键。 然而,它长期停留在理论层面,也正是因为真实的物理环境提供不了低成本、高频率、标准化的交互反馈。长期以来,具身智能行业都