个人科技雷达

36氪05/26 18:29

机器人启蒙，需要一所能“犯错”的幼儿园

2024年，强化学习奠基人理查德·萨顿与他的导师安德鲁·巴托共同获得了图灵奖。这个奖项来得不算早。过去三十年，萨顿的理论支撑了AlphaGo、ChatGPT等系统的进化，但他三十年前写下的理论，直到今天才被具身智能行业真正理解：智能体要从试错中学习，要从真实经验里进化。 2023年，萨顿参与创办非营利研究机构Openmind。2025年4月，萨顿在联合发表的文章《欢迎来到经验时代（Welcome to the Era of Experience）》中，再次一针见血地指出： “新一代智能体，必须拥有像人类一样在长时间尺度上不断推进的经验流，在真实的物理反馈中实现自我进化。” 这一次，除了理论之外，萨顿把目光投向了更远的地方。今年5月，萨顿与他山科技在加拿大正式签约，以长期合作的形式共同推进一个名为“机器人幼儿园”的项目。一位图灵奖得主，与一家中国触觉公司一拍即合，共同为具身智能的下一个十年提前做出了判断：训练机器人的全新路径，也许就在真实的触摸与试错之中。具身智能，缺的是“第一人称经验” 他山科技CEO马扬给出了一个很直白的判断。机器人要干活，无非解决两个问题：一个是机器人自己在物理世界的里移动，通过双足、四足、轮式等途径，很多公司都在做。另一个就是操作目标物体，用手去抓、去放、去拧，行为流畅且不会被上一个动作的偏差打断。这两件事加起来，基本能覆盖目前人类需要机器人做的90%-95%的工作。从一开始，他山科技想的就是从触觉切入，做好后面这件事。 2017年他山科技刚成立的时候，大多数机器人厂商都在做移动平台，展示的是跑跳翻滚的能力。然而，人类90%以上的物理交互，其实是通过手指完成的。手指不像腿，它要一直和不同的目标物体接触，感知、决策、调整，是一个难而持续的过程。把具身智能的“手指位置”解决好，触觉感知能力是一个核心变量，也是“让机器人干活”的底层方法论。在这条路上，他山科技一做就是将近十年。具身智能的主流训练方向，依赖的是静态数据集下端到端的模仿，就像在套用题库。人类演示的数据，本质上是第二人称经验，机器人在学习人的做法，但不能亲手“摸”出来，也就无法理解物理世界的运作规律。他山科技很早就意识到这条路线面临的问题：正如人类幼年时需要从模仿和实践中成长，机器人“启蒙”训练需要的不仅是模仿，更是属于自己的第一人称经验。在行动中感知后果、在反馈中调整行为的训练方式，可能是最接近能让具身智能进行“自我训练”的方法论。这个判断，与萨顿的想法不谋而合。萨顿提出的“经验流”概念，要求智能体的学习过程与行为过程完全融合，每一次行动都是数据采集，每一次反馈都是训练信号。因此，能提供第一人称体验的真实环境，是这个概念落地的关键。然而，它长期停留在理论层面，也正是因为真实的物理环境提供不了低成本、高频率、标准化的交互反馈。长期以来，具身智能行业都

AI大模型机器人 / 具身