近年来,飞速发展的AI大模型技术在一些细分领域取得了可以媲美甚至超过人类的成绩,同时也推动了具身智能技术的发展,持续赋能传统物理实体(比如工业机械臂、人形态机器人等)实现与物理世界进行复杂的交互。然而,通用AI大模型与具身智能行业大脑之间存在较大的行业gap,其核心是通用AI大模型对与具身智能场景的域适应能力弱。因此,需要研发机器人领域自己的专用大脑。国内机器人大脑创业公司方兴未艾,位于深圳、依托哈工大(深圳)成立的“若愚科技”就是当下国内少数专注多模态大模型机器人大脑研发的公司之一。
36氪近日获悉,若愚科技推出的若愚九天机器人大脑,实现了多模态大模型驱动下的群体智能,并通过无人厨房环境进行技术方案验证,驱动多智能体掌勺无人厨房。通过人类自然语言与多个机器人交互完成从点菜到上菜的全流程,将“炒菜”的长序列任务进行自主规划。与当下市面上常见具身智能技术不同,若愚九天机器人大脑能够实现人类意图理解、高频人机交互和复杂任务规划等功能。
自然语言交互(使用者0学习成本)
长序列任务规划(快速生成复杂任务规划)
当人类提出“来一份清炒生菜”的需求时,机器人能自主理解人类意图并规划任务,分解成“到食材区捡菜”、“到预备区称重”、“到制作区炒菜”、“到消费区上菜”等多个步骤。
而且若愚九天机器人大脑具有一定“举一反三“的泛化能力。例如,训练模型的时候,只是告诉它要加蒜,没有训练过加辣椒。但之后如果人要求机器人加辣椒,它可以自动理解蒜和辣椒都属于配料,知道该在加蒜的环节替换成辣椒。
若愚九天机器大脑的另一大突破是多模态大模型驱动下的群体智能,赋予多智能体自主分工协作能力。简单来说,是“一个大脑,多个身体”,多台机器人(包括机械臂和AGV)由若愚九天大脑集中控制。“多个机器人协同高效率执行复杂任务,这些不同任务之间有复杂的依赖关系。例如,两台机器人在炒菜的同时,另一台机器人去拿碗筷。如果因为菜品制作工序临时变化,导致炒菜时间延长,另一台机器人拿完碗筷后,可以自主决定继续拣选下一道食材,而不是干等着,从而提高效率。机器人大脑会自主规划任务逻辑,让所有机器人尽可能不停下,同时又确保协作的安全性。这是基于传统规则的示教方法很难实现的。”若愚科技首席产品官邓煜平表示。
大模型驱动的群体智能(赋予多智能体自主分工协作能力)
若愚九天机器大脑除了在机器人大脑层面上实现了技术突破,为了进一步推动落地,他们还在控制机器人执行层面的小脑方面做了技术优化。例如,针对多样环境感知难的挑战,若愚科技研发了大模型3D可供性感知技术,对物体功能可供性区域感知,可免注册、抗复杂光、抗堆叠地抓取多种物体。
3D智能识别与抓取(免注册、堆叠、抗复杂光)
针对“机器人从配料盒倒取蒜蓉”、“用铲子从锅中倒取成品菜”等复杂动作执行难的挑战,若愚科技提出了扩散模型驱动的模仿学习技术,实现复杂技能和动作的精准执行。同时,结合多模态大模型驱动的机器人多臂协同技术,大幅提升了目标任务的协作能力与执行效率。
扩散模型驱动的复杂动作执行(无需现场示教,精准执行)
大模型驱动的双臂协作(大幅提升协作能力与效率)
目前,国际上的具身智能大脑成果包括谷歌人工智能团队的PaLM-E、谷歌DeepMind团队的RT-1/RT-2/RT-X、Open AI投资的Physical Intelligence等等。
深圳若愚科技有限公司成立于2023年,孵化自哈尔滨工业大学(深圳)计算与智能研究院团队,核心团队凝聚了当前多媒体、NLP和具身智能领域数十余位国家级领军人才和青年人才,涵盖大模型研发的各个方向,包括具身智能、内容理解、内容生成和大模型轻量化与压缩等领域。
据36氪此前报道,若愚科技于今年3月完成超5000万天使轮融资,本轮投资方有东方精工和昆仲资本,源合资本担任独家融资顾问。公司称,资金将主要用于产品研发,业务拓展以及团队搭建等方面。
36氪获悉,若愚科技已与东方精工集团达成合作,东方精工集团目前已成为国际瓦楞纸包装智能装备龙头、国内数码印刷设备领军者以及水上动力设备头部企业,不断拓展智慧工厂行业新业务,实现智能装备制造商向智慧工厂整体解决方案服务商的升级,能为若愚科技提供丰富的工业场景数据和下游企业客户,而若愚科技的机器人大脑能赋能东方精工集团核心智能装备,提高东方精工核心产品的智能化水平。
若愚科技联合创始人兼首席执行官孙腾博士表示:“若愚科技的九天机器人大脑以及机器人小脑的技术突破,可以进一步应用到工业领域的复杂工序,例如焊接、打磨、点胶,物流领域的分拣与混合码垛,商业领域的无人零售、无人药房、立体清洁,未来还可进一步延展到消费领域。目前,若愚科技也已经在某些特种领域,与产业伙伴针对特定场景,共同打造更加智能的机器人,把人从危险、繁重、重复的劳动中解放出来,为行业提质增效、打造新质生产力。”
责编:张靖雯、王瑞景