黄仁勋表示,人工智能的下一个浪潮将是具身智能(embodied AI),即能理解、推理、并与物理世界互动的智能系统,一台具身智能机器人将首先可以听懂人类语言,之后分解任务、规划子任务,移动中识别物体,与环境交互,最终完成相应任务。
简单来说,具身智能机器人就是一个足够聪明的AI大脑,再加上足够灵活的躯体,它能通过话语、文字乃至图像等多样方面信息理解我们的指令,并与环境进行交互完成相应的任务。
具身智能赋予机器人智慧“大脑”
机器人作为现代应用科技的集大成者,被寄予了厚望,比如帮助我们处理各种繁杂的事务,包括做饭、清洁、照顾老人等,更大的甚至是提高生产力,让物资变得极大丰富,造福全人类,而要实现这一切的前提,就是要让机器理解人类社会,要做到这一点,目前给出的方法就是具身智能。
普通的人工智能只能机械的接收数据,让它学习什么它就学习什么,而具身智能拥有一种新的机器自主学习方式,能够以第一人称的视角来感知和学习物理世界,并像人类一样理解和感知事物,从而做出人类期待的行为反馈。
具身智能机器人也是凭此才能在物理世界中进行操作和感知,输出各种机械动作,并且具身智能通过对物理环境的感知和实际操作,可以获得更全面的信息和数据,进一步提高机器人对环境的理解和决策能力。
通过具身智能,就可以让机器人摆脱必须由程序代码来控制的依赖,而是直接和人类对话,接受人类的指令来行动,可以与人、与环境进行交互,正是具身智能机器人最大的特点所在。
具身智能毫无疑问将成为未来人工智能发展的重要方向,北京日前发布的《北京市促进通用人工智能创新发展的若干措施(2023-2025年)(征求意见稿)》,就提到探索具身智能、通用智能体和类脑智能等通用人工智能新路径,包括推动具身智能系统研究及应用,突破机器人在开放环境、泛化场景、连续任务等复杂条件下的感知、认知、决策技术。
微软、谷歌、阿里正积极探索
目前,具身智能已经成为国际学术前沿研究方向,在市场上各大企业同样不甘落后,如微软、谷歌、阿里等都开始了自己的发展计划。
微软正计划将ChatGPT 的能力扩展到机器人领域,使得能用语言文字控制机器人,据了解,目前实验已经能够通过给ChatGPT的对话框输入指令,让其控制机器人在房间中找到“健康饮料”、“有糖和红色标志的东西”(在这种情况下,是一罐可乐),以及一面供无人机自拍的镜子。
微软研究人员表示:“研究的目标是看ChatGPT是否能超越生成文本的范畴,对现实世界状况进行推理,从而帮助机器人完成任务。”微软希望帮助人们更轻松地与机器人互动,而无需学习复杂的编程语言或有关机器人系统的详细信息。
谷歌则推出了多模态具身视觉语言模型PaLM-E,它不仅可以理解图像,还能理解、生成语言,PaLM-E能完成具身推理任务,即让机器人在虚拟或真实的环境中,通过多模态的输入(如语言、视觉、触觉以及机器人的3D空间状态信息等),完成一些需要常识和逻辑推理的任务而无需重新训练。
在测试中,由PaLM-E控制的机器人能完成去抽屉拿薯片的任务,根据谷歌的说法,当给出一个高级命令时,比如“把抽屉里的薯片拿给我”,PaLM-E可以为一个有手臂的移动机器人平台生成一个行动计划并执行自己的行动。PaLM-E通过分析来自机器人相机的数据来实现这一点,而无需对场景进行预处理,这消除了人类预处理或注释数据的需要,并允许更自主的机器人控制。
阿里采用的是和微软相似的路径,此前阿里巴巴董事会主席兼CEO张勇透露,阿里云工程师正在实验将千问大模型接入工业机器人,在钉钉对话框输入一句人类语言,即可远程指挥机器人工作,当天,阿里云发布的一个演示视频,展现了这一实验成果。
在展示的视频中可以看到,“我渴了,找点东西喝吧”工程师通过钉钉对话框向机器人发出指令,千问大模型在理解了指令内容后,在后台自动编写一组代码发给机器人,然后机器人开始识别周边环境,从附近的桌上找到一瓶水,并自动完成移动、抓取、配送等一系列动作,顺利递送给工程师。
一台实用的机器人可以分为三大环节——感知、理解和执行,其中感知和执行依赖机器人的物理外设,包括传感器和各种硬件单元,而理解依靠的就是人工智能,事实上这也是最薄弱的方面,如今具身智能正是为了解决机器人的理解问题,一旦获得突破,那么科幻中的机器人似乎也不是那么遥不可及了。
具身智能成机器人最火热的方向,微软、谷歌、阿里纷纷入局
您觉得本篇内容如何
评分
声明:本文内容及配图源自互联网收集,目的在于传递更多信息,并不代表本网赞同其观点或证实其内容真实性,不承担此类作品侵权行为的直接责任及连带责任。如涉及作品内容、版权等问题,请联系本网处理,侵权内容将在一周内下架整改。