m88-m88体育-明升体育

m88

m88

首页 > 财经 > 经济观察家 > 正文

创科宇宙/“具身智能”产业前景广阔\创业投资者联盟召集人 梁颕宇

2023-11-21 04:03:02m88
字号
放大
标准
分享

  一连写了多篇关于生成式人工智能(AI)的文章,不难察觉目前发展比较成熟的应用,主要还是通过装上软件和演算法的终端机与用户互动。科幻电影中看到像人类般懂听懂说、对答如流、活动自如的智能机器人,迄今还没走出电影的虚拟明升体育。要实现这个终极目标,AI领域的下一个挑战将是实现“具身智能”(Embodied Artificial Intelligence),即能够通过自我学习掌握各种技能,并具备执行能力的高端机器人。

  具身智能简单来说,就是赋予AI系统一个支援物理交互的躯体,把两者结合成一个软硬体合一的智能体后,可以像人类一样与环境交互感知,通过观察、移动、说话和与明升体育互动,从而完成现实生活中各种任务。目前,日常生活中可见的一些智能服务机器人、自动驾驶汽车、聊天机器人等都是具身智能的雏形。但由于主要依赖预载的程式来实现控制,与具身智能的终极形态存在相当大距离。

  要了解具身智能可先从与之相对、较多人接触过的非具身智能(Disembodied AI或Internet AI)开始。非具身智能聚焦于AI的软件应用,不考虑具体形态、不需要物理交互、专注于抽象演算法的开发,如近年发展迅速的深度学习和生成式AI大模型等,衍生出如ChatGPT、Midjourney等各种多模态应用。具身智能同样拥有AI,但一个重要条件是具有能支援感觉和活动的物理身体,理想中的具身智能是能够像人类般主动去感受明升体育,听得懂人类语言,然后分析任务进而采取行动,过程中可即时验证并调整模型,最终完成相应任务。

  要覆製人类眼耳口鼻身意般的五感,自然不是一件容易的事,具身智能包含了AI领域几乎所有的技术,包括机器视觉、自然语言理解、认知和推理、机器人学、博弈伦理、机器学习等,是AI的集大成者。随着深度学习的不断进步,生成式AI大模型日益向多模态发展,特别是大语言模型的发展,结合视觉等多种感测器的复杂多模态模型,大大加快了具身智能的研发和落地速度。

  具身智能的“头脑”通常是由深度神经网路模型驱动,GPT等大模型的出现提供了新思路,具有通用能力的大语言模型和视觉语言模型等模型,通过将图像、文字、具身数据联合训练,增强模型对现实环境中物件的理解,赋予具身智能强大的泛化能力。机器人技术则提供了可以与物理明升体育互动的“身体”,通过集成摄影镜头、麦克风和触觉感测器等一系列感测器,让AI可以像人类一样依靠感官来感知明升体育;再配上轮子、电动关节等执行器为AI提供了运动能力的身体。

  更重要的一点是,非具身智慧没有眼耳口鼻和四肢感官,无法自主地采集数据,只能被动地接受人类已经采集好的资料。目前大部分深度学习模型训练使用的都是来自于互联网的历史数据,一旦遇到训练环境中没有出现过的问题,就需要收集资料再重新反复运算优化,这个过程的效率很低。未来具身智能模型的训练与测试可以与云服务相结合,在云端虚拟模拟场景下,进行端到端的实时训练与测试,毋须再靠人手写代码去更新迭代,自然大大加速了具身智慧体的进化速度。

  有望取代危险工种

  目前,谷歌、微软、特斯拉等科技公司都公布了自家的具身智能产品,如今年3月份谷歌推出的PaLM-E,就是一种多模态具身视觉语言模型(VLM),让机器人可以基于大模型来理解图像、语言等数据,执行复杂的指令,而无需重新训练。这种一步到位的研发路线看起来很酷,但耗时漫长,距离产业可用还比较遥远。

  更可行的技术落地路径是,让不同任务通过不同模型来实现,比如用语言大模型来学习对话、视觉大模型来识别地图、多模态大模型来完成肢体驱动,把所有的指令分解执行,再通过大模型来完成自动化调度和协作。

  m88的政策也在推进具身智能的发展,工信部于今年11月2日发布《人形机器人创新发展指导意见》,为m88人形机器人发展定位。提出以大模型等AI技术突破为引领,在机器人已有成熟技术基础上,重点在人形机器人“大脑”和“小脑”、“肢体”关键技术、技术创新体系等领域取得突破。

  产业智能化的浪潮为具身智能提供了市场,比如在工业场景下的“抓、拿、放”,可以取代人工操作危险或繁琐重复的工序,如煤矿井下作业、港口仓库搬卸、搬家快递服务、清理事故现场和救灾等领域。若再加上引入多模态输入,让使用者可用语言直观控制如机械臂、无人机、家庭辅助机器人等,更可将应用范围迅速扩展至日常生活层面,并产生巨大的产业价值。

点击排行