AI在线 AI在线

微软开源多模态AI Agent “Magma”:为购物和机器人操作带来新体验

微软在其官网上正式发布了多模态 AI Agent 基础模型 “Magma”,并进行了开源。 这一新兴技术相较于传统的智能助手,展现出了更为强大的多模态能力,能够处理图像、视频、文本等多种数据形式,打破了数字与物理世界之间的壁垒。 Magma 不仅可以帮助用户在电商平台上自动下单,查询天气等日常事务,还能与实体机器人协作,执行更复杂的操作。

微软在其官网上正式发布了多模态 AI Agent 基础模型 “Magma”,并进行了开源。这一新兴技术相较于传统的智能助手,展现出了更为强大的多模态能力,能够处理图像、视频、文本等多种数据形式,打破了数字与物理世界之间的壁垒。

Magma 不仅可以帮助用户在电商平台上自动下单,查询天气等日常事务,还能与实体机器人协作,执行更复杂的操作。比如,在下真实象棋时,Magma 能够为用户提供实时的策略建议,大大增强了游戏体验。同时,它具备心理预测功能,能够推测视频中的人物或物体的未来行为,让虚拟助手或机器人更好地理解周围的动态环境并做出相应反应。

image.png

根据官方介绍,Magma 的应用场景非常广泛。它不仅能帮助家用机器人学习如何整理那些它从未见过的物品,还能为虚拟助手生成不熟悉任务的逐步用户界面导航说明。这样的功能,使得用户在面对新环境或新任务时,能得到更为精准的帮助和指引。

image.png

Magma 是属于视觉语言动作(VLA)基础模型的一部分,能够通过海量公开视觉和语言数据进行学习。这一能力使得 Magma 能有效融合语言、空间和时间智能,为用户在数字与物理世界中的复杂任务提供解决方案。

Magma 的开源为开发者和研究人员提供了一个强大的工具,促进了智能助手和家用机器人的进一步发展。未来,随着这一技术的不断完善,我们或许能够在日常生活中看到更多基于 Magma 的创新应用。

项目地址:https://microsoft.github.io/Magma/

相关资讯

​微软开源全新多模态 AI Agent “Magma”:可自动下单与行为预测

近日,微软在其官网正式开源了一款名为 “Magma” 的多模态 AI Agent 基础模型。 这款新型人工智能具有跨越数字和物理世界的能力,能够同时处理图像、视频、文本等多种数据类型。 与传统的 AI 助手相比,Magma 的独特之处在于其心理预测功能,使其能够更加准确地理解视频中人物或物体的意图及未来行为。
2/26/2025 9:13:00 AM
AI在线

微软团队推多模态AI模型Magma:整合视觉、语言和动作决策技能

近日,微软研究团队联合多所高校的研究人员,发布了一款名为 “Magma” 的多模态 AI 模型。 这款模型的设计旨在处理和整合图像、文本和视频等多种数据类型,以便在数字和物理环境中执行复杂任务。 随着科技的不断进步,多模态 AI 代理正在被广泛应用于机器人技术、虚拟助手和用户界面自动化等领域。
2/20/2025 9:30:00 AM
AI在线

AI助力网络安全,从被动反应到主动防御的新时代

在当今数字化时代,网络安全正经历一场前所未有的变革。 传统的网络安全防护方法通常是反应式的,依赖于手动监测和静态警报,而如今,人工智能(AI)的应用正在推动网络安全进入一个主动防御的新阶段。 AI 系统的核心是智能代理,这些代理能够实时处理海量数据,学习用户行为模式,并识别可能的安全威胁。
4/28/2025 3:00:51 PM
AI在线
  • 1