OmniParser
微软发布 OmniParser V2.0:把屏幕截图转化成LLM可处理的结构化格式
微软近日发布了 OmniParser V2.0,这是一个旨在将用户界面(UI)截图转换为结构化格式的全新解析工具。 OmniParser 能够提高基于大型语言模型(LLM)的 UI 代理的性能,帮助用户更好地理解和操作屏幕上的信息。 该工具的训练数据集包括一个可交互图标检测数据集,该数据集从热门网页中精心挑选并自动注释,以突出可点击和可操作的区域。
2/17/2025 10:28:00 AM
AI在线
DeepSeek 等秒变操控电脑 AI 智能体,微软开源工具 OmniParser V2.0 发布
微软 OmniParser 是一款基于纯视觉的 GUI 智能体解析和识别屏幕上可交互图标的 AI 工具,此前搭配 GPT-4V 可显著增强识别能力。
2/17/2025 9:16:40 AM
汪淼
微软开源 OmniParser 纯视觉 GUI 智能体:让 GPT-4V 秒懂屏幕截图,可操控手机 / 电脑
科技媒体 marktechpost 于 10 月 24 日发布博文,报道称微软公司宣布开源 OmniParser,是一款解析和识别屏幕上可交互图标的 AI 工具。 项目背景传统的自动化方法通常依赖于解析 HTML 或视图层次结构,从而限制了其在非网络环境中的适用性。 而包括 GPT-4V 在内的现有的视觉语言模型(VLMs),并不擅长解读复杂 GUI 元素,导致动作定位不准确。
10/29/2024 10:01:35 AM
故渊
控制电脑手机的智能体人人都能造,微软开源OmniParser
大模型控制计算机果真就是未来方向? 最近这几天,让大模型具备控制计算机(包括电脑和手机)的相关研究和应用如雨后春笋般不断涌现。 先是 Anthropic 发布了能控制计算机的新版 Claude 3.5 Sonnet,之后荣耀 MagicOS 9.0 来了个全局智能体,再然后,昨天智谱发布了具备「全栈式工具使用能力」的 AutoGLM,同时华为也公布了一项可让 AI 像人类一样操作手机的新研究成果 LiMAC。
10/26/2024 3:10:00 PM
机器之心
- 1
资讯热榜
标签云
人工智能
AI
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
谷歌
数据
机器人
大模型
Midjourney
用户
智能
开源
微软
Meta
GPT
学习
图像
技术
AI创作
Gemini
论文
马斯克
Stable Diffusion
算法
英伟达
代码
Anthropic
芯片
开发者
生成式
蛋白质
腾讯
神经网络
训练
3D
研究
生成
智能体
苹果
计算
机器学习
Sora
AI设计
Claude
AI for Science
GPU
AI视频
人形机器人
搜索
华为
百度
场景
大语言模型
xAI
预测
伟达
深度学习
Transformer
LLM
字节跳动
Agent
模态
具身智能
神器推荐
工具
文本
视觉
LLaMA
算力
Copilot
驾驶
大型语言模型
API
RAG
应用
架构