轨迹
312条轨迹助力241%性能提升,上交大与SII开源电脑智能体引领新潮流
在电脑智能体(Computer Use Agent)领域,最近有一个激动人心的进展。 上海交通大学与 SII 的研究团队,借助仅312条人类标注的操作轨迹,成功训练出了名为 PC Agent-E 的新一代开源电脑智能体,其性能提升高达241%,超越了著名的 Claude3.7Sonnet,成为 Windows 系统上的新一代最优模型。 自从 Anthropic 推出 Claude Computer Use 以来,电脑智能体的发展一直备受关注。
5/26/2025 9:01:10 AM
AI在线
微软支持的 AI 模型颠覆飓风预测,速度与成本双双优于传统方法
近日,科学家开发出了一种名为 “Aurora” 的机器学习模型,它在热带气旋轨迹预测方面表现优于官方机构,并且速度更快、成本更低。 Aurora 是由微软、宾夕法尼亚大学及其他机构的研究人员共同研发的基础模型,旨在提升地球系统预测的速度和准确性,涵盖空气质量、海洋波动、热带气旋轨迹以及高分辨率天气等领域。 图源备注:图片由AI生成,图片授权服务商MidjourneyAurora 的联合作者、宾夕法尼亚大学机械工程及应用力学副教授巴黎・佩尔迪卡里斯(Paris Perdikaris)表示,Aurora 类似于大型神经网络,能够从过去的地球物理数据中学习,预测复杂的物理过程,而不再依赖传统的物理方程。
5/22/2025 11:00:55 AM
AI在线
重新思考轨迹预测 | 复旦提出PIFM:如何将规划引入预测?
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面 && 笔者理解传统的自动驾驶主要可以分为感知、预测、规控三个大的部分,其中预测模块承担着十分重要的角色,为下游规划路径提供重要的信息。 然而,现实世界驾驶环境的复杂性,其中包括多个动态智能体(如车辆和行人)之间的相互作用,给预测造成了不小的挑战。
11/5/2024 9:41:27 AM
Yunhao Liu等
“神笔马良版 Sora”,阿里团队推出视频 AI 生成框架 Tora:画圈操控物体运动轨迹
阿里团队最新推出了 AI 视频生成框架 Tora,同时集成了文本、视觉和轨迹条件用于生成视频,是基于轨迹导向的扩散变换器(DiT)技术。Tora 由一个轨迹提取器(TE)、一个时空 DiT 和一个运动引导融合器(MGF)组成:TE 使用 3D 视频压缩网络将任意轨迹编码为分层时空运动补丁。MGF 将运动贴片集成到 DiT 模块中,以生成遵循轨迹的连贯视频。Tora 无缝契合 DiT 设计,支持制作最长 204 帧、720P 分辨率的视频,可以精确控制不同持续时间、宽高比和分辨率的视频内容。大量实验证明,Tora 在
8/6/2024 10:08:40 AM
故渊
几何深度学习揭示微观运动的时空特征
编辑 | 白菜叶生命系统中动力学过程的表征为其机械解释和与生物功能的联系提供了重要线索。由于显微镜技术的最新进展,现在可以在生理条件下以多个时空尺度常规记录细胞、细胞器和单个分子的运动。然而,在拥挤和复杂的环境中发生的动态自动分析仍然落后于微观图像序列的获取。在这里,哥德堡大学的研究人员提出了一个基于几何深度学习的框架,可以在各种生物学相关场景中实现对动力学特性的准确估计。这种深度学习方法依赖于由基于注意力的组件增强的图形神经网络。通过使用几何先验处理对象特征,网络能够执行多项任务,从将坐标链接到轨迹到推断局部和全
2/23/2023 5:53:00 PM
ScienceAI
ICLR 2022 | 操作3D铰接物体的视觉操作轨迹学习
本文是 ICLR 2022入选论文《VAT-Mart: Learning Visual Action Trajectory Proposals for Manipulating 3D ARTiculated Objects》的解读。该论文由北京大学前沿计算研究中心董豪课题组与斯坦福大学、腾讯人工智能实验室合作完成。文章提出了一种新型的物体功能可操作性表示,设计了一个通过交互进行感知学习的框架以学习这个表示,并在多样的物体上完成操作任务。
7/18/2022 5:05:00 PM
北京大学前沿计算研究中心
RoLAP 实验室|基于凸凸凸的工业臂柔性规划系统
大界成立的RoLAP实验室(RoboticPlus Laboratory for Autonomy and Perception),由中科院博士后、加州理工物理学博士、大界首席科学家周诚喆领衔,聚集了一批专业的硕博团队,致力于研究工业机器人在智能制造场景下的视觉感知(眼)、运动规划(手)、场景理解(大脑)的协同闭环系统。本文将基于RoLAP实验室的研究成果,为各位读者深度解析机械臂运动规划的关键技术。一. 背景介绍随着科学技术的发展,机器人技术正在被广泛应用到各种结构化的场景,比如3C消费电子和汽车工厂等标准化制造
6/17/2022 2:39:00 PM
新闻助手
JUST技术:提升基于GPS轨迹的路网推测精确度
路网数据对于城市中的很多应用,比如车载导航和线路优化等,都非常重要。传统的道路数据采集方法依赖于采集车,消耗大量的人力物力。随着GPS设备的普及,海量轨迹数据在城市里产生,使我们能够用轨迹数据去生成路网。这个问题在近十年中已经有了广泛的研究,但是其中很多方法的精确度(precision)并不高,特别是上下道路,平行道路等地方。由于轨迹数据在城市内并不是均匀分布的,对于那些车辆频繁通行的地方,我们有没有办法进一步提高这些区域路网推测的精确度呢?
4/7/2021 10:54:00 AM
京东科技开发者
- 1
资讯热榜
智谱AI全新企业级超级助手Agent CoCo正式上线
苹果发布全新Xcode 26开发者工具:内置ChatGPT先进AI功能
豆包App“一句话P图”功能全新升级 基于SeedEdit 3.0实现全面优化
DeepSeek前高管秘密创业,新AI Agent项目已获顶级VC押注
Google AI Studio 政策变动:Gemini2.5Pro 模型免费访问遭“限流”
那个男人回来了!Ilya现身多伦多大学毕业典礼:AI 像是用数字方式复制出来的大脑!不管你愿不愿意,AI都将深刻影响你的一生!
ChatGPT 语音功能升级,实时翻译对话更自然流畅
苹果向开发者开放本地AI能力,推出全新Foundation Models框架
标签云
人工智能
AI
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
谷歌
数据
机器人
大模型
Midjourney
用户
智能
开源
微软
GPT
学习
Meta
图像
技术
AI创作
Gemini
论文
马斯克
Stable Diffusion
算法
英伟达
代码
Anthropic
芯片
开发者
生成式
蛋白质
腾讯
神经网络
训练
3D
研究
生成
智能体
苹果
计算
Sora
机器学习
AI设计
Claude
AI for Science
GPU
AI视频
人形机器人
搜索
华为
百度
场景
大语言模型
xAI
预测
伟达
深度学习
Transformer
LLM
字节跳动
Agent
模态
具身智能
神器推荐
工具
文本
视觉
LLaMA
算力
Copilot
驾驶
大型语言模型
API
RAG
应用
架构