模型

阿里通义千问 QwenQ-32B 上线中科院科研项目大规模接入

3/27/2025 5:56:00 PM AI在线

AI “看图说话” 更懂细节！腾讯开源多模态理解技术HaploVL

3月27日，腾讯开源团队宣布推出了一项创新的多模态理解技术——HaploVL。这一技术旨在通过单个Transformer架构实现高效的多模态融合，显著提升AI在视觉和语言交互中的表现，特别是在细粒度视觉理解任务上。在人工智能领域，多模态大模型（LMMs）近年来迅速崛起，它们能够实现复杂的视觉-语言对话和交互。

3/27/2025 5:36:00 PM AI在线

Agent太火！看这一篇综述，知识就不会学杂了丨华东师大&东华大学出品

火，Agent可太火了！关于Agent的进展俯拾皆是，根本看不过来……看过来——这篇综述可能能帮你厘清很多问题：来自华东师大和东华大学的研究团队发表了“A Survey on the Optimization of Large Language Model-based Agents（大模型智能体的优化方法综述）”，首次从系统化视角对LLM智能体优化策略进行了全面梳理与分析。论文将将现有方法划分为两大类：参数驱动的优化与参数无关的优化。

3/27/2025 1:30:57 PM 量子位

7B模型搞定AI视频通话，阿里最新开源炸场，看听说写全模态打通，开发者企业免费商用

深夜重磅！阿里发布并开源首个端到端全模态大模型——通义千问Qwen2.5-Omni-7B，来了。仅靠一个一体式模型，就能搞定文本、音频、图像、视频全模态，并实时生成文本和自然语音。

3/27/2025 1:23:39 PM 量子位

2025苹果AI学者名单公布，黄子琪、孔令东、北大吉嘉铭、清华顾煜贤等12位年轻华人入选

刚刚，苹果机器学习研究中心（Apple Machine Learning Research）正式公布了 2025 年 AI（人工智能）、ML（机器学习）领域获得博士生奖学金的「苹果学者」名单。今年共有 21 位年轻学者获得了苹果学者计划的资助，华人占了一半多。苹果博士奖学金旨在奖励和支持计算机科学与工程领域极具潜力的博士研究生开展研究，每年颁发一次，今年已是第六年。

3/27/2025 1:02:21 PM 机器之心

纯RGB输入，解决户外场景SLAM！误差降低至9.8%，港科广开源 | ICRA 2025

在自主驾驶、机器人导航、AR/VR等前沿应用中，Simultaneous Localization and Mapping (SLAM) 是核心技术之一。现有基于3D高斯分布（3DGS）的SLAM方法虽在室内场景表现出色，但使用仅RGB输入来处理无界的户外场景仍然面临挑战：准确的深度和尺度估计困难，这影响了姿态精度和3DGS初始化图像重叠有限且视角单一，缺乏有效的约束，导致训练难以收敛为了解决上述挑战，港科广团队提出全新解决方案OpenGS-SLAM，仅凭RGB图像实现高精度定位与逼真场景重建。论文链接：：：，该方法采用了一个点图回归网络来生成帧间一致的点图，储存了来自多个标准视角的3D结构，包含了视角关系、2D到3D的对应关系和场景几何信息，使得相机位姿估计更加稳健，有效缓解了预训练深度网络的误差问题。

3/27/2025 10:54:06 AM 新智元

清华稀疏Attention，无需训练加速一切模型！

在当今各类大语言模型以及视频模型中，长序列场景越来越普遍，而 Attention 的计算复杂度随着序列长度呈平方增长，成为长序列任务下的主要计算瓶颈。此前，清华大学陈键飞团队提出的即插即用量化的 SageAttention 系列工作已实现 3 倍加速于 FlashAttention，且在各类大模型上均保持了端到端的精度，已被业界和社区广泛使用。为了进一步加速 Attention，清华大学陈键飞团队进一步提出了无需训练可直接使用的稀疏 Attention（SpargeAttn）可用来加速任意模型。

3/27/2025 9:47:23 AM 机器之心

阿里深夜开源Qwen2.5-Omni，7B参数完成看、听、说、写

3 月 27 日凌晨，阿里通义千问团队发布 Qwen2.5-Omni。这是 Qwen 系列中全新的旗舰级多模态大模型，专为全面的多模式感知设计，可以无缝处理包括文本、图像、音频和视频的各种输入，同时支持流式的文本生成和自然语音合成输出。从此以后，你可以像打电话或进行视频通话一样与 Qwen 聊天！

3/27/2025 9:40:59 AM 机器之心

Stable Diffusion变身3D神器！一个LoRA将2D图像转3D模型

在Stable Diffusion当中，只需加入一个LoRA就能根据图像创建3D模型了？港科大（广州）与趣丸科技合作推出了全新三维生成大模型——Kiss3DGen，创新性地将3D生成与成熟的图像生成模型进行了对齐。并且与主流2D扩散模型技术（如ControlNet、Flux-Redux）兼容协同，无需额外训练即可即插即用。

3/27/2025 9:26:30 AM 量子位

轨迹可控视频生成新范式，复旦微软破解视频生成难题，精准控制任意物体运动

轨迹可控的视频生成来了，支持三种不同级别的轨迹控制条件——分别为掩码、边界框和稀疏框。近年来，视频生成技术快速发展,显著提升了视频的视觉质量与时间连贯性。在此基础上，（trajectory-controllable video generation）涌现了许多工作，使得通过明确定义的路径精确控制生成视频中的物体运动轨迹成为可能。

3/27/2025 9:24:16 AM 量子位

一文详尽大型语言模型的四种量化技术

大型语言模型（比如ChatGPT背后的技术）确实非常"庞大"——这不仅指它们的能力，更直接体现在它们的体积上。一个中等规模的模型就可能占用几十GB的内存，相当于几百部高清电影的大小。对于普通开发者、个人研究者或初创公司来说，这样的资源需求无疑是一道难以跨越的门槛。

3/27/2025 2:44:00 AM 云朵君

随手一拍，高效重建大型3D开放场景，港科广GraphGS突破传统重建技术瓶颈｜ICLR 2024

从手机随手拍、汽车行车记录仪到无人机航拍，如何从海量无序二维图像快速生成高精度三维场景？传统方法依赖精确的相机位姿参数，实际应用成本高昂。港科广团队提出全新框架GraphGS，突破技术瓶颈——无需精准相机位姿，仅凭RGB图像即可实现大规模开放场景的高效重建和高保真新视角合成，相关论文入选ICLR 2025，代码即将开源。

3/26/2025 9:55:14 AM 量子位

新版DeepSeek-V3官方报告出炉：超越GPT-4.5，仅靠改进后训练

刚刚，DeepSeek官方发布DeepSeek-V3模型更新技术报告。 V3新版本在数学、代码类相关评测集成绩超过GPT-4.5！而且这只是通过改进后训练方法实现。

3/26/2025 9:16:05 AM 量子位

AMD跑DeepSeek性能超H200！128并发Token间延迟不超50ms，吞吐量达H200五倍

DeepSeek-R1掀起新一轮购卡潮的同时，AMD的含金量也上升了。在AMD的MI300X上跑FP8满血R1，性能全面超越了英伟达H200——相同延迟下吞吐量最高可达H200的5倍，相同并发下则比H200高出75%。这个结果，一方面归功于SGLang框架，另一方面则是得益于AMD新优化的AI内核库AITER。

3/25/2025 12:59:01 PM 量子位

阿里深夜开源Qwen2.5-VL新版本，视觉推理通杀，32B比72B更聪明

就在 DeepSeek V3「小版本更新」后的几个小时，阿里通义千问团队也开源了新模型。择日不如撞日，Qwen2.5-VL-32B-Instruct 就这么来了。相比此前的 Qwen2.5-VL 系列模型，32B 模型有如下改进：回复更符合人类主观偏好：调整了输出风格，使回答更加详细、格式更规范，并更符合人类偏好。

3/25/2025 12:11:08 PM 机器之心

统一细粒度感知！北大&阿里提出UFO：无需SAM，16个token让MLLM实现精准分割

本文作者来自北京大学和阿里通义万相实验室。其中论文第一作者是汤昊，北京大学 2022 级博士生，目前主要关注统一的多模态任务建模算法。指导教授是王立威老师，北京大学智能学院教授，曾获 NeurIPS 2024 最佳论文奖、ICLR 2023 杰出论文奖及 ICLR 2024 杰出论文提名奖。

3/25/2025 10:13:26 AM 机器之心

棋盘变战场，大模型却呆了？普林斯顿、UT Austin新基准SPIN-Bench曝AI智商瓶颈

当棋盘变成战场，当盟友暗藏心机，当谈判需要三十六计，AI 的智商令人叹息！近日，来自普林斯顿和德州大学奥斯丁分校最新评测基准 SPIN-Bench，用一套 "组合拳" 暴击了大模型的软肋。研究显示，即便是 o1、o3-mini、DeepSeek R1、GPT-4o、Claude 3.5 等顶尖大模型，在涉及战略规划和社会推理的复杂任务中集体 "自闭"。

3/25/2025 9:50:23 AM 机器之心

“AI辅导2小时，成绩冲进全国前2%”，OpenAI总裁转发私立教学成果，网友：一年学费4万美元？？

“用AI辅导功课，学生成绩提升至全国前2%的水平”。美国得克萨斯州一所私立K12学校Alpha学校，最近传出了这样一则消息引起大量网友关注。 OpenAI总裁Greg Brockman下场转发：围绕个性化AI导师设计的学校取得了良好成果。

3/25/2025 9:47:03 AM 量子位

资讯热榜

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI新词 AI绘画大模型机器人数据 Midjourney 开源 Meta 微软智能用户 GPT 学习英伟达 Gemini 智能体技术马斯克 Anthropic 图像 AI创作训练 LLM 论文 AI for Science 代码腾讯苹果算法 Agent Claude 芯片具身智能 Stable Diffusion xAI 蛋白质人形机器人开发者生成式神经网络机器学习 AI视频 3D 字节跳动大语言模型 RAG Sora 百度研究 GPU 生成华为工具 AGI 计算生成式AI AI设计大型语言模型搜索亚马逊 AI模型视频生成特斯拉 DeepMind 场景 Copilot 深度学习 Transformer 架构 MCP 编程视觉

模型

阿里通义千问 QwenQ-32B 上线 中科院科研项目大规模接入

AI “看图说话” 更懂细节！腾讯开源多模态理解技术HaploVL

Agent太火！看这一篇综述，知识就不会学杂了丨华东师大&东华大学出品

7B模型搞定AI视频通话，阿里最新开源炸场，看听说写全模态打通，开发者企业免费商用

2025苹果AI学者名单公布，黄子琪、孔令东、北大吉嘉铭、清华顾煜贤等12位年轻华人入选

纯RGB输入，解决户外场景SLAM！误差降低至9.8%，港科广开源 | ICRA 2025

清华稀疏Attention，无需训练加速一切模型！

阿里深夜开源Qwen2.5-Omni，7B参数完成看、听、说、写

Stable Diffusion变身3D神器！一个LoRA将2D图像转3D模型

轨迹可控视频生成新范式，复旦微软破解视频生成难题，精准控制任意物体运动

一文详尽大型语言模型的四种量化技术

随手一拍，高效重建大型3D开放场景，港科广GraphGS突破传统重建技术瓶颈｜ICLR 2024

新版DeepSeek-V3官方报告出炉：超越GPT-4.5，仅靠改进后训练

AMD跑DeepSeek性能超H200！128并发Token间延迟不超50ms，吞吐量达H200五倍

阿里深夜开源Qwen2.5-VL新版本，视觉推理通杀，32B比72B更聪明

统一细粒度感知！北大&阿里提出UFO：无需SAM，16个token让MLLM实现精准分割

棋盘变战场，大模型却呆了？普林斯顿、UT Austin新基准SPIN-Bench曝AI智商瓶颈

“AI辅导2小时，成绩冲进全国前2%”，OpenAI总裁转发私立教学成果，网友：一年学费4万美元？？

阿里通义千问 QwenQ-32B 上线中科院科研项目大规模接入