AI在线 AI在线

通义实验室

通义千问Qwen Code重磅升级至v0.5.0!从命令行工具迈向完整开发生态

通义千问Qwen Code重磅升级至v0.5.0!从命令行工具迈向完整开发生态

国产AI编程工具迎来关键进化。 通义实验室今日正式发布 Qwen Code v0.5.0版本,标志着这一由阿里云打造的智能编程助手,正从单一的命令行工具加速转型为覆盖全链路的开发生态平台。 此次更新不仅强化了核心编码能力,更在插件集成、工程上下文理解与开发者协作支持等方面实现突破。
12/26/2025 6:46:26 PM AI在线
阿里云开源通义千问图像编辑模型 Qwen-Image-Edit-2511!修复“图像漂移”问题,编辑一致性显著提升

阿里云开源通义千问图像编辑模型 Qwen-Image-Edit-2511!修复“图像漂移”问题,编辑一致性显著提升

阿里云持续加码AIGC开源生态。 今日,通义实验室正式开源其最新图像编辑模型——Qwen-Image-Edit-2511,重点解决前代版本(2509)中存在的图像编辑后“轻微漂移”问题(即编辑区域人物或物体位置发生偏移),通过多项技术优化,显著提升编辑前后的一致性与视觉稳定性,为开发者提供更可靠、精准的可控生成工具。 直击痛点:告别“越修越歪”的编辑体验在早期版本Qwen-Image-Edit- 2509 中,用户反馈在进行局部修改(如更换服装、调整发型、替换背景)时,目标对象常出现微妙但明显的位移或形变,破坏图像整体协调性。
12/26/2025 9:56:53 AM AI在线
阿里夸克“C计划”曝光:目标直指对话式AI应用,或剑指字节“豆包”

阿里夸克“C计划”曝光:目标直指对话式AI应用,或剑指字节“豆包”

据新浪科技报道, 阿里巴巴旗下AI旗舰应用夸克正秘密推进一项代号为“C计划”的重磅AI业务。 该计划由夸克核心团队主导,并有多位通义实验室的高级别成员参与,目标直指对话式AI应用布局,且首个阶段性成果预计将于近日落地。 多位消息人士透露,“C计划”是一项需要长期投入、且高度依赖模型技术突破的产品,目前即将浮出水面的仅为阶段性成果,显示出阿里在AI应用赛道长期深耕的决心。
10/21/2025 8:56:32 AM AI在线
性能逼近闭源最强,通义实验室开源Mobile-Agent-v3刷新10项GUI基准SOTA

性能逼近闭源最强,通义实验室开源Mobile-Agent-v3刷新10项GUI基准SOTA

覆盖桌面、移动和 Web,7B 模型超越同类开源选手,32B 模型挑战 GPT-4o 与 Claude 3.7,通义实验室全新 Mobile-Agent-v3 现已开源。 一眼看到实力:关键成绩速览。       备注:分数来源于公开基准,包括桌面 移动环境的任务规划、定位、推理、执行等全链路能力开源地址::为什么 GUI Agent 要这么强?
9/2/2025 11:56:00 AM 机器之心
钉钉、通义实验室联合发布 Fun-ASR,新一代语音识别大模型亮相

钉钉、通义实验室联合发布 Fun-ASR,新一代语音识别大模型亮相

钉钉与通义实验室语音团队今日宣布,双方联手推出新一代语音识别大模型 Fun-ASR。 这款模型旨在为企业用户提供更强大、更灵活的语音转写能力。 Fun-ASR 大模型具备多项核心优势。
8/22/2025 1:34:02 PM AI在线
一次中稿10篇ACL25,通义实验室 代码智能&对话智能团队 在研究什么

一次中稿10篇ACL25,通义实验室 代码智能&对话智能团队 在研究什么

近日,自然语言处理领域的国际顶级会议ACL 2025正在召开,通义实验室 代码智能&对话智能 团队10篇论文被 ACL 2025 录用,围绕着大语言模型的多轮强化学习、复杂指令遵循、多模态角色对话、代码智能、以及评测基准等前沿方向全面开花。 本文从中精选了8篇论文的内容进行系统介绍,以此来总结通义实验室代码智能&对话智能团队的前沿研究思考和进展。 团队也在大量招聘,详情见文章最后。
8/1/2025 3:58:00 PM 新闻资讯
通义实验室大火的 WebAgent 续作:全开源模型方案超过GPT4.1 , 收获开源SOTA

通义实验室大火的 WebAgent 续作:全开源模型方案超过GPT4.1 , 收获开源SOTA

WebAgent 续作《WebShaper: Agentically Data Synthesizing via Information-Seeking Formalization》中,作者们首次提出了对 information-seeking(IS)任务的形式化建模 并基于该建模设计了 IS 任务训练数据合成方法,并用全开源模型方案取得了 GAIA 评测最高 60.1 分的 SOTA 表现。 WebShaper 补足了做 GAIA、Browsecomp 上缺少高质量训练数据的问题,通义实验室开源了高质量 QA 数据! WebShaper 体现了通义实验室对 IS 任务的认知从前期的启发式理解到形式化定义的深化。
7/29/2025 9:01:00 PM 机器之心
通义实验室、北大发布新技术ZeroSearch 让LLM检索能力激活,成本降低88%

通义实验室、北大发布新技术ZeroSearch 让LLM检索能力激活,成本降低88%

最近,通义实验室和北京大学的研究团队推出了一项名为 ZeroSearch 的创新框架,这一新技术可以在不需要真实搜索的情况下,激活大语言模型的检索能力,并且训练成本降低了惊人的88%。 这一突破为大语言模型的训练和应用提供了全新的思路。 传统的训练方法通常依赖于真实的搜索引擎来获取信息,这不仅造成了高昂的 API 调用成本,还可能因搜索结果的质量不稳定而影响模型的表现。
5/29/2025 2:00:56 PM AI在线
通义实验室新研究:大模型自己「扮演」搜索引擎,提升推理能力无需搜索 API

通义实验室新研究:大模型自己「扮演」搜索引擎,提升推理能力无需搜索 API

强化学习(RL)+ 真实搜索引擎,可以有效提升大模型检索-推理能力。
5/17/2025 2:52:48 PM 清源
通义实验室又一位大佬出走!传应用视觉团队负责人薄列峰已离职,将任职另一大厂多模态模型负责人!

通义实验室又一位大佬出走!传应用视觉团队负责人薄列峰已离职,将任职另一大厂多模态模型负责人!

出品 | 51CTO技术栈(微信号:blog51cto)北京时间5月6日,据知情人士透露,阿里巴巴通义实验室应用视觉团队负责人薄列峰(title中不是阿里集团副总裁,所以职级应该为P10)已于4月30日低调离职。 有消息称他已经加入刚刚进行架构调整的某互联网大厂,担任多模态模型部副总经理,向公司副总裁汇报。 最早爆料该消息的公众号之一“互联网八卦小喇叭”发文表示:据可靠消息称:“薄老师于本月离职通义,即将进入某大厂担任多模态模型负责人”。
5/6/2025 4:03:20 PM
免费用!阿里通义大模型上新,超逼真音视频生成SOTA!

免费用!阿里通义大模型上新,超逼真音视频生成SOTA!

近日,阿里通义实验室推出了全新数字人视频生成大模型 OmniTalker,只需上传一段参考视频,不仅能学会视频中人物的表情和声音,还能模仿说话风格。 相比传统的数字人生产流程,该方法能够有效降低制作成本,提高生成内容的真实感和互动体验,满足更广泛的应用需求。 目前该项目已在魔搭社区、HuggingFace 开放体验入口,并提供了十多个模板,所有人可以直接免费使用。
4/15/2025 1:28:00 PM 机器之心
真假难辨!阿里升级AI人像视频生成,表情动作直逼专业水准

真假难辨!阿里升级AI人像视频生成,表情动作直逼专业水准

AIxiv专栏是AI在线发布学术、技术内容的栏目。 过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。 如果您有优秀的工作想要分享,欢迎投稿或者联系报道。
2/16/2025 8:34:00 PM 机器之心
让大模型互联网「冲浪」,通义实验室WebWalker解锁复杂信息检索新技能

让大模型互联网「冲浪」,通义实验室WebWalker解锁复杂信息检索新技能

AIxiv专栏是AI在线发布学术、技术内容的栏目。 过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。 如果您有优秀的工作想要分享,欢迎投稿或者联系报道。
1/27/2025 8:21:00 PM 机器之心
央视点赞国产AI复活召唤术,兵马俑竟与宝石老舅对唱Rap?

央视点赞国产AI复活召唤术,兵马俑竟与宝石老舅对唱Rap?

沉睡了两千多年的兵马俑,苏醒了?一句秦腔开场,将我们带到了黄土高原。如果不是亲眼所见,很多观众可能难以想象,有生之年还能看到兵马俑和宝石 Gem 同台对唱《从军行》。「青海长云暗雪山,孤城遥望玉门关。」古调虽存音乐变,声音依旧动人情:这场表演背后的「AI 复活召唤术」,叫做 EMO,来自阿里巴巴通义实验室。仅仅一张照片、一个音频,EMO 就能让静止形象变为惟妙惟肖的唱演视频,且精准卡点音频中的跌宕起伏、抑扬顿挫。在央视《2024 中国・AI 盛典》中,同样基于 EMO 技术,北宋文学家苏轼被「复活」,与李玉刚同台合
7/4/2024 6:01:00 PM 机器之心