模型
ETT:打破原生多模态学习视觉瓶颈,重塑视觉tokenizer优化范式
本文由北京智源研究院多模态大模型研究中心(团队负责人王鑫龙,团队代表作 EMU 系列、EVA 系列、Painter & SegGPT)、中科院自动化所和大连理工大学联合完成。 在多模态学习蓬勃发展的当下,视觉 tokenizer 作为连接视觉信息与下游任务的关键桥梁,其性能优劣直接决定了多模态模型的表现。 然而,传统的视觉 tokenization 方法存在一个致命缺陷:视觉 tokenizer 的优化与下游任务的训练是相互割裂的。
5/28/2025 9:17:00 AM
One RL to See Them All?一个强化学习统一视觉-语言任务!
强化学习 (RL) 显著提升了视觉-语言模型 (VLM) 的推理能力。 然而,RL 在推理任务之外的应用,尤其是在目标检测和目标定位等感知密集型任务中的应用,仍有待深入探索。 近日,国内初创公司 MiniMax 提出了 V-Triune,一个视觉三重统一强化学习系统,它能使 VLM 在单一的训练流程中同时学习视觉推理和感知任务。
5/28/2025 9:15:00 AM
阿里开源长文本深度思考模型!渐进式强化学习破解长文本训练难题,登HuggingFace热榜
推理大模型开卷新方向,阿里开源长文本深度思考模型QwenLong-L1,登上HuggingFace今日热门论文第二。 其32B参数版本超过OpenAI-o3-mini、Qwen3-235B-A22B等,取得与Claude-3.7-Sonnet-Thingking相当的性能。 除测评分数外,论文中还详细展示了一个金融文档推理的案例。
5/28/2025 9:09:00 AM
字节推出统一多模态模型 BAGEL,GPT-4o 级的图像生成能力直接开源了!
图片字节推出的 BAGEL 是一个开源的统一多模态模型,他们直接开源了GPT-4o级别的图像生成能力。 (轻松拿捏“万物皆可吉卜力”玩法~)。 可以在任何地方对其进行微调、提炼和部署,它以开放的形式提供与 GPT-4o 和 Gemini 2.0 等专有系统相当的功能,通过能够实现精确、准确和逼真的输出的原生多模态架构解锁有用且有价值的图像生成。
5/27/2025 3:59:41 PM
AIGC Studio
图像编辑革命,万物皆可插入!浙大/哈佛/南洋理工提出Insert Anything,告别PS抠图,AI让世界无缝生长
浙江大学、哈佛大学、南洋理工大学联合提出了统一的图像插入框架Insert Anything,支持多种实际场景,包括艺术创作、逼真的脸部交换、电影场景构图、虚拟服装试穿、配饰定制和数字道具更换,下图展示了其在各种图像编辑任务中的多功能性和有效性。 效果展示相关链接论文:::通过 DiT 中的上下文编辑插入图像本研究提出了“Insert Anything”,这是一个基于参考的图像插入统一框架,可在用户指定的灵活控制指导下将参考图像中的对象无缝集成到目标场景中。 我们的方法并非针对单个任务训练单独的模型,而是在我们新的AnyInsertion数据集上训练一次——该数据集包含 12 万个提示图像对,涵盖人物、物体和服装插入等多种任务——并可轻松推广到各种插入场景。
5/27/2025 3:59:03 PM
AIGC Studio
对话27岁博导张林峰:模型压缩获CVPR满分有点意外,上海交大像我这样年轻老师很多
上海交大、27岁、最年轻博导,留给张林峰的标签不多了(Doge)。 最新引发关注的,是他实实在在的一个论文成果——他们提出了一种新的数据集蒸馏方法,结果获得了CVPR 2025满分。 通过引入一个辅助的神经网络,只需一块6年前的2080Ti,就能做大模型数据蒸馏。
5/27/2025 3:44:28 PM
5%参数比肩DeepSeek满血R1!北大“小”模型靠分合蒸馏,打破推理成本下限
只用5%的参数,数学和代码能力竟然超越满血DeepSeek? 北京大学杨仝教授团队近期发布了其在高效大型语言模型研究方向的一项新成果——FairyR1-32B模型。 该模型基于DeepSeek-R1-Distill-Qwen-32B基座,通过结合微调与模型合并技术构建。
5/27/2025 3:40:34 PM
两岁的Llama,最初的14位作者已跑了11个!Mistral成最大赢家
Meta 开源 Llama 模型家族帮助该公司制定了 AI 战略,某种程度上也改变了全世界的大模型格局。 然而,令人意想不到的是,短短几年,Llama 的初创者们大多已经转投他处。 在 2023 年发表的那篇具有里程碑意义的论文《 LLaMA: Open and Efficient Foundation Language Models 》中,Llama 被推向世界,当时论文共有 14 位作者。
5/27/2025 3:37:46 PM
低Token高精度!字节复旦推出自适应推理框架CAR
过度依赖CoT思维链推理会降低模型性能,有新解了! 来自字节、复旦大学的研究人员提出自适应推理框架CAR,能根据模型困惑度动态选择短回答或详细的长文本推理,最终实现了准确性与效率的最佳平衡。 推理能力的进步极大提升了大语言模型(LLMs)和多模态大语言模型(MLLMs)在各类任务中的表现。
5/27/2025 3:28:47 PM
扩散语言模型九倍推理加速!上海交大:KV Cache并非自回归模型的专属技巧
首个用于加速扩散式大语言模型(diffusion-based Large Language Models, 简称 dLLMs)推理过程的免训练方法。 上海交通大学EPIC Lab团队提出了一种无需训练、即插即用的高效推理缓存机制:dLLM-Cache。 其核心思想在于,在一个多步去噪过程中,复用相邻时间步上变化较小的特征,仅更新那些变化较大的特征,从而实现了计算量的大幅降低,并保持了原有的生成质量。
5/27/2025 3:28:11 PM
北大团队发布首篇大语言模型心理测量学系统综述:评估、验证、增强
随着大语言模型(LLM)能力的快速迭代,传统评估方法已难以满足需求。 如何科学评估 LLM 的「心智」特征,例如价值观、性格和社交智能? 如何建立更全面、更可靠的 AI 评估体系?
5/27/2025 3:21:06 PM
Llama 论文作者“出逃”,14人团队仅剩3人,法国独角兽 Mistral 成最大赢家
他们大多去向了 Mistral,这家总部位于巴黎的 AI 初创公司,正在用“开源速度”反攻 Meta 自己开启的战场。 Llama 曾是 Meta 最具野心的 AI 作品:在 ChatGPT 和 PaLM 占据主流话语权的 2023 年,Meta 用一篇重量级论文和一组开放权重的大语言模型,意外地把开源阵营推上主舞台。 而那时,Meta 的 AI 科研团队 FAIR(Fundamental AI Research)也正处于高光时刻。
5/27/2025 3:16:38 PM
与Gemini Diffusion共振!首个扩散式「发散思维链」来了
近年来,思维链在大模型训练和推理中愈发重要。 近日,西湖大学 MAPLE 实验室齐国君教授团队首次提出扩散式「发散思维链」—— 一种面向扩散语言模型的新型大模型推理范式。 该方法将反向扩散过程中的每一步中间结果都看作大模型的一个「思考」步骤,然后利用基于结果的强化学习去优化整个生成轨迹,最大化模型最终答案的正确率。
5/27/2025 9:00:00 AM
红杉中国xbench全球首发,AI智能体真实战力揭榜!
随着基础模型的快速发展和AI Agent进入规模化应用阶段,被广泛使用的基准测试(Benchmark)却面临一个日益尖锐的问题:想要真实地反映AI的客观能力正变得越来越困难。 因此,构建更加科学、长效和如实反映AI客观能力的评测体系,正在成为指引AI技术突破与产品迭代的重要需求。 有鉴于此,红杉中国今天正式推出一款全新的AI基准测试工具xbench,并发布论文《xbench: Tracking Agents Productivity ,Scaling with Profession-Aligned Real-world Evaluations》。
5/27/2025 8:50:00 AM
四页绝密文件曝OpenAI野心!ChatGPT占领人类心智,25年致命杀招公开
OpenAI真正的野心终于曝光! 最近,泄露的一份法律文件揭示了OpenAI的雄心:终极目标是「占领用户的AI心智」——ChatGPT就等价于AI,等价于智能体。 原始文件:,几个月前GPT-4o掀起「吉卜力风格」的热潮,或许也是OpenAI精心布局的一环。
5/27/2025 8:40:00 AM
AI日报:昆仑万维天工超级智能体APP上线;谷歌重磅发布三大Gemma模型变体;字节推出开源多模态模型BAGE
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。 新鲜AI产品点击了解:、全球首款Office智能体APP!昆仑万维天工超级智能体APP上线昆仑万维集团推出全球首款基于AI Agent架构的Office智能体手机应用,天工超级智能体APP通过四大智能体协同工作,重新定义移动办公效率,支持跨端协同和私人知识库搭建,未来还将扩展至更多领域。 【AiBase提要:】✨ 天工超级智能体APP是全球首款基于AI Agent架构的Office智能体手机应用,重新定义移动办公效率。
5/26/2025 4:00:50 PM
AI在线
红杉中国推出全新 AI 基准测试工具,助力智能体评估新标准
随着人工智能技术的迅速发展,尤其是大型模型的不断进步,基准测试在评估 AI 能力时面临着前所未有的挑战。 为了应对这一现状,红杉中国于5月26日宣布推出一款全新的 AI 基准测试工具 ——xbench。 这款工具不仅是针对 AI 模型能力的评估,还引入了动态更新机制,确保测试的有效性和公正性。
5/26/2025 2:00:50 PM
AI在线
Claude 4登陆Amazon Bedrock 企业AI的“最后一公里”打通了
近日,知名 AI 公司 Anthropic 正式推出了其最新的 Claude4系列大模型,这一消息迅速引发了科技界的广泛关注。 与以往不同的是,Claude4现在已在亚马逊云科技的 Amazon Bedrock 平台上正式上线,这标志着 Agentic AI(智能代理 AI)迈入了企业级应用的新阶段。 Claude4系列包括两款新模型:Claude Opus4和 Claude Sonnet4。
5/26/2025 2:00:50 PM
AI在线
资讯热榜
智谱AI全新企业级超级助手Agent CoCo正式上线
苹果发布全新Xcode 26开发者工具:内置ChatGPT先进AI功能
豆包App“一句话P图”功能全新升级 基于SeedEdit 3.0实现全面优化
DeepSeek前高管秘密创业,新AI Agent项目已获顶级VC押注
那个男人回来了!Ilya现身多伦多大学毕业典礼:AI 像是用数字方式复制出来的大脑!不管你愿不愿意,AI都将深刻影响你的一生!
ChatGPT 语音功能升级,实时翻译对话更自然流畅
支持MCP!开源智能体开发框架 Rowboat:打造你的智能助手只需几分钟
苹果向开发者开放本地AI能力,推出全新Foundation Models框架
标签云
人工智能
AI
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
数据
谷歌
机器人
大模型
Midjourney
用户
智能
开源
微软
GPT
学习
Meta
图像
技术
AI创作
Gemini
论文
马斯克
Stable Diffusion
算法
代码
英伟达
Anthropic
芯片
生成式
开发者
蛋白质
腾讯
神经网络
研究
3D
生成
训练
苹果
计算
智能体
Sora
机器学习
AI设计
AI for Science
Claude
GPU
AI视频
人形机器人
华为
搜索
场景
百度
大语言模型
xAI
预测
伟达
深度学习
Transformer
字节跳动
Agent
模态
具身智能
神器推荐
LLaMA
文本
视觉
Copilot
算力
工具
LLM
驾驶
API
大型语言模型
应用
RAG
亚马逊