AI在线 AI在线

模型

9B“小”模型干了票“大”的:性能超8倍参数模型,拿下23项SOTA | 智谱开源

如果一个视觉语言模型(VLM)只会“看”,那真的是已经不够看的了。 因为现在真实世界的任务简直不要太复杂,要想让AI干点实事儿,光有多模态还不够,必须还得有深度思考的强推理能力。 而就在刚刚,智谱发布并开源了一个仅9B大小的模型——GLM-4.1V-9B-Thinking,在28项评测中一举拿下23个SOTA!
7/2/2025 2:39:29 PM

ICML 2025 Spotlight | 清华朱军组&NVIDIA提出DDO:扩散/自回归模型训练新范式,刷新图像生成SOTA

文章一作郑凯文为清华大学三年级博士生,研究方向为深度生成模型,曾提出流式扩散模型最大似然估计改进技术 i-DODE,扩散模型高效采样器 DPM-Solver-v3,扩散桥模型采样器 DBIM 以及掩码式离散扩散模型采样器 FHS 等。 清华大学朱军教授团队与 NVIDIA Deep Imagination 研究组联合提出一种全新的视觉生成模型优化范式 —— 直接判别优化(DDO)。 该方法将基于似然的生成模型(如扩散模型、自回归模型)隐式参数化为 GAN,从而设计出一种无需额外网络、训练高效的微调方法,并大幅突破传统最大似然训练的性能瓶颈。
7/2/2025 9:21:30 AM

Meta“1亿美元年薪”震荡硅谷!奥特曼回应:总有人唯利是图,而且都算不上TOP

疯狂,太疯狂。 这两天,硅谷乃至全球AI领域的注意力都被Meta老板扎克伯克带走了,毕竟也不是谁都能boss直聘,一举挖走8名OpenAI核心员工。 更何况其中大部分,还是以聪明能干吃苦耐劳著称的华人研究员。
7/2/2025 9:13:56 AM

华为又开源了个大的:超大规模MoE推理秘籍

超大规模MoE模型(如DeepSeek),到底该怎么推理才能做到又快又稳。 现在,这个问题似乎已经有了标准答案——华为一个新项目,直接把推理超大规模MoE背后的架构、技术和代码,统统给开源了! 这个新开源项目名叫Omni-Infer,整体来看,它对于企业用户来说是非常利好的。
7/2/2025 8:55:00 AM

超越微软,全球第一!上交AI智能体炼成「Kaggle特级大师」,登顶OpenAI MLE-bench

就在刚刚,一支来自中国高校的团队成功刷榜了OpenAI发布的权威基准测试MLE-bench! 这一次,荣耀属于上海交通大学人工智能学院Agents团队。 他们提出的AI专家智能体「ML-Master」,凭借着29.3%的平均奖牌率,拿下第一!
7/2/2025 8:50:00 AM

策略改写「一战历史」!中科院开源全新博弈智能体框架DipLLM

围棋、德州扑克曾是AI崛起的试炼场,从AlphaGo到Libratus,人工智能不断刷新策略上限。 但接下来的战场更难——Diplomacy:一款融合协作与竞争的七人博弈游戏,单轮动作空间高达10的64次方,其策略建模复杂度前所未有! 为此,Meta曾推出智能体Cicero[Meta, Science 2022],结合人类数据与策略搜索,在该领域实现突破,但其方法高度依赖超大规模均衡搜索与重资源训练,难以扩展与迁移。
7/2/2025 8:43:00 AM

伯克利&Meta面向具身智能的世界模型:让AI通过全身动作「看见」未来

本文基于 Yutong Bai、Danny Tran、Amir Bar、Yann LeCun、Trevor Darrell 和 Jitendra Malik 等人的研究工作。 论文标题:Whole-Body Conditioned Egocentric Video Prediction论文地址:::,人工智能领域一直在思考一个看似简单但非常根本的问题:如果一个智能体要在真实世界中行动、规划,并且和环境互动,它需要一个怎样的「世界模型」? 在很多早期研究中,世界模型就是一个预测引擎:只要给它一个抽象的控制指令,比如「向前走一米」或者「向左转 30 度」,它就能模拟出未来的图像。
7/2/2025 8:40:00 AM

1080p飞升4k,浙大开源原生超高清视频生成方案,突破AI视频生成清晰度上限

为什么AI生成的视频总是模糊卡顿? 为什么细节纹理经不起放大? 为什么动作描述总与画面错位?
7/2/2025 8:30:00 AM

小扎“挖人”超级智能团队名单泄露:华人占一半,Alexandr Wang领导

据报刚刚小扎在一份内部备忘录中,正式向员工介绍了其新组建的“超级智能”团队20几名成员,名单和简历显示,许多新入职的员工都来自AI领域的顶尖对手公司,其中华人占了快一半了整个组织命名为Meta超级智能实验室(MSL),包括所有的基础模型、产品和FAIR团队,以及一个专注于开发下一代模型的新实验室小扎向Scale AI投资了143亿美元,并聘请Scale AI CEO Alexandr Wang将担任公司的“首席AI官”并领导MSL。 同时,前GitHub CEO Nat Friedman将与Wang共同领导这个新实验室,专注于AI产品和应用研究小扎这一把砸下上百亿美金,真是下血本了,这其实也是Deepseek的威力,因为R1彻底颠覆了Meta的 llama开源模型名单以下是Zuckerberg备忘录中公布的新员工名单。 值得注意的是,这份名单并未包括从OpenAI苏黎世办公室加入的员工其中四名OpenAI华人顶尖研发领导。
7/1/2025 9:10:42 AM

只用2700万参数,这个推理模型超越了DeepSeek和Claude

大模型的架构,到了需要变革的时候? 在对复杂任务的推理工作上,当前的大语言模型(LLM)主要采用思维链(CoT)技术,但这些技术存在任务分解复杂、数据需求大以及高延迟等问题。 近日,受到人脑分层和多时间尺度处理机制启发,来自 Sapient Intelligence 的研究者提出了分层推理模型(HRM),这是一种全新循环架构,能够在保持训练稳定性和效率的同时,实现高计算深度。
7/1/2025 9:08:00 AM

性能提升84%-166%!L-Zero仅靠强化学习解锁大模型探索世界的能力 | 已开源

大模型可以不再依赖人类调教,真正“自学成才”啦? 新研究仅通过RLVR(可验证奖励的强化学习),成功让模型自主进化出通用的探索、验证与记忆能力,让模型学会“自学”! 当前主流的LLM Agent依然高度依赖于提示词工程、复杂的系统编排、甚至静态规则表,这使得它们在面对复杂任务时难以实现真正的智能行为演化。
7/1/2025 9:05:28 AM

黑化威胁操纵人类!Claude勒索,o1自主逃逸,人类「执剑人」紧急上线

我们可能都「被AI骗了」。 最先进的AI正走在一条「危险进化」的道路上,而绝大部分科学家们都被AI欺骗了! 当DeepSeek在年初将「推理过程」完全展示给世人后,我们突然发现「思考」好像也并不是人类专属的能力。
7/1/2025 9:02:06 AM

LeCun发布最新世界模型:首次实现16秒连贯场景预测,具身智能掌握第一视角!还打脸用了VAE

LeCun在干嘛呢? 就在扎克伯克亲自带队Meta的AI项目,千亿薪酬挖得硅谷人心浮动之际。 Meta在AI领域最负盛名的大佬、图灵奖得主、深度学习三巨头之一的Yann LeCun,却几乎声量全无,他没有参与LLM基础模型的研发,也开始在社交网络上消停了。
7/1/2025 9:02:00 AM

会“思考”的目标检测模型来了!IDEA提出Rex-Thinker:基于思维链的指代物体检测模型,准确率+可解释性双突破

Caption: Rex-Thinker 的思考过程在日常生活中,我们常通过语言描述寻找特定物体:“穿蓝衬衫的人”“桌子左边的杯子”。 如何让 AI 精准理解这类指令并定位目标,一直是计算机视觉的核心挑战。 现有方法常被两大问题困扰: 决策过程不透明 (“黑箱” 预测)和 拒识能力不足 (对不存在物体输出错误结果)。
7/1/2025 8:53:26 AM

用好视觉Attention局部性,清华、字节提出Token Reorder,无损实现5倍稀疏、4比特量化

赵天辰,清华大学电子工程系高能效计算实验室研究生,研究方向主要是:面向视觉生成的高效算法,与软硬件协同设计近年来,随着视觉生成模型的发展,视觉生成任务的输入序列长度逐渐增长(高分辨率生成,视频多帧生成,可达到 10K-100K)。 与输入序列长度呈平方复杂度的 Attention 操作,成为主要的性能瓶颈(可占据全模型的 60-80% 的开销),有明显的效率优化需求。 注意力的稀疏化(Sparse Attention)与低比特量化(Attention Quantization)为常用的 Attention 优化技巧,在许多现有应用中取得优秀的效果。
6/30/2025 2:02:00 PM

RAG终极框架!港大开源RAG-Anything:统一多模态知识图谱

RAG-Anything的核心技术创新在于构建了统一的多模态知识图谱架构,能够同时处理并关联文档中的文字内容、图表信息、表格数据、数学公式等多种类型的异构内容,解决了传统RAG系统仅支持文本处理的技术限制,为多模态文档的智能理解提供了新的技术方案。 项目地址:: (RAG)系统,专注解决复杂场景下的智能问答与信息检索难题。 该系统提供完整的端到端多模态文档处理解决方案,能够统一处理文本、图像、表格、数学公式等多种异构内容,实现从文档解析、知识图谱构建到智能问答的全流程自动化,为下一代AI应用提供了可靠的技术基础。
6/30/2025 1:57:59 PM

百度文心大模型4.5系列正式开源,同步开放API服务

百度文心大模型开源,如期而至。 就在今天,百度官宣文心大模型4.5系列正式开源,还同步提供API服务。 此番,百度一次性推出10款开源模型,涵盖从47B参数的混合专家(MoE)模型到轻量级0.3B稠密型模型,覆盖文本、多模态等多种任务需求。
6/30/2025 1:54:34 PM

媲美DeepSeek!腾讯开源新版混元模型:AI Agent强化,超30种智能体指令

腾讯开源了混元大模型的最新版本Hunyuan-A13B。 Hunyuan-A13B是一个专家混合模型,拥有800亿参数,其中130亿参数处于激活状态。 支持快、慢两种思考模式:快速思维模式,提供简洁高效的输出,适用于高效、简单的日常任务;慢速思维模式,支持更深层次的推理步骤包含反思和回溯,生成更长的思维链,提升复杂任务的准确性。
6/30/2025 9:04:00 AM