模型

扩散语言模型真的会比自回归好？理论分析结果可能恰恰相反

本工作来自北京大学智能学院贺笛老师课题组与蚂蚁集团武威团队。贺笛老师在机器学习领域获得过多项荣誉，包括 ICLR 2023 杰出论文奖与 ICLR 2024 杰出论文奖提名。扩散模型近年来在图像生成领域取得了令人瞩目的成就，其生成图像的质量和多样性令人惊叹。

6/11/2025 9:21:28 AM

一招缓解LLM偏科！调整训练集组成，“秘方”在此 | 上交大&上海AI Lab等

大幅缓解LLM偏科，只需调整SFT训练集的组成。本来不擅长coding的Llama 3.1-8B，代码能力明显提升。上海交大&上海AI Lab联合团队提出创新方法IDEAL，可显著提升LLM在多种不同领域上的综合性能。

6/11/2025 9:17:00 AM

时空压缩！剑桥大学提出注意力机制MTLA：推理加速5倍，显存减至1/8

相邻的 KV 缓存将合并为一个。在生成第一个字符时，KV 缓存长度为 1；生成第二个字符后，新生成的 KV 与前一个被合并，KV 缓存长度仍然保持为 1。这种动态合并机制有效压缩了时间维度上的冗余信息。

6/11/2025 9:15:51 AM

刚刚，OpenAI正式发布o3-pro！奥特曼激动更新博客：温和的奇点

今天凌晨一点，OpenAI 宣布：OpenAI o3-pro today.前沿模型的轮流更新这一次轮到 OpenAI 了。，所有 Pro 订阅用户均可通过 ChatGPT 和 API 使用这款强大的推理模型。 Team 用户也可在模型选择器选择使用它。

6/11/2025 9:13:44 AM

北大伯克利联手“拷问”大模型：最强Agent也才40分！新基准专治“不听话”的AI分析师

给大模型当老师，让它一步步按你的想法做数据分析，有多难？结果是，连Claude-3.7和Gemini-2.5 Pro这样的顶尖选手，都开始“不听话”了。在一个全新的测试基准中，它们面对多轮、不断演进的指令，最终的任务成功率最高仅有40%。

6/11/2025 9:08:00 AM

0.5B以小搏大拿下端侧模型新SOTA：4090可跑，长文本处理5倍常规加速丨清华&面壁开源

端侧性价比之王，清华大学和面壁智能团队开源新模型——MiniCPM 4，提供8B、0.5B两种参数规模，仅使用同级别开源模型22%的训练开销，就达到了同级别最优性能。 MiniCPM4-8B是开源首个开源的原生稀疏模型，5%的极高稀疏度加持，让长文本、深思考在端侧真正跑起来。在MMLU、CEval、MATH500、HumanEval等基准测试中，以仅22%的训练开销，性能比肩 Qwen-3-8B，超越Gemma-3-12B。

6/11/2025 9:03:29 AM

不是视频模型“学习”慢，而是LLM走捷径｜18万引大牛Sergey Levine

这是UC伯克利大学计算机副教授Sergey Levine最新提出的灵魂一问。他同时是Google Brain的研究员，参与了Google知名机器人大模型PALM-E、RT1和RT2等项目。 Sergey Levine在谷歌学术的被引用次数高达18万次。

6/11/2025 8:59:21 AM

OpenAI新模型，被曝秘密训练中！万字硬核长文直指o4核心秘密

OpenAI的o4，已经在训练了？就在最近，SemiAnalysis发表了一篇硬核长文博客，爆料了不少大模型圈的内幕消息。其中，一些最核心的亮点，先一睹为快：OpenAI正在训练一个规模介于GPT-4.1和GPT-4.5之间的新模型下一代推理模型o4将基于GPT-4.1展开RL训练强化学习改变了实验室结构，甚至是大厂未来研究的侧重方向和优先级定义奖励函数难上加难，往往AI钻空子之后，漏洞才能被发现不牺牲LLM任何性能，不用合并权重，RL另一条路——数据混合与预训练不同，RL可持续更新Scaling模型能力，DeepSeek-R1是典例高质量数据是Scaling强化学习的护城河训练小模型，蒸馏效果要比RL更好新一轮预训练已开始首先，让我们看看其中最硬的内容——关于OpenAI的全新模型。

6/11/2025 8:54:52 AM

大模型是「躲在洞穴里」观察世界？强化学习大佬「吹哨」提醒LLM致命缺点

「我一直很困惑，语言模型怎么能从下一个 token 预测中学到这么多，而视频模型从下一帧预测中学到的却那么少？难道是因为大模型（LLM）其实是伪装的大脑扫描仪？」近日，加州大学伯克利分校副教授、强化学习大牛 Sergey Levine 发出了一记灵魂拷问。

6/11/2025 8:45:00 AM

刚刚，2025哥德尔奖出炉！破解30年难题，十年论文摘桂冠

就在刚刚，理论计算机科学界迎来喜讯！康奈尔大学副教授Eshan Chattopadhyay与导师David Zuckerman，荣获2025年哥德尔奖！凭借2016年合著的论文《Explicit Two-Source Extractors and Resilient Functions》，他们共享此奖。

6/10/2025 4:27:16 PM

我让十个大模型又参加了完整版数学高考，第一名居然是它......

昨天，我不是发了几个大模型参加数学高考的测试文章嘛。没想到热度挺高，大家还挺关注的。图片不过，很多评论区的小伙伴也说，根本看不出来区别。

6/10/2025 11:25:31 AM 数字生命卡兹克

强化学习之父：LLM主导只是暂时，扩展计算才是正解

这是新晋图灵奖得主、强化学习之父Richard Sutton对未来的最新预测。就在刚刚的新加坡国立大学建校120周年（NUS120）之际，Sutton受邀发表演讲——塑造AI和强化学习的未来。其实，这已经不是Sutton第一次在公开场合表达类似的观点，早在他19年的著作《痛苦的教训》中，他就明确提出：让AI尤其是LLM模仿人类思维方式，只能带来短期的性能提升，长期看只会阻碍研究的持续进步。

6/10/2025 11:22:09 AM

数学圈地震！o3靠直觉刷爆人类顶尖难题，14位专家集体破防

6/10/2025 9:22:31 AM

比自回归更灵活、比离散扩散更通用，首个纯Discrete Flow Matching多模态巨兽降临

王劲，香港大学计算机系二年级博士生，导师为罗平老师。研究兴趣包括多模态大模型训练与评测、伪造检测等，有多项工作发表于 ICML、CVPR、ICCV、ECCV 等国际学术会议。近年来，大型语言模型（LLMs）在多模态任务中取得了显著进展，在人工通用智能（AGI）的两大核心支柱（即理解与生成）方面展现出强大潜力。

6/10/2025 9:18:53 AM

AI集体“听不懂”！MMAR基准测试揭示音频大模型巨大短板

用AI来整理会议内容，已经是人类的常规操作。不过，你猜怎么着？面对1000道多步骤音频推理题时，30款AI模型竟然几乎全军覆没，很多开源模型表现甚至接近瞎猜。

6/10/2025 9:10:00 AM

AI七个月突破数学家“围剿”反超人类！14位数学家深挖原始推理token：不靠死记硬背靠直觉

从只能答对2%的题目，到在超难数学题集中刷下22%得分，甚至超过人类团队平均水平，大模型需要多长时间？现在，令数学家们都惊讶的结果已经尘埃落定：7个月。发生在大名鼎鼎的“专为为难大模型而生的”FrontierMath基准测试上的这一幕，在激起热议同时，也引发了新的思考：大模型们是怎么做到的？

6/10/2025 9:09:00 AM

双重突破：全球首个零售VLA大模型来了！开源OpenWBT让机器人遥操门槛暴降！

学会“适当暂停与总结”，大模型终于实现无限推理。想象一下，让你一口气不歇地推演一个超复杂数学证明，大脑也会“内存溢出”吧？如今的大模型在长上下文推理中也面临同样的困境，随着推理长度增加而指数级增长的计算成本，以及由于长度受限而被迫中断推理过程。

6/10/2025 9:07:00 AM

首创像素空间推理，7B模型领先GPT-4o，让VLM能像人类一样「眼脑并用」

视觉语言模型（VLM）正经历从「感知」到「认知」的关键跃迁。当OpenAI的o3系列通过「图像思维」（Thinking with Images）让模型学会缩放、标记视觉区域时，我们看到了多模态交互的全新可能。然而，当前主流VLM仍被困在「文本茧房」中——依赖文本token间接翻译视觉信息，在高清图像中的微小物体、视频里的动态细节等场景中，常常因缺乏直接视觉操作能力而「视而不见」。

6/10/2025 9:07:00 AM

资讯热榜

免费！让图片放大不失真的位图转矢量图神器 Tmttool AI应用新纪元：2025中国AI应用排行榜榜单揭晓丨2025年1月 6秒视频10秒生成！全新AI视频神器 Grok Imagine 深度体验+元提示词分享 GGUF 是什么？一文看懂大模型里最火的模型格式最火、最全的Agent记忆综述，NUS、人大、复旦、北大等联合出品后悔没早发现！教你用谷歌Gemini生成精美PPT（附提示词） Sora、可灵、即梦哪家强？AI视频软件深度测评！免注册免费用！17种AI绘图模型一站式体验平台LMArena

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI新词 AI绘画大模型机器人数据 Midjourney 开源 Meta 微软智能用户 GPT 学习英伟达 Gemini 智能体技术马斯克 Anthropic 图像 AI创作训练 LLM 论文 AI for Science 代码腾讯苹果算法 Agent Claude 芯片具身智能 Stable Diffusion xAI 蛋白质人形机器人开发者生成式神经网络机器学习 AI视频 3D 字节跳动大语言模型 RAG Sora 百度研究 GPU 生成华为工具 AGI 计算生成式AI AI设计大型语言模型搜索亚马逊 AI模型视频生成特斯拉 DeepMind 场景 Copilot 深度学习 Transformer 架构 MCP 编程视觉

模型

扩散语言模型真的会比自回归好？理论分析结果可能恰恰相反

一招缓解LLM偏科！调整训练集组成，“秘方”在此 | 上交大&上海AI Lab等

时空压缩！剑桥大学提出注意力机制MTLA：推理加速5倍，显存减至1/8

刚刚，OpenAI正式发布o3-pro！奥特曼激动更新博客：温和的奇点

北大伯克利联手“拷问”大模型：最强Agent也才40分！新基准专治“不听话”的AI分析师

0.5B以小搏大拿下端侧模型新SOTA：4090可跑，长文本处理5倍常规加速丨清华&面壁开源

不是视频模型“学习”慢，而是LLM走捷径｜18万引大牛Sergey Levine

OpenAI新模型，被曝秘密训练中！万字硬核长文直指o4核心秘密

大模型是「躲在洞穴里」观察世界？ 强化学习大佬「吹哨」提醒LLM致命缺点

刚刚，2025哥德尔奖出炉！破解30年难题，十年论文摘桂冠

我让十个大模型又参加了完整版数学高考，第一名居然是它......

强化学习之父：LLM主导只是暂时，扩展计算才是正解

数学圈地震！o3靠直觉刷爆人类顶尖难题，14位专家集体破防

比自回归更灵活、比离散扩散更通用，首个纯Discrete Flow Matching多模态巨兽降临

AI集体“听不懂”！MMAR基准测试揭示音频大模型巨大短板

AI七个月突破数学家“围剿”反超人类！14位数学家深挖原始推理token：不靠死记硬背靠直觉

双重突破：全球首个零售VLA大模型来了！开源OpenWBT让机器人遥操门槛暴降！

首创像素空间推理，7B模型领先GPT-4o，让VLM能像人类一样「眼脑并用」

大模型是「躲在洞穴里」观察世界？强化学习大佬「吹哨」提醒LLM致命缺点