理论

视频推理界的“福尔摩斯测试”：所有大模型，统统不及格 | 论文代码开源

一个新的Benchmark，竟让大模型在复杂视频推理这事儿上统统不及格！这就是腾讯ARC Lab和香港城市大学最新推出的Video-Holmes——如其名，它可以说是视频推理界的“福尔摩斯测试”，通过让多模态大模型参与“推理杀人凶手”, “解析作案意图”等高难度的推理任务，以展现他们复杂视频推理能力的边界。而且Video-Holmes可以说是规避了现在业内已有的Benchmark痛点，即视频源和问题都偏简单，没法反映推理模型和非推理模型之间的差距。

5/30/2025 9:17:00 AM

博士级AI智能体写的论文，首次登上顶会ACL！人类作者只是监工

有个叫Zochi的AI系统写了一篇研究论文，并且被顶级学术会议ACL 2025的主会场接受了！ ACL是自然语言处理（NLP）领域里最顶尖的会议之一。 Zochi是Intology AI开发的首个博士级智能体，就像一个从头到尾完成科学研究「AI科学家」。

5/30/2025 9:15:00 AM

视频实时生成可交互！两位自动驾驶大牛创业世界模型：40毫秒/帧，无需任何游戏引擎，人人免费可玩

李飞飞押注的世界模型领域，迎来两位自动驾驶大牛创业新成果！无需任何游戏引擎，AI能以40毫秒/帧想象并实时生成视频。 40毫秒/帧啥概念？

5/30/2025 9:14:00 AM

妈妈再也不用担心延迟了！斯坦福手搓Llama超级内核，推理仅需0.00068秒

想象一下：你和AI聊天时，每句话都要等它3秒——血压是不是瞬间飙升？低延迟LLM推理，就是专门针对这个问题的解决办法。博客地址：「整了个大活」：他们手搓了个叫做「Megakernel」超级玩具（推理引擎），把Llama-1B的前向传播整个塞进单个GPU内核！

5/30/2025 9:12:00 AM

基准测试揭秘大模型“字数危机”：26个模型长文本生成普遍拉胯，最大输出长度过度宣传

你是否曾对大语言模型（LLMs）下达过明确的“长度指令”？比如，“写一篇10,000字的长文，详细分析某个议题。 ”看似简单的要求，实际却往往让这些模型“力不从心”：不是生成内容不足，就是重复啰嗦，甚至直接罢工拒绝生成。

5/30/2025 9:10:00 AM

中国团队让AI拥有「视觉想象力」，像人类一样脑补画面来思考

在人类的认知过程中，视觉思维（Visual Thinking）扮演着不可替代的核心角色，这一现象贯穿于各个专业领域和日常生活的方方面面。图 1：需要借助「脑补」图像进行思考的真实世界任务。这些任务通常需要视觉预见性和想象力，仅凭基于文本的思考无法完全实现生物化学家在探索新的治疗途径时，会在脑海中构建蛋白质的三维立体结构，通过视觉化的分子间相互作用来理解复杂的生化过程；法医分析师在破解疑难案件时，需要在心中重建犯罪现场的空间布局，通过视觉推理来验证证据之间的逻辑连接；建筑师在设计创新建筑时，会在脑海中不断勾勒和修正建筑草图，通过视觉想象来优化空间配置和光照效果；篮球运动员在制定战术策略时，需要在脑海中构想队友的跑位路线、防守阵型的变化以及关键时刻的战术配合，通过视觉化的场景想象来设计最佳的进攻方案；在日常决策中，一般人也会通过「脑补」各种可能的场景图像来辅助判断和选择，用脑海中自发生成的图像作为认知媒介。

5/30/2025 9:10:00 AM

135 个项目、七大趋势、三大赛道：撕开大模型开源生态真相，你会怎么卷？

在微软 Build、谷歌 I/O、 Code with Claude 三大开发者大会接连登场的一周里，微软为 Windows 加装模型上下文协议（MCP），Google Gemini 野心初显「AI 操作系统」，Claude 4.0 高调抢滩编程主战场。就在这样的节奏下，5 月 27 日，蚂蚁集团的开源团队「接棒」发布了一张《 2025 大模型开源开发生态全景图》。访问地址：：——135 个社区核心项目、19 个技术领域，全面覆盖从智能体应用到模型基建，系统性梳理了开源力量在大模型浪潮下的集结与演化路径。

5/30/2025 9:07:00 AM

Linear-MoE：线性注意力遇上混合专家的开源实践

近年来随着大语言模型的爆火，旨在取代 Transformer 的高效模型架构及其预训练成为大模型领域的研究热点，主要包括线性序列建模（如 Linear Attention、SSM、Linear RNN 等）和混合专家（Mixture-of-Experts, MoE）两部分。这两部分分别都有了长足的进步，但两者的结合却鲜少有人研究，两者结合后的 Linear-MoE 架构开源实现更是完全缺失。值得一提的是，近期广受好评的 MiniMax-01 模型（使用 Lightning Attention-MoE）和腾讯混元 TurboS 模型（使用 Mamba2-MoE）均属于 Linear-MoE 架构。

5/30/2025 9:06:00 AM

AI仅凭“自信”学会推理，浙大校友复刻DeepSeek长思维链涌现，强化学习无需外部奖励信号

复刻DeepSeek-R1的长思维链推理，大模型强化学习新范式RLIF成热门话题。 UC Berkeley团队共同一作Xuandong Zhao把这项成果称为：大模型无需接触真实答案，仅通过优化自己的信心，就能学会复杂推理。具体来说，新方法完全不需要外部奖励信号或标注数据，只需使用模型自身的置信程度作为内在奖励信号。

5/30/2025 9:05:00 AM

SOTA大模型遇上加密数据评测：Qwen3未破10%，o1也栽了丨上海AI Lab等联合研究

5/30/2025 9:03:00 AM

原来Veo 3早有苗头！人大联合值得买科技在CVPR 2025提出全新「图像到有声视频」生成框架

本文介绍工作由中国人民大学高瓴人工智能学院宋睿华团队、李崇轩、许洪腾与值得买科技 AI 团队共同完成。第一作者王希华是人大高瓴博士生（导师：宋睿华），他的研究兴趣主要在多模态生成，之前提出利用音频布局（audio layout）为视频生成同步声音的TiVA模型，已发表在MM 2024。宋睿华的团队主要研究方向为多模态理解、生成与交互。

5/30/2025 9:00:00 AM

RSS 2025｜从说明书学习复杂机器人操作任务：NUS邵林团队提出全新机器人装配技能学习框架Manual2Skill

本文共同第一作者为新加坡国立大学博士生铁宸睿和多伦多大学研究助理/本科生孙圣翔。合作者为朱锦轩、刘益伟、郭京翔、胡越、陈浩楠、陈俊廷、吴睿海。通讯作者为新加坡国立大学计算机学院助理教授邵林，研究方向为机器人和人工智能。

5/30/2025 8:55:00 AM

LLM省钱大测评！48块GH200，首个百亿级参数量实证

近年来，大型语言模型（LLM）如GPT系列取得了革命性进展，在自然语言处理、内容创作、多语言翻译乃至科学研究等众多领域展现出惊人能力。然而，模型参数量（如DeepseekR1的671B参数）和上下文窗口的急剧膨胀，带来了巨大的计算力（GPT-3训练约需3640Petaflop/s-days）、能源消耗和资金投入（GPT-3训练成本估计超460万美元）。高昂的成本已成为制约LLM进一步发展和广泛应用的关键瓶颈。

5/30/2025 8:50:00 AM

还得是华为！Pangu Ultra MoE架构：不用GPU，你也可以这样训练准万亿MoE大模型

Pangu Ultra MoE 是一个全流程在昇腾 NPU 上训练的准万亿 MoE 模型，此前发布了英文技术报告[1]。最近华为盘古团队发布了 Pangu Ultra MoE 模型架构与训练方法的中文技术报告，进一步披露了这个模型的细节。训练超大规模和极高稀疏性的 MoE 模型极具挑战，训练过程中的稳定性往往难以保障。

5/30/2025 8:45:00 AM

100亿H20没卖出，英伟达狂赚1000多亿破纪录！

英伟达狂赚不止，再次交出了亮眼成绩单！今早，英伟达2026财年第一季度财报公布，再次破纪录：营收达441亿美元，较上一季度增长12%，较去年同期增长69%数据中心收入达391亿美元，较上一季度增长10%，较去年同期增长73%数据中心占据收入的大头，其次为游戏。受新出口许可要求影响，英伟达因H20库存积压及采购义务，在本季度计提了45亿美元费用。

5/30/2025 8:40:00 AM

关于 Claude 4 的一切，千万别错过这篇文章

想在 AI 领域保持领先？千万别错过这篇文章！介绍现在，AI 巨头们几乎天天都在争相推出更先进的模型。

5/30/2025 8:11:30 AM 前端小智

DeepSeek免费超越GPT-4？

5/30/2025 7:40:56 AM 程序员NEO

DeepSeek-R1小升级！体验后有被惊艳到

今年1月，DeepSeek-R1横空出世，凭借在性能和成本方面展现出的巨大优势，迅速成为全球人工智能(AI)领域瞩目的焦点。时隔四个月，这款大模型迎来了小升级。 5月28日，DeepSeek正式发布了R1的最新版本——DeepSeek-R1-0528。

5/30/2025 6:57:53 AM Yu

资讯热榜

免费！让图片放大不失真的位图转矢量图神器 Tmttool AI应用新纪元：2025中国AI应用排行榜榜单揭晓丨2025年1月 6秒视频10秒生成！全新AI视频神器 Grok Imagine 深度体验+元提示词分享最火、最全的Agent记忆综述，NUS、人大、复旦、北大等联合出品后悔没早发现！教你用谷歌Gemini生成精美PPT（附提示词） GGUF 是什么？一文看懂大模型里最火的模型格式 Sora、可灵、即梦哪家强？AI视频软件深度测评！ OmniParser V2 在 Windows 系统上的详细安装与运行指南

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI新词 AI绘画大模型机器人数据 Midjourney 开源 Meta 微软智能用户 GPT 学习英伟达 Gemini 智能体技术马斯克 Anthropic 图像 AI创作训练 LLM 论文 AI for Science 代码腾讯苹果算法 Agent Claude 芯片具身智能 Stable Diffusion xAI 蛋白质人形机器人开发者生成式神经网络机器学习 AI视频 3D 字节跳动大语言模型 RAG Sora 百度研究 GPU 生成华为工具 AGI 计算生成式AI AI设计大型语言模型搜索亚马逊 AI模型视频生成特斯拉 DeepMind 场景 Copilot 深度学习 Transformer 架构 MCP 编程视觉

理论

视频推理界的“福尔摩斯测试”：所有大模型，统统不及格 | 论文代码开源

博士级AI智能体写的论文，首次登上顶会ACL！人类作者只是监工

视频实时生成可交互！ 两位自动驾驶大牛创业世界模型：40毫秒/帧，无需任何游戏引擎，人人免费可玩

妈妈再也不用担心延迟了！斯坦福手搓Llama超级内核，推理仅需0.00068秒

基准测试揭秘大模型“字数危机”：26个模型长文本生成普遍拉胯，最大输出长度过度宣传

中国团队让AI拥有「视觉想象力」，像人类一样脑补画面来思考

135 个项目、七大趋势、三大赛道：撕开大模型开源生态真相，你会怎么卷？

Linear-MoE：线性注意力遇上混合专家的开源实践

AI仅凭“自信”学会推理，浙大校友复刻DeepSeek长思维链涌现，强化学习无需外部奖励信号

SOTA大模型遇上加密数据评测：Qwen3未破10%，o1也栽了丨上海AI Lab等联合研究

原来Veo 3早有苗头！人大联合值得买科技在CVPR 2025提出全新「图像到有声视频」生成框架

RSS 2025｜从说明书学习复杂机器人操作任务：NUS邵林团队提出全新机器人装配技能学习框架Manual2Skill

LLM省钱大测评！48块GH200，首个百亿级参数量实证

还得是华为！Pangu Ultra MoE架构：不用GPU，你也可以这样训练准万亿MoE大模型

100亿H20没卖出，英伟达狂赚1000多亿破纪录！

关于 Claude 4 的一切，千万别错过这篇文章

DeepSeek免费超越GPT-4？

DeepSeek-R1小升级！体验后有被惊艳到

视频实时生成可交互！两位自动驾驶大牛创业世界模型：40毫秒/帧，无需任何游戏引擎，人人免费可玩