模型

美7000万人或被取代，Agent光速卷入职场！北大校友、杨笛一新作

1769年，瓦特改进了蒸汽机。 1945年，计算机诞生。 2001年，3G移动网络开始部署。

6/19/2025 9:10:00 AM

清华SageAttention3，FP4量化5倍加速！且首次支持8比特训练

随着大型模型需要处理的序列长度不断增加，注意力运算（Attention）的时间开销逐渐成为主要开销。此前，清华大学陈键飞团队提出的即插即用的 SageAttention 和 SageAttention2 已经被业界及社区广泛的使用于各种开源及商业的大模型中，比如 Vidu，CogvideoX，Mochi，Wan，HunyuanVideo，Flux，Llama3，Qwen 等。近日，清华大学陈键飞团队进一步提出了针对 BlackWell 架构的首个全 FP4 量化的即插即用注意力算子（SageAttention3）。

6/19/2025 9:07:00 AM

GPT-5今夏突袭？Sam Altman 首次大谈 GPT-5、AGI

昨天凌晨，OpenAI发布了其联合创始人兼首席执行官Sam Altman的40分钟深度专访。本次访谈技术干货很足，Altman谈到了大家非常关心的核心产品GPT-5，大概率会在今年夏天发布，但也会因为命名、安全测试、功能迭代等原因延长产品时间。也谈到了高性能的o3模型以及智能体Deep Research，这些产品对实现AGI的重要性。

6/19/2025 9:06:00 AM

谢赛宁团队新基准让LLM集体自闭，DeepSeek R1、Gemini 2.5 Pro都是零分

近年来，LLMs（如 GPT-4、Claude、Gemini 等）在代码生成领域取得了显著进展。它们不仅在经典编程基准（如 HumanEval）中表现出色，甚至在某些测试中超越了人类平均水平。这促使许多研究者开始宣称：LLM 已经胜过人类程序员，尤其是在竞赛编程领域。

6/19/2025 9:04:00 AM

告别玄学选LLM！弗吉尼亚理工选型框架入选ICML 2025

还在靠“开盲盒”选择大模型？来自弗吉尼亚理工大学的研究人员推出了个选型框架LensLLM——大幅提升选型效果的同时，成本却降低近90%。众所周知，在大模型如雨后春笋般爆发的时代，选型成了AI工程师和研究员最大的痛点之一：模型多如牛毛，怎么选才不会“踩坑”？

6/19/2025 8:55:00 AM

75%预训练数据都能删！Jeff Dean新作：全自动筛除低质量数据

机器学习领域有一条铁律，「Garbage In, Garbage Out.」，就是说模型的质量很大程度上取决于训练数据的质量。大模型在预训练阶段会吸收海量的数据，其中数据的来源非常杂，导致质量参差不齐。大量的实验和经验已经证明了，对预训练数据进行质量筛选是提高模型能力和效率的关键。

6/19/2025 8:50:00 AM

字节Seed提出序贯策略优化方法，突破同传“质量-延迟”权衡问题

AI字幕总是慢半拍，质量和延迟难以平衡是业界老问题了。为此，香港中文大学、字节跳动Seed和斯坦福大学研究团队出手，提出了一种面向同声传译的序贯策略优化框架 (Sequential Policy Optimization for Simultaneous Machine Translation, SeqPO-SiMT)。在70亿参数（7B）规模上实现SOTA。

6/19/2025 8:49:00 AM

单GPU搞定高清长视频生成，效率×10！引入Mamba机制突破DiT瓶颈 | 普林斯顿&Meta

视频生成模型太贵太慢怎么办？普林斯顿大学和Meta联合推出的新框架LinGen，以MATE线性复杂度块取代传统自注意力，将视频生成从像素数的平方复杂度压到线性复杂度，使单张GPU就能在分钟级长度下生成高质量视频，大幅提高了模型的可扩展性和生成效率。实验结果表明，LinGen在视频质量上优于DiT（胜率达75.6%），并且最高可减少15×（11.5×）FLOPs（延迟）。

6/18/2025 4:42:15 PM

统一框架下的具身多模态推理：自变量机器人让AI放下海德格尔的锤子

当一位熟练的木匠抓起锤子时，锤子消失了 —— 不是物理上的消失，而是无需思考便可自如使用。然而，当前最先进的机器人仍然无法“放下”这把“锤子”，它们被困在循环中 —— 识别锤子、规划如何使用锤子，每一次交互都需要重新“拿起”工具作为认知对象，这种割裂式的处理方式让 AI 永远无法达到人类那种直觉的工具使用境界。具身智能的突破，不会来自对现有基于视觉 - 语言基础模型的修补，而将源于一场架构革命。

6/18/2025 4:41:45 PM

10×加速！DCM显著提升视频扩散模型推理效率！HunyuanVideo13B推理时间从1500秒缩短至120秒！

本文由南京大学，香港大学，上海人工智能实验室，中国科学院大学与南洋理工大学 S-Lab 联合完成。扩散模型在视频合成任务中取得了显著成果，但其依赖迭代去噪过程，带来了巨大的计算开销。尽管一致性模型（Consistency Models）在加速扩散模型方面取得了重要进展，直接将其应用于视频扩散模型却常常导致时序一致性和外观细节的明显退化。

6/18/2025 4:39:02 PM

谷歌Gemini 2.5全线爆发！勇战「濒死恐慌」，却被丝血宝可梦吓到当场宕机

昨夜，Gemini 2.5全家桶三款模型，正式上线。 Gemini 2.5 Pro （正式版，与0605预览版相比无明显变化） Gemini 2.5 Flash（正式版，与0520预览版相比定价有变） Gemini 2.5 Flash-Lite（预览版，最小推理模型）这次，Gemini 2.5 Flash和Gemini 2.5 Pro正式版上线，与谷歌I/O大会公布的预览版性能无明显变化。 2.5 Flash-Lite预览版则是速度最快、性价比最高的Gemini 2.5系模型。

6/18/2025 2:18:23 PM

通向世界模型关键一步：EX-4D来了，实现单目视频到自由视角生成

本文主要作者是 Bytedance Pico 北美高级研究员胡涛博士，近年来研究领域包括3D 重建与 4D 场景和视频生成，致力于得到一种最佳的物理世界表示模型。其他作者均为 Pico MR 团队核心成员。去年一年来，Sora、可灵、Veo 等模型掀起了视频生成领域的革新。

6/18/2025 10:09:13 AM

刚刚，Gemini 2.5系列模型更新，最新轻量版Flash-Lite竟能实时编写操作系统

刚刚，Gemini 系列模型迎来了一波更新：Gemini 2.5 Pro 稳定版发布且已全面可用，其与 6 月 5 日的预览版相比无变化。 Gemini 2.5 Flash 稳定版发布且已全面可用，其与 5 月 20 日的预览版相比无变化，但价格有更新。新推出了 Gemini 2.5 Flash-Lite 并已开启预览。

6/18/2025 9:56:53 AM

机器之心