模型

Llama 4重测竞技场排名大跳水，网友：社区很难再信任Meta了

Llama 4被曝在大模型竞技场作弊后，重新上架了非特供版模型。但是你很可能没发现它。因为排名一下子从第2掉到了第32，要往下翻好久才能看到。

4/13/2025 5:04:23 PM 量子位

算法不重要，AI的下一个范式突破，「解锁」新数据源才是关键

众所周知，人工智能在过去十五年里取得了令人难以置信的进步，尤其是在最近五年。回顾一下人工智能的「四大发明」吧：深度神经网络→Transformer 语言模型→RLHF→推理，基本概括了 AI 领域发生的一切。我们有了深度神经网络（主要是图像识别系统），然后是文本分类器，然后是聊天机器人，现在我们又有了推理模型。

4/12/2025 3:57:00 PM 机器之心

字节新推理模型逆袭DeepSeek，200B参数战胜671B，豆包史诗级加强？

4/11/2025 12:10:33 PM 量子位

预训练还没终结！港中文清华等提出「三位一体」框架，持续自我进化

当前（多模态）大模型正深陷「数据饥渴」困境：其性能高度依赖预训练阶段大量高质量（图文对齐）数据的支撑。然而，现实世界中这类高价值数据资源正在迅速耗尽，传统依赖真实数据驱动模型能力增长的路径已难以为继。在NeurIPS 2024会议上，OpenAI联合创始人Ilya Sutskever明确指出：「Pre-training as we know it will end」，这一判断是对传统预范式极限的清晰警示。

4/11/2025 9:35:34 AM 新智元

Grok-3四档定价揭秘：低至0.3美元/百万token，硬刚谷歌Meta

GenAI竞争，越来越激烈了。据Similar Web统计，在日活跃用户方面，Grok与Gemini展开了激烈竞争。两者都已经超过50万日活跃用户，差距不足5万。

4/11/2025 9:29:15 AM 新智元

7B小模型写好学术论文，新框架告别AI引用幻觉，实测100%学生认可引用质量

学术写作通常需要花费大量精力查询文献引用，而以ChatGPT、GPT-4等为代表的通用大语言模型（LLM）虽然能够生成流畅文本，但经常出现“引用幻觉”（Citation Hallucination），即模型凭空捏造文献引用。这种现象严重影响了学术论文的可信度与专业性。现在，加拿大滑铁卢大学与卡内基梅隆大学的华人研究团队，提出了一种名为 ScholarCopilot 的智能学术写作大模型框架，专门针对学术场景，致力于精准地生成带有准确引用的学术文本。

4/11/2025 9:12:21 AM 量子位

Kimi 16B胜GPT-4o！开源视觉推理模型：MoE架构，推理时仅激活2.8B

刚刚，Kimi团队上新了！开源轻量级视觉语言模型Kimi-VL及其推理版Kimi-VL-Thinking，多模态和推理双双拿捏。按照Kimi官方的说法，其关键亮点如下：都是基于MoE架构，总参数为16B，但推理时仅激活2.8B；具备强大的多模态推理能力（媲美参数大10倍的模型）和Agent能力；支持128K上下文窗口；采用相对较为宽松的MIT许可证。

4/11/2025 9:10:00 AM 量子位

字节开源新生图模型：一个模型统一所有生图任务，多主体融合效果SOTA

利用字节团队魔改的FLUX模型，可以直接把多个参考主体放进一张图了。字节团队以FLUX为基础模型，提出了新的生图模型UNO，统一了图像生成任务中不同输入条件的处理。无论是单主体进行风格变换，还是不同物体的融合，UNO都能直接搞定。

4/11/2025 9:00:00 AM 量子位

UC伯克利华人开源14B「o3-mini」，代码版R1突袭OpenAI王座！

OpenAI o1/o3-mini级的推理模型，竟被抢先开源了？刚刚，来自UC伯克利和Together AI的联合团队，重磅推出了一款完全开源的代码推理模型——DeepCoder-14B-Preview。现在，只需要14B就可以拥有一个媲美o3-mini的本地模型，并且完全免费！

4/10/2025 10:02:43 AM 新智元

谷歌最新AI芯片打平英伟达B200，专为推理模型打造，最高配每秒42500000000000000000次浮点运算

谷歌首款AI推理特化版TPU芯片来了，专为深度思考模型打造。代号Ironwood，也就是TPU v7，FP8峰值算力4614TFlops，性能是2017年第二代TPU的3600倍，与2023年的第五代TPU比也有10倍。（为什么不对比第六代，咱也不知道，咱也不敢问。

4/10/2025 9:43:01 AM 量子位

剪枝60%不损性能！上海AI Lab提出高斯剪枝新方法，入选CVPR 2025

三维高斯泼溅（3D Gaussian Splatting）使得实时高质量渲染成为可能，是当前3D视觉领域最常用的算法之一。问题在于，基于显示高斯单元的表示方式，尽管可以高效溅射和光栅化，其密集化和优化过程却往往会生成冗余的高斯点，导致单个重建场景可能包含数百万个高斯点。这不仅降低了训练和渲染速度（本可能更快），还导致显著的内存消耗。

4/10/2025 9:38:37 AM 量子位

用梯度下降求解整数规划，中科大等提出无监督训练整数规划求解器新范式 | ICLR 2025 Spotlight

无监督学习训练整数规划求解器的新范式来了。中国科学技术大学王杰教授团队（MIRA Lab）提出了一种全新的整数规划求解方法——DiffILO（Differentiable Integer Linear Programming Optimization），相关论文已被人工智能顶级国际会议ICLR 2025接收为Spotlight。结果显示：与现有主流的监督学习方法对比，DiffILO不仅显著加快训练速度，还能生成更高质量的可行解。

4/10/2025 9:15:03 AM 量子位

首个统一多模态模型评测标准，DeepSeek Janus理解能力领跑开源，但和闭源还有差距

统一多模态大模型（U-MLLMs）逐渐成为研究热点，近期GPT-4o，Gemini-2.0-flash都展现出了非凡的理解和生成能力，而且还能实现跨模态输入输出，比如图像文本输入，生成图像或文本。相比传统的多模态模型（比如 GPT-4V 或 DALL·E 3），这类模型在任务适应性和灵活性上更具优势。然而，当前研究领域还存在几个突出的问题：1.

4/10/2025 9:15:00 AM 量子位

李飞飞团队提出世界模型基准：“世界生成”能力迎来统一评测，3D/4D/视频模型同台PK

4/10/2025 9:10:00 AM 量子位

GPT开山一作，本科学历入职前CTO初创！OpenAI痛失「爱因斯坦级天才」

被Ilya感谢过，被奥特曼誉为「爱因斯坦级的天才」，在OpenAI更是「想要什么就给什么」——即便如此，去年12月，Alec Radford还是选择了离开。直到昨天，他的去向才确定。据Thinking Machine Lab官网更新，OpenAI前核心成员Alec Radford和Bob McGrew将担任公司顾问（Advisors）。

4/10/2025 9:00:00 AM 新智元

使用Argo Workflows微调大语言模型

本文整理自：KCD 2025 Beijing: Fine-tuning LLM with Argo Workflows: A Kubernetes-native Approach1.在大语言模型上微调的挑战图片微调就是将特定的领域数据赋予到基础的大模型中进行特定的调优。为什么要这样做呢，这是因为基础的大语言模型的设计较为通用，像一颗未经雕琢的宝石/百科全书，能够给我们比较通用全面的回答，当面对一些特定领域的问题，比如金融，健康等领域，回答不够精细化。通过微调，可以让模型在特定领域达到出类拔萃的效果。

4/10/2025 7:59:51 AM 田双坤

孪生世界动态仿真新突破！北大发布RainyGS：降雨/洪涝/风速精准可控

神经辐射场（NeRF）及三维高斯泼溅（3D Gaussian Splatting，3DGS）虽能构建静态数字孪生，却无法模拟真实世界的动态，不仅限制了虚拟现实和混合现实的真实感，也是智能训练与Real2Sim2Real范式突破的关键瓶颈。如何让数字孪生世界具备真实物理规律，实现可预测、可操控的动态环境，是自动驾驶、具身智能等空间智能应用亟待解决的核心挑战。为此，北京大学陈宝权教授研究团队提出RainyGS技术（合作者为楚梦渝、陈文拯助理教授，博士生戴启宇、倪星宇和本科生沈千帆），探索了一条通向「孪生世界动态仿真」的新路径。

4/9/2025 1:25:34 PM 新智元

5分钟直出46页论文！谷歌Deep Research完爆OpenAI，最强Gemini 2.5加持

今早，谷歌Deep Research迎来史上最强升级，正式搭载了Gemini 2.5 Pro全球顶尖模型。这一次，新版本在以下方面得到显著的提升：分析推理：逻辑更清晰，结论更有深度信息整合：从海量数据中快速提炼要点，化繁为简报告洞察力：生成的报告不仅详尽，还能提供独到的见解。谷歌CEO劈柴哥转发力挺。

4/9/2025 1:19:29 PM 新智元

资讯热榜

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI新词 AI绘画大模型机器人数据 Midjourney 开源 Meta 微软智能用户 GPT 学习英伟达 Gemini 智能体技术马斯克 Anthropic 图像 AI创作训练 LLM 论文 AI for Science 代码腾讯苹果算法 Agent Claude 芯片具身智能 Stable Diffusion xAI 蛋白质人形机器人开发者生成式神经网络机器学习 AI视频 3D 字节跳动大语言模型 RAG Sora 百度研究 GPU 生成华为工具 AGI 计算生成式AI AI设计大型语言模型搜索亚马逊 AI模型视频生成特斯拉 DeepMind 场景 Copilot 深度学习 Transformer 架构 MCP 编程视觉

模型

Llama 4重测竞技场排名大跳水，网友：社区很难再信任Meta了

算法不重要，AI的下一个范式突破，「解锁」新数据源才是关键

字节新推理模型逆袭DeepSeek，200B参数战胜671B，豆包史诗级加强？

预训练还没终结！港中文清华等提出「三位一体」框架，持续自我进化

Grok-3四档定价揭秘：低至0.3美元/百万token，硬刚谷歌Meta

7B小模型写好学术论文，新框架告别AI引用幻觉，实测100%学生认可引用质量

Kimi 16B胜GPT-4o！开源视觉推理模型：MoE架构，推理时仅激活2.8B

字节开源新生图模型：一个模型统一所有生图任务，多主体融合效果SOTA​

UC伯克利华人开源14B「o3-mini」，代码版R1突袭OpenAI王座！

谷歌最新AI芯片打平英伟达B200，专为推理模型打造，最高配每秒42500000000000000000次浮点运算

剪枝60%不损性能！上海AI Lab提出高斯剪枝新方法，入选CVPR 2025

用梯度下降求解整数规划，中科大等提出无监督训练整数规划求解器新范式 | ICLR 2025 Spotlight

首个统一多模态模型评测标准，DeepSeek Janus理解能力领跑开源，但和闭源还有差距

李飞飞团队提出世界模型基准：“世界生成”能力迎来统一评测，3D/4D/视频模型同台PK

GPT开山一作，本科学历入职前CTO初创！OpenAI痛失「爱因斯坦级天才」

使用Argo Workflows微调大语言模型

孪生世界动态仿真新突破！北大发布RainyGS：降雨/洪涝/风速精准可控

5分钟直出46页论文！谷歌Deep Research完爆OpenAI，最强Gemini 2.5加持

字节开源新生图模型：一个模型统一所有生图任务，多主体融合效果SOTA