模型

MM-Eureka：极少数据实现多模态推理的R1-Zero时刻

尽管 DeepSeek-R1 在单模态推理中取得了显著成功，但已有的多模态尝试（如 R1-V、R1-Multimodal-Journey、LMM-R1）尚未完全复现其核心特征。例如，R1-V 仅在简单计数任务上表现出进步，未能实现回答长度的增长和顿悟时刻；R1-Multimodal-Journey 则在训练过程中回答长度反而降低；LMM-R1 虽然有所进步，但尚未在大规模图文数据训练中得到验证。而 Kimi 1.5 尽管表现突出，但并未开源其模型或数据。

3/14/2025 11:59:29 AM 机器之心

Anthropic CEO：全体失业好过50%失业！AI将接管所有代码，但可以一键「躺平」

「再过一年，所有的代码可能都是AI生成的。」「它们会随机抢走世界上50%的工作。」「应该设计一个按钮，让AI可以一键『躺平』。

3/14/2025 10:29:43 AM 新智元

南开提出1Prompt1Story，无需训练，可通过单个连接提示实现一致的文本到图像生成

（1Prompt1Story）是一种无训练的文本到图像生成方法，通过整合多个提示为一个长句子，并结合奇异值重加权（SVR）和身份保持交叉注意力（IPCA）技术，解决了生成图像中身份不一致的问题，同时保持了文本描述的精准对齐。相关链接论文：：：，通过单个连接提示实现一致的文本到图像生成。我们的方法可以应用于所有基于文本嵌入的文本到图像模型。

3/14/2025 10:02:38 AM AIGC Studio

科学家构建多模态LLM框架，进行3D脑CT放射学报告生成

编辑 | 烂菜叶多模态大型语言模型 (MLLM) 已经改变了现代医疗保健的格局，其中自动放射学报告生成 (RRG) 正在成为一种尖端应用。虽然基于 2D MLLM 的 RRG 已经得到充分认可，但其在 3D 医学图像中的实用性仍未得到充分开发。在这方面，台北荣民总医院（Taipei Veterans General Hospital）、台湾阳明交通大学（National Yang Ming Chiao Tung University）以及美国加州大学的研究人员整理了 3D-BrainCT 数据集（18,885 个文本扫描对）并开发了 BrainGPT，这是一种专为 3D CT RRG 设计的临床视觉指令调整 (CVIT) 模型。

3/13/2025 2:23:00 PM ScienceAI

DeepSeek“防弹衣”来了，模型内生安全加固方案，拒绝杀敌一千自损八百｜上海AI Lab

3/13/2025 1:10:00 PM 量子位

自动调整推理链长度，SCoT来了！为激发推理能力研究还提出了一个新架构

不怕推理模型简单问题过度思考了，能动态调整CoT的新推理范式SCoT来了！ SCoT，即自结构化推理链（Self-structured Chain of Thought ）。它通过将推理过程分解为最小语义原子步骤，能动态生成适配不同复杂度问题的CoT结构，解决了现有方法在推理多样性和效率上的不足。

3/13/2025 1:00:00 PM 量子位

DeepSeek玩家能提前拿苹果新品！只要15万元，在家跑满血版R1

号称地表最强的M3 Ultra，本地跑满血版DeepSeek R1，效果到底如何？其实，有些DeepSeek玩家们已经提前拿到手做过实测了。例如这位Alex老哥就是其中之一：他提前拿到了两台搭载M3 Ultra的Mac Studio，配置是这样的：M3 Ultra（32 核中央处理器、80 核图形处理器和 32 核神经网络引擎）512G统一内存1TB固态硬盘具体来说，Alex老哥用配备Thunderbolt 5互连技术（传输速率为 80Gbps）的EXO Labs设备，来运行完整的DeepSeek R1模型（671B、8-bit）。

3/13/2025 12:41:37 PM 量子位

11B模型拿下开源视频生成新SOTA！仅用224张GPU训练，训练成本省10倍

224张GPU，训出开源视频生成新SOTA！ Open-Sora 2.0正式发布。 11B参数规模，性能可直追HunyuanVideo和Step-Video（30B）。

3/13/2025 12:39:22 PM 量子位

长链推理表象下，大模型精细表征张冠李戴的本质

近些年，大模型的发展可谓是繁花似锦、烈火烹油。从 2018 年 OpenAI 公司提出了 GPT-1 开始，到 2022 年底的 GPT-3，再到现在国内外大模型的「百模争锋」，DeepSeek 异军突起，各类大模型应用层出不穷。然而，无论在学术界还是在工业界，目前对大模型应用的评测都是单纯在模型输出层面判断结果的准确性，而没有从大模型内在精细决策逻辑的角度来分析模型的可靠性。

3/13/2025 11:18:14 AM 张拳石、陈鹭

YOLOe问世，实时观察一切，统一开放物体检测和分割

它能像人眼一样，在文本、视觉输入和无提示范式等不同机制下进行检测和分割。自 2015 年由华盛顿大学的 Joseph Redmon 研究团队提出 YOLO（You Only Look Once）以来，这项突破性的目标检测技术就像为机器装上了「闪电之眼」，凭借单次推理的实时性能刷新了计算机视觉的认知边界。传统的 YOLO 系列如同我们人工效准的精密仪器，其识别能力被严格框定在预定义的类别目录之中，每个检测框的背后，都需要工程师手动输入认知词典。

3/13/2025 11:11:04 AM 机器之心

超越DeepSeek-R1关键RL算法GRPO，CMU「元强化微调」新范式登场

3/13/2025 11:07:30 AM 机器之心

担心成为「AI界奥本海默」！DeepMind、Anthropic CEO同框，26年AGI降临？

当今世界，谁最有可能成为「AI时代的奥本海默」？ DeepMind的创始人Hassabis与Anthropic的创始人Dario无疑是热门人选。近日，这两位AI巨头罕见地坐到了一起，在《经济学人》的访谈中，直面AGI（通用人工智能）带来的种种争议与挑战。

3/13/2025 10:50:00 AM 新智元

只需7.6% token，性能还更强！华人团队提全新「草稿链」CoD，成本延迟大降

当下，企业正处于部署AI的关键节点。随着AI系统在企业运营中的深度融合，计算成本与响应时间成为阻碍AI广泛应用的主要瓶颈。来自Zoom的华人研究团队取得了一项突破性成果，他们开发的「草稿链」（Chain of Draft，CoD）技术，有望从根本上改变企业大规模部署AI的模式。

3/13/2025 10:40:00 AM 新智元

Open-Sora 2.0全面开源，20万复刻百万级大片！11B媲美闭源巨头，224张GPU创奇迹

今天，视频生成领域迎来开源革命！ Open-Sora 2.0——全新开源的SOTA（State-of-the-Art）视频生成模型正式发布，仅用20万美元（224张GPU）成功训练出商业级11B参数视频生成大模型，性能直追HunyuanVideo和30B参数的Step-Video。权威评测VBench及用户偏好测试均证实其卓越表现，在多项关键指标上媲美动辄数百万美元训练成本的闭源模型。

3/13/2025 10:26:45 AM 新智元

多模态训练后模型能力雪崩，上海AI Lab全面探索MLLM偏好对齐与模态融合

在实际应用过程中，闭源模型（GPT-4o）等在回复的全面性、完备性、美观性等方面展示出了不俗的表现。与之相反的是，在General VQA任务上表现最好的开源模型（如InternVL2-78B）在面对开放式、需要知识储备的问题时，表现不尽人意：△InternVL2-78B和GPT-4o在回复的完备性和美观性上有较大差距上述现象引发了上海交大、上海AI Lab等联合团队的思考。他们首先猜测：MLLM的回复质量下降可能是因为经过了多模态数据训练之后，LLM本身的能力退化。

3/13/2025 9:47:29 AM 量子位

百万美金炼出「调参秘籍」！阶跃星辰开源LLM最优超参工具

近日，阶跃星辰研究团队通过大规模实证探索，耗费了近 100 万 NVIDIA H800 GPU 小时（约百万美元），从头训练了 3,700 个不同规模，共计训了 100 万亿个 token，揭示了 LLM 超参数优化的全新的普适性缩放规律，为更好地提升 LLM 性能，提供了开箱即用的工具。该研究也是第一个全面研究模型最优超参随着 Model Shape、Dense/MoE、预训练数据分布的变化，是否稳定不变的工作。研究中凸显出 Step Law 的鲁棒性，大大增加了该工具的实用性和普适性。

3/13/2025 9:20:20 AM 机器之心

首篇AI自写论文通过ICLR 2025同行评审！6.25高分碾压人类，AI独挑科研大梁

首篇完全由AI生成的论文，竟通过了ICLR 2025同行评审！刚刚，Sakana AI正式亮相AI Scientist-v2版本，直接踢破了AI顶会的大门。从提出科学假设、设计实验、到编写代码、运行实验、分析数据、绘制图表，再到撰写完整论文，所有环节均由AI完成。

3/13/2025 9:16:25 AM 新智元

谷歌Gemma 3上线！单GPU最强多模态手机可跑，27B完胜o3-mini

谷歌Gemma 3全家桶来了！刚刚，在巴黎开发者日上，开源Gemma系模型正式迭代到第三代，原生支持多模态，128k上下文。此次，Gemma 3一共开源了四种参数，1B、4B、12B和27B。

3/13/2025 9:12:35 AM 新智元

资讯热榜

免费！让图片放大不失真的位图转矢量图神器 Tmttool AI应用新纪元：2025中国AI应用排行榜榜单揭晓丨2025年1月 GGUF 是什么？一文看懂大模型里最火的模型格式最火、最全的Agent记忆综述，NUS、人大、复旦、北大等联合出品 6秒视频10秒生成！全新AI视频神器 Grok Imagine 深度体验+元提示词分享 Sora、可灵、即梦哪家强？AI视频软件深度测评！免注册免费用！17种AI绘图模型一站式体验平台LMArena 可灵、即梦、海螺、Vidu哪家强？4大AI视频神器深度测评

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI绘画 AI新词大模型机器人数据 Midjourney 开源 Meta 微软智能用户 GPT 学习智能体技术 Gemini 英伟达马斯克 Anthropic 图像 AI创作训练 LLM 论文代码 AI for Science 苹果腾讯算法 Agent Claude 芯片 Stable Diffusion 具身智能 xAI 蛋白质开发者人形机器人生成式神经网络机器学习 AI视频 3D RAG 大语言模型字节跳动 Sora 百度研究 GPU 生成工具华为 AGI 计算 AI设计生成式AI 大型语言模型搜索视频生成亚马逊特斯拉 AI模型 DeepMind 场景深度学习 Copilot Transformer 架构 MCP 编程视觉