模型

字节首次公开图像生成基模技术细节！数据处理到RLHF全流程披露

就在今天，字节豆包大模型团队在 arxiv 上发布了一篇技术报告，完整公开了文生图模型技术细节，涵盖数据处理、预训练、RLHF 在内的后训练等全流程模型构建方法，也详细披露了此前大火的文字精准渲染能力如何炼成。报告将豆包文生图模型称为 Seedream 2.0，并明确提到，该模型于去年 12 月初上线到豆包 APP 和即梦平台。从模型能力看，Seedream 2.0 是原生的中英双语图像生成基础模型，拥有很强的美感和文本渲染效果，与目前即梦上的文生图主力模型特性匹配。

3/12/2025 2:40:53 PM 机器之心

32B IOI奥赛击败DeepSeek-R1！Open R1开源复刻第三弹，下一步R1-Zero

Hugging Face的Open R1再度升级！ Hugging Face的Open R1是一个社区驱动的项目，目标是创建一个完全开源的DeepSeek-R1版本。目前，已有模型如OlympicCoder-32B和数据集如codeforces发布，显示了项目的进展。

3/12/2025 1:55:05 PM 新智元

10秒生成4分钟音乐，8GB显存就能跑！已登Hugging Face趋势榜

音乐创作，尤其是完整歌曲的生成，一直是人工智能领域的一大挑战。 Suno、Udio等商用音乐生成大模型展现出惊人的音乐生成能力。但现有开源的音乐生成模型要么只能生成人声或伴奏，要么依赖复杂的多阶段架构，难以扩展到长音频生成。

3/12/2025 10:41:34 AM 新智元

快慢双系统！清华&博世最新Chameleon：无需训练即可解决复杂道路拓扑（ICRA'25）

在自动驾驶技术中，车道拓扑提取是实现无地图导航的核心任务之一。它要求系统不仅能检测出车道和交通元素（如交通灯、标志），还要理解它们之间的复杂关系。例如，判断车辆是否可以左转进入某条车道，就需要综合考虑交通规则、车道布局和信号灯状态等多种因素。

3/12/2025 10:07:06 AM 自动驾驶之心

OpenAI深夜发布全新Agent工具：两大杀器登场，感觉可以手搓Manus了

可以自己动手手搓Manus了？刚刚OpenAI举行了一个19分钟的线上发布会，推出全新Agent工具，OpenAI直接祭出自研Agent SDK和Responses API两大杀器！旨在彻底简化agent开发流程，让开发者和企业都能轻松构建实用又可靠的智能体！

3/12/2025 10:00:44 AM AI寒武纪

揭示显式CoT训练机制：思维链如何增强推理泛化能力

基于逐步生成解决方案的大语言模型（LLMs）训练范式在人工智能领域获得了广泛关注，并已发展成为行业内的主流方法之一。例如，OpenAI 在其「12 Days of OpenAI」直播系列的第二日推出了针对 O1 模型的强化微调（Reinforcement Fine-Tuning，RFT），进一步推动了 AI 定制化的发展[1]。 RFT/ReFT[2] 的一个关键组成部分是使用思维链（Chain-of-Thought，CoT）注释[3] 进行监督微调（Supervised Fine-Tuning，SFT）。

3/12/2025 9:48:19 AM 机器之心

18项任务200万视频编辑对，云天励飞联合多高校打造出大规模编辑数据集

目前的视频编辑算法主要分为两种：一种是利用 DDIM-Inversion 完成视频编辑，另一种是利用训练好的编辑模型。然而，前者在视频的一致性和文本对齐方面存在较大缺陷；后者由于缺乏高质量的视频编辑对，难以获得理想的编辑模型。为了解决视频编辑模型缺乏训练数据的问题，本文作者（来自香港中文大学、香港理工大学、清华大学等高校和云天励飞）提出了一个名为 Señorita-2M 的数据集。

3/12/2025 9:40:28 AM 机器之心

大模型全军覆没，中科院自动化所推出多图数学推理新基准 | CVPR 2025

挑战多图数学推理新基准，大模型直接全军覆没？事情是这样的。近日，中国科学院自动化研究所推出多图数学推理全新基准MV-MATH（该工作已被CVPR 2025录用），这是一个精心策划的多图数学推理数据集，旨在全面评估MLLM（多模态大语言模型）在多视觉场景中的数学推理能力。

3/11/2025 1:49:20 PM 量子位

阿里开源R1-Omni，DeepSeek同款RLVR首度结合全模态情感识别，网友：可解释性+多模态学习=下一代AI

首次将DeepSeek同款RLVR应用于全模态LLM，含视频的那种！眼睛一闭一睁，阿里通义实验室薄列峰团队又开卷了，哦是开源，R1-Omni来了。同样在杭州，这是在搞什么「开源双feng」（狗头保命）？

3/11/2025 1:47:10 PM 量子位

武大等发布大视觉模型最新安全综述：全面分类攻击策略、防御机制和评估方法

随着GPT-4o与Qwen-VL等模型的视觉理解和多模态生成能力逐渐打破众人认知，大型视觉语言模型（LVLMs）正以前所未有的速度重塑AI世界，这些能够理解视觉信息并生成自然语言响应的智能系统，已在医疗诊断、自动驾驶、金融风控等关键领域崭露头角。然而，当研究者仅用几百美元就能突破顶级模型的安全防线、简单的对抗噪声图片就能让模型输出危险内容，我们是否该感到担心？近期，武汉大学、中国科学技术大学和南洋理工大学的研究团队发布了一篇综述，系统性总结了LVLMs在安全性上的挑战，并提出了全面而系统的安全分类框架。

3/11/2025 1:44:24 PM 新智元

轻松拿捏高等数学，LLM平均得分90+！GPT-4o、Mistral几乎没错

朋友会离开你，兄弟会背叛你。但数学不会，数学不会就是不会。相信学不好高等数学的人，对上面这个梗深有感悟。

3/11/2025 1:42:19 PM 新智元

OpenAI最强模型惨遭剖脑，CoT写下作弊自白书！不写代码耍心机被当场抓包

就在刚刚，OpenAI博客放出了一项新的研究。他们发现，前沿推理模型一旦有机会，就会试图钻漏洞！这种行为，被称为奖励欺骗。

3/11/2025 1:39:08 PM 新智元

使用DeepSeek的GRPO，7B模型只需强化学习就能拿下数独

没有任何冷启动数据，7B 参数模型能单纯通过强化学习学会玩数独吗？近日，技术博主 Hrishbh Dalal 的实践表明，这个问题的答案是肯定的。并且他在这个过程中用到了 DeepSeek 开发的 GRPO 算法，最终他「成功在一个小型数独数据集上实现了高奖励和解答」。

3/11/2025 1:07:58 PM 机器之心

Magic Mirror：可从单个参考图像生成电影级质量身份一致性和自然运动视频

Magic Mirror 可以生成合成身份配对的视频数据。该框架利用视频扩散模型，能够在保持身份一致性的同时，生成具有电影级质量和动态运动的视频。 Magic Mirror 根据 ID 参考图像生成文本转视频结果。

3/11/2025 10:15:00 AM AIGC Sdudio

DPG-Bench榜首！智谱开源文生图模型CogView4：支持中英文输入和生成，免费商用授权！

在图像生成技术的浪潮中，智谱开源再次引领潮流，推出了全新的文生图模型——CogView4。这款模型不仅支持中英双语提示词输入，更擅长理解和遵循中文指令，让创意表达无界限。尤为值得一提的是，CogView4开创了先河，成为首个能在画面中直接生成汉字的开源文生图模型，让文字与图像的融合更加自然流畅。

3/11/2025 10:00:00 AM AIGC Studio

腾讯混元-TurboS：首个混合Transformer-Mamba MoE超大模型来了

3/11/2025 9:42:00 AM AI寒武纪

哥大本科生靠AI横扫硅谷大厂offer，学校震怒！预言码农两年内淘汰准备退学

硅谷大型科技公司FAANG的面试，对不少人来说都是一场噩梦。结果，哥大的一位大二学生Roy Lee，居然利用AI，顺利斩获了亚马逊、Meta和TikTok的offer，获得了直通梦中情厂的实习机会！这个消息一出，震惊了不少人。

3/11/2025 9:40:00 AM 新智元

微软开源多模态AI基础模型！无需额外微调轻松拿捏网页、机器人

微软研究院官宣开源多模态AI——Magma模型。首个能在所处环境中理解多模态输入并将其与实际情况相联系的基础模型。该模型近期已被计算机视觉顶会CVPR接收，只要给定一个目标描述，Magma就能制定计划、执行行动，无论是在数字界面中还是物理世界里，都能展现出灵活而高效的交互能力。

3/11/2025 9:35:00 AM 量子位

资讯热榜

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI新词 AI绘画大模型机器人数据 Midjourney 开源 Meta 微软智能用户 GPT 学习英伟达 Gemini 智能体技术马斯克 Anthropic 图像 AI创作训练 LLM 论文 AI for Science 代码腾讯苹果算法 Agent Claude 芯片具身智能 Stable Diffusion xAI 蛋白质人形机器人开发者生成式神经网络机器学习 AI视频 3D 字节跳动大语言模型 RAG Sora 百度研究 GPU 生成华为工具 AGI 计算生成式AI AI设计大型语言模型搜索亚马逊 AI模型视频生成特斯拉 DeepMind 场景 Copilot 深度学习 Transformer 架构 MCP 编程视觉