模型

复旦主导，中美等8个国家25家单位44名学者联合发布大模型安全技术综述

近年来，随着大模型的快速发展和广泛应用，其安全问题引发了社会各界的广泛关注。例如，近期发生的「全球首例利用 ChatGPT 策划的恐袭事件」再次敲响了警钟，凸显了大模型安全问题的紧迫性和重要性。为应对这一挑战，来自中美英德等 8 个国家 25 家高校和科研机构的 44 位 AI 安全领域学者联合发布了一篇系统性技术综述论文。

2/20/2025 11:31:31 AM 机器之心

英伟达开源4K图像生成模型Sana，可在16G显存电脑部署，支持ComfyUI和LoRA训练

英伟达开源了一个可以直接生成 4K 图片的模型 Sana。 Sana-0.6B 可以在 16GB 的笔记本电脑 GPU 上部署。生成 1024 × 1024 分辨率的图像只需不到 1 秒钟。

2/20/2025 9:55:01 AM AIGC Studio

腾讯优图提出首个基于DiT的高保真虚拟试衣算法FitDiT

今天介绍的文章来自公众号粉丝投稿，腾讯优图提出首个基于DiT的高保真虚拟试衣算法FitDiT，给定一个人像图像和一个衣物图像，就可以生成一个展示人物穿着所提供衣物的图像。 FitDiT 在虚拟试穿中表现出色，解决了各种场景中与纹理感知保存和尺寸感知试穿相关的挑战。引言基于图像的虚拟试穿是当前电商场景流行且前景看好的图像合成技术，能够显著改善消费者的购物体验并降低服装商家的广告成本。

2/20/2025 9:36:45 AM AIGC Studio

再谈什么是神经网络，透过现象看本质

面对着网络上各种各样关于神经网络的内容，很多想学习神经网络的人都无从下手，包括作者自己；面对各种乱七八糟的概念，名词，很多人都被这些东西蒙住了眼睛。所以，今天我们就抛开各种高大上的概念，从本质出发来学习什么网络；我们今天不讨论CNN，RNN，Transformer，LSTM等各种神经网络架构；只讨论什么是神经网络。神经网络对神经网络有过了解的人应该都知道，神经网络就是仿生学的一种实现，使用的是数学模型模拟人类的大脑神经系统；具体的可以看一下上一篇文章——从一个简单的神经网络模型开始。

2/20/2025 8:10:00 AM AI探索时代

从一个简单的神经网络模型开始

关于神经网络的文章写的也不少了，但一直没弄明白神经网络到底是怎么运作的；而现有的神经网络模型又太复杂，如Transformer，CNN，RNN，以及各种应用场景(NLP，CV，分类任务，回归任务等等)；导致我们无法看到神经网络最本质的东西。所以，今天我们就来从最简单的神经网络开始学起。简单神经网络神经网络的基本原理很简单，那就是模仿由人类大脑神经元构成的神经网络；神经元结构如下图所示：上图是生物学中神经元的基本结构，神经元由树突和轴突以及细胞核组成；而不同神经元之间通过轴突进行连接；当然这些都是中学生物学的基础，就不多说了。

2/19/2025 6:00:00 PM AI探索时代

DeepSeek新注意力机制引热议！梁文锋亲自提交预印本，目标明确降低计算成本

DeepSeek新注意力机制论文一出，再次引爆讨论热度。依然是熟悉的画风，熟悉的味道——那边马斯克疯狂烧了20万张卡训出Grok 3，这厢DeepSeek重点关注的依然是压缩计算和推理成本。具体来说，新论文提出了一种可原生训练的稀疏注意力机制，名为NSA（Native Sparse Attention）。

2/19/2025 4:01:37 PM 量子位

Kimi新论文再次“撞车”DeepSeek，都谈到了长文注意力机制

Kimi背后的长上下文处理机制曝光了！这项名为MoBA的新型注意力机制，能将处理1M长文本的速度一下子提升6.5倍，而且还是经过Kimi平台实际验证的那种。概括而言，这项耗时一年半的工作主要看点在：把完整上下文划分成块，让每个查询token自动去关注最相关的KV块，这样就能高效处理长序列数据；提出一种新的参数无关的top-k门控机制，它能给每个查询token挑选出最相关的块，保证模型只聚焦在最有用信息的块上；支持在全注意力和稀疏注意力模式之间轻松切换；一言以蔽之，MoBA将MoE（专家混合）应用于注意力机制，通过遵循一种“less structure” 原则，允许模型自主决定关注哪些区域或位置。

2/19/2025 4:01:37 PM 量子位

OpenAI掀「百万美金」编程大战！Claude 3.5 Sonnet狂赚40万拿下第一

昨天马斯克刚刚发布了号称「地表最聪明」的Grok 3模型，抢走了所有关注。这边OpenAI就开始坐不住了，立刻扔出了SWE-Lancer（AI编码测试基准），看一下AI到底能在现实任务中挣到多少钱。 SWE-Lance是一个全新的、更贴近现实的基准测试，用于评估AI模型的编码性能。

2/19/2025 4:01:37 PM 新智元

奥特曼押注惨败，爆火Ai Pin已死！ChatGPT版iPhone终结，惠普1.16亿美元接盘

谁也没想到，曾红极一时爆火硬件Ai Pin直接挂了！刚刚，惠普以1.16亿美元收购了前苹果夫妻高管联手创办的AI初创Humane。曾经，AI硬件这个领域被奥特曼寄予厚望，为此他大力投资了消费硬件初创Humane。

2/19/2025 2:02:23 PM 新智元

宇树机器人跳舞被疑AI合成，王兴兴发新视频自证，小红书：还是疑似AI合成

“这机器人绝对是AI或CG合成的！ ”“这也太假了。 ”在一片质疑声之下，宇树科技CEO王兴兴在小红书上发了段自家机器人的最新视频：这段视频是宇树G1机器人的实拍，最大特点就是在机器人后边放了块大镜子。

2/19/2025 2:02:18 PM 量子位

英伟达CEO老黄预言：未来，每个人都有自己的AI导师！

AI导师时代来临，学习门槛将大幅降低！在近日接受《财富》杂志采访时，黄仁勋直言：「AI的迅猛发展正在彻底改变知识获取的方式。」以往学习一门新技能或进入陌生领域，需要投入大量时间和精力，而AI导师的出现让这一切发生了翻天覆地的变化。

2/19/2025 2:02:11 PM 新智元

DeepSeek满血微调秘籍开源！站在巨人肩膀打造私有模型，一手教程在此

DeepSeek爆火甚至引发API低价内卷……但是别忘了开源模型的最大好处是提供了“巨人的肩膀”啊！微调DeepSeek-V3/R1，低成本打造高质量私有模型、提高业务竞争力，或许才是当下行业内更迫切的需求。就在刚刚，已收获近4万GitHub StarColossal-AI发布开源大模型后训练工具箱，它包含：DeepSeek-V3/R1满血671B LoRA低成本SFT微调；完整的强化学习工具链PPO、GRPO、DPO、SimPO等；无缝适配DeepSeek系列蒸馏模型在内的HuggingFace开源模型；兼容支持英伟达GPU、华为昇腾NPU等多种硬件；支持混合精度训练，gradient checkpoint等训练加速降低成本；灵活的训练配置接口，支持自定义奖励函数、损失函数等；提供灵活的并行策略配置接口，包括数据并行、模型并行、专家并行、ZeRO和Offload等，以适应不同硬件规模。

2/19/2025 2:02:11 PM 量子位

全球首测！OpenAI开源SWELancer，大模型冲击100万年薪

今天凌晨2点，OpenAI开源了一个全新评估大模型代码能力的测试基准——SWE-Lancer。目前，测试模型代码能力的基准主要有SWE-Bench和SWE-BenchVerified，但这两个有一个很大的局限性，主要针对孤立任务，很难反映现实中软件工程师的复杂情况。例如，开发人员需处理全技术栈的工作，要考虑代码库间的复杂交互和权衡。

2/19/2025 9:40:58 AM AIGC开放社区

官宣！OpenAI前CTO新公司：北大校友翁荔加盟，创始29人2/3来自OpenAI

正式官宣！ OpenAI前CTO Mira Murati 成立新公司——Thinking Machines Lab。整个创业团队可以说前所未有之豪华了，三分之二的都是以前的OpenAI旧部追随——其中包括OpenAI前研究（后训练）副总裁Barret Zoph，担任公司CTO；刚刚离职Anthropic、OpenAI离职联创John Schulman，任公司首席科学家，还有包括前OpenAI VP、北大校友翁荔等等。

2/19/2025 9:20:30 AM 量子位

马斯克“地表最强”Grok 3炸场，竞技场首超1400分

刚刚，马斯克xAI的Grok 3终于亮相（超300万人次围观）！一出道即巅峰，竞技场（lmarena.ai）官方给出了这样的评价：Grok 3是首个突破1400分的模型，并且在所有类别中排名第一。而且，Grok 3还是首个在10万张（后扩展到20万）H100集群上训练出的模型。

2/18/2025 3:09:07 PM 量子位

微软开放3.1T token高质量数据！通用/代码/数学/问答，全领域超越开源

过去几年，大型语言模型（LLMs）已经成为人工智能研究的一个关键领域，从大规模的自然语言数据中学习，使其能够以极高的准确率执行各种与语言相关的任务。得益于模型扩展性方面的进展，研究人员能够创建具有前所未有复杂度的模型。当前的研究趋势是致力于构建更大、更复杂的模型，具有数百/数千亿个参数，但大型语言模型的训练需要海量的训练数据，尤其随着模型参数量的上升，对于优质数据数量的要求也将进一步加大，优质数据量的缺乏极大限制了模型能力的进一步增长。

2/18/2025 3:03:58 PM 新智元

马斯克20万块GPU炼出Grok-3，暴击DeepSeek R1数学屠榜！疯狂复仇OpenAI

人类史上首个在20万块GPU上训出的模型终于问世！刚刚，马斯克带队三位xAI成员在线开启直播，官宣Grok-3全家桶——Grok-3（Beta）、Grok-3 mini首个推理模型Grok-3 Reasoning（Beta）、Grok-3 mini Reasoning：击败o3-mini/DeepSeek-R1，解锁推理时计算首个AI智能体「DeepSearch」：联网深入搜索一股OpenAI发布会的味道扑面而来据介绍，三代Grok的训练计算量竟是Grok-2的10倍，那么实际表现又如何？世界最大超算集群Colossus已有20万块GPU：10万块GPU同步训练（第一阶段用时122天搭建）；20万GPU（第二阶段用时92天）在多项基准测试中，Grok-3在数学（AIME 2024）、科学问答（GPQA）、编码（LCB）上刷新SOTA，大幅超越DeepSeek-V3、Gemini-2 Pro、GPT-4o。

2/18/2025 2:59:16 PM 新智元

OpenAI突宣开源计划：端侧模型or小模型二选一！奥特曼在线征集投票全球最大开源视频模型，现在也Created in China了，阶跃出品

刚刚，阶跃星辰联合吉利汽车集团，开源了两款多模态大模型！新模型共2款：全球范围内参数量最大的开源视频生成模型Step-Video-T2V行业内首款产品级开源语音交互大模型Step-Audio多模态卷王开始开源多模态模型，其中Step-Video-T2V采用的还是最为开放宽松的MIT开源协议，可任意编辑和商业应用。（老规矩，GitHub、抱抱脸、魔搭直通车可见文末）在两款大模型的研发过程中，双方在算力算法、场景训练等领域优势互补，“显著增强了多模态大模型的性能表现”。

2/18/2025 1:30:00 PM 量子位

资讯热榜

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI新词 AI绘画大模型机器人数据 Midjourney 开源 Meta 微软智能用户 GPT 学习英伟达 Gemini 智能体技术马斯克 Anthropic 图像 AI创作训练 LLM 论文 AI for Science 代码腾讯苹果算法 Agent Claude 芯片具身智能 Stable Diffusion xAI 蛋白质人形机器人开发者生成式神经网络机器学习 AI视频 3D 字节跳动大语言模型 RAG Sora 百度研究 GPU 生成华为工具 AGI 计算生成式AI AI设计大型语言模型搜索亚马逊 AI模型视频生成特斯拉 DeepMind 场景 Copilot 深度学习 Transformer 架构 MCP 编程视觉