AI在线 AI在线

模型

两万字长文深度解密DeepSeek-R1、Kimi 1.5,强推理模型凭什么火出圈?

刚刚过去的春节,DeepSeek-R1 推理大模型引爆了国内外 AI 社区,并火出了圈。 最近,各个行业又掀起了接入 DeepSeek 的狂潮,大家唯恐落后于人。 北大 AI 对齐团队对包括 DeepSeek-R1、Kimi-K1.5在内的一些强推理模型进行了 2 万字的技术解读,也是此前 o1 解读(北大对齐团队独家解读:OpenAI o1开启「后训练」时代强化学习新范式)的续作。
2/21/2025 10:34:49 AM
机器之心

谷歌推出PaliGemma 2 mix:用于多任务的视觉语言模型,开箱即用

去年 12 月,谷歌推出了 PaliGemma 2 ,这是Gemma系列中的升级版视觉语言模型。 该版本包含不同大小(3B、10B 和 28B 参数)的预训练检查点,可轻松针对各种视觉语言任务和领域进行微调,例如图像分割、短视频字幕、科学问答和文本相关任务,并实现高性能。 2月19日,谷歌宣布推出 PaliGemma 2 mix 检查点。
2/21/2025 10:00:35 AM
Omar Sanseviero

再次颠覆学界想象,何恺明发表新作:扩散模型不一定需要噪声条件

一直以来,研究者普遍认为,去噪扩散模型要想成功运行,噪声条件是必不可少的。 而大神何恺明的一项最新研究,对这个观点提出了「质疑」。 「受图像盲去噪研究的启发,我们研究了各种基于去噪的生成模型在没有噪声调节的情况下的表现。
2/21/2025 9:40:00 AM
机器之心

谷歌豪华阵容打造AI科学家,用测试时间计算加速科学发现,CEO皮猜也来站台了

CEO皮猜亲自站台,谷歌的最新研究狠狠火了——为科学家群体推出“科研搭子”AI co-scientist,一个能够利用高级推理综合大量文献、生成新颖假设,并提出详细研究计划的多智能体AI系统。 划重点,该系统将与OpenAI o1/DeepSeek-R1相似的测试时间计算用来加速科学发现。 据皮猜介绍,这个系统已经在肝脏纤维化治疗、抗菌耐药性和药物再利用等重要研究领域取得了初步成果。
2/21/2025 9:20:00 AM
量子位

微软Muse秒生游戏登Nature,10亿级画面练出最强AI!千亿游戏市场重洗牌

同一天,微软放出两个核弹,首个拓扑量子芯片,还有首个世界与人类行动模型。 AI离数秒生成游戏视频的未来,又近了一步。 今天,微软团队首次引入了「世界与人类行动模型」(WHAM),并冠以希腊艺术女神「缪斯」(Muse)之名。
2/21/2025 8:44:06 AM
新智元

2025年度国际挑战赛正式启动,期待你的加入!

•新挑战○全新具身智能及自动驾驶赛道,全方位覆盖相关领域最新、最热话题,共同探讨具身智能核心问题。 •高奖金○总奖池高达 10 万美元,单赛道最高奖金(创新奖 冠军)可达 1.5 万美元。 2025年度国际挑战赛旨在通过全球合作促进具身智能与自动驾驶领域的发展。
2/20/2025 6:28:00 PM
新闻助手

DeepSeek R1范式复现笔记

作者 | yulei自DeepSeek R1技术报告🐳开放以来,开源社区涌现了多种「复现」工作。 本R1复现笔记旨在以多个开源项目的再复现以及交叉验证为目标,探索R1/R1-zero中强化学习步骤带来的模型效果提升,并尝试展望R1技术在未来模型训练与业务落地上的前景。 一、R1 开源项目梳理目前主流的 R1 系列复现工作如表 1 所示。
2/20/2025 3:32:28 PM
腾讯技术工程

突发,Grok-3免费上线!答对9.11和9.9谁大,1分攻克MIT积分难题

世界首个20万块GPU(另有说法是10万)训出的Grok-3,官宣人人可用了! DeepSearch、Think两大模式,同时上线。 唯独遗憾的是,Big Brain还在雪藏。
2/20/2025 1:44:01 PM
新智元

Nature认证DeepSeek成科研工具全能者,国内高校如何借力大模型?

DeepSeek的风,也是飘到了科研领域——最新消息,同济大学通过百度智能云千帆大模型平台接入并调用DeepSeek-R1/V3系列模型;包括浙大、北大清华等知名高校也是纷纷出动,要么接入模型推出智能体,又或者出品干货课程、使用手册《从入门到精通》等等,几度都登上热搜。 Nature更是几度发文,因为DeepSeek开源低成本易部署等优势,科学家们纷纷涌向DeepSeek,这种模型已经是科研AI工具中的全能者。 感知到的是,大模型在科研探索中发挥的价值远比以往任何时候都深入。
2/20/2025 1:30:00 PM
量子位

物理直觉不再是人类专属?LeCun等新研究揭示AI可如何涌现出此能力

在当今的 AI 领域,图灵奖得主 Yann LeCun 算是一个另类。 即便眼见着自回归 LLM 的能力越来越强大,能解决的任务也越来越多,他也依然坚持自己的看法:自回归 LLM 没有光明的未来。 在近期的一次演讲中,他将自己的观点总结成了「四个放弃」:放弃生成式模型、放弃概率模型、放弃对比方法、放弃强化学习。
2/20/2025 12:37:57 PM
机器之心

复旦主导,中美等8个国家25家单位44名学者联合发布大模型安全技术综述

近年来,随着大模型的快速发展和广泛应用,其安全问题引发了社会各界的广泛关注。 例如,近期发生的「全球首例利用 ChatGPT 策划的恐袭事件」再次敲响了警钟,凸显了大模型安全问题的紧迫性和重要性。 为应对这一挑战,来自中美英德等 8 个国家 25 家高校和科研机构的 44 位 AI 安全领域学者联合发布了一篇系统性技术综述论文。
2/20/2025 11:31:31 AM
机器之心

英伟达开源4K图像生成模型Sana,可在16G显存电脑部署,支持ComfyUI和LoRA训练

英伟达开源了一个可以直接生成 4K 图片的模型 Sana。 Sana-0.6B 可以在 16GB 的笔记本电脑 GPU 上部署。 生成 1024 × 1024 分辨率的图像只需不到 1 秒钟。
2/20/2025 9:55:01 AM
AIGC Studio

腾讯优图提出首个基于DiT的高保真虚拟试衣算法FitDiT

今天介绍的文章来自公众号粉丝投稿,腾讯优图提出首个基于DiT的高保真虚拟试衣算法FitDiT,给定一个人像图像和一个衣物图像,就可以生成一个展示人物穿着所提供衣物的图像。 FitDiT 在虚拟试穿中表现出色,解决了各种场景中与纹理感知保存和尺寸感知试穿相关的挑战。 引言基于图像的虚拟试穿是当前电商场景流行且前景看好的图像合成技术,能够显著改善消费者的购物体验并降低服装商家的广告成本。
2/20/2025 9:36:45 AM
AIGC Studio

再谈什么是神经网络,透过现象看本质

面对着网络上各种各样关于神经网络的内容,很多想学习神经网络的人都无从下手,包括作者自己;面对各种乱七八糟的概念,名词,很多人都被这些东西蒙住了眼睛。 所以,今天我们就抛开各种高大上的概念,从本质出发来学习什么网络;我们今天不讨论CNN,RNN,Transformer,LSTM等各种神经网络架构;只讨论什么是神经网络。 神经网络对神经网络有过了解的人应该都知道,神经网络就是仿生学的一种实现,使用的是数学模型模拟人类的大脑神经系统;具体的可以看一下上一篇文章——从一个简单的神经网络模型开始。
2/20/2025 8:10:00 AM
AI探索时代

从一个简单的神经网络模型开始

关于神经网络的文章写的也不少了,但一直没弄明白神经网络到底是怎么运作的;而现有的神经网络模型又太复杂,如Transformer,CNN,RNN,以及各种应用场景(NLP,CV,分类任务,回归任务等等);导致我们无法看到神经网络最本质的东西。 所以,今天我们就来从最简单的神经网络开始学起。 简单神经网络神经网络的基本原理很简单,那就是模仿由人类大脑神经元构成的神经网络;神经元结构如下图所示:上图是生物学中神经元的基本结构,神经元由树突和轴突以及细胞核组成;而不同神经元之间通过轴突进行连接;当然这些都是中学生物学的基础,就不多说了。
2/19/2025 6:00:00 PM
AI探索时代

Kimi新论文再次“撞车”DeepSeek,都谈到了长文注意力机制

Kimi背后的长上下文处理机制曝光了! 这项名为MoBA的新型注意力机制,能将处理1M长文本的速度一下子提升6.5倍,而且还是经过Kimi平台实际验证的那种。 概括而言,这项耗时一年半的工作主要看点在:把完整上下文划分成块,让每个查询token自动去关注最相关的KV块,这样就能高效处理长序列数据;提出一种新的参数无关的top-k门控机制,它能给每个查询token挑选出最相关的块,保证模型只聚焦在最有用信息的块上;支持在全注意力和稀疏注意力模式之间轻松切换;一言以蔽之,MoBA将MoE(专家混合)应用于注意力机制,通过遵循一种“less structure” 原则,允许模型自主决定关注哪些区域或位置。
2/19/2025 4:01:37 PM
量子位

DeepSeek新注意力机制引热议!梁文锋亲自提交预印本,目标明确降低计算成本

DeepSeek新注意力机制论文一出,再次引爆讨论热度。 依然是熟悉的画风,熟悉的味道——那边马斯克疯狂烧了20万张卡训出Grok 3,这厢DeepSeek重点关注的依然是压缩计算和推理成本。 具体来说,新论文提出了一种可原生训练的稀疏注意力机制,名为NSA(Native Sparse Attention)。
2/19/2025 4:01:37 PM
量子位

OpenAI掀「百万美金」编程大战!Claude 3.5 Sonnet狂赚40万拿下第一

昨天马斯克刚刚发布了号称「地表最聪明」的Grok 3模型,抢走了所有关注。 这边OpenAI就开始坐不住了,立刻扔出了SWE-Lancer(AI编码测试基准),看一下AI到底能在现实任务中挣到多少钱。 SWE-Lance是一个全新的、更贴近现实的基准测试,用于评估AI模型的编码性能。
2/19/2025 4:01:37 PM
新智元