AI在线 AI在线

理论

Springer知识蒸馏专著解读 | 面向图像识别的知识蒸馏综述

本次文章介绍我们发表于由Springer出版的专著《Advancements in Knowledge Distillation: Towards New Horizons of Intelligent Systems 》中的第一章“Categories of Response-Based, Feature-Based, and Relation-Based Knowledge Distillation”。 该篇文章的主要内容是整理了面向图像识别的知识蒸馏的相关工作,首先在response-based、feature-based和relation-based三种知识形式来介绍离线知识蒸馏的相关工作,然后整理了在线知识蒸馏和自知识蒸馏的相关工作,在其中也对自监督学习蒸馏和视觉Transformer(ViT)蒸馏也进行了介绍。 最后讲解了扩展的蒸馏技术领域,包括多教师知识蒸馏、跨模态知识蒸馏、注意力机制知识蒸馏、无数据知识蒸馏和对抗知识蒸馏。
2/19/2025 5:20:00 PM
机器之心

「诺奖风向标」2025斯隆奖公布,清华姚班大神霸榜!8位华人计算机科学家入选

2025斯隆研究奖,最新名单刚刚出炉! 今年,126位杰出的职业生涯早期科学家,荣获「诺奖风向标」斯隆研究奖。 这些学者凭借卓越的成就和巨大的发展潜力,成功跻身美国和加拿大新一代科学领军人物的行列。
2/19/2025 4:01:46 PM
新智元

Kimi新论文再次“撞车”DeepSeek,都谈到了长文注意力机制

Kimi背后的长上下文处理机制曝光了! 这项名为MoBA的新型注意力机制,能将处理1M长文本的速度一下子提升6.5倍,而且还是经过Kimi平台实际验证的那种。 概括而言,这项耗时一年半的工作主要看点在:把完整上下文划分成块,让每个查询token自动去关注最相关的KV块,这样就能高效处理长序列数据;提出一种新的参数无关的top-k门控机制,它能给每个查询token挑选出最相关的块,保证模型只聚焦在最有用信息的块上;支持在全注意力和稀疏注意力模式之间轻松切换;一言以蔽之,MoBA将MoE(专家混合)应用于注意力机制,通过遵循一种“less structure” 原则,允许模型自主决定关注哪些区域或位置。
2/19/2025 4:01:37 PM
量子位

DeepSeek新注意力机制引热议!梁文锋亲自提交预印本,目标明确降低计算成本

DeepSeek新注意力机制论文一出,再次引爆讨论热度。 依然是熟悉的画风,熟悉的味道——那边马斯克疯狂烧了20万张卡训出Grok 3,这厢DeepSeek重点关注的依然是压缩计算和推理成本。 具体来说,新论文提出了一种可原生训练的稀疏注意力机制,名为NSA(Native Sparse Attention)。
2/19/2025 4:01:37 PM
量子位

OpenAI掀「百万美金」编程大战!Claude 3.5 Sonnet狂赚40万拿下第一

昨天马斯克刚刚发布了号称「地表最聪明」的Grok 3模型,抢走了所有关注。 这边OpenAI就开始坐不住了,立刻扔出了SWE-Lancer(AI编码测试基准),看一下AI到底能在现实任务中挣到多少钱。 SWE-Lance是一个全新的、更贴近现实的基准测试,用于评估AI模型的编码性能。
2/19/2025 4:01:37 PM
新智元

李彦宏最新财报会议内容流出:百度从DeepSeek身上学到了一件事;调用量涨30倍百度AI搜索的打法;50亿股票回购回馈股东

编辑 | 言征出品 | 51CTO技术栈(微信号:blog51cto)开年,各大科技巨头都被DeepSeek狠狠冲击已经近三周。 本周将会迎来各大公司的2024的Q4财报会议。 百度率先公开了过去三个月取得的成绩。
2/19/2025 4:01:29 PM
言征

Spring Boot 接入 DeepSeek API:实现智能应用的全新路径

在数字化时代,人工智能技术的飞速发展为各行业带来了前所未有的变革机遇。 自然语言处理作为 AI 领域的重要分支,正逐渐渗透到我们日常生活的方方面面,从智能客服、文本生成到知识问答等应用场景,其价值不断凸显。 DeepSeek 作为一种先进且功能强大的自然语言处理 API,为开发者提供了高效、精准的语言理解和生成能力。
2/19/2025 4:00:00 PM
Java技术营地

中国高温超导新突破登Nature,薛其坤院士领衔,南方科大成果

中国高温超导,再迎新突破! 南方科技大学校长薛其坤院士领衔的团队,最新研究成果加急发表在了Nature。 不同于经典的铜或铁基超导,这项成果首次让镍基化合物突破了麦克米兰极限(40K)。
2/19/2025 3:43:16 PM
量子位

奥特曼押注惨败,爆火Ai Pin已死!ChatGPT版iPhone终结,惠普1.16亿美元接盘

谁也没想到,曾红极一时爆火硬件Ai Pin直接挂了! 刚刚,惠普以1.16亿美元收购了前苹果夫妻高管联手创办的AI初创Humane。 曾经,AI硬件这个领域被奥特曼寄予厚望,为此他大力投资了消费硬件初创Humane。
2/19/2025 2:02:23 PM
新智元

宇树机器人跳舞被疑AI合成,王兴兴发新视频自证,小红书:还是疑似AI合成

“这机器人绝对是AI或CG合成的! ”“这也太假了。 ”在一片质疑声之下,宇树科技CEO王兴兴在小红书上发了段自家机器人的最新视频:这段视频是宇树G1机器人的实拍,最大特点就是在机器人后边放了块大镜子。
2/19/2025 2:02:18 PM
量子位

一句话,满足两个广告商!谷歌最新「Token拍卖模型」,多LLM联合创作广告词

当多个LLM智能体共同创作内容时,它们会如何协调彼此的「话语权」? 想象一下,在广告投放中,A航空公司和B度假村都希望吸引用户的目光,但单独宣传各自的服务可能不如联合推广来得有吸引力。 那么,如何让AI智能体像人类一样展开博弈,在竞争与合作之间找到最佳平衡?
2/19/2025 2:02:11 PM
新智元

英伟达CEO老黄预言:未来,每个人都有自己的AI导师!

AI导师时代来临,学习门槛将大幅降低! 在近日接受《财富》杂志采访时,黄仁勋直言:「AI的迅猛发展正在彻底改变知识获取的方式。 」以往学习一门新技能或进入陌生领域,需要投入大量时间和精力,而AI导师的出现让这一切发生了翻天覆地的变化。
2/19/2025 2:02:11 PM
新智元

DeepSeek满血微调秘籍开源!站在巨人肩膀打造私有模型,一手教程在此

DeepSeek爆火甚至引发API低价内卷……但是别忘了开源模型的最大好处是提供了“巨人的肩膀”啊! 微调DeepSeek-V3/R1,低成本打造高质量私有模型、提高业务竞争力,或许才是当下行业内更迫切的需求。 就在刚刚,已收获近4万GitHub StarColossal-AI发布开源大模型后训练工具箱,它包含:DeepSeek-V3/R1满血671B LoRA低成本SFT微调;完整的强化学习工具链PPO、GRPO、DPO、SimPO等;无缝适配DeepSeek系列蒸馏模型在内的HuggingFace开源模型;兼容支持英伟达GPU、华为昇腾NPU等多种硬件;支持混合精度训练,gradient checkpoint等训练加速降低成本;灵活的训练配置接口,支持自定义奖励函数、损失函数等;提供灵活的并行策略配置接口,包括数据并行、模型并行、专家并行、ZeRO和Offload等,以适应不同硬件规模。
2/19/2025 2:02:11 PM
量子位

民营企业家座谈会:科技大佬分享AI与新能源最新动态

最近,民营企业家座谈会成为关注的焦点,科技大佬们如雷军、王传福、王兴兴等分享了AI、新能源、半导体芯片等领域的最新动态和发展战略。
2/19/2025 2:02:10 PM
dream

Spring Boot + DeepSeek:解锁 AI 开发新姿势

在当今数字化时代,人工智能(AI)技术正以前所未有的速度改变着我们的生活和工作方式。 作为开发者,我们一直在寻找更高效、更智能的方式来构建应用程序。 今天,我们要为大家介绍一个强大的组合:Spring Boot DeepSeek,这将为你的应用注入智能新动力,开启 AI 开发的新篇章。
2/19/2025 12:00:00 PM
Java技术营地

2025年网络安全投资的六大关键考量:应对新威胁的智慧决策

尽管在2021年至2022年间,网络安全预算有所增长,但近几年的增长势头已明显放缓。 这意味着,网络安全领导者在采购决策时,必须更加审慎地考虑如何改善当前的安全和合规状况,以确保每一分投入都能带来实实在在的效益。 那么,如何在2025年优化企业的网络安全预算,以有效应对不断演变的威胁呢?领导层需要深入了解当前的网络安全格局,并明确哪些举措能够帮助他们恰当地缓解风险。
2/19/2025 11:29:11 AM
Rita Gurevich

Llama都在用的RoPE有了视频版,复旦上海AI Lab等提出长视频理解/检索绝佳拍档

Llama都在用的RoPE(旋转位置嵌入)被扩展到视频领域,长视频理解和检索更强了。 复旦大学、上海AI实验室等提出VideoRoPE,并确定了将RoPE有效应用于视频所需的四个关键特性。 在长视频检索、视频理解和视频幻觉等各种下游任务中,VideoRoPE始终优于先前的RoPE变体。
2/19/2025 11:28:00 AM

DeepSeek-V3深入解读!

上一篇文章对DeepSeek-R1进行了详细的介绍,今天来看看DeepSeek-R1的基座模型DeepSeek-V3。 项目地址::现有的开源模型在性能和训练成本之间往往难以达到理想的平衡。 一方面,为了提升模型性能,需要增加模型规模和训练数据量,这会导致训练成本急剧上升;另一方面,高效的训练和推理架构对于降低计算资源消耗至关重要。
2/19/2025 10:49:30 AM
Glodma