理论
Springer知识蒸馏专著解读 | 面向图像识别的知识蒸馏综述
本次文章介绍我们发表于由Springer出版的专著《Advancements in Knowledge Distillation: Towards New Horizons of Intelligent Systems 》中的第一章“Categories of Response-Based, Feature-Based, and Relation-Based Knowledge Distillation”。 该篇文章的主要内容是整理了面向图像识别的知识蒸馏的相关工作,首先在response-based、feature-based和relation-based三种知识形式来介绍离线知识蒸馏的相关工作,然后整理了在线知识蒸馏和自知识蒸馏的相关工作,在其中也对自监督学习蒸馏和视觉Transformer(ViT)蒸馏也进行了介绍。 最后讲解了扩展的蒸馏技术领域,包括多教师知识蒸馏、跨模态知识蒸馏、注意力机制知识蒸馏、无数据知识蒸馏和对抗知识蒸馏。
2/19/2025 5:20:00 PM
机器之心
「诺奖风向标」2025斯隆奖公布,清华姚班大神霸榜!8位华人计算机科学家入选
2025斯隆研究奖,最新名单刚刚出炉! 今年,126位杰出的职业生涯早期科学家,荣获「诺奖风向标」斯隆研究奖。 这些学者凭借卓越的成就和巨大的发展潜力,成功跻身美国和加拿大新一代科学领军人物的行列。
2/19/2025 4:01:46 PM
新智元
Kimi新论文再次“撞车”DeepSeek,都谈到了长文注意力机制
Kimi背后的长上下文处理机制曝光了! 这项名为MoBA的新型注意力机制,能将处理1M长文本的速度一下子提升6.5倍,而且还是经过Kimi平台实际验证的那种。 概括而言,这项耗时一年半的工作主要看点在:把完整上下文划分成块,让每个查询token自动去关注最相关的KV块,这样就能高效处理长序列数据;提出一种新的参数无关的top-k门控机制,它能给每个查询token挑选出最相关的块,保证模型只聚焦在最有用信息的块上;支持在全注意力和稀疏注意力模式之间轻松切换;一言以蔽之,MoBA将MoE(专家混合)应用于注意力机制,通过遵循一种“less structure” 原则,允许模型自主决定关注哪些区域或位置。
2/19/2025 4:01:37 PM
量子位
DeepSeek新注意力机制引热议!梁文锋亲自提交预印本,目标明确降低计算成本
DeepSeek新注意力机制论文一出,再次引爆讨论热度。 依然是熟悉的画风,熟悉的味道——那边马斯克疯狂烧了20万张卡训出Grok 3,这厢DeepSeek重点关注的依然是压缩计算和推理成本。 具体来说,新论文提出了一种可原生训练的稀疏注意力机制,名为NSA(Native Sparse Attention)。
2/19/2025 4:01:37 PM
量子位
OpenAI掀「百万美金」编程大战!Claude 3.5 Sonnet狂赚40万拿下第一
昨天马斯克刚刚发布了号称「地表最聪明」的Grok 3模型,抢走了所有关注。 这边OpenAI就开始坐不住了,立刻扔出了SWE-Lancer(AI编码测试基准),看一下AI到底能在现实任务中挣到多少钱。 SWE-Lance是一个全新的、更贴近现实的基准测试,用于评估AI模型的编码性能。
2/19/2025 4:01:37 PM
新智元
李彦宏最新财报会议内容流出:百度从DeepSeek身上学到了一件事;调用量涨30倍百度AI搜索的打法;50亿股票回购回馈股东
编辑 | 言征出品 | 51CTO技术栈(微信号:blog51cto)开年,各大科技巨头都被DeepSeek狠狠冲击已经近三周。 本周将会迎来各大公司的2024的Q4财报会议。 百度率先公开了过去三个月取得的成绩。
2/19/2025 4:01:29 PM
言征
Spring Boot 接入 DeepSeek API:实现智能应用的全新路径
在数字化时代,人工智能技术的飞速发展为各行业带来了前所未有的变革机遇。 自然语言处理作为 AI 领域的重要分支,正逐渐渗透到我们日常生活的方方面面,从智能客服、文本生成到知识问答等应用场景,其价值不断凸显。 DeepSeek 作为一种先进且功能强大的自然语言处理 API,为开发者提供了高效、精准的语言理解和生成能力。
2/19/2025 4:00:00 PM
Java技术营地
中国高温超导新突破登Nature,薛其坤院士领衔,南方科大成果
中国高温超导,再迎新突破! 南方科技大学校长薛其坤院士领衔的团队,最新研究成果加急发表在了Nature。 不同于经典的铜或铁基超导,这项成果首次让镍基化合物突破了麦克米兰极限(40K)。
2/19/2025 3:43:16 PM
量子位
奥特曼押注惨败,爆火Ai Pin已死!ChatGPT版iPhone终结,惠普1.16亿美元接盘
谁也没想到,曾红极一时爆火硬件Ai Pin直接挂了! 刚刚,惠普以1.16亿美元收购了前苹果夫妻高管联手创办的AI初创Humane。 曾经,AI硬件这个领域被奥特曼寄予厚望,为此他大力投资了消费硬件初创Humane。
2/19/2025 2:02:23 PM
新智元
宇树机器人跳舞被疑AI合成,王兴兴发新视频自证,小红书:还是疑似AI合成
“这机器人绝对是AI或CG合成的! ”“这也太假了。 ”在一片质疑声之下,宇树科技CEO王兴兴在小红书上发了段自家机器人的最新视频:这段视频是宇树G1机器人的实拍,最大特点就是在机器人后边放了块大镜子。
2/19/2025 2:02:18 PM
量子位
一句话,满足两个广告商!谷歌最新「Token拍卖模型」,多LLM联合创作广告词
当多个LLM智能体共同创作内容时,它们会如何协调彼此的「话语权」? 想象一下,在广告投放中,A航空公司和B度假村都希望吸引用户的目光,但单独宣传各自的服务可能不如联合推广来得有吸引力。 那么,如何让AI智能体像人类一样展开博弈,在竞争与合作之间找到最佳平衡?
2/19/2025 2:02:11 PM
新智元
英伟达CEO老黄预言:未来,每个人都有自己的AI导师!
AI导师时代来临,学习门槛将大幅降低! 在近日接受《财富》杂志采访时,黄仁勋直言:「AI的迅猛发展正在彻底改变知识获取的方式。 」以往学习一门新技能或进入陌生领域,需要投入大量时间和精力,而AI导师的出现让这一切发生了翻天覆地的变化。
2/19/2025 2:02:11 PM
新智元
DeepSeek满血微调秘籍开源!站在巨人肩膀打造私有模型,一手教程在此
DeepSeek爆火甚至引发API低价内卷……但是别忘了开源模型的最大好处是提供了“巨人的肩膀”啊! 微调DeepSeek-V3/R1,低成本打造高质量私有模型、提高业务竞争力,或许才是当下行业内更迫切的需求。 就在刚刚,已收获近4万GitHub StarColossal-AI发布开源大模型后训练工具箱,它包含:DeepSeek-V3/R1满血671B LoRA低成本SFT微调;完整的强化学习工具链PPO、GRPO、DPO、SimPO等;无缝适配DeepSeek系列蒸馏模型在内的HuggingFace开源模型;兼容支持英伟达GPU、华为昇腾NPU等多种硬件;支持混合精度训练,gradient checkpoint等训练加速降低成本;灵活的训练配置接口,支持自定义奖励函数、损失函数等;提供灵活的并行策略配置接口,包括数据并行、模型并行、专家并行、ZeRO和Offload等,以适应不同硬件规模。
2/19/2025 2:02:11 PM
量子位
民营企业家座谈会:科技大佬分享AI与新能源最新动态
最近,民营企业家座谈会成为关注的焦点,科技大佬们如雷军、王传福、王兴兴等分享了AI、新能源、半导体芯片等领域的最新动态和发展战略。
2/19/2025 2:02:10 PM
dream
Spring Boot + DeepSeek:解锁 AI 开发新姿势
在当今数字化时代,人工智能(AI)技术正以前所未有的速度改变着我们的生活和工作方式。 作为开发者,我们一直在寻找更高效、更智能的方式来构建应用程序。 今天,我们要为大家介绍一个强大的组合:Spring Boot DeepSeek,这将为你的应用注入智能新动力,开启 AI 开发的新篇章。
2/19/2025 12:00:00 PM
Java技术营地
2025年网络安全投资的六大关键考量:应对新威胁的智慧决策
尽管在2021年至2022年间,网络安全预算有所增长,但近几年的增长势头已明显放缓。 这意味着,网络安全领导者在采购决策时,必须更加审慎地考虑如何改善当前的安全和合规状况,以确保每一分投入都能带来实实在在的效益。 那么,如何在2025年优化企业的网络安全预算,以有效应对不断演变的威胁呢?领导层需要深入了解当前的网络安全格局,并明确哪些举措能够帮助他们恰当地缓解风险。
2/19/2025 11:29:11 AM
Rita Gurevich
Llama都在用的RoPE有了视频版,复旦上海AI Lab等提出长视频理解/检索绝佳拍档
Llama都在用的RoPE(旋转位置嵌入)被扩展到视频领域,长视频理解和检索更强了。 复旦大学、上海AI实验室等提出VideoRoPE,并确定了将RoPE有效应用于视频所需的四个关键特性。 在长视频检索、视频理解和视频幻觉等各种下游任务中,VideoRoPE始终优于先前的RoPE变体。
2/19/2025 11:28:00 AM
DeepSeek-V3深入解读!
上一篇文章对DeepSeek-R1进行了详细的介绍,今天来看看DeepSeek-R1的基座模型DeepSeek-V3。 项目地址::现有的开源模型在性能和训练成本之间往往难以达到理想的平衡。 一方面,为了提升模型性能,需要增加模型规模和训练数据量,这会导致训练成本急剧上升;另一方面,高效的训练和推理架构对于降低计算资源消耗至关重要。
2/19/2025 10:49:30 AM
Glodma
资讯热榜
标签云
人工智能
OpenAI
AIGC
AI
ChatGPT
AI绘画
DeepSeek
模型
数据
机器人
谷歌
大模型
Midjourney
智能
用户
开源
学习
GPT
微软
Meta
图像
AI创作
技术
论文
Gemini
Stable Diffusion
马斯克
算法
蛋白质
芯片
代码
生成式
英伟达
腾讯
神经网络
研究
计算
Anthropic
Sora
3D
AI for Science
AI设计
机器学习
开发者
GPU
AI视频
华为
场景
人形机器人
预测
百度
苹果
伟达
Transformer
深度学习
xAI
Claude
模态
字节跳动
大语言模型
搜索
驾驶
具身智能
神器推荐
文本
Copilot
LLaMA
算力
安全
视觉
视频生成
训练
干货合集
应用
大型语言模型
亚马逊
科技
智能体
AGI
DeepMind