知识蒸馏
榨干每一分算力:Distillation Scaling Laws带你走进高效模型新时代
初次阅读这篇文章,感到非常震撼。 在DeepSeek将知识蒸馏方法带入大众视野后,Apple与牛津大学的研究人员迅速提出了蒸馏缩放定律,并已于2月28日完成了所有实验及一篇长达67页的论文上传至arXiv。 这种效率和深度,无疑展示了大公司的研究实力。
2/27/2025 12:42:54 PM
Gloadma
被DeepSeek带火的知识蒸馏详解!
今天来详细了解DeepSeek中提到的知识蒸馏技术,主要内容来自三巨头之一Geoffrey Hinton的一篇经典工作:。 主要从背景、定义、原理、代码复现等几个方面来介绍:1、背景介绍训练与部署的不一致性在机器学习和深度学习领域,训练模型和部署模型通常存在显著差异。 训练阶段,为了追求最佳性能,我们通常会使用复杂的模型架构和大量的计算资源,从海量且高度冗余的数据集中提取有用信息。
2/27/2025 10:41:53 AM
Glodma
Springer知识蒸馏专著解读 | 面向图像识别的知识蒸馏综述
本次文章介绍我们发表于由Springer出版的专著《Advancements in Knowledge Distillation: Towards New Horizons of Intelligent Systems 》中的第一章“Categories of Response-Based, Feature-Based, and Relation-Based Knowledge Distillation”。 该篇文章的主要内容是整理了面向图像识别的知识蒸馏的相关工作,首先在response-based、feature-based和relation-based三种知识形式来介绍离线知识蒸馏的相关工作,然后整理了在线知识蒸馏和自知识蒸馏的相关工作,在其中也对自监督学习蒸馏和视觉Transformer(ViT)蒸馏也进行了介绍。 最后讲解了扩展的蒸馏技术领域,包括多教师知识蒸馏、跨模态知识蒸馏、注意力机制知识蒸馏、无数据知识蒸馏和对抗知识蒸馏。
2/19/2025 5:20:00 PM
机器之心
总结374篇相关工作,陶大程团队联合港大、UMD发布LLM知识蒸馏最新综述
大语言模型(Large Language Models, LLMs)在过去两年内迅速发展,涌现出一些现象级的模型和产品,如 GPT-4、Gemini、Claude 等,但大多数是闭源的。研究界目前能接触到的大部分开源 LLMs 与闭源 LLMs 存在较大差距,因此提升开源 LLMs 及其他小模型的能力以减小其与闭源大模型的差距成为了该领域的研究热点。LLM 的强大能力,特别是闭源 LLM,使得科研人员和工业界的从业者在训练自己的模型时都会利用到这些大模型的输出和知识。这一过程本质上是知识蒸馏(Knowledge,
3/18/2024 11:09:00 AM
机器之心
- 1
资讯热榜
阿里推出 AI 医学助手 App“氢离子”:收录千万级核心期刊文献,还可查疾病、找药品
刷新无监督异常检测上限!首提「匹配代价滤波for异常检测」范式 | ICML'25
AI和云基础设施初创企业E2B如何成为88%的财富100强企业的必备选择
共青年之智,铸AGI未来|2025 WAIC云帆奖得主名单揭晓
国内首个,MiniMax 大模型通过人机辩论图灵测试
逆天!旧Mac上能run千亿参数SOTA!效果惊人:一次生成游戏,0修改!本地大模型拐点来了!网友:别被大模型叙事带偏了(附指南)
刚刚,OpenAI推出学习模式,AI教师真来了,系统提示词已泄露
阶跃星辰新一代基础大模型 Step 3 正式开源:拥有强大视觉感知和复杂推理能力
标签云
人工智能
AI
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
谷歌
机器人
数据
大模型
Midjourney
开源
智能
用户
Meta
微软
GPT
学习
技术
图像
Gemini
AI创作
马斯克
论文
智能体
Anthropic
英伟达
代码
算法
训练
Stable Diffusion
芯片
蛋白质
开发者
腾讯
生成式
LLM
苹果
Claude
神经网络
AI新词
3D
研究
机器学习
生成
AI for Science
Agent
xAI
计算
人形机器人
Sora
AI视频
GPU
AI设计
百度
华为
搜索
大语言模型
工具
场景
字节跳动
具身智能
RAG
大型语言模型
预测
深度学习
伟达
视觉
Transformer
AGI
视频生成
神器推荐
亚马逊
Copilot
DeepMind
架构
模态
应用