AI在线 AI在线

模型架构

Mamba一作预告新架构!长文论述Transformer≠最终解法

Mamba一作最新大发长文! 主题只有一个,即探讨两种主流序列模型——状态空间模型(SSMs)和Transformer模型的权衡之术。 简单介绍下,Mamba就是一种典型的SSMs,它建立在更现代的适用于深度学习的结构化SSM基础上,与经典架构RNN有相似之处。
7/9/2025 1:14:41 PM
一水

李飞飞团队新作:DiT不训练直接改架构,模型深度减半,质量还提高了

模型架构设计在机器学习中扮演着核心角色,与数据、算法、算力和基准测试一样重要。 它定义了模型函数、算子选择(如注意力机制、卷积)和配置设定(如模型深度、宽度)等等模型要素。 尽管如此,由于从头训练模型的成本过高 —— 尤其人们难以获得关于架构设计的深刻洞见(即哪些方案有效、哪些无效)。
6/10/2025 5:07:44 PM
机器之心
  • 1