AI在线 AI在线

小巧却强大!IBM发布新语言模型Granite 4.0 Tiny Preview:长上下文处理

IBM 发布了 Granite4.0Tiny Preview,这是即将推出的 Granite4.0系列语言模型中最小的一款的预览版本。 该模型不仅具备高效的计算能力,还为开源社区提供了一个值得关注的实验平台。 高效的性能与极小的内存需求 Granite4.0Tiny 在 FP8精度下,能够在消费级硬件上运行多个长上下文(128K)的并发任务,适用于市面上价格低于350美元的 GPU。

IBM 发布了 Granite4.0Tiny Preview,这是即将推出的 Granite4.0系列语言模型中最小的一款的预览版本。该模型不仅具备高效的计算能力,还为开源社区提供了一个值得关注的实验平台。

QQ_1746609425316.png

高效的性能与极小的内存需求 

Granite4.0Tiny 在 FP8精度下,能够在消费级硬件上运行多个长上下文(128K)的并发任务,适用于市面上价格低于350美元的 GPU。尽管该模型目前仅经过部分训练,处理过2.5万亿个训练标记,但其性能已接近 IBM Granite3.32B Instruct,且内存需求降低约72%。随着后续训练的进行,预计 Granite4.0Tiny 的性能将达到与 Granite3.38B Instruct 相当的水平。

QQ_1746609436368.png

全新的混合架构设计

Granite4.0系列语言模型采用了全新的混合 Mamba-2/Transformer 架构,结合了 Mamba 的速度与效率以及 Transformer 的自注意力精度。Granite4.0Tiny Preview 是一个细粒度的混合专家模型,具有70亿个总参数,但在推理时仅激活10亿个参数。这一创新的架构设计源自 IBM 研究与 Mamba 原始创造者的合作,提升了模型的整体性能。

 无约束的上下文长度 

Granite4.0的一个亮点是其理论上能够处理无限长的序列。这一能力源自其不使用位置编码(NoPE)的设计,有效避免了传统模型在处理长上下文时的性能限制。测试表明,该模型在处理128K 个标记时表现良好,未来还将验证其在更长上下文上的性能表现。

适合多种应用场景 

Granite4.0Tiny 的内存效率和性能,使其成为多个企业应用的理想选择。IBM 计划在未来几个月内,进一步完善模型,并期待在即将召开的 IBM Think2025大会上分享更多信息。

IBM 的 Granite4.0Tiny Preview 不仅是对高效能语言模型的一次大胆尝试,更是对开源社区的一次有力支持。随着后续版本的推出,该模型有望为开发者和企业用户带来更多可能性。

官方博客:https://www.ibm.com/new/announcements/ibm-granite-4-0-tiny-preview-sneak-peek

相关资讯

360智脑发布Tiny-R1-32B:5%参数逼近Deepseek-R1满血性能

2月24日,360智脑团队与北京大学联合研发的中等量级推理模型 Tiny-R1-32B-Preview 正式发布。 这一模型仅以5%的参数量,成功逼近了 Deepseek-R1-671B 的满血性能,展现了小模型在高效推理领域的巨大潜力。 该模型在多个关键领域的表现尤为突出。
2/26/2025 8:01:00 AM
AI在线

TPAMI 2025 | 国防科大提出RGBT-Tiny数据集与SAFit指标,推动小目标检测技术发展

项目地址::、自动驾驶、夜间搜救等场景中,小目标检测(如远处行人、微型无人机)一直是技术难点——目标尺寸小、背景干扰多、光照条件复杂。 现有数据集多聚焦单一模态(可见光或红外成像),且目标尺寸偏大、场景单一,难以满足实际需求,针对可见光-红外双模态(Visible-Thermal, RGBT)小目标检测的研究却鲜有突破。 为了填补这一空白,国防科技大学团队最新发布RGBT-Tiny基准数据集和SAFit评价指标,填补领域空白,为RGBT小目标检测提供了一个全新的基准和评估工具。
4/1/2025 2:43:00 PM
新闻助手

ScaleOT框架亮相AAAI 2025:提升隐私保护50%,降算力成本90%

近日,在全球人工智能顶级学术会议AAAI2025期间,蚂蚁数科、浙江大学、利物浦大学和华东师范大学联合团队提出创新的跨域微调(offsite-tuning)框架——ScaleOT。 该框架能在模型性能无损前提下,将隐私保护效果提升50%,与知识蒸馏技术相比,算力消耗显著降低90%,为百亿级参数模型的跨域微调提供高效轻量化方案,论文因创新性入选AAAI的oral论文(本届大会近13000篇投稿,口头报告比例仅4.6%)。 跨域微调是目前业内保护模型产权与数据隐私的主流方案,通过有损压缩将大模型转换为仿真器,数据持有方基于其训练适配器并返回给大模型完成调优,数据和模型均未出域,可保护双方隐私,但存在局限性:一是“均匀抽积木”式处理易致模型关键层缺失,使性能显著下降;二是用蒸馏技术弥补性能损失,计算成本高;且现有方法隐私保护缺乏灵活性。
2/26/2025 2:13:00 PM
AI在线
  • 1