AI在线 AI在线

Google AI Edge Gallery发布:Gemma 3n加持,本地AI应用开发从未如此简单!

在近期举办的Google I/O2025大会上,Google悄然推出了一款开源项目——Google AI Edge Gallery,一款完全本地运行的生成式AI应用,基于最新的Gemma3n模型,集成了多模态能力,支持文本、图片和音频输入。 这一项目以其高效的端侧AI性能和开源特性,为开发者提供了构建本地化AI应用的理想模板。 Google AI Edge Gallery:端侧AI的开源新标杆Google AI Edge Gallery是一款面向Android(iOS版本即将推出)的实验性应用,允许用户在本地设备上运行来自Hugging Face的多种开源AI模型,无需联网即可实现高效推理。

在近期举办的Google I/O2025大会上,Google悄然推出了一款开源项目——Google AI Edge Gallery,一款完全本地运行的生成式AI应用,基于最新的Gemma3n模型,集成了多模态能力,支持文本、图片和音频输入。这一项目以其高效的端侧AI性能和开源特性,为开发者提供了构建本地化AI应用的理想模板。

image.png

Google AI Edge Gallery:端侧AI的开源新标杆

Google AI Edge Gallery是一款面向Android(iOS版本即将推出)的实验性应用,允许用户在本地设备上运行来自Hugging Face的多种开源AI模型,无需联网即可实现高效推理。项目采用Apache2.0许可证,代码已公开在GitHub上,开发者可自由使用和修改,极大地降低了端侧AI应用的开发门槛。AIbase注意到,该项目不仅展示了Google在端侧AI领域的最新成果,还为开发者提供了一个可快速上手的模板,助力构建定制化的AI应用。

核心亮点在于其基于Gemma3n模型,这是一款专为移动设备优化的多模态小型语言模型(SLM),支持文本、图片、音频和视频输入,具备强大的本地推理能力。无论是离线环境下的语音转录、图像分析,还是实时交互,Google AI Edge Gallery都展现了端侧AI的巨大潜力。

image.png

多模态能力:文本、图片、音频全覆盖

Google AI Edge Gallery集成了Gemma3n的多模态功能,支持用户上传图片和音频进行处理。例如,现场技术人员可以拍摄设备照片并提出问题,AI即可基于图像内容生成精准回答;仓库工作人员可通过语音更新库存数据,实现解放双手的智能交互。此外,Gemma3n支持高质量的自动语音识别(ASR)和语音翻译功能,能够处理复杂的多模态输入,为开发交互式应用提供了更多可能性。

AIbase了解到,Gemma3n的2B和4B参数版本已支持文本、图像、视频和音频输入,相关模型现已上架Hugging Face,音频处理功能也将很快推出。相比传统的云端大模型,Gemma3n的小型化设计使其在手机、平板等资源受限设备上运行流畅,模型体积仅529MB,却能以每秒2585个token的预填充速度处理长达一页的内容。

image.png

开源与高效:开发者友好的设计

Google AI Edge Gallery通过LiteRT运行时和LLM推理API提供轻量级模型执行环境,支持开发者从Hugging Face社区选择和切换不同模型。项目还集成了检索增强生成(RAG)和函数调用功能,允许开发者在不进行模型微调的情况下,为应用注入特定领域的数据。例如,企业可利用RAG技术将内部知识库与AI结合,提供定制化的问答服务。

此外,Gemma3n支持最新的int4量化技术,相比bf16格式,模型体积可缩小2.5-4倍,同时显著降低延迟和内存占用。这种高效的量化方案确保了AI模型在低功耗设备上的卓越性能。开发者可通过Google提供的Colab教程,快速完成模型微调、转换和部署,极大简化了开发流程。

离线运行与隐私保护:端侧AI的独特优势

Google AI Edge Gallery的完全离线运行能力是其最大亮点之一。所有AI推理均在设备端完成,无需依赖网络或Google Play服务,确保了数据隐私和低延迟响应。这对于医疗、工业维护等对隐私和实时性要求高的场景尤为重要。例如,现场工作人员可在无网络环境下通过语音或图像与AI交互,完成设备诊断或数据记录。

AIbase认为,这种离线运行模式不仅提升了用户体验,还降低了企业对云端算力的依赖,减少了运行成本。项目的开源性质进一步赋予开发者自由定制的权利,无论是构建教育助手、医疗支持工具,还是探索创新的交互体验,Google AI Edge Gallery都提供了坚实的基础。

行业影响:端侧AI的普及与挑战

Google AI Edge Gallery的发布标志着端侧AI的进一步普及。相较于Hume AI的EVI3和ElevenLabs的Conversational AI2.0,Google AI Edge Gallery更专注于本地化部署和多模态应用的开源生态,目标是通过Gemma3n赋能开发者社区,打造多样化的端侧AI应用。然而,部分观点认为,端侧AI与云端大模型存在性能差距,用户对“最佳体验”的追求可能限制其发展。AIbase认为,随着硬件性能的提升和模型优化的持续推进,端侧AI有望在特定场景中实现与云端模型相媲美的表现。

Google AI Edge Gallery的推出,不仅展示了Gemma3n在多模态和端侧推理上的技术突破,也通过开源方式降低了AI应用的开发门槛。其离线运行、多模态支持和高效量化技术,为开发者提供了灵活且强大的工具。AIbase预计,该项目将激发更多创新应用,尤其在隐私敏感和资源受限的场景中展现独特价值。未来,随着iOS版本的发布和更多模型的集成,Google AI Edge Gallery有望成为端侧AI开发的标杆。

相关资讯

谷歌悄然发布AI Edge Gallery:智能手机离线运行AI模型的创新突破

谷歌低调推出了一款名为Google AI Edge Gallery的实验性应用,标志着边缘计算和隐私优先的AI部署迈出了重要一步。 这款应用允许用户在智能手机上直接运行来自Hugging Face平台的开源AI模型,无需网络连接即可实现图像生成、文本处理、代码编辑等多项功能。 本地化AI的里程碑Google AI Edge Gallery通过谷歌的LiteRT(轻量运行时)技术,利用设备本地硬件运行AI模型,显著提升了数据隐私性和处理速度。
6/4/2025 10:01:29 AM
AI在线

AI “附体”浏览器?开源神器Browser Use引爆科技圈,开发者直呼“YYDS”!

最近,科技圈和开发者社区都被一个名为 Browser Use 的开源项目刷屏了!这款工具如同给AI插上了翅膀,让它们能够像人类一样自如操控浏览器,用自然语言就能指挥AI自动完成各种网页任务,其强大的自动化能力和灵活的部署方式,瞬间引燃了全球科技爱好者的热情,在X平台(原推特)上掀起滔天巨浪。 Browser Use 正以燎原之势,推动着AI在浏览器自动化领域的应用边界不断拓展。 Browser Use 究竟是何方神圣,竟能引发如此巨大的关注?
3/10/2025 4:09:00 PM
AI在线

OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星

OpenAI 正式发布了其最新开源项目 Codex CLI,这是一款轻量级的代码智能体工具。 该工具的发布迅速引起了极大的关注,仅在短短5小时内,Codex CLI 便突破了5000颗星的评价,预计今天有望突破1万颗星,迅速成为 Github 上的一颗新星。 OpenAI 的联合创始人兼总裁 Greg Brockman 表示,Codex CLI 只是他们代码工具系列的第一款,未来将继续推出更多的智能体产品。
4/17/2025 9:01:05 AM
AI在线
  • 1