资讯列表
字节跳动开源多模态模型 BAGEL:图文生成与编辑的新突破
字节跳动 发布了一款名为 BAGEL 的开源多模态基础模型,拥有70亿个活跃参数,整体参数量达到140亿。 BAGEL 在标准多模态理解基准测试中表现出色,超越了当前一些顶级开源视觉语言模型,如 Qwen2.5-VL 和 InternVL-2.5。 此外,在文本到图像的生成质量上,BAGEL 的表现也与强大的专业生成器 SD3相媲美。
谷歌NotebookLM视频概览重磅上线!PDF、图片秒变动画短片
谷歌在I/O2025大会上宣布,NotebookLM将推出全新视频概览(Video Overviews)功能,允许用户通过上传的PDF、图片、文本等来源素材,自动生成动画风格的短片,深入浅出地讲解复杂内容。 这一功能面向所有用户开放,首版仅支持英语,引发全球教育、科研和内容创作社区的热烈讨论。 AIbase综合最新社交媒体动态,深入解析视频概览的技术亮点及其对AI辅助学习与创作的深远影响。
豆包·语音播客模型发布 将在豆包APP及PC端、扣子等上线
火山引擎正式推出豆包·语音播客模型,豆包·语音播客模型基于流式模型构建,能够实现从文本创作到双人对话式播客的秒级转化,为用户带来“低成本、高时效、强互动”的全新创作体验。 这一模型的推出,不仅解决了传统AI播客创作中的诸多痛点,还极大地简化了播客制作流程,让热点内容能够瞬间转化为生动的播客。 在当今信息爆炸的时代,播客作为一种受欢迎的内容传播形式,正吸引着越来越多的用户。
DeepSeek发布大模型训练端到端论文,展示卓越工程深度
近日,DeepSeek发布了一篇关于大模型训练的最佳端到端技术论文,引发业界广泛关注。 该论文全面阐述了DeepSeek在大模型研发中的技术突破,涵盖软件、硬件及混合优化方案,展现了其令人惊叹的工程深度。 在**软件**层面,论文详细介绍了多头潜在注意力机制(MLA),显著降低推理过程中的内存占用;FP8混合精度训练通过低精度计算提升效率,同时保证数值稳定性;DeepEP通信库优化了专家并行(EP)通信,支持FP8低精度操作,加速MoE模型训练与推理;LogFMT对数浮点格式则通过均匀化激活分布,进一步优化计算效率。
苹果计划在 iOS 19 中向第三方开发者开放 AI 模型
根据彭博社记者马克・古尔曼的最新报道,苹果公司正在积极筹备在其即将发布的 iOS19中向第三方开发者开放其人工智能(AI)模型。 这一举措旨在促进软件开发,推动应用创新,并增强苹果自家硬件产品的吸引力。 据了解,苹果正在研发一套软件开发工具包(SDK)及相关框架,以便开发者能够利用 Apple Intelligence 所采用的大型语言模型来创建新功能。
谷歌推出 Project Astra,智能助理可控 Android 手机
谷歌近日正式发布了 Project Astra 的最新功能,该项目展示了其强大的智能助理能力,能够控制 Android 手机。 这一技术目前已经以应用程序的形式提供给受信任的测试者,并在 Pixel9Pro 上进行了演示。 在演示中,用户在修理自行车的过程中,与 Astra 进行实时对话。
每月249.99美元!谷歌推出 AI Ultra 订阅计划,畅享最强大 AI 模型与高级功能
谷歌宣布推出全新的 AI Ultra 订阅计划,旨在为用户提供最高级别的 AI 模型访问和丰富的高级功能。 随着人工智能技术的迅速发展,谷歌希望通过这一新计划,让更多用户能够利用其先进的 AI 能力来提升知识、创造力和工作效率。 AI Ultra 计划适合电影制作人、开发者、创意专业人士,或者任何追求最佳 AI 体验的用户,可以看作是进入谷歌 AI 世界的 “贵宾通行证”。
谷歌Gemma 3n发布!可在手机上流畅跑多模态AI,音频+图像+文本全能
谷歌在I/O2025大会上正式揭晓Gemma3n,一款专为低资源设备设计的多模态AI模型,仅需2GB RAM即可在手机、平板和笔记本电脑上流畅运行。 Gemma3n继承了Gemini Nano的架构,新增音频理解功能,支持文本、图像、视频和音频的实时处理,且无需云端连接,彻底颠覆了移动端AI体验。 AIbase综合最新社交媒体动态,深入解析Gemma3n的技术亮点及其对AI生态的影响。
谷歌Gemini 2.5 Pro Deep Think发布:并行推理重塑AI复杂问题解决
在2025年5月20日的Google I/O开发者大会上,谷歌DeepMind正式推出了Gemini2.5Pro Deep Think模式,这一实验性增强推理模式为AI处理复杂任务树立了新标杆。 Deep Think模式通过并行推理技术,使Gemini2.5Pro在数学、编码和多模态推理等领域的表现达到行业领先水平。 并行推理技术,显著提升复杂任务表现Deep Think模式采用前沿的并行推理技术,允许模型在生成响应前探索多个假设路径,从而提升答案的准确性和深度。
谷歌推出Project Mariner,AI智能助手即将全面上线Chrome与搜索
在今日的 Google I/O2025大会上,谷歌正式发布了名为 “Project Mariner” 的新项目,标志着公司在人工智能领域的新一步。 这一项目原本被称为 “Jarvis”,并在去年年底进行了测试,现在终于迎来了更为成熟的形态。 Project Mariner 是一款强大的网络 AI 智能体,预计将在今年全面上线,旨在优化用户的浏览体验。
谷歌公测AI编码助手Jules:Gemini 2.5 Pro驱动,挑战OpenAI的Codex
在2025年5月20日的Google I/O开发者大会上,谷歌宣布其AI编码助手Jules正式进入全球公测阶段,面向所有拥有Google和GitHub账户的开发者开放。 这一基于Gemini2.5Pro模型的异步编码代理,旨在通过自动化处理繁琐的编码任务,如修复Bug、编写测试和更新依赖,提升开发者效率。 异步任务处理与GitHub无缝集成Jules通过在Google Cloud虚拟机(VM)中克隆用户代码库,异步执行编码任务,开发者可在提交任务后专注于其他工作。
从手机到手语翻译,Gemma模型家族全面升级亮相Google I/O
在2025年Google I/O开发者大会上,谷歌正式发布轻量级多模态模型Gemma3n,并宣布Gemma模型家族持续扩展,新增面向医疗和无障碍场景的MedGemma与SignGemma。 作为本地运行AI趋势的代表,Gemma3n专为手机、笔记本和平板等低算力设备设计,具备处理文本、音频、图像和视频的能力。 据谷歌介绍,Gemma3n甚至可在低于2GB运行内存的设备上流畅运行,体现出其高效架构优势。
谷歌搜索AI模式正式上线,引入Deep Search功能
在2025年5月20日的Google I/O开发者大会上,谷歌宣布其**AI Mode(AI模式)**搜索功能正式在美国向所有用户开放,标志着传统搜索体验的重大转型。 AI模式由Gemini2.0模型驱动,结合了多模态推理、深度搜索和个性化功能,旨在为用户提供更智能、对话式的搜索体验。 对话式搜索与多模态支持AI模式突破了传统搜索的“十个蓝链接”模式,采用类似聊天机器人的交互方式。
谷歌发布 Gemini 2.5 系列新版本:轻量版与增强推理版即将上线
在最新举行的 Google I/O2025大会上,谷歌公布了其 AI 模型 Gemini2.5系列的重要更新。 这一系列新版本包括了轻量级的 Gemini2.5Flash 和更强大的 Gemini2.5Pro,前者预计将在今年6月初正式推出。 Gemini2.5Flash 是针对普通用户需求而设计的轻量级版本,相较于其前代产品,其效率提升了22%。
Google 发布最强 AI 全家桶 音乐、电影、图像全套上线
在近期的 Google I/O 大会上,谷歌推出了一系列引人注目的 AI 新功能,旨在彻底改变用户的搜索和创作体验。 此次发布会展示了 Google 有史以来最强大的 AI 工具,涵盖了从高级搜索到多媒体创作的广泛应用,令人期待。 首先,谷歌推出了 AI Mode,这是其最新的 AI 搜索体验,用户在进行复杂查询时,可以获得更智能的反馈。
谷歌的 Gemini AI 将全面革新 Android Auto,驾驶体验将更智能
在近日召开的2025年 I/O 开发者大会上,谷歌宣布通过其新推出的 Gemini AI 技术,全面升级 Android Auto 车载系统。 这一升级的核心目标是为驾驶者提供更加自然、流畅的语音交互体验,令他们在驾驶过程中无需动手即可完成多项操作。 根据科技媒体 Android Central 的报道,谷歌在会议上展示了这一技术的预发布版本,并在沃尔沃汽车上进行了试用。
Gmail 新功能上线:Gemini AI 助力轻松管理日历事件
在2025年的 I/O 开发者大会上,谷歌宣布其移动邮件应用 Gmail 将全面整合 Gemini AI 功能,为用户带来更便捷的日历管理体验。 无论是 Android 还是 iOS 平台,用户都可以通过 Gmail 应用轻松创建、删除和编辑日历事件,并查看每日日程概览。 据悉,这一新功能允许用户在 Gmail 内直接管理日历,无需切换到其他应用。
谷歌虚拟试衣间重磅上线!上传照片秒变时尚模特,AI一键比价+自动下单
谷歌在I/O2025大会上宣布推出全新AI虚拟试衣工具,允许用户上传一张全身照片,即可在数秒内生成逼真的穿搭效果图。 这一功能依托谷歌最新的时尚专用图像生成模型和Shopping Graph的50亿商品数据,不仅提供高度个性化的试穿体验,还支持多条件搜索、比价分析和全自动购物流程。 AIbase综合最新社交媒体动态,深入解析这一工具的技术亮点及其对时尚电商的革命性影响。