应用

Meta发布SAM Audio：全球首个支持“点击分离声音”的多模态音频模型，一键提取吉他声、人声或狗叫

Meta正式推出音频处理领域的重磅突破——SAM Audio，全球首个统一的多模态音频分离模型。它能让用户像“用眼睛听声音”一样，从一段混杂的视频或音频中，一键提取出任意目标声音:点击视频中的吉他手，立刻分离出纯净吉他声;输入“狗吠”，自动过滤掉整段播客中的犬吠噪音;甚至只需圈定时间片段，即可精准剔除干扰音。这项技术首次将人类自然感知声音的方式——看、说、指、选——完整复刻到AI系统中。

12/18/2025 10:16:48 AM AI在线

Firefox 官宣新 CEO：引入的 AI 功能必须是“可选项”

在“AI 优先”浏览器层出不穷的今天，传统浏览器阵营中的Mozilla选择了另一条尊重用户的赛道。近日，Mozilla 正式任命Anthony Enzor-DeMeo为新任首席执行官，并明确了Firefox浏览器在 AI 浪潮下的防御与进攻策略。与许多强制在侧边栏或搜索栏中强行植入大模型的竞品不同，新任 CEO 在上任致辞中立下规矩:Firefox引入的 AI 功能必须是“可选项”。

12/18/2025 10:16:47 AM AI在线

硬刚 OpenAI:谷歌 Gemini2.5实时音频性能霸榜，函数调用准确率达71.5%

据 AIbase 报道，谷歌本周宣布为其原生音频模型 Gemini2.5Flash Native Audio 推出重大更新，旨在将 AI 交互从简单的“文本转语音”跨越到真正的拟人化实时交流。此次更新的核心在于“原生”处理能力。不同于传统 AI 需要先将语音转为文字再处理的繁琐流程，该模型能够直接感知声音中的语调、情感和停顿，从而实现更自然流畅的对话。

12/18/2025 10:16:46 AM AI在线

大模型第一股之争：MiniMax 与智谱 AI 同日通过港交所聆讯

据腾讯一线消息，中国 AI 大模型领域迎来里程碑式进展。 12月17日，两大头部独角兽 MiniMax（稀宇科技）与智谱AI（智谱华章）双双传出已通过港交所上市聆讯的消息。若进程顺利，这两家公司将刷新内地企业赴港上市“报备制”以来的最快过会纪录，并正式开启“全球大模型第一股”的角逐。

12/18/2025 10:16:46 AM AI在线

估值狂飙！OpenAI 传拟融资千亿美金，目标直指 7500 亿美元

据路透社援引《The Information》的最新消息，OpenAI目前正与投资者进行初步洽谈，计划筹集数百亿甚至高达 1000亿美元的巨额资金。如果这一融资计划达成，OpenAI 的估值将飙升至 7500亿美元左右。这一估值数字令人咋舌，意味着 OpenAI 在短短两个月内身价暴涨了50%——今年10月，在该公司员工出售约66亿美元股票时，其估值约为5000亿美元。

12/18/2025 10:16:35 AM AI在线

谷歌祭出“降维打击”：Gemini 3 Flash 免费开放，性能反超 Pro？

大模型领域的“性价比之战”再次升级!近日，谷歌宣布正式发布其最新一代轻量化旗舰模型 Gemini3Flash 。令人惊喜的是，这款主打“极速与低成本”的新模型不仅全面取代了前代产品，成为谷歌搜索AI 模式及 Gemini 应用的默认底层引擎，更在多项实测中上演了“以下克上”的精彩戏码。 🚀速度快3倍，价格却大打折对于企业和开发者而言，Gemini3Flash的出现无异于一次“福利降临”。

12/18/2025 10:16:31 AM AI在线

Google 网页端集成 Opal，用自然语言即可“氛围建模”

近日，Google 宣布正式将“氛围编程”（vibe-coding）工具Opal集成至Gemini网页端。这一举动标志着原本属于专业开发者的应用构建能力，正式向所有普通用户开放，让“想得到”就能“做得出”成为现实。 Opal的核心魅力在于其极低的准入门槛。

12/18/2025 10:16:31 AM AI在线

MiniMax通过港交所上市聆讯，国产大模型“第一股”或将花落上海

据知情人士透露，上海人工智能独角兽企业稀宇科技（MiniMax）已正式通过港交所上市聆讯，有望成为首家登陆资本市场的国产大模型公司。对此消息，MiniMax方面表示“不予置评”。作为国内大模型赛道的头部玩家，MiniMax自成立以来备受瞩目，其背后股东包括阿里巴巴、腾讯等互联网巨头。

12/18/2025 10:16:31 AM AI在线

OpenAI 正式官宣：开发者可向ChatGPT提交应用程序

OpenAI正式向全球开发者开放 ChatGPT 应用提交权限。这一举动标志着 ChatGPT 正式从一个“聊天机器人”进阶为类似智能手机系统的“超级应用平台”，开启了属于 AI 原生应用的新纪元。根据OpenAI 官方公告，开发者现在可以按照最新的应用提交指南提交自己的作品，通过审核后，这些应用将出现在全新的 ChatGPT 应用目录（App Directory）中。

12/18/2025 10:16:30 AM AI在线

Gemini 3 Flash登场：免费、极速、智力反超Pro，谷歌AI全面进入“零延迟”时代

谷歌再次改写大模型性能与成本的边界。今日，公司正式发布新一代轻量级模型 Gemini3Flash——不仅响应速度达到前代三倍、近乎“零延迟”，更在多项高难度基准测试中反超同代旗舰Gemini3Pro，成为史上首个在同期对比中“小弟干翻大哥”的Flash模型。更令人意外的是，这一顶尖性能版本全球免费开放，默认集成于Gemini App、AI Studio、Google Antigravity及CLI工具中。

12/18/2025 9:01:23 AM AI在线

ChatGPT正式开放第三方应用生态：开发者可提交审核，用户一键调用订菜、做PPT、找房等智能服务

OpenAI正将ChatGPT从“对话助手”升级为“智能操作平台”。公司近日宣布，**ChatGPT应用功能（App Directory）正式向开发者开放提交通道**。即日起，开发者可依据官方发布的应用提交指南，开发并提交具备特定功能的AI应用，经审核后上线至ChatGPT内置应用目录。

12/18/2025 9:01:23 AM AI在线

OpenAI：即日起，开发者可向 ChatGPT 提交应用

AI在线 12 月 18 日消息，当地时间 12 月 17 日，OpenAI 发布公告称，公司此前推出了 ChatGPT 应用功能，即日起，开发者可遵循应用提交指南提交应用，以供审核和在 ChatGPT 平台发布。据AI在线了解，这类应用能够为 ChatGPT 对话增添全新场景信息，并支持用户直接在对话中完成各类操作，比如订购食品杂货、将大纲转化为演示文稿、搜索公寓房源等。 OpenAI 称，已发布一系列资源助力开发者打造用户喜爱的高质量应用，其中涵盖《优质 ChatGPT 应用设计最佳实践》、开源示例应用、适用于对话原生界面的开源 UI 组件库，以及分步式快速入门指南。

12/18/2025 9:00:28 AM 远洋

马斯克放豪言：xAI 三年内将击败竞争对手，最快明年实现通用人工智能

AI在线 12 月 18 日消息，伊隆・马斯克似乎对其人工智能公司的未来充满信心。据 Business Insider 报道，多位知情人士透露，上周在人工智能公司 xAI 位于旧金山的总部召开的全员大会上，马斯克告诉员工，只要公司能挺过未来两到三年，xAI 就将击败竞争对手。这位 xAI 首席执行官表示，在研发超级智能（一种超越人类智能的人工智能）、跻身全球顶尖人工智能公司的竞争中，xAI 快速提升算力与数据处理能力的优势将成为关键要素。

12/18/2025 7:37:05 AM 远洋

Nova 系列模型拼不过竞品，亚马逊通用人工智能团队负责人即将离职

AI在线 12 月 18 日消息，负责领导亚马逊打造顶级人工智能模型的高管已离职。亚马逊高级副总裁兼首席科学家罗希特・普拉萨德（Rohit Prasad）在牵头成立新的通用人工智能（AGI）部门两年后，即将离职。据 Business Insider 此前报道，2023 年普拉萨德被提拔为直接向首席执行官安迪・贾西（Andy Jassy）汇报的高管，受命领导该通用人工智能团队，其核心任务是研发亚马逊“最具雄心”的人工智能模型。

12/18/2025 7:27:56 AM 远洋

苹果开源 SHARP 模型，1 秒内 AI 让照片变 3D“活”起来

AI在线 12 月 18 日消息，科技媒体 9to5Mac 昨日（12 月 17 日）发布博文，报道称苹果公司开源名为 SHARP 的新型 AI 模型，该技术能在一秒内将单张 2D 照片转换为逼真的 3D 场景。 AI在线援引博文介绍，苹果发布名为《一秒内实现清晰的单目视图合成》（Sharp Monocular View Synthesis in Less Than a Second）论文，详细介绍了如何训练模型，在接收用户输入的一张普通 2D 照片后，能在一秒钟内重建出具有真实物理比例的 3D 场景。与需要数分钟甚至数小时处理的传统方案相比，SHARP 将合成速度提升了三个数量级，实现了近乎实时的 3D 转换体验。

12/18/2025 6:57:55 AM 故渊

实测GPT Image 1.5，拼尽全力还是没能打败Nano Banana

在Google的Banana发布下。 OpenAI憋了很久之后，终于把他们的图片生成模型给掏出来了。看一下他们的宣传视频。

12/18/2025 2:02:43 AM 数字生命卡兹克

谷歌“深夜反击”OpenAI：Gemini 3 Flash 模型发布，部分测试优于 GPT-5.2

AI在线 12 月 18 日消息，距离 Gemini 3 Pro 发布不到一个月后的北京时间今天凌晨，谷歌宣布推出更注重效率的 Gemini 3 Flash。谷歌为其给出的定位十分明确：在显著降低使用成本的同时，尽可能保留旗舰模型的专业级推理能力，让模型更适合日常场景。测试结果显示，Gemini 3 Flash 不仅全面超越 Gemini 2.5 Pro 多款前代模型，还在多项对比中能够与 OpenAI 的 GPT-5.2 分庭抗礼。

12/18/2025 12:29:42 AM 清源

AI 设计实战！如何用一小时搞定活动主视觉海报？

在当下的设计圈，“AI 是否会替代设计师” 几乎是绕不开的话题，不少设计师也对此心存焦虑。但真正把 AI 用透就会发现，它其实是能将 80% 重复执行工作一键打包的 “超级助理”—— 可以让设计师从机械劳动中抽离，沉下心聚焦内容创意、风格定调、情感适配、商业落地这些核心价值。 AI 普及前，制作活动主视觉海报堪称十足的体力活：单是手绘草图、反复改稿就要耗上两天，背景里的每根线条、每个元素都得手动调整，这又会占去大半天时间。

12/18/2025 12:20:47 AM 58UXD 团队

资讯热榜

免费！让图片放大不失真的位图转矢量图神器 Tmttool AI应用新纪元：2025中国AI应用排行榜榜单揭晓丨2025年1月 6秒视频10秒生成！全新AI视频神器 Grok Imagine 深度体验+元提示词分享最火、最全的Agent记忆综述，NUS、人大、复旦、北大等联合出品后悔没早发现！教你用谷歌Gemini生成精美PPT（附提示词） GGUF 是什么？一文看懂大模型里最火的模型格式 Sora、可灵、即梦哪家强？AI视频软件深度测评！ OmniParser V2 在 Windows 系统上的详细安装与运行指南

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI新词 AI绘画大模型机器人数据 Midjourney 开源 Meta 微软智能用户 GPT 学习英伟达 Gemini 智能体技术马斯克 Anthropic 图像 AI创作训练 LLM 论文 AI for Science 代码腾讯苹果算法 Agent Claude 芯片具身智能 Stable Diffusion xAI 蛋白质人形机器人开发者生成式神经网络机器学习 AI视频 3D 字节跳动大语言模型 RAG Sora 百度研究 GPU 生成华为工具 AGI 计算生成式AI AI设计大型语言模型搜索亚马逊 AI模型视频生成特斯拉 DeepMind 场景 Copilot 深度学习 Transformer 架构 MCP 编程视觉

应用

Meta发布SAM Audio：全球首个支持“点击分离声音”的多模态音频模型，一键提取吉他声、人声或狗叫

​Firefox 官宣新 CEO：引入的 AI 功能必须是“可选项”

硬刚 OpenAI:谷歌 Gemini2.5实时音频性能霸榜，函数调用准确率达71.5%

大模型第一股之争：MiniMax 与智谱 AI 同日通过港交所聆讯

估值狂飙！OpenAI 传拟融资千亿美金，目标直指 7500 亿美元

​谷歌祭出“降维打击”：Gemini 3 Flash 免费开放，性能反超 Pro？

Google 网页端集成 Opal，用自然语言即可“氛围建模”

MiniMax通过港交所上市聆讯，国产大模型“第一股”或将花落上海

OpenAI 正式官宣：开发者可向ChatGPT提交应用程序

​Gemini 3 Flash登场：免费、极速、智力反超Pro，谷歌AI全面进入“零延迟”时代

ChatGPT正式开放第三方应用生态：开发者可提交审核，用户一键调用订菜、做PPT、找房等智能服务

OpenAI：即日起，开发者可向 ChatGPT 提交应用

马斯克放豪言：xAI 三年内将击败竞争对手，最快明年实现通用人工智能

Nova 系列模型拼不过竞品，亚马逊通用人工智能团队负责人即将离职

苹果开源 SHARP 模型，1 秒内 AI 让照片变 3D“活”起来

实测GPT Image 1.5，拼尽全力还是没能打败Nano Banana

谷歌“深夜反击”OpenAI：Gemini 3 Flash 模型发布，部分测试优于 GPT-5.2

AI 设计实战！如何用一小时搞定活动主视觉海报？

Firefox 官宣新 CEO：引入的 AI 功能必须是“可选项”

谷歌祭出“降维打击”：Gemini 3 Flash 免费开放，性能反超 Pro？

Gemini 3 Flash登场：免费、极速、智力反超Pro，谷歌AI全面进入“零延迟”时代