应用

全新音频问答模型 Omni-R1：利用文本驱动的强化学习和自动生成的数据推进音频问答

最近，一项来自 MIT CSAIL、哥廷根大学、IBM 研究所等机构的研究团队提出了一个名为 Omni-R1的全新音频问答模型。该模型在 Qwen2.5-Omni 的基础上，通过一种名为 GRPO（Group Relative Policy Optimization）的强化学习方法进行优化，显示出在音频问答任务中的出色表现。 Omni-R1在著名的 MMAU 基准测试中创造了新的最先进成绩，涵盖了声音、语音和音乐等多个音频类别。

5/20/2025 12:00:55 PM AI在线

火山引擎推出开源 MCP Servers，助力大模型应用开发

近日，火山引擎宣布推出一款名为 MCP Servers 的大模型生态平台，并将其开源。这一举措使得企业可以轻松将自研工具按照 MCP 协议进行封装并上传共享，形成一个良性的 “用生态” 与 “建生态” 的循环。火山引擎MCP Servers 可被视为一个 “大模型工具超市”，集成了大量高质量的 MCP 协议适配工具，涵盖了搜索、数据库和业务系统 API 等多个高频场景。

5/20/2025 12:00:55 PM AI在线

马斯克与微软携手，Grok人工智能模型将登陆Azure平台

在近日召开的微软 Build 开发者大会上，埃隆・马斯克与微软的 CEO 萨蒂亚・纳德拉共同宣布，将马斯克的 xAI 公司推出的 Grok3和 Grok3迷你人工智能模型引入微软的 Azure AI Foundry 平台。这一举动标志着微软与 xAI 之间的合作关系愈加紧密，尽管两者在过去曾因与 OpenAI 的关系而存在分歧。 Azure AI Foundry 是微软专为开发者打造的人工智能平台，旨在帮助他们构建、定制和管理 AI 应用程序。

5/20/2025 12:00:55 PM AI在线

告别繁琐：MoneyPrinterTurbo 一键AI速成高清短视频

近日，GitHub 上一款名为 MoneyPrinterTurbo 的开源项目，引起了广泛关注。这款创新工具利用强大的人工智能大模型，旨在极大地简化短视频制作流程，用户只需输入视频主题或关键词，即可全自动生成包含文案、素材、字幕和背景音乐的高清短视频。功能亮点MoneyPrinterTurbo 的设计理念旨在简化视频制作流程。

5/20/2025 11:00:55 AM AI在线

Nvidia 推出 AI 驱动的 DGX 个人计算系统，开启桌面级超级计算新时代

近日，Nvidia 宣布与将推出 DGX Spark 和 DGX Station 个人 AI 超级计算系统。这一系列新产品旨在为全球开发者、数据科学家和研究人员提供前所未有的性能和效率，满足他们在人工智能领域日益增长的需求。在人工智能技术快速发展的背景下，企业、软件提供商、政府机构和研究机构需要具备强大性能的系统，以便在不牺牲数据规模、模型隐私或扩展速度的情况下，享受桌面级的 AI 服务器体验。

5/20/2025 11:00:55 AM AI在线

Claude 4 Sonnet与Opus即将发布！Anthropic“Keynote”流揭秘，AI编码革命还是另有玄机？

Anthropic的下一代AI模型Claude4Sonnet和Claude4Opus即将发布的消息在社交媒体引发广泛讨论。据悉，这两款模型将在未来几周内亮相，具备在“思考模式”与“工具使用模式”间灵活切换的能力，旨在以更少的用户干预处理复杂任务。与此同时，Anthropic定于本周四（5月22日）举办的“Keynote”流和Claude Code功能备受关注，引发业界猜测其是否与Claude4的发布直接相关。

5/20/2025 11:00:55 AM AI在线

Google NotebookLM 正式推出 iOS 版本，Gemini 2.5 Flash 赋能

Google 正式宣布其人工智能驱动的笔记与研究助手工具 NotebookLM 推出 iOS 版本，与 Android 版本同步上线。这一消息恰逢 Google I/O2025开发者大会前夕，标志着 NotebookLM 从桌面端向移动端的重大扩展，为用户提供更便捷的跨平台研究体验。以下是 AIbase 整理的最新资讯，带您深入了解这一全新移动应用的亮点与功能。

5/20/2025 10:01:11 AM AI在线

VS Code 宣布开源 GitHub Copilot Chat 扩展，加速 AI 编程

微软在 Build2025大会上宣布了一项重大举措:Visual Studio Code（VS Code）将开源 GitHub Copilot Chat 扩展，并以 MIT 许可证发布。这一决定标志着 VS Code 在 AI 驱动开发领域的进一步开放与创新，旨在通过社区协作打造一个透明、高效的 AI 代码编辑平台。开源 GitHub Copilot Chat 扩展:社区驱动的 AI 创新根据最新消息，VS Code 团队计划将 GitHub Copilot Chat 扩展的代码以 MIT 许可证开源，并逐步将其核心 AI 功能整合到 VS Code 的核心架构中。

5/20/2025 10:01:11 AM AI在线

妙多发布AI 2.0：从功能导向转向人机协作，押注AI未来

界面设计AI助手妙多近日发布重大升级——妙多AI2.0。产品副总裁章明喆表示，1.0时代妙多侧重于解决特定设计痛点，而2.0的核心转向AI与人的协同合作，即“AI与你如何共同完成一件事”。妙多AI2.0深度融合AI能力与专业编辑器，旨在理解上下文和用户意图，实现人机互助。

5/20/2025 10:01:11 AM AI在线

Bright Data MCP 服务器发布，集成超过30种强大工具

Bright Data 正式推出其开源 Model Context Protocol（MCP）服务器，集成超过30种强大工具，助力 AI 代理无缝访问、搜索、爬取和交互网络数据，避免常见的 IP 封锁和访问限制问题。这一创新解决方案迅速引发行业关注，成为 AI 代理与实时数据交互的关键桥梁。 AIbase 整理最新资讯，带您深入了解 Bright Data MCP 服务器的核心功能与潜力。

5/20/2025 10:01:11 AM AI在线

Grok3现已在GitHub Models推出公开预览版

5/20/2025 10:01:11 AM AI在线

Anthropic发布AI代理开发“圣经”：超越提示工程的7大实战策略

5/20/2025 10:01:06 AM AI在线

谷歌Gemini网页版对话搜索全面上线，移动端逐步推出，重塑AI搜索新体验

谷歌宣布正式向全球所有用户推出Gemini网页版对话搜索功能，标志着其基于Gemini2.5的AI搜索体验进入全面普及阶段。这一功能允许用户通过自然语言进行多轮对话式搜索，取代传统关键词查询，提供更智能、直观的答案。谷歌同时透露，移动端对话搜索功能也将逐步上线，进一步扩展Gemini的覆盖范围。

5/20/2025 10:01:06 AM AI在线

MLX-LM与Hugging Face实现无缝集成，助力Apple Silicon设备高效运行大语言模型

近日，MLX-LM现已直接集成到Hugging Face平台。这一里程碑式的更新为Apple Silicon设备（包括M1、M2、M3和M4芯片）用户提供了前所未有的便利，使其能够以最高速度在本地运行超过4400种大型语言模型（LLM），无需依赖云服务或等待模型转换。这一集成进一步推动了本地化AI开发的普及，为开发者和研究人员提供了更高效、灵活的工具。

5/20/2025 10:01:06 AM AI在线

微软 Edge 推出新 API，助力开发者打造 AI 网页应用

近日，微软在2025年 Build 大会上宣布推出新一套 API，旨在让开发者能够轻松将人工智能功能整合进网页应用中，这些功能可通过其浏览器 Edge 使用。此次更新标志着微软希望在 AI 网页应用的领域与谷歌 Chrome 展开竞争，后者也为开发者提供了类似的内置 AI 功能。根据微软的介绍，新推出的 API 将使得网站和 Edge 浏览器扩展能够接入 Phi4mini，这是一款于今年2月底发布的 AI 模型。

5/20/2025 10:01:05 AM AI在线

谷歌Jules测试版全球上线！挑战Codex，AI自主生成PR，每天5次免费任务

谷歌在全球范围内推出Jules测试版，一款基于Gemini2.5的AI编码代理，定位为OpenAI Codex的直接竞争对手。 Jules能够自主分析代码库、制定多步骤计划并生成GitHub拉取请求（PR），每天提供5次免费任务，显著提升开发者效率。 AIbase综合最新社交媒体动态，深入解析Jules的技术亮点及其对AI编码工具市场的潜在冲击。

5/20/2025 10:01:05 AM AI在线

Genspark 45天实现3600万美元ARR！20人团队创最快增长神话

5月19日，AI初创公司Genspark宣布，其年度经常性收入（ARR）在短短45天内飙升至3600万美元，创下初创企业增长速度的历史性纪录。这支仅20人的小团队，凭借零付费分销的口口相传模式，推出了Genspark AI Sheet、Agentic Download Agent和AI Drive等颠覆性功能，引发业界广泛关注。 AIbase综合最新动态，深入解析Genspark的突破性进展及其对AI生态的深远影响。

5/20/2025 10:01:05 AM AI在线

Salesforce BLIP3-o重磅登陆Hugging Face！全开源多模态模型，图像理解与生成一统江湖！

Salesforce AI Research在Hugging Face平台正式发布BLIP3-o应用，这款全开源的统一多模态模型家族以其卓越的图像理解与生成能力引发业界热议。 BLIP3-o通过创新的扩散变换器架构，结合语义丰富的CLIP图像特征，不仅提升了训练效率，还显著优化了生成效果。 AIbase综合最新社交媒体动态，深入解析BLIP3-o的技术突破及其对AI生态的影响。

5/20/2025 10:01:05 AM AI在线

资讯热榜

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI新词 AI绘画大模型机器人数据 Midjourney 开源 Meta 微软智能用户 GPT 学习英伟达 Gemini 智能体技术马斯克 Anthropic 图像 AI创作训练 LLM 论文 AI for Science 代码腾讯苹果算法 Agent Claude 芯片具身智能 Stable Diffusion xAI 蛋白质人形机器人开发者生成式神经网络机器学习 AI视频 3D 字节跳动大语言模型 RAG Sora 百度研究 GPU 生成华为工具 AGI 计算生成式AI AI设计大型语言模型搜索亚马逊 AI模型视频生成特斯拉 DeepMind 场景 Copilot 深度学习 Transformer 架构 MCP 编程视觉

应用

全新音频问答模型 Omni-R1：利用文本驱动的强化学习和自动生成的数据推进音频问答

火山引擎推出开源 MCP Servers，助力大模型应用开发

马斯克与微软携手，Grok人工智能模型将登陆Azure平台

告别繁琐：MoneyPrinterTurbo 一键AI速成高清短视频

​Nvidia 推出 AI 驱动的 DGX 个人计算系统，开启桌面级超级计算新时代

Claude 4 Sonnet与Opus即将发布！Anthropic“Keynote”流揭秘，AI编码革命还是另有玄机？

Google NotebookLM 正式推出 iOS 版本，Gemini 2.5 Flash 赋能

VS Code 宣布开源 GitHub Copilot Chat 扩展，加速 AI 编程

妙多发布AI 2.0：从功能导向转向人机协作，押注AI未来

Bright Data MCP 服务器发布，集成超过30种强大工具

Grok3现已在GitHub Models推出公开预览版

Anthropic发布AI代理开发“圣经”：超越提示工程的7大实战策略

谷歌Gemini网页版对话搜索全面上线，移动端逐步推出，重塑AI搜索新体验

MLX-LM与Hugging Face实现无缝集成，助力Apple Silicon设备高效运行大语言模型

微软 Edge 推出新 API，助力开发者打造 AI 网页应用

谷歌Jules测试版全球上线！挑战Codex，AI自主生成PR，每天5次免费任务

Genspark 45天实现3600万美元ARR！20人团队创最快增长神话

Salesforce BLIP3-o重磅登陆Hugging Face！全开源多模态模型，图像理解与生成一统江湖！

Nvidia 推出 AI 驱动的 DGX 个人计算系统，开启桌面级超级计算新时代