资讯列表
Anthropic 研究揭示:AI 推理的思维链解释不可全信
Anthropic 公司发布最新研究报告,指出思维链(Chain-of-Thought,简称 CoT)提示方法虽被广泛用于提升大型语言模型(LLMs)的推理能力并解释其思维过程,但其可靠性存疑。
边画边出图!腾讯混元上线游戏视觉生成平台
5月20日,腾讯正式发布混元游戏视觉生成平台,这是一款依托混元大模型打造的AI内容引擎,专为游戏工业级内容生产而生。 该平台的推出标志着游戏美术设计行业进入了一个全新的高效创作时代,有望将创作效率提升数十倍。 在过去,游戏美术设计师在创作角色图时,往往需要在多个软件之间来回跳转,从寻找参考图到起草图、制作三视图,再到渲染动态演示,整个流程分散且繁琐,文件需要反复导入导出。
全新音频问答模型 Omni-R1:利用文本驱动的强化学习和自动生成的数据推进音频问答
最近,一项来自 MIT CSAIL、哥廷根大学、IBM 研究所等机构的研究团队提出了一个名为 Omni-R1的全新音频问答模型。 该模型在 Qwen2.5-Omni 的基础上,通过一种名为 GRPO(Group Relative Policy Optimization)的强化学习方法进行优化,显示出在音频问答任务中的出色表现。 Omni-R1在著名的 MMAU 基准测试中创造了新的最先进成绩,涵盖了声音、语音和音乐等多个音频类别。
火山引擎推出开源 MCP Servers,助力大模型应用开发
近日,火山引擎宣布推出一款名为 MCP Servers 的大模型生态平台,并将其开源。 这一举措使得企业可以轻松将自研工具按照 MCP 协议进行封装并上传共享,形成一个良性的 “用生态” 与 “建生态” 的循环。 火山引擎MCP Servers 可被视为一个 “大模型工具超市”,集成了大量高质量的 MCP 协议适配工具,涵盖了搜索、数据库和业务系统 API 等多个高频场景。
马斯克与微软携手,Grok人工智能模型将登陆Azure平台
在近日召开的微软 Build 开发者大会上,埃隆・马斯克与微软的 CEO 萨蒂亚・纳德拉共同宣布,将马斯克的 xAI 公司推出的 Grok3和 Grok3迷你人工智能模型引入微软的 Azure AI Foundry 平台。 这一举动标志着微软与 xAI 之间的合作关系愈加紧密,尽管两者在过去曾因与 OpenAI 的关系而存在分歧。 Azure AI Foundry 是微软专为开发者打造的人工智能平台,旨在帮助他们构建、定制和管理 AI 应用程序。
KEEP颠覆视频人脸超分辨率!全新SOTA模型融合卡尔曼滤波,细节与时序一致性完美突破!
Hugging Face社区发布了一项突破性技术——KEEP(Kalman-inspired Feature Propagation),一款专为视频人脸超分辨率设计的新模型,被誉为该领域的全新SOTA(State-of-the-Art)。 通过创新的卡尔曼滤波灵感架构和跨帧注意力机制,KEEP在恢复人脸细节和保持时序一致性方面实现了显著突破,超越传统方法。 AIbase综合最新动态,深入解析KEEP的技术亮点及其对视频超分辨率领域的深远影响。
AI发现新物质,仅用200小时!不写一行代码,筛选36.7万种物质
一行代码都不用写,全靠AI,在200小时内发现一种全新物质! 如果使用传统方法,这个过程可能需要花费几个月甚至几年时间。 这个立大功的AI,就是微软刚刚在Build大会上推出的Microsoft Discovery。
一文读懂 Vision RAG 模型
众所周知,检索增强生成(RAG)技术已在大语言模型(LLM)应用中证明了其巨大价值,通过从外部知识库检索相关文本信息,显著提升了模型回复的准确性、时效性和可追溯性。 然而,我们所感知和理解的世界并非只由文本构成:大量的现实信息和复杂语境,深刻地蕴含在图像、图表、视频等视觉内容之中。 传统的 RAG 模型难以直接“看”懂并利用这些丰富的视觉信息。
Nvidia 推出 AI 驱动的 DGX 个人计算系统,开启桌面级超级计算新时代
近日,Nvidia 宣布与将推出 DGX Spark 和 DGX Station 个人 AI 超级计算系统。 这一系列新产品旨在为全球开发者、数据科学家和研究人员提供前所未有的性能和效率,满足他们在人工智能领域日益增长的需求。 在人工智能技术快速发展的背景下,企业、软件提供商、政府机构和研究机构需要具备强大性能的系统,以便在不牺牲数据规模、模型隐私或扩展速度的情况下,享受桌面级的 AI 服务器体验。
告别繁琐:MoneyPrinterTurbo 一键AI速成高清短视频
近日,GitHub 上一款名为 MoneyPrinterTurbo 的开源项目,引起了广泛关注。 这款创新工具利用强大的人工智能大模型,旨在极大地简化短视频制作流程,用户只需输入视频主题或关键词,即可全自动生成包含文案、素材、字幕和背景音乐的高清短视频。 功能亮点MoneyPrinterTurbo 的设计理念旨在简化视频制作流程。
Claude 4 Sonnet与Opus即将发布!Anthropic“Keynote”流揭秘,AI编码革命还是另有玄机?
Anthropic的下一代AI模型Claude4Sonnet和Claude4Opus即将发布的消息在社交媒体引发广泛讨论。 据悉,这两款模型将在未来几周内亮相,具备在“思考模式”与“工具使用模式”间灵活切换的能力,旨在以更少的用户干预处理复杂任务。 与此同时,Anthropic定于本周四(5月22日)举办的“Keynote”流和Claude Code功能备受关注,引发业界猜测其是否与Claude4的发布直接相关。
Google NotebookLM 正式推出 iOS 版本,Gemini 2.5 Flash 赋能
Google 正式宣布其人工智能驱动的笔记与研究助手工具 NotebookLM 推出 iOS 版本,与 Android 版本同步上线。 这一消息恰逢 Google I/O2025开发者大会前夕,标志着 NotebookLM 从桌面端向移动端的重大扩展,为用户提供更便捷的跨平台研究体验。 以下是 AIbase 整理的最新资讯,带您深入了解这一全新移动应用的亮点与功能。
Grok3现已在GitHub Models推出公开预览版
xAI最新的人工智能模型Grok3已正式在GitHub Models上推出公开预览版,这一举措为开发者和企业利用先进AI能力迈出了重要一步。 Grok3作为一款功能强大的工具,适用于数据提取、代码编写、文本摘要等任务,广泛服务于金融、医疗、法律和科学等行业。 由xAI开发的Grok3旨在提供卓越的推理和编码性能,具备实时更新的特性,摆脱了固定知识截止日期的限制,与GPT-4o和DeepSeek v3等模型形成鲜明对比。
Bright Data MCP 服务器发布,集成超过30种强大工具
Bright Data 正式推出其开源 Model Context Protocol(MCP)服务器,集成超过30种强大工具,助力 AI 代理无缝访问、搜索、爬取和交互网络数据,避免常见的 IP 封锁和访问限制问题。 这一创新解决方案迅速引发行业关注,成为 AI 代理与实时数据交互的关键桥梁。 AIbase 整理最新资讯,带您深入了解 Bright Data MCP 服务器的核心功能与潜力。
妙多发布AI 2.0:从功能导向转向人机协作,押注AI未来
界面设计AI助手妙多近日发布重大升级——妙多AI2.0。 产品副总裁章明喆表示,1.0时代妙多侧重于解决特定设计痛点,而2.0的核心转向AI与人的协同合作,即“AI与你如何共同完成一件事”。 妙多AI2.0深度融合AI能力与专业编辑器,旨在理解上下文和用户意图,实现人机互助。
VS Code 宣布开源 GitHub Copilot Chat 扩展,加速 AI 编程
微软在 Build2025大会上宣布了一项重大举措:Visual Studio Code(VS Code)将开源 GitHub Copilot Chat 扩展,并以 MIT 许可证发布。 这一决定标志着 VS Code 在 AI 驱动开发领域的进一步开放与创新,旨在通过社区协作打造一个透明、高效的 AI 代码编辑平台。 开源 GitHub Copilot Chat 扩展:社区驱动的 AI 创新根据最新消息,VS Code 团队计划将 GitHub Copilot Chat 扩展的代码以 MIT 许可证开源,并逐步将其核心 AI 功能整合到 VS Code 的核心架构中。
MLX-LM与Hugging Face实现无缝集成,助力Apple Silicon设备高效运行大语言模型
近日,MLX-LM现已直接集成到Hugging Face平台。 这一里程碑式的更新为Apple Silicon设备(包括M1、M2、M3和M4芯片)用户提供了前所未有的便利,使其能够以最高速度在本地运行超过4400种大型语言模型(LLM),无需依赖云服务或等待模型转换。 这一集成进一步推动了本地化AI开发的普及,为开发者和研究人员提供了更高效、灵活的工具。
谷歌Gemini网页版对话搜索全面上线,移动端逐步推出,重塑AI搜索新体验
谷歌宣布正式向全球所有用户推出Gemini网页版对话搜索功能,标志着其基于Gemini2.5的AI搜索体验进入全面普及阶段。 这一功能允许用户通过自然语言进行多轮对话式搜索,取代传统关键词查询,提供更智能、直观的答案。 谷歌同时透露,移动端对话搜索功能也将逐步上线,进一步扩展Gemini的覆盖范围。