理论

2025年，Mamba“联姻”Transformer，打造史上最强视觉骨干网络！

一眼概览MambaVision 提出一种混合 Mamba-Transformer 视觉骨干网络，首次将状态空间模型（SSM）与自注意力机制融合，显著提升图像分类、检测和分割任务的准确率与效率，达到新一代性能-速度最优前沿。核心问题虽然 Mamba 模型在语言任务中展现了优秀的长序列建模能力，但其自回归结构难以高效捕捉图像中的全局空间依赖，限制了在计算机视觉中的表现。如何在保持高吞吐和低复杂度的前提下建模图像中的长程依赖，是本研究要解决的核心问题。

6/5/2025 2:15:00 AM 萍哥学AI

AI Agent的新技术栈：Kafka、A2A、MCP 和 Flink

在网络拥有 HyperText Transfer Protocol (HTTP) 之前，在电子邮件拥有 Simple Mail Transfer Protocol (SMTP) 之前，我们受困于定制化集成、碎片化系统和脆弱的工作流程。直到开放协议和共享基础设施出现，互联网才真正实现规模化，解锁了现代网络、全球通信和整个经济体系。如今，AI 代理正处于类似的预标准化阶段。

6/5/2025 2:00:00 AM AI研究生

人工智能和知识图谱四：知识图谱的超大规模产品

一、亚马逊网络服务 (AWS) — Amazon NeptuneAWS 的主要图形数据库服务是Amazon Neptune，这是一款完全托管的图形数据库引擎。 Neptune 功能多样，既支持使用 SPARQL 查询的RDF 模型，也支持使用 Apache TinkerPop Gremlin 查询的属性图模型。这种双重支持使 Neptune 适用于各种 KG 实现——您可以使用 RDF/OWL 存储语义知识图并通过 SPARQL 进行查询，或者将属性图方法与 Gremlin 结合使用。

6/5/2025 2:00:00 AM 晓晓

AI Agent落地面临的三大挑战

前面为大家介绍过AI Agent的发展史和工程结构模型，并对Agent的典型代表——Manus的技术架构进行了详细解析。不少同学看完后纷纷留言说，他们在工作中也尝试在推动落地Agent，但结果总是不尽如意，希望我能给出一些建议。我自己目前对AI Agent也处在探索实践阶段，并无法给出很好的建议。

6/5/2025 1:55:00 AM 写文章老张

铁了心为Agent开发铺路！OpenAI“真香”式升级：跳出Python圈、可人类干预、实时语音Agent、全链路追踪，代理福音

编辑 | 云昭出品 | 51CTO技术栈（微信号：blog51cto）OpenAI 又放大招了！用实力正名：在AI圈，自己的“一哥”地位不可动摇！就在今天凌晨，OpenAI 官方开发者账号 @OpenAIDevs 在 X 平台上，一口气连续发布了 4 项关键更新，直接把 AI 代理（Agent）开发体验提升到新维度，围绕 Agent 开发体验、实时语音应用、人类干预机制和全链路追踪都做了重要升级。

6/4/2025 3:48:49 PM 云昭

【AI Agent驱动实体产业智能升级】火山引擎Force原动力大会·智能体产业应用专场报名开启!

6/4/2025 2:20:08 PM

【数据智能新进化】火山引擎Force原动力大会·Data+AI专场报名开启!

6/4/2025 2:12:31 PM

【乘云，智启未来】火山引擎Force原动力大会·AI云原生专场报名开启!

6/4/2025 2:07:53 PM

英伟达揭示RL Scaling魔力！训练步数翻倍=推理能力质变，小模型突破推理极限

强化学习（RL）到底是语言模型能力进化的「发动机」，还是只是更努力地背题、换个方式答题？这个问题，学界争论已久：RL 真能让模型学会新的推理技能吗，还是只是提高了已有知识的调用效率？过去的研究多数持悲观态度：认为 RL 带来的收益非常有限，有时甚至会让模型「同质化」加重，失去多样性。

6/4/2025 1:56:06 PM

冲击自回归，扩散模型正在改写下一代通用模型范式

上个月 21 号，Google I/O 2025 开发者大会可说是吸睛无数，各种 AI 模型、技术、工具、服务、应用让人目不暇接。在这其中，Gemini Diffusion 绝对算是最让人兴奋的进步之一。从名字看得出来，这是一个采用了扩散模型的 AI 模型，而这个模型却并非我们通常看到的扩散式视觉生成模型，而是一个地地道道的语言模型！

6/4/2025 1:55:03 PM

Meta新突破！跨模态生成告别噪声：流匹配实现任意模态无缝流转

本文第一作者为刘启昊，约翰霍普金斯大学计算机科学博士四年级学生，师从 Alan Yuille 教授，研究方向涉及模型鲁棒性、生成模型与 3D 视觉。通讯作者为 Mannat Singh，Meta GenAI 研究员，近期的研究主要涉及视频生成领域创新工作，包括 Emu Video、MovieGen 等项目。在人工智能领域，跨模态生成（如文本到图像、图像到文本）一直是技术发展的前沿方向。

6/4/2025 1:53:57 PM

GPT-4o连验证码都解不了？SOTA模型成功率仅40%

当前最强多模态Agent连验证码都解不了？ MetaAgentX团队推出首个专注于“多模态交互智能体×CAPTCHA（人机验证）问题”的开放式研究平台——Open CaptchaWorld。该平台专门用于测试Agent解验证码的能力。

6/4/2025 1:53:22 PM

单卡搞定万帧视频理解！智源研究院开源轻量级超长视频理解模型Video-XL-2

单张显卡，就能处理万帧视频输入，并且编码2048帧视频仅需12秒！国产开源模型又上大分，这次是在长视频理解领域：智源研究院联合上海交通大学等机构，正式发布新一代超长视频理解模型Video-XL-2。长视频理解是多模态大模型关键能力之一。

6/4/2025 1:51:43 PM

突发！刚被OpenAI收购就惨遭Claude“卡脖子”！Windsurf CEO怒了：想花钱都买不到！网友：直接上GPT-5吧！

编辑 | 伊风出品 | 51CTO技术栈（微信号：blog51cto）AI 编程圈又发生大事了。 OpenAI 刚刚要收购的 Windsurf，居然突然不能用 Claude 了。 Anthropic 临时掐断了 Claude 3.x 的一手访问权限，Claude 4 更是从未放行，就连 BYOK（自带 API 密钥）都得开发者自己去 Anthropic 买。

6/4/2025 1:46:15 PM 伊风

LangGPT：让人人都能写出大师级Prompt，从此告别“灵感枯竭症”！

一、什么是 LangGPT？ Prompt的编程语言来了！你见过这样的尴尬场面吗：苦苦啃Prompt文档一年，还没搞明白ChatGPT到底要怎么“聆听人言”？

6/4/2025 11:09:02 AM 许泽宇

让AI像人类一样认知真实世界！UCLA谷歌强强联手，长时记忆+3D空间理解超越基线16.5%

想象一下，你在一个陌生的房子里寻找合适的礼物盒包装泰迪熊，需要记住每个房间里的物品特征、位置关系，并根据反馈调整行动。这一系列过程依赖人类强大的空间-时间长时记忆。图片如何让AI在3D环境中像人类一样思考，一直是具身智能领域的难题。

6/4/2025 11:08:28 AM

OpenAI CEO警示：AI智能体正重塑职场格局，基层岗位面临结构性冲击

在 2025 年 Snowflake Summit 主题演讲中，OpenAI 首席执行官山姆・奥尔特曼（Sam Altman）抛出震撼观点：AI 智能体正以惊人速度渗透企业运营，其角色已从工具演变为 "数字基层员工"，直接引发职场结构的根本性变革。智能体崛起：从工具到 "数字员工" 的质变奥尔特曼指出，当前诸多企业已将 AI智能体纳入日常工作流，承担数据整理、报告生成、流程审批等标准化任务。员工的核心职能逐渐转向 "智能体管理者"—— .

6/4/2025 11:06:01 AM

资讯热榜

免费！让图片放大不失真的位图转矢量图神器 Tmttool AI应用新纪元：2025中国AI应用排行榜榜单揭晓丨2025年1月 6秒视频10秒生成！全新AI视频神器 Grok Imagine 深度体验+元提示词分享最火、最全的Agent记忆综述，NUS、人大、复旦、北大等联合出品后悔没早发现！教你用谷歌Gemini生成精美PPT（附提示词） GGUF 是什么？一文看懂大模型里最火的模型格式 Sora、可灵、即梦哪家强？AI视频软件深度测评！ OmniParser V2 在 Windows 系统上的详细安装与运行指南

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI新词 AI绘画大模型机器人数据 Midjourney 开源 Meta 微软智能用户 GPT 学习英伟达 Gemini 智能体技术马斯克 Anthropic 图像 AI创作训练 LLM 论文 AI for Science 代码腾讯苹果算法 Agent Claude 芯片具身智能 Stable Diffusion xAI 蛋白质人形机器人开发者生成式神经网络机器学习 AI视频 3D 字节跳动大语言模型 RAG Sora 百度研究 GPU 生成华为工具 AGI 计算生成式AI AI设计大型语言模型搜索亚马逊 AI模型视频生成特斯拉 DeepMind 场景 Copilot 深度学习 Transformer 架构 MCP 编程视觉

理论

2025年，Mamba“联姻”Transformer，打造史上最强视觉骨干网络！

AI Agent的新技术栈：Kafka、A2A、MCP 和 Flink

人工智能和知识图谱四：知识图谱的超大规模产品

AI Agent落地面临的三大挑战

铁了心为Agent开发铺路！OpenAI“真香”式升级：跳出Python圈、可人类干预、实时语音Agent、全链路追踪，代理福音

【AI Agent驱动实体产业智能升级】火山引擎Force原动力大会·智能体产业应用专场报名开启!

【数据智能新进化】火山引擎Force原动力大会·Data+AI专场报名开启!

【乘云，智启未来】火山引擎Force原动力大会·AI云原生专场报名开启!

最新发现！每参数3.6比特，语言模型最多能记住这么多

英伟达揭示RL Scaling魔力！训练步数翻倍=推理能力质变，小模型突破推理极限

冲击自回归，扩散模型正在改写下一代通用模型范式

Meta新突破！跨模态生成告别噪声：流匹配实现任意模态无缝流转

GPT-4o连验证码都解不了？SOTA模型成功率仅40%

单卡搞定万帧视频理解！智源研究院开源轻量级超长视频理解模型Video-XL-2

突发！刚被OpenAI收购就惨遭Claude“卡脖子”！Windsurf CEO怒了：想花钱都买不到！网友：直接上GPT-5吧！

LangGPT：让人人都能写出大师级Prompt，从此告别“灵感枯竭症”！

让AI像人类一样认知真实世界！UCLA谷歌强强联手，长时记忆+3D空间理解超越基线16.5%

OpenAI CEO警示：AI智能体正重塑职场格局，基层岗位面临结构性冲击