理论

十步优化超越强化学习，仅需1条未标注数据！后训练强势破局

在具备强大的通用性能之后，当下大模型的研究方向已经转向了「如何解决特定且复杂的推理任务」，比如数学问题、分析物理现象或是构建编程逻辑。要想达到更高的性能，除了海量文本的预训练之外，往往还需要进一步的后训练。主流后训练方法是采用强化学习（RL），特别是结合可验证奖励的强化学习（RLVR）。

6/5/2025 2:33:00 AM

新智元

2025年，Mamba“联姻”Transformer，打造史上最强视觉骨干网络！

一眼概览MambaVision 提出一种混合 Mamba-Transformer 视觉骨干网络，首次将状态空间模型（SSM）与自注意力机制融合，显著提升图像分类、检测和分割任务的准确率与效率，达到新一代性能-速度最优前沿。核心问题虽然 Mamba 模型在语言任务中展现了优秀的长序列建模能力，但其自回归结构难以高效捕捉图像中的全局空间依赖，限制了在计算机视觉中的表现。如何在保持高吞吐和低复杂度的前提下建模图像中的长程依赖，是本研究要解决的核心问题。

6/5/2025 2:15:00 AM

萍哥学AI

AI Agent的新技术栈：Kafka、A2A、MCP 和 Flink

在网络拥有 HyperText Transfer Protocol (HTTP) 之前，在电子邮件拥有 Simple Mail Transfer Protocol (SMTP) 之前，我们受困于定制化集成、碎片化系统和脆弱的工作流程。直到开放协议和共享基础设施出现，互联网才真正实现规模化，解锁了现代网络、全球通信和整个经济体系。如今，AI 代理正处于类似的预标准化阶段。

6/5/2025 2:00:00 AM

AI研究生

人工智能和知识图谱四：知识图谱的超大规模产品

一、亚马逊网络服务 (AWS) — Amazon NeptuneAWS 的主要图形数据库服务是Amazon Neptune，这是一款完全托管的图形数据库引擎。 Neptune 功能多样，既支持使用 SPARQL 查询的RDF 模型，也支持使用 Apache TinkerPop Gremlin 查询的属性图模型。这种双重支持使 Neptune 适用于各种 KG 实现——您可以使用 RDF/OWL 存储语义知识图并通过 SPARQL 进行查询，或者将属性图方法与 Gremlin 结合使用。

6/5/2025 2:00:00 AM

晓晓

AI Agent落地面临的三大挑战

前面为大家介绍过AI Agent的发展史和工程结构模型，并对Agent的典型代表——Manus的技术架构进行了详细解析。不少同学看完后纷纷留言说，他们在工作中也尝试在推动落地Agent，但结果总是不尽如意，希望我能给出一些建议。我自己目前对AI Agent也处在探索实践阶段，并无法给出很好的建议。

6/5/2025 1:55:00 AM

写文章老张

铁了心为Agent开发铺路！OpenAI“真香”式升级：跳出Python圈、可人类干预、实时语音Agent、全链路追踪，代理福音

编辑 | 云昭出品 | 51CTO技术栈（微信号：blog51cto）OpenAI 又放大招了！用实力正名：在AI圈，自己的“一哥”地位不可动摇！就在今天凌晨，OpenAI 官方开发者账号 @OpenAIDevs 在 X 平台上，一口气连续发布了 4 项关键更新，直接把 AI 代理（Agent）开发体验提升到新维度，围绕 Agent 开发体验、实时语音应用、人类干预机制和全链路追踪都做了重要升级。

6/4/2025 3:48:49 PM

云昭

【AI Agent驱动实体产业智能升级】火山引擎Force原动力大会·智能体产业应用专场报名开启!

6/4/2025 2:20:08 PM

【数据智能新进化】火山引擎Force原动力大会·Data+AI专场报名开启!

6/4/2025 2:12:31 PM

【乘云，智启未来】火山引擎Force原动力大会·AI云原生专场报名开启!

6/4/2025 2:07:53 PM

英伟达揭示RL Scaling魔力！训练步数翻倍=推理能力质变，小模型突破推理极限

强化学习（RL）到底是语言模型能力进化的「发动机」，还是只是更努力地背题、换个方式答题？这个问题，学界争论已久：RL 真能让模型学会新的推理技能吗，还是只是提高了已有知识的调用效率？过去的研究多数持悲观态度：认为 RL 带来的收益非常有限，有时甚至会让模型「同质化」加重，失去多样性。

6/4/2025 1:56:06 PM

冲击自回归，扩散模型正在改写下一代通用模型范式

上个月 21 号，Google I/O 2025 开发者大会可说是吸睛无数，各种 AI 模型、技术、工具、服务、应用让人目不暇接。在这其中，Gemini Diffusion 绝对算是最让人兴奋的进步之一。从名字看得出来，这是一个采用了扩散模型的 AI 模型，而这个模型却并非我们通常看到的扩散式视觉生成模型，而是一个地地道道的语言模型！

6/4/2025 1:55:03 PM

Meta新突破！跨模态生成告别噪声：流匹配实现任意模态无缝流转

本文第一作者为刘启昊，约翰霍普金斯大学计算机科学博士四年级学生，师从 Alan Yuille 教授，研究方向涉及模型鲁棒性、生成模型与 3D 视觉。通讯作者为 Mannat Singh，Meta GenAI 研究员，近期的研究主要涉及视频生成领域创新工作，包括 Emu Video、MovieGen 等项目。在人工智能领域，跨模态生成（如文本到图像、图像到文本）一直是技术发展的前沿方向。

6/4/2025 1:53:57 PM

GPT-4o连验证码都解不了？SOTA模型成功率仅40%

当前最强多模态Agent连验证码都解不了？ MetaAgentX团队推出首个专注于“多模态交互智能体×CAPTCHA（人机验证）问题”的开放式研究平台——Open CaptchaWorld。该平台专门用于测试Agent解验证码的能力。

6/4/2025 1:53:22 PM

单卡搞定万帧视频理解！智源研究院开源轻量级超长视频理解模型Video-XL-2

单张显卡，就能处理万帧视频输入，并且编码2048帧视频仅需12秒！国产开源模型又上大分，这次是在长视频理解领域：智源研究院联合上海交通大学等机构，正式发布新一代超长视频理解模型Video-XL-2。长视频理解是多模态大模型关键能力之一。

6/4/2025 1:51:43 PM

突发！刚被OpenAI收购就惨遭Claude“卡脖子”！Windsurf CEO怒了：想花钱都买不到！网友：直接上GPT-5吧！

编辑 | 伊风出品 | 51CTO技术栈（微信号：blog51cto）AI 编程圈又发生大事了。 OpenAI 刚刚要收购的 Windsurf，居然突然不能用 Claude 了。 Anthropic 临时掐断了 Claude 3.x 的一手访问权限，Claude 4 更是从未放行，就连 BYOK（自带 API 密钥）都得开发者自己去 Anthropic 买。

6/4/2025 1:46:15 PM

伊风