理论

OpenAI顶级工程师Philip Su：几个接地气的程序员职场发展经验

今天的文章发的有点晚，因为我又翻译了一期很长的优质内容。现在每天信息真是太多了，我最近把一些群全部折叠，减少干扰。要不然，每天开着微信，朋友圈、微信群、公众号、视频号，这些小红点把人的时间切的稀巴烂。

5/27/2025 11:52:07 AM 阿颖

这篇 AI Agent 漫游指南，带你建立全面的科技史观

作者 | kong以OpenAI o1与DeepSeek R1为代表的"类Agent"模型、OpenAI DeepResearch为代表的“真Agent”模型，正在重构AI Agent的技术范式。 Agentic Workflow的王座还没坐热，强化学习驱动的端到端Agent模型训练已呼啸而来。未来趋势已指明：模型即产品，工程化Agent的命运将如何？

5/27/2025 10:05:00 AM 腾讯技术工程

与Gemini Diffusion共振！首个扩散式「发散思维链」来了

近年来，思维链在大模型训练和推理中愈发重要。近日，西湖大学 MAPLE 实验室齐国君教授团队首次提出扩散式「发散思维链」—— 一种面向扩散语言模型的新型大模型推理范式。该方法将反向扩散过程中的每一步中间结果都看作大模型的一个「思考」步骤，然后利用基于结果的强化学习去优化整个生成轨迹，最大化模型最终答案的正确率。

5/27/2025 9:00:00 AM

红杉中国xbench全球首发，AI智能体真实战力揭榜！

随着基础模型的快速发展和AI Agent进入规模化应用阶段，被广泛使用的基准测试（Benchmark）却面临一个日益尖锐的问题：想要真实地反映AI的客观能力正变得越来越困难。因此，构建更加科学、长效和如实反映AI客观能力的评测体系，正在成为指引AI技术突破与产品迭代的重要需求。有鉴于此，红杉中国今天正式推出一款全新的AI基准测试工具xbench，并发布论文《xbench: Tracking Agents Productivity ，Scaling with Profession-Aligned Real-world Evaluations》。

5/27/2025 8:50:00 AM

刚刚，北大校友Lilian Weng自曝公司首个产品？一篇论文未发，估值却已90亿

OpenAI前研究员大佬、如今的Thinking Machines Lab联创Lilian Weng，刚刚转发了一个神秘产品——一个看似仪表盘的东西。或许，这就将是公司即将打造的第一个爆品？这个产品所揭示的理念，可谓十分惊人——在训练过程中，研究人员可以直接用它来手动调整所有的超参数了！

5/27/2025 8:40:00 AM

四页绝密文件曝OpenAI野心！ChatGPT占领人类心智，25年致命杀招公开

OpenAI真正的野心终于曝光！最近，泄露的一份法律文件揭示了OpenAI的雄心：终极目标是「占领用户的AI心智」——ChatGPT就等价于AI，等价于智能体。原始文件：，几个月前GPT-4o掀起「吉卜力风格」的热潮，或许也是OpenAI精心布局的一环。

5/27/2025 8:40:00 AM

RAG 架构实战：Fixed-Size Chunking（固定切块）解析

Hello folks，我是 Luga，今天我们来聊一下人工智能应用场景 - 构建高效、灵活的计算架构的 RAG 架构的切块策略—Fixed-Size Chunking（固定切块）。众所周知，在构建 RAG（Retrieval-Augmented Generation，检索增强生成）系统的过程中，文档切块策略往往决定了模型检索质量的上限。切得好，信息命中更精准，生成回答更有上下文逻辑；切得差，模型则容易“答非所问”。

5/27/2025 8:35:00 AM Luga Lee

可能是目前最好的3B多模态模型，有望做“AI作业帮”

作者 | 徐浚哲、尹宇阳我们团队近期开源多模态模型VLR1-3B的预览版（preview），欢迎大家尝试：“小”模型，使用了强化学习训练方式，增强了推理性能。达到了同级别模型中推理能力第一（SOTA）。主要是数学相关的测试，在MathVista和MathVision这两个权威AI数学榜单的官网上，VLR1-3B 这“小”模型不仅都在榜，而且比很多商业闭源大模型（如Gemini1.5和GPT-4V）表现都要强，甚至在MathVista的评测中领先GPT-4o～同时对比了多个banchMark结果，Average第一～ModelAverageMathVistaMathVisionMathVerseDynaMathWeMathLogicVistaQwen2-VL-2B20.548.016.117.53.810.826.6InternVL2.5-2B21.251.114.022.34.48.027.3InternVL3-2B29.157.620.224.514.822.940.3Qwen2.5-VL-3B31.861.221.931.213.222.940.3VLM-R1-3B-Math-030533.462.721.932.213.030.040.5Taichu-VLR-3B33.664.923.132.112.630.438.7VLAA-Thinker-Qwen2.5VL-3B35.461.024.436.418.233.838.5TBAC-VLR1-3B-preview35.764.825.033.217.732.440.8正巧最近正愁帮邻居刚上初中的孩子批数学作业，被多项式计算和几何证明搞得焦头烂额的。

5/27/2025 8:30:00 AM 腾讯技术工程

LiteLLM：用于统一大模型访问的开源网关

译者 | 核子可乐审校 | 重楼摘要：LiteLLM 允许开发者像调用 OpenAI API 那样集成各种大语言模型（LLM），并支持故障转移、预算控制、速率限制以及对API调用的实时监控。不同提供商发布的大语言模型（LLM）层出不穷——包括 Anthropic、谷歌、Meta、微软、英伟达、OpenAI 等等——这为开发者提供了丰富的选择，但也令复杂性一路攀升。每家提供商都有其独特的API特性和响应格式，使得在同一个应用中切换模型或支持多个后端变得愈发困难。

5/27/2025 8:19:06 AM 核子可乐

如何访问和使用 OpenAI Codex？

译者 | 布加迪审校 | 重楼“软件工程正在发生变革；到 2025 年底，它将焕然一新。 ”Greg Brockman在OpenAI 发布会上的开场白为接下来的活动定下了基调。 OpenAI随后发布了Codex，这是一款旨在与开发者协同工作的云原生软件智能体。

5/27/2025 8:14:29 AM 布加迪

AI和分析如何改变供应链弹性

在一个充满波动性和前所未有的挑战的时代，供应链正面临着来自各方的巨大压力。预见并缓解干扰的能力已成为企业成功的决定性因素。 “供应链比以往任何时候都更加关键，但也更加脆弱，”Qlik公司EMEA地区现场CTO马丁·汤姆斯强调，“从原材料短缺到地缘政治不稳定，从消费者需求的不断变化到自然灾害，任何干扰都可能破坏运营并损害信任。

5/27/2025 7:05:00 AM Tom Chapman

在工作中与GenAI工具共享内容时要谨慎

我们在工作中使用GenAI来简化任务，但我们是否意识到其中的风险?据Netskope称，现在平均每个企业每月与AI工具共享的数据量超过7.7GB，75%的企业用户正在使用具有GenAI功能的应用程序。 GenAI的阴暗面事实上，89%的企业对AI的使用情况一无所知，这暴露了监督和控制方面的空白，更重要的是，71%的GenAI工具是通过个人非工作账户访问的。即使使用了公司账户，也有58%的登录绕过了单点登录(SSO)，这意味着安全团队无法看到员工使用的工具或共享的信息。

5/27/2025 7:00:00 AM Sinisa

基于 DSPy 与 Pydantic 的自然语言参数提取框架(含code)

一、参数提取的重要性在人工智能驱动的现代应用中，自然语言交互已成为用户与系统沟通的主要方式。从智能助手执行日程安排到企业级工作流自动化系统处理复杂指令，将“星期二下午2点与萨拉创建关于预算的会议”这类对话式命令转化为可执行的结构化参数，是实现人机高效交互的关键环节。然而，随着用户指令复杂度的提升，传统的正则表达式匹配或关键词提取方法暴露出明显局限性——规则维护成本呈指数级增长、语义理解能力不足、难以应对句式变化等问题，使得构建一个鲁棒性强、可扩展的参数提取框架成为学术界和工业界共同关注的焦点。

5/27/2025 3:23:00 AM 大模型之路

LUD-YOLO：兼顾精度与速度的无人机小目标检测轻量新方案

一眼概览LUD-YOLO 提出了一种基于 YOLOv8 的轻量级小目标检测网络，结合自适应多尺度特征融合和稀疏注意力机制，在保持高检测精度的同时实现高效 UAV 部署。核心问题现有 UAV 目标检测面临图像复杂背景、小目标难识别、设备资源受限等问题。如何在有限算力和存储条件下实现高精度的小目标实时检测，是本文关注的关键挑战。

5/27/2025 3:20:00 AM 萍哥学AI

机器人杭州上演格斗赛！拳拳到肉，宇树CEO王兴兴：创造了人类历史新时刻

激烈，着实激烈！全球首个人形机器人格斗赛刚刚在杭州落下帷幕，战况那叫一个精彩纷呈。贴身肉搏、侧身闪避、倒地后快速爬起…格斗技巧的十八般武艺通通拿出来了：当然也不乏搞笑画风，有选手直接对着空气一通乱挥：本次公开表演赛一共有四支参赛队伍，均使用了宇树科技G1人形机器人。

5/27/2025 2:00:00 AM

智能体「Agent」技术全景：挑战、机遇与未来

大家好，我是肆〇柒。这篇论文的研究来自 MetaGPT、Montréal & Mila人工智能研究所、南洋理工大学、美国阿贡国家实验室、悉尼大学、宾夕法尼亚州立大学、微软亚洲研究院、伊利诺伊大学厄巴纳-香槟分校、香港科技大学、南加州大学、耶鲁大学、斯坦福大学、佐治亚大学、俄亥俄州立大学、阿卜杜拉国王科技大学、杜克大学、香港理工大学、谷歌 DeepMind 以及加拿大高等研究院（CIFAR）等众多研究者的集体智慧与前瞻思考，历时半年创作而成。这篇论文的质量很高，为我们综述了 AI Agent 领域的全景现状，能看的出来是花了大心思的。

5/27/2025 2:00:00 AM 肆零柒

利用DeepSeek与Python自动生成测试用例！

在当今快节奏的软件开发领域，自动化测试已然成为保障软件质量的中流砥柱。传统手动编写测试用例的方式，非但耗时费力，还极易遗漏关键场景。所幸，AI 技术的飞速发展为我们带来了全新的解决方案。

5/27/2025 1:45:00 AM 狂师

Spring AI Observations：让AI应用监控变得简单高效

在AI应用爆发式增长的今天，Spring AI 1.0版本带来了革命性的可观测性功能。本文将深入探讨如何利用Spring AI Micrometer 构建企业级AI应用监控体系，实现成本控制、性能优化和全链路追踪。为什么Spring AI应用急需可观测性？

5/27/2025 1:35:00 AM PIG AI

资讯热榜

免费！让图片放大不失真的位图转矢量图神器 Tmttool AI应用新纪元：2025中国AI应用排行榜榜单揭晓丨2025年1月 6秒视频10秒生成！全新AI视频神器 Grok Imagine 深度体验+元提示词分享最火、最全的Agent记忆综述，NUS、人大、复旦、北大等联合出品后悔没早发现！教你用谷歌Gemini生成精美PPT（附提示词） GGUF 是什么？一文看懂大模型里最火的模型格式 Sora、可灵、即梦哪家强？AI视频软件深度测评！ OmniParser V2 在 Windows 系统上的详细安装与运行指南

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI新词 AI绘画大模型机器人数据 Midjourney 开源 Meta 微软智能用户 GPT 学习英伟达 Gemini 智能体技术马斯克 Anthropic 图像 AI创作训练 LLM 论文 AI for Science 代码腾讯苹果算法 Agent Claude 芯片具身智能 Stable Diffusion xAI 蛋白质人形机器人开发者生成式神经网络机器学习 AI视频 3D 字节跳动大语言模型 RAG Sora 百度研究 GPU 生成华为工具 AGI 计算生成式AI AI设计大型语言模型搜索亚马逊 AI模型视频生成特斯拉 DeepMind 场景 Copilot 深度学习 Transformer 架构 MCP 编程视觉

理论

OpenAI顶级工程师Philip Su：几个接地气的程序员职场发展经验

这篇 AI Agent 漫游指南，带你建立全面的科技史观

与Gemini Diffusion共振！首个扩散式「发散思维链」来了

红杉中国xbench全球首发，AI智能体真实战力揭榜！

刚刚，北大校友Lilian Weng自曝公司首个产品？一篇论文未发，估值却已90亿

四页绝密文件曝OpenAI野心！ChatGPT占领人类心智，25年致命杀招公开

RAG 架构实战：Fixed-Size Chunking（固定切块） 解析

可能是目前最好的3B多模态模型，有望做“AI作业帮”

LiteLLM：用于统一大模型访问的开源网关

如何访问和使用 OpenAI Codex？

AI和分析如何改变供应链弹性

在工作中与GenAI工具共享内容时要谨慎

基于 DSPy 与 Pydantic 的自然语言参数提取框架(含code)

LUD-YOLO：兼顾精度与速度的无人机小目标检测轻量新方案

机器人杭州上演格斗赛！拳拳到肉，宇树CEO王兴兴：创造了人类历史新时刻

智能体「Agent」技术全景：挑战、机遇与未来

利用DeepSeek与Python自动生成测试用例！

Spring AI Observations：让AI应用监控变得简单高效

RAG 架构实战：Fixed-Size Chunking（固定切块）解析