理论
OpenAI顶级工程师Philip Su:几个接地气的程序员职场发展经验
今天的文章发的有点晚,因为我又翻译了一期很长的优质内容。 现在每天信息真是太多了,我最近把一些群全部折叠,减少干扰。 要不然,每天开着微信,朋友圈、微信群、公众号、视频号,这些小红点把人的时间切的稀巴烂。
这篇 AI Agent 漫游指南,带你建立全面的科技史观
作者 | kong以OpenAI o1与DeepSeek R1为代表的"类Agent"模型、OpenAI DeepResearch为代表的“真Agent”模型,正在重构AI Agent的技术范式。 Agentic Workflow的王座还没坐热,强化学习驱动的端到端Agent模型训练已呼啸而来。 未来趋势已指明:模型即产品,工程化Agent的命运将如何?
与Gemini Diffusion共振!首个扩散式「发散思维链」来了
近年来,思维链在大模型训练和推理中愈发重要。 近日,西湖大学 MAPLE 实验室齐国君教授团队首次提出扩散式「发散思维链」—— 一种面向扩散语言模型的新型大模型推理范式。 该方法将反向扩散过程中的每一步中间结果都看作大模型的一个「思考」步骤,然后利用基于结果的强化学习去优化整个生成轨迹,最大化模型最终答案的正确率。
红杉中国xbench全球首发,AI智能体真实战力揭榜!
随着基础模型的快速发展和AI Agent进入规模化应用阶段,被广泛使用的基准测试(Benchmark)却面临一个日益尖锐的问题:想要真实地反映AI的客观能力正变得越来越困难。 因此,构建更加科学、长效和如实反映AI客观能力的评测体系,正在成为指引AI技术突破与产品迭代的重要需求。 有鉴于此,红杉中国今天正式推出一款全新的AI基准测试工具xbench,并发布论文《xbench: Tracking Agents Productivity ,Scaling with Profession-Aligned Real-world Evaluations》。
刚刚,北大校友Lilian Weng自曝公司首个产品?一篇论文未发,估值却已90亿
OpenAI前研究员大佬、如今的Thinking Machines Lab联创Lilian Weng,刚刚转发了一个神秘产品——一个看似仪表盘的东西。 或许,这就将是公司即将打造的第一个爆品? 这个产品所揭示的理念,可谓十分惊人——在训练过程中,研究人员可以直接用它来手动调整所有的超参数了!
四页绝密文件曝OpenAI野心!ChatGPT占领人类心智,25年致命杀招公开
OpenAI真正的野心终于曝光! 最近,泄露的一份法律文件揭示了OpenAI的雄心:终极目标是「占领用户的AI心智」——ChatGPT就等价于AI,等价于智能体。 原始文件:,几个月前GPT-4o掀起「吉卜力风格」的热潮,或许也是OpenAI精心布局的一环。
RAG 架构实战:Fixed-Size Chunking(固定切块) 解析
Hello folks,我是 Luga,今天我们来聊一下人工智能应用场景 - 构建高效、灵活的计算架构的 RAG 架构的切块策略—Fixed-Size Chunking(固定切块)。 众所周知,在构建 RAG(Retrieval-Augmented Generation,检索增强生成)系统的过程中,文档切块策略往往决定了模型检索质量的上限。 切得好,信息命中更精准,生成回答更有上下文逻辑;切得差,模型则容易“答非所问”。
可能是目前最好的3B多模态模型,有望做“AI作业帮”
作者 | 徐浚哲、尹宇阳我们团队近期开源多模态模型VLR1-3B的预览版(preview),欢迎大家尝试:“小”模型,使用了强化学习训练方式,增强了推理性能。 达到了同级别模型中推理能力第一(SOTA)。 主要是数学相关的测试,在MathVista和MathVision这两个权威AI数学榜单的官网上,VLR1-3B 这“小”模型不仅都在榜,而且比很多商业闭源大模型(如Gemini1.5和GPT-4V)表现都要强,甚至在MathVista的评测中领先GPT-4o~同时对比了多个banchMark结果,Average第一~ModelAverageMathVistaMathVisionMathVerseDynaMathWeMathLogicVistaQwen2-VL-2B20.548.016.117.53.810.826.6InternVL2.5-2B21.251.114.022.34.48.027.3InternVL3-2B29.157.620.224.514.822.940.3Qwen2.5-VL-3B31.861.221.931.213.222.940.3VLM-R1-3B-Math-030533.462.721.932.213.030.040.5Taichu-VLR-3B33.664.923.132.112.630.438.7VLAA-Thinker-Qwen2.5VL-3B35.461.024.436.418.233.838.5TBAC-VLR1-3B-preview35.764.825.033.217.732.440.8正巧最近正愁帮邻居刚上初中的孩子批数学作业,被多项式计算和几何证明搞得焦头烂额的。
LiteLLM:用于统一大模型访问的开源网关
译者 | 核子可乐审校 | 重楼摘要:LiteLLM 允许开发者像调用 OpenAI API 那样集成各种大语言模型(LLM),并支持故障转移、预算控制、速率限制以及对API调用的实时监控。 不同提供商发布的大语言模型(LLM)层出不穷——包括 Anthropic、谷歌、Meta、微软、英伟达、OpenAI 等等——这为开发者提供了丰富的选择,但也令复杂性一路攀升。 每家提供商都有其独特的API特性和响应格式,使得在同一个应用中切换模型或支持多个后端变得愈发困难。
如何访问和使用 OpenAI Codex?
译者 | 布加迪审校 | 重楼“软件工程正在发生变革;到 2025 年底,它将焕然一新。 ”Greg Brockman在OpenAI 发布会上的开场白为接下来的活动定下了基调。 OpenAI随后发布了Codex,这是一款旨在与开发者协同工作的云原生软件智能体。
AI和分析如何改变供应链弹性
在一个充满波动性和前所未有的挑战的时代,供应链正面临着来自各方的巨大压力。 预见并缓解干扰的能力已成为企业成功的决定性因素。 “供应链比以往任何时候都更加关键,但也更加脆弱,”Qlik公司EMEA地区现场CTO马丁·汤姆斯强调,“从原材料短缺到地缘政治不稳定,从消费者需求的不断变化到自然灾害,任何干扰都可能破坏运营并损害信任。
在工作中与GenAI工具共享内容时要谨慎
我们在工作中使用GenAI来简化任务,但我们是否意识到其中的风险?据Netskope称,现在平均每个企业每月与AI工具共享的数据量超过7.7GB,75%的企业用户正在使用具有GenAI功能的应用程序。 GenAI的阴暗面事实上,89%的企业对AI的使用情况一无所知,这暴露了监督和控制方面的空白,更重要的是,71%的GenAI工具是通过个人非工作账户访问的。 即使使用了公司账户,也有58%的登录绕过了单点登录(SSO),这意味着安全团队无法看到员工使用的工具或共享的信息。
基于 DSPy 与 Pydantic 的自然语言参数提取框架(含code)
一、参数提取的重要性在人工智能驱动的现代应用中,自然语言交互已成为用户与系统沟通的主要方式。 从智能助手执行日程安排到企业级工作流自动化系统处理复杂指令,将“星期二下午2点与萨拉创建关于预算的会议”这类对话式命令转化为可执行的结构化参数,是实现人机高效交互的关键环节。 然而,随着用户指令复杂度的提升,传统的正则表达式匹配或关键词提取方法暴露出明显局限性——规则维护成本呈指数级增长、语义理解能力不足、难以应对句式变化等问题,使得构建一个鲁棒性强、可扩展的参数提取框架成为学术界和工业界共同关注的焦点。
LUD-YOLO:兼顾精度与速度的无人机小目标检测轻量新方案
一眼概览LUD-YOLO 提出了一种基于 YOLOv8 的轻量级小目标检测网络,结合自适应多尺度特征融合和稀疏注意力机制,在保持高检测精度的同时实现高效 UAV 部署。 核心问题现有 UAV 目标检测面临图像复杂背景、小目标难识别、设备资源受限等问题。 如何在有限算力和存储条件下实现高精度的小目标实时检测,是本文关注的关键挑战。
机器人杭州上演格斗赛!拳拳到肉,宇树CEO王兴兴:创造了人类历史新时刻
激烈,着实激烈! 全球首个人形机器人格斗赛刚刚在杭州落下帷幕,战况那叫一个精彩纷呈。 贴身肉搏、侧身闪避、倒地后快速爬起…格斗技巧的十八般武艺通通拿出来了:当然也不乏搞笑画风,有选手直接对着空气一通乱挥:本次公开表演赛一共有四支参赛队伍,均使用了宇树科技G1人形机器人。
智能体「Agent」技术全景:挑战、机遇与未来
大家好,我是肆〇柒。 这篇论文的研究来自 MetaGPT、Montréal & Mila人工智能研究所、南洋理工大学、美国阿贡国家实验室、悉尼大学、宾夕法尼亚州立大学、微软亚洲研究院、伊利诺伊大学厄巴纳-香槟分校、香港科技大学、南加州大学、耶鲁大学、斯坦福大学、佐治亚大学、俄亥俄州立大学、阿卜杜拉国王科技大学、杜克大学、香港理工大学、谷歌 DeepMind 以及加拿大高等研究院(CIFAR)等众多研究者的集体智慧与前瞻思考,历时半年创作而成。 这篇论文的质量很高,为我们综述了 AI Agent 领域的全景现状,能看的出来是花了大心思的。
利用DeepSeek与Python自动生成测试用例!
在当今快节奏的软件开发领域,自动化测试已然成为保障软件质量的中流砥柱。 传统手动编写测试用例的方式,非但耗时费力,还极易遗漏关键场景。 所幸,AI 技术的飞速发展为我们带来了全新的解决方案。
Spring AI Observations:让AI应用监控变得简单高效
在AI应用爆发式增长的今天,Spring AI 1.0版本带来了革命性的可观测性功能。 本文将深入探讨如何利用Spring AI Micrometer 构建企业级AI应用监控体系,实现成本控制、性能优化和全链路追踪。 为什么Spring AI应用急需可观测性?
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
谷歌
DeepSeek
AI新词
AI绘画
大模型
机器人
数据
Midjourney
开源
Meta
微软
智能
用户
GPT
学习
英伟达
Gemini
智能体
技术
马斯克
Anthropic
图像
AI创作
训练
LLM
论文
AI for Science
代码
腾讯
苹果
算法
Agent
Claude
芯片
具身智能
Stable Diffusion
xAI
蛋白质
人形机器人
开发者
生成式
神经网络
机器学习
AI视频
3D
字节跳动
大语言模型
RAG
Sora
百度
研究
GPU
生成
华为
工具
AGI
计算
生成式AI
AI设计
大型语言模型
搜索
亚马逊
AI模型
视频生成
特斯拉
DeepMind
场景
Copilot
深度学习
Transformer
架构
MCP
编程
视觉