AI在线 AI在线

理论

陶哲轩再爆:一个月三破18年未解难题!AlphaEvolve彻底改写数学研究规则

数学界再次见证奇迹! 一项沉睡了18年的难题,在一个月内竟被AI与人类联手三度突破! 每一次都将我们对可能性的认知推向新高。
6/5/2025 9:06:00 AM

深度研究白菜化?谷歌将Gemini级AI研究能力开源

谷歌太良心了,推出"gemini-fullstack-langgraph-quickstart"的开源项目,这个项目用Gemini 2.5模型与LangGraph框架的结合,主打快速构建一个能够本地运行的自主进行深度研究的智能代理系统目前github已经飙升到3.5k星了,地址:"研究型AI代理",能够像人类研究员一样工作:它会根据用户的问题动态生成搜索关键词,通过Google搜索获取信息,分析结果中的知识空白,然后迭代地优化搜索策略,最终提供有充分引用支持的答案技术架构:前后端分离的现代设计前端:React与现代开发体验项目采用了React配合Vite构建工具的前端架构。 Vite的选择体现了对开发效率的重视——它提供了极快的热重载功能,让开发者能够实时看到代码改动的效果。 这种即时反馈对于调试复杂的AI交互界面特别重要,因为你需要频繁测试不同的用户输入场景后端:LangGraph的强大编排能力后端使用了LangGraph框架,这是一个专门为构建复杂AI工作流而设计的工具。
6/5/2025 9:05:36 AM

10步优化超越强化学习,仅需1条未标注数据!后训练强势破局

在具备强大的通用性能之后,当下大模型的研究方向已经转向了「如何解决特定且复杂的推理任务」,比如数学问题、分析物理现象或是构建编程逻辑。 要想达到更高的性能,除了海量文本的预训练之外,往往还需要进一步的后训练。 主流后训练方法是采用强化学习(RL),特别是结合可验证奖励的强化学习(RLVR)。
6/5/2025 9:05:00 AM

Andrej Karpathy最新暴论:这类软件正走向绝境,PS首当其冲?

Andrej Karpathy最新观点,觉得很有意思,分享给大家Karpathy 认为在人机协作日益紧密的时代,那些拥有复杂用户界面(UI)、充斥着大量滑块、开关、菜单,却缺乏脚本支持,并且建立在不透明、自定义二进制格式之上的软件产品,其前景堪忧Karpathy 的核心观点是,如果大型语言模型(LLM)无法读取软件的底层数据表示,也无法通过脚本来操作相关的设置和功能,那么这款产品就很难实现与专业人士的智能协同(AI Co-pilot),更无法赋能给数量庞大十倍、富有创造力的“产消者”(prosumers),让他们通过更接近自然语言的“氛围编程”(vibe coding)方式来驾驭产品他列举了不同风险等级的软件产品:高风险区:几乎所有的 Adobe 产品、数字音频工作站(DAWs)、CAD/3D建模软件。 这些产品严重依赖不透明的二进制对象或自定义文件格式,缺乏文本化的领域特定语言(DSL)支持。 AI难以理解其内部结构,更不用说进行编程控制中高风险区:Blender、Unity。
6/5/2025 9:03:39 AM

爆火AI编程Windsurf突遭Claude全面断供,开发者大量退订!直接打脸OpenAI

即将抱上OpenAI这条大腿的Windsurf,高兴早了! 刚刚,AI编程工具Windsurf的联创兼CEO Varun Mohan发文称,Anthropic几乎没有提前通知,就大幅减少了Windsurf对Claude 3.5和3.7 Sonnet模型的服务配额。 由于事先毫无预警,Windsurf只能紧急启用第三方推理服务来维持Claude模型的使用,但短期内用户体验势必受到影响。
6/5/2025 8:58:00 AM

开启 AI 自主进化时代,普林斯顿Alita颠覆传统通用智能体,GAIA榜单引来终章

智能体技术日益发展,但现有的许多通用智能体仍然高度依赖于人工预定义好的工具库和工作流,这极大限制了其创造力、可扩展性与泛化能力。 近期,普林斯顿大学 AI Lab 推出了 Alita——一个秉持「极简即是极致复杂」哲学的通用智能体,通过「最小化预定义」与「最大化自我进化」的设计范式,让智能体可以自主思考、搜索和创造其所需要的 MCP 工具。 论文标题:ALITA: GENERALIST AGENT ENABLING SCALABLE AGENTIC REASONING WITH MINIMAL PREDEFINITION AND MAXIMAL SELF-EVOLUTION论文链接::: 目前已在 GAIA validation 基准测试中取得 75.15% pass@1 和 87.27% pass@3 的成绩,一举超越 OpenAI Deep Research 和 Manus 等知名智能体,成为通用智能体新标杆。
6/5/2025 8:46:00 AM

重磅开源!首个全异步强化学习训练系统来了,SOTA推理大模型RL训练提速2.77倍

来自清华大学交叉信息院和蚂蚁技术研究院的联合团队,正式开源全异步强化学习训练系统 —— AReaL-boba² (AReaL v0.3)。 作为 AReaL 里程碑版本 AReaL-boba 的重磅升级,AReaL-boba² (正式全名:A-ReaL-double-boba) 坚持 boba 系列 “全面开源、极速训练、深度可定制” 的开发理念,再次加量:除了更全的功能和更详细的文档说明,更以全异步 RL 为核心,发布 SOTA 代码模型,全面奔向 Agentic RL:🚀 效率再突破: 全面实现异步 RL 训练,完全解耦模型生成与训练,效果不变的前提下训练速度对比上一版本最高提升 2.77 倍,GPU 资源利用率大幅优化。 📚 上手零门槛: 新增详细教程 (Step-by-Step Tutorials) 和深度文档 (Comprehensive Documentation),覆盖安装、核心概念、算法 / 模型定制化到问题排查,新手友好,老手高效。
6/5/2025 8:40:00 AM

构建生产级LLM应用完整指南:从原型到落地的全流程实践

一、LLM应用落地的真实挑战当Jasper AI的写作助手因意外流量在数小时内崩溃时,人们意识到:让LLM应用从实验室走向真实用户,绝非简单的代码迁移。 根据Anthropic 2024年开发者调查,73%的LLM应用在触达用户前折戟沉沙,问题并非出在AI模型本身,而是支撑系统无法应对真实世界的复杂性——用户的不可预测输入、API的偶发故障、成本的突然飙升,这些都是原型阶段未曾遭遇的“暗礁”。 本文将以实战为导向,结合代码示例与架构设计,详解如何将一个基于OpenAI API的简单聊天机器人,升级为具备容错能力、成本可控且可弹性扩展的生产级系统。
6/5/2025 2:45:00 AM
大模型之路

十步优化超越强化学习,仅需1条未标注数据!后训练强势破局

在具备强大的通用性能之后,当下大模型的研究方向已经转向了「如何解决特定且复杂的推理任务」,比如数学问题、分析物理现象或是构建编程逻辑。 要想达到更高的性能,除了海量文本的预训练之外,往往还需要进一步的后训练。 主流后训练方法是采用强化学习(RL),特别是结合可验证奖励的强化学习(RLVR)。
6/5/2025 2:33:00 AM
新智元

2025年,Mamba“联姻”Transformer,打造史上最强视觉骨干网络!

一眼概览MambaVision 提出一种混合 Mamba-Transformer 视觉骨干网络,首次将状态空间模型(SSM)与自注意力机制融合,显著提升图像分类、检测和分割任务的准确率与效率,达到新一代性能-速度最优前沿。 核心问题虽然 Mamba 模型在语言任务中展现了优秀的长序列建模能力,但其自回归结构难以高效捕捉图像中的全局空间依赖,限制了在计算机视觉中的表现。 如何在保持高吞吐和低复杂度的前提下建模图像中的长程依赖,是本研究要解决的核心问题。
6/5/2025 2:15:00 AM
萍哥学AI

人工智能和知识图谱四:知识图谱的超大规模产品

一、亚马逊网络服务 (AWS) — Amazon NeptuneAWS 的主要图形数据库服务是Amazon Neptune,这是一款完全托管的图形数据库引擎。 Neptune 功能多样,既支持 使用 SPARQL 查询的RDF 模型,也支持使用 Apache TinkerPop Gremlin 查询的属性图模型。 这种双重支持使 Neptune 适用于各种 KG 实现——您可以使用 RDF/OWL 存储语义知识图并通过 SPARQL 进行查询,或者将属性图方法与 Gremlin 结合使用。
6/5/2025 2:00:00 AM
晓晓

AI Agent的新技术栈:Kafka、A2A、MCP 和 Flink

在网络拥有 HyperText Transfer Protocol (HTTP) 之前,在电子邮件拥有 Simple Mail Transfer Protocol (SMTP) 之前,我们受困于定制化集成、碎片化系统和脆弱的工作流程。 直到开放协议和共享基础设施出现,互联网才真正实现规模化,解锁了现代网络、全球通信和整个经济体系。 如今,AI 代理正处于类似的预标准化阶段。
6/5/2025 2:00:00 AM
AI研究生

AI Agent落地面临的三大挑战

前面为大家介绍过AI Agent的发展史和工程结构模型,并对Agent的典型代表——Manus的技术架构进行了详细解析。 不少同学看完后纷纷留言说,他们在工作中也尝试在推动落地Agent,但结果总是不尽如意,希望我能给出一些建议。 我自己目前对AI Agent也处在探索实践阶段,并无法给出很好的建议。
6/5/2025 1:55:00 AM
写文章老张

铁了心为Agent开发铺路!OpenAI“真香”式升级:跳出Python圈、可人类干预、实时语音Agent、全链路追踪,代理福音

编辑 | 云昭出品 | 51CTO技术栈(微信号:blog51cto)OpenAI 又放大招了! 用实力正名:在AI圈,自己的“一哥”地位不可动摇! 就在今天凌晨,OpenAI 官方开发者账号 @OpenAIDevs 在 X 平台上,一口气连续发布了 4 项关键更新,直接把 AI 代理(Agent)开发体验提升到新维度,围绕 Agent 开发体验、实时语音应用、人类干预机制和全链路追踪都做了重要升级。
6/4/2025 3:48:49 PM
云昭

最新发现!每参数3.6比特,语言模型最多能记住这么多

语言模型到底能记住多少信息? Meta、DeepMind、康奈尔大学和英伟达的一项测量结果显示:每个参数大约 3.6 比特。 一旦达到这个极限,它们就会停止记忆并开始泛化。
6/4/2025 1:56:51 PM