理论
NVIDIA 新成果:ProRL 拓展 LLM 推理边界
大家好,我是肆〇柒。 本文想和大家分享一篇来自 NVIDIA 研究团队的前沿论文——《ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models》。 这篇论文挑战了强化学习在大型语言模型(LLM)中作用的传统认知,还提出了一种创新的训练方法 ProRL,通过长时间的强化学习训练,显著提升了模型的推理能力。
OpenAI久违发了篇「正经」论文:线性布局实现高效张量计算
OpenAI 发论文的频率是越来越低了。 如果你看到了一份来自 OpenAI 的新 PDF 文件,那多半也是新模型的系统卡或相关增补文件或基准测试,很少有新的研究论文。 至于原因嘛,让该公司自家的 ChatGPT 来说吧:「截至目前,OpenAI 在 2025 年在 arXiv 上公开发布的论文数量相对较少,可能反映了其对研究成果公开策略的谨慎态度,可能出于商业保密或安全考虑。
ACL 2025 | 基于Token预算感知的大模型高效推理技术
本位作者分别来自南京大学,罗格斯大学和马萨诸塞大学阿默斯特分校。 第一作者韩廷旭与共同第一作者王震霆是分别来自南京大学和罗格斯大学的博士生,研究方向聚焦于大模型推理以及安全负责任的生成式人工智能。 通讯作者为南京大学房春荣教授。
使用Claude 4提升程序员生产力的五种高级方式
译者 | 布加迪审校 | 重楼Anthropic的最新AI模型Claude 4在开发社区大行其道。 许多程序员称赞它是目前最好的编程模型,能够在短短几分钟内解决困扰一整年的编程难题,这是了不起的成就。 我们在本文中将探讨将Claude 4集成到工作流程中以提升生产力的五种有效方法。
OpenAI深夜宣布ChatGPT支持MCP、会议记录,万物互联时代来了!
今天凌晨1点,OpenAI开始技术直播对ChatGPT进行了重大更新,包括向macOS用户推出ChatGPT会议记录模式,可以转录任何会议、头脑风暴或语音笔记,并快速提取要点然后转化为新的内容。 另外一个重要功能就是ChatGPT正式支持MCP协议,例如,直接连接Github、SharePoint、Gmail、Dropbox、Box、Outlook等常用工具,实现跨平台数据整合、搜索和推理。 简单来说,OpenAI希望把ChatGPT打造成智能协作平台,在一个地方就把所有事情都做了。
配合OpenAI搞数据垄断,排挤Anthropic?Reddit撕破脸:赔钱!网友:互联网还没死!AGI太快这官司打完早没意义了
编辑 | 云昭出品 | 51CTO技术栈(微信号:blog51cto)6月5日凌晨,就在WindSurf被Claude“断供”的消息传出来的第二天,Anthropic后院着火了。 这次的主角是大家熟悉的社交讨论平台Reddit。 Reddit在正式起诉Anthropic的文件中称,后者其在未经许可的情况下,大规模抓取Reddit公共内容,涉嫌侵犯版权。
AI+数字经济的核心三要素
前几天和一位互联网老兵聊天,他说:"现在的数字经济就像当年的工业革命,你看不见摸不着,但它正在重新定义一切。 "这话听起来有点玄乎,但仔细想想,确实如此。 你知道吗?
人工智能和知识图谱五:著名的开源和商业知识图谱工具
一、开源工具RDFLib:RDFLib是一个用于处理RDF的纯Python库。 它被开发人员广泛用于中小型项目或数据科学领域。 RDFLib允许您创建图表、解析RDF文件(Turtle、XML等)以及执行SPARQL查询(它有一个基于Python的SPARQL1.1引擎)。
奥特曼:假如给我一千倍算力,我会这样做
完美的人工智能是“一个拥有超人推理能力、1万亿个上下文标记并可以使用你能想到的所有工具的微型模型”。 这是奥特曼在最新的访谈中对下一代模型的展望。 他表示,理想中的AGI不需要包含知识——只需要思考、搜索、模拟和解决任何问题的能力。
陶哲轩再爆:一个月三破18年未解难题!AlphaEvolve彻底改写数学研究规则
数学界再次见证奇迹! 一项沉睡了18年的难题,在一个月内竟被AI与人类联手三度突破! 每一次都将我们对可能性的认知推向新高。
深度研究白菜化?谷歌将Gemini级AI研究能力开源
谷歌太良心了,推出"gemini-fullstack-langgraph-quickstart"的开源项目,这个项目用Gemini 2.5模型与LangGraph框架的结合,主打快速构建一个能够本地运行的自主进行深度研究的智能代理系统目前github已经飙升到3.5k星了,地址:"研究型AI代理",能够像人类研究员一样工作:它会根据用户的问题动态生成搜索关键词,通过Google搜索获取信息,分析结果中的知识空白,然后迭代地优化搜索策略,最终提供有充分引用支持的答案技术架构:前后端分离的现代设计前端:React与现代开发体验项目采用了React配合Vite构建工具的前端架构。 Vite的选择体现了对开发效率的重视——它提供了极快的热重载功能,让开发者能够实时看到代码改动的效果。 这种即时反馈对于调试复杂的AI交互界面特别重要,因为你需要频繁测试不同的用户输入场景后端:LangGraph的强大编排能力后端使用了LangGraph框架,这是一个专门为构建复杂AI工作流而设计的工具。
10步优化超越强化学习,仅需1条未标注数据!后训练强势破局
在具备强大的通用性能之后,当下大模型的研究方向已经转向了「如何解决特定且复杂的推理任务」,比如数学问题、分析物理现象或是构建编程逻辑。 要想达到更高的性能,除了海量文本的预训练之外,往往还需要进一步的后训练。 主流后训练方法是采用强化学习(RL),特别是结合可验证奖励的强化学习(RLVR)。
Andrej Karpathy最新暴论:这类软件正走向绝境,PS首当其冲?
Andrej Karpathy最新观点,觉得很有意思,分享给大家Karpathy 认为在人机协作日益紧密的时代,那些拥有复杂用户界面(UI)、充斥着大量滑块、开关、菜单,却缺乏脚本支持,并且建立在不透明、自定义二进制格式之上的软件产品,其前景堪忧Karpathy 的核心观点是,如果大型语言模型(LLM)无法读取软件的底层数据表示,也无法通过脚本来操作相关的设置和功能,那么这款产品就很难实现与专业人士的智能协同(AI Co-pilot),更无法赋能给数量庞大十倍、富有创造力的“产消者”(prosumers),让他们通过更接近自然语言的“氛围编程”(vibe coding)方式来驾驭产品他列举了不同风险等级的软件产品:高风险区:几乎所有的 Adobe 产品、数字音频工作站(DAWs)、CAD/3D建模软件。 这些产品严重依赖不透明的二进制对象或自定义文件格式,缺乏文本化的领域特定语言(DSL)支持。 AI难以理解其内部结构,更不用说进行编程控制中高风险区:Blender、Unity。
爆火AI编程Windsurf突遭Claude全面断供,开发者大量退订!直接打脸OpenAI
即将抱上OpenAI这条大腿的Windsurf,高兴早了! 刚刚,AI编程工具Windsurf的联创兼CEO Varun Mohan发文称,Anthropic几乎没有提前通知,就大幅减少了Windsurf对Claude 3.5和3.7 Sonnet模型的服务配额。 由于事先毫无预警,Windsurf只能紧急启用第三方推理服务来维持Claude模型的使用,但短期内用户体验势必受到影响。
开启 AI 自主进化时代,普林斯顿Alita颠覆传统通用智能体,GAIA榜单引来终章
智能体技术日益发展,但现有的许多通用智能体仍然高度依赖于人工预定义好的工具库和工作流,这极大限制了其创造力、可扩展性与泛化能力。 近期,普林斯顿大学 AI Lab 推出了 Alita——一个秉持「极简即是极致复杂」哲学的通用智能体,通过「最小化预定义」与「最大化自我进化」的设计范式,让智能体可以自主思考、搜索和创造其所需要的 MCP 工具。 论文标题:ALITA: GENERALIST AGENT ENABLING SCALABLE AGENTIC REASONING WITH MINIMAL PREDEFINITION AND MAXIMAL SELF-EVOLUTION论文链接::: 目前已在 GAIA validation 基准测试中取得 75.15% pass@1 和 87.27% pass@3 的成绩,一举超越 OpenAI Deep Research 和 Manus 等知名智能体,成为通用智能体新标杆。
重磅开源!首个全异步强化学习训练系统来了,SOTA推理大模型RL训练提速2.77倍
来自清华大学交叉信息院和蚂蚁技术研究院的联合团队,正式开源全异步强化学习训练系统 —— AReaL-boba² (AReaL v0.3)。 作为 AReaL 里程碑版本 AReaL-boba 的重磅升级,AReaL-boba² (正式全名:A-ReaL-double-boba) 坚持 boba 系列 “全面开源、极速训练、深度可定制” 的开发理念,再次加量:除了更全的功能和更详细的文档说明,更以全异步 RL 为核心,发布 SOTA 代码模型,全面奔向 Agentic RL:🚀 效率再突破: 全面实现异步 RL 训练,完全解耦模型生成与训练,效果不变的前提下训练速度对比上一版本最高提升 2.77 倍,GPU 资源利用率大幅优化。 📚 上手零门槛: 新增详细教程 (Step-by-Step Tutorials) 和深度文档 (Comprehensive Documentation),覆盖安装、核心概念、算法 / 模型定制化到问题排查,新手友好,老手高效。
构建生产级LLM应用完整指南:从原型到落地的全流程实践
一、LLM应用落地的真实挑战当Jasper AI的写作助手因意外流量在数小时内崩溃时,人们意识到:让LLM应用从实验室走向真实用户,绝非简单的代码迁移。 根据Anthropic 2024年开发者调查,73%的LLM应用在触达用户前折戟沉沙,问题并非出在AI模型本身,而是支撑系统无法应对真实世界的复杂性——用户的不可预测输入、API的偶发故障、成本的突然飙升,这些都是原型阶段未曾遭遇的“暗礁”。 本文将以实战为导向,结合代码示例与架构设计,详解如何将一个基于OpenAI API的简单聊天机器人,升级为具备容错能力、成本可控且可弹性扩展的生产级系统。
十步优化超越强化学习,仅需1条未标注数据!后训练强势破局
在具备强大的通用性能之后,当下大模型的研究方向已经转向了「如何解决特定且复杂的推理任务」,比如数学问题、分析物理现象或是构建编程逻辑。 要想达到更高的性能,除了海量文本的预训练之外,往往还需要进一步的后训练。 主流后训练方法是采用强化学习(RL),特别是结合可验证奖励的强化学习(RLVR)。
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
谷歌
DeepSeek
AI新词
AI绘画
大模型
机器人
数据
Midjourney
开源
Meta
微软
智能
用户
GPT
学习
英伟达
Gemini
智能体
技术
马斯克
Anthropic
图像
AI创作
训练
LLM
论文
AI for Science
代码
腾讯
苹果
算法
Agent
Claude
芯片
具身智能
Stable Diffusion
xAI
蛋白质
人形机器人
开发者
生成式
神经网络
机器学习
AI视频
3D
字节跳动
大语言模型
RAG
Sora
百度
研究
GPU
生成
华为
工具
AGI
计算
生成式AI
AI设计
大型语言模型
搜索
亚马逊
AI模型
视频生成
特斯拉
DeepMind
场景
Copilot
深度学习
Transformer
架构
MCP
编程
视觉