ChatGPT转型计划曝光！不再只是回答问题，而是通过穿插使用工具变身行动助手

作者： 2025-05-21 01:57

AI Agent今天是初级工程师，6个月后是高级工程师，一年后是架构师。这是OpenAI CPO Kevin Weil在接受最新访谈时提出的构想。他表示，ChatGPT将从回答问题转变为为用户做事。

AI Agent今天是初级工程师，6个月后是高级工程师，一年后是架构师。

这是OpenAI CPO Kevin Weil在接受最新访谈时提出的构想。

他表示，ChatGPT将从回答问题转变为为用户做事。

也就是说，AI Agent不再满足于30s回答问题，而是通过浏览网页、深度思考、推理总结以解决更复杂的问题。

此外，他还提到当下模型成本已是GPT-4的500倍。

而对于今年由DeepSeek引发的模型成本讨论，他觉得从训练后的角度来看，模型的效率突破在于硬件的提升和算法的改进，效率提升了，那么成本也会下降。

未来OpenAI将不断降低API价格，以便更多公司能够参与到AI发展中来。

一起来了解更多内容吧。

推理模型的突破在于穿插使用工具

让DeepResearch不仅能与网络相连，还能与内部知识源相连

Kevin Weil在访谈中表示，OpenAI正在做的事情就是让DeepResearch能够同时连接到网络和内部知识源，比如Google文档、Sharepoint、Jira等。

AI Agent能够整合所有的这些内容，甚至可以跨服务操作让他们一起变得更有用。

模型可以根据需要使用各种不同的工具

在主持人问到：

“模型在解决问题时，在互联网上搜索和模型自我思考的比例分别是多少？“

Kevin Weil表示模型可以根据需要使用各种不同的工具。

比如，你想要AI帮你查询信息并通过图表的形式反馈，首先，Agent会先通过搜索工具获取大量的数据，然后通过编程工具编写一个小的Python程序用于绘制图像，那么就需要知道编写程序的知识，这时候它就会继续搜索关于编程的信息进行推理，然后继续完成代码编写。

在这个过程中，AI不仅可以调用所需要的代码库，甚至可以从零开始编写一个库。

像这样，Agent能够擅长穿插使用解决问题需要的各种工具，将所有东西整合成一个最终的答案。

Kevin Weil认为这对于AI Agent的功能来说是一种巨大的“解锁”。

有网友表示：AI Agent像是我们的新同事。

当下模型成本已是GPT-4的500倍

当主持人谈到模型训练成本时，Kevin Weil提到目前有两种方式来扩展模型的智能。

一种就是传统方法，通过越来越大规模的预训练来提升模型的性能，虽然这种方法很有效，但非常昂贵；还有一种方法就是让模型思考更长时间。

在两种方法中的任一方向上改进都可以提升模型性能。

在成本方面，如果将几年前最初推出的GPT-4与现在的一些型号进行比较，则存在500倍的成本差异。

Kevin Weil表示，OpenAI将尽可能不断降低API价格，让更多的公司能够参与到AI领域的发展中。

主持人还谈到了今年年初关于DeepSeek的突破性开源模型的辩论，争论的焦点是，如果降低AI模型的成本，是否会减少计算的使用？（比如API费用降低，就会增加使用量）

Kevin Weil认为从训练后的角度来看，模型的效率突破在于硬件的提升和算法的改进，模型变得更聪明，模型越智能越安全，那么成本也会下降。

关于情报安全性的问题，Kevin Weil表示在训练模型过程中，一方面是用更科学的方式进行，另一方面是推理模型会用不同的方式仔细检查它们的答案，因为现在它们可以使用工具，他也可以搜索网络，这样就会减少幻觉。

在访谈的最后，Kevin Weil表示对AGI发展持乐观态度，其进步速度令人期待。

Search版o1：推理过程会主动查资料，整体性能优于人类专家，清华人大出品

一个新框架，让Qwen版o1成绩暴涨：在博士级别的科学问答、数学、代码能力的11项评测中，能力显著提升，拿下10个第一！这就是人大、清华联手推出的最新「Agentic搜索增强推理模型框架」Search-o1的特别之处。项目团队成员发现，o1和o1类模型在推理过程中表现突出，但却存在“知识不足”的明显缺陷——推理步骤太长/模型知识不足时，推理过程就很容易卡壳，导致推理链中的错误传递。

1/20/2025 9:05:00 AM 量子位

推理模型规划任务成功率从5%到95%，DeepMind遗传算法新研究火了

瞄准推理时扩展（Inference-time scaling），DeepMind新的进化搜索策略火了！所提出的“Mind Evolution”（思维进化），能够优化大语言模型（LLMs）在规划和推理中的响应。由于提升显著，Reddit/𝕏一时间出现了大量讨论：由于结合了遗传算法，使用Mind Evolution能让Gemini 1.5 Flash任务成功率从原本的5%左右，一下提升90个百分点。

1/23/2025 4:25:23 PM 量子位

360联合北大震撼发布！5%参数量逼近Deepseek-R1满血性能

2025年2月24日，由360与北京大学联合研发的中等量级推理模型Tiny-R1-32B-Preview正式亮相，仅以5%参数，逼近DeepSeek-R1-671B的性能。核心突破：小模型，大能量数学领域：以78.1分（AIME 2024评测）逼近原版R1模型（79.8分），远超DeepSeek-R1-Distill-Llama-70B（70.0分）；综合性能：在编程（LiveCodeBench 61.6分）、科学（GPQA-Diamond 65.0分）领域全面领先最佳开源70B模型DeepSeek-R1-Distill-Llama-70B；效率跃迁：仅需5%参数量，性能达原版R1的95%以上，推理成本大幅降低。技术革新：领域专精模型融合研究团队使用「分治-融合」策略：基于DeepSeek-R1生成海量领域数据，分别训练数学、编程、科学三大垂直模型；通过Arcee团队Mergekit工具智能融合，突破单一模型性能上限，实现多任务均衡优化。

2/25/2025 2:50:16 PM 新智元