AI在线 AI在线

ChatGPT转型计划曝光!不再只是回答问题,而是通过穿插使用工具变身行动助手

AI Agent今天是初级工程师,6个月后是高级工程师,一年后是架构师。 这是OpenAI CPO Kevin Weil在接受最新访谈时提出的构想。 他表示,ChatGPT将从回答问题转变为为用户做事。

AI Agent今天是初级工程师,6个月后是高级工程师,一年后是架构师。

这是OpenAI CPO Kevin Weil在接受最新访谈时提出的构想。

图片

他表示,ChatGPT将从回答问题转变为为用户做事

也就是说,AI Agent不再满足于30s回答问题,而是通过浏览网页、深度思考、推理总结以解决更复杂的问题。

图片

此外,他还提到当下模型成本已是GPT-4的500倍

而对于今年由DeepSeek引发的模型成本讨论,他觉得从训练后的角度来看,模型的效率突破在于硬件的提升和算法的改进,效率提升了,那么成本也会下降。

未来OpenAI将不断降低API价格,以便更多公司能够参与到AI发展中来。

一起来了解更多内容吧。

推理模型的突破在于穿插使用工具

让DeepResearch不仅能与网络相连,还能与内部知识源相连

Kevin Weil在访谈中表示,OpenAI正在做的事情就是让DeepResearch能够同时连接到网络和内部知识源,比如Google文档、Sharepoint、Jira等。

AI Agent能够整合所有的这些内容,甚至可以跨服务操作让他们一起变得更有用。

图片

模型可以根据需要使用各种不同的工具

在主持人问到:

“模型在解决问题时,在互联网上搜索和模型自我思考的比例分别是多少?“

Kevin Weil表示模型可以根据需要使用各种不同的工具。

比如,你想要AI帮你查询信息并通过图表的形式反馈,首先,Agent会先通过搜索工具获取大量的数据,然后通过编程工具编写一个小的Python程序用于绘制图像,那么就需要知道编写程序的知识,这时候它就会继续搜索关于编程的信息进行推理,然后继续完成代码编写。

在这个过程中,AI不仅可以调用所需要的代码库,甚至可以从零开始编写一个库。

像这样,Agent能够擅长穿插使用解决问题需要的各种工具,将所有东西整合成一个最终的答案。

Kevin Weil认为这对于AI Agent的功能来说是一种巨大的“解锁”。

图片

有网友表示:AI Agent像是我们的新同事。

图片

当下模型成本已是GPT-4的500倍

当主持人谈到模型训练成本时,Kevin Weil提到目前有两种方式来扩展模型的智能。

一种就是传统方法,通过越来越大规模的预训练来提升模型的性能,虽然这种方法很有效,但非常昂贵;还有一种方法就是让模型思考更长时间。

在两种方法中的任一方向上改进都可以提升模型性能。

在成本方面,如果将几年前最初推出的GPT-4与现在的一些型号进行比较,则存在500倍的成本差异。

Kevin Weil表示,OpenAI将尽可能不断降低API价格,让更多的公司能够参与到AI领域的发展中。

图片

主持人还谈到了今年年初关于DeepSeek的突破性开源模型的辩论,争论的焦点是,如果降低AI模型的成本,是否会减少计算的使用?(比如API费用降低,就会增加使用量)

Kevin Weil认为从训练后的角度来看,模型的效率突破在于硬件的提升和算法的改进,模型变得更聪明,模型越智能越安全,那么成本也会下降。

关于情报安全性的问题,Kevin Weil表示在训练模型过程中,一方面是用更科学的方式进行,另一方面是推理模型会用不同的方式仔细检查它们的答案,因为现在它们可以使用工具,他也可以搜索网络,这样就会减少幻觉。

在访谈的最后,Kevin Weil表示对AGI发展持乐观态度,其进步速度令人期待。

相关资讯

Search版o1:推理过程会主动查资料,整体性能优于人类专家,清华人大出品

一个新框架,让Qwen版o1成绩暴涨:在博士级别的科学问答、数学、代码能力的11项评测中,能力显著提升,拿下10个第一! 这就是人大、清华联手推出的最新「Agentic搜索增强推理模型框架」Search-o1的特别之处。 项目团队成员发现,o1和o1类模型在推理过程中表现突出,但却存在“知识不足”的明显缺陷——推理步骤太长/模型知识不足时,推理过程就很容易卡壳,导致推理链中的错误传递。
1/20/2025 9:05:00 AM
量子位

推理模型规划任务成功率从5%到95%,DeepMind遗传算法新研究火了

瞄准推理时扩展(Inference-time scaling),DeepMind新的进化搜索策略火了! 所提出的“Mind Evolution”(思维进化),能够优化大语言模型(LLMs)在规划和推理中的响应。 由于提升显著,Reddit/𝕏一时间出现了大量讨论:由于结合了遗传算法,使用Mind Evolution能让Gemini 1.5 Flash任务成功率从原本的5%左右,一下提升90个百分点。
1/23/2025 4:25:23 PM
量子位

360联合北大震撼发布!5%参数量逼近Deepseek-R1满血性能

2025年2月24日,由360与北京大学联合研发的中等量级推理模型Tiny-R1-32B-Preview正式亮相,仅以5%参数,逼近DeepSeek-R1-671B的性能。 核心突破:小模型,大能量数学领域:以78.1分(AIME 2024评测)逼近原版R1模型(79.8分),远超DeepSeek-R1-Distill-Llama-70B(70.0分);综合性能:在编程(LiveCodeBench 61.6分)、科学(GPQA-Diamond 65.0分)领域全面领先最佳开源70B模型DeepSeek-R1-Distill-Llama-70B;效率跃迁:仅需5%参数量,性能达原版R1的95%以上,推理成本大幅降低。 技术革新:领域专精 模型融合研究团队使用「分治-融合」策略:基于DeepSeek-R1生成海量领域数据,分别训练数学、编程、科学三大垂直模型;通过Arcee团队Mergekit工具智能融合,突破单一模型性能上限,实现多任务均衡优化。
2/25/2025 2:50:16 PM
新智元
  • 1