理论
GPT-5将如何重塑IT团队、开发者与职场AI的未来
OpenAI发布了其大型语言模型的最新版本GPT-5,目前,开发人员和ChatGPT用户已可使用该版本,它为AI在商业和IT环境中的应用带来了一些实质性变革。 与之前的版本不同,GPT-5在后台采用了一种新方法,它不再让用户根据速度或准确度来选择不同的模型,而是能即时决定如何响应,如果任务简单,它会快速响应,如果任务更复杂,它会切换到更深入的推理引擎,用户还可以提示它“逐步思考”,以触发更周全的回答。 GPT-5的另一个重大变化是其安全处理方式,旧版本常常直接拒绝回答某些问题,而GPT-5则采用了不同的方法,它不会中断对话,而是尝试在遵守安全规则的同时,结合上下文进行回应。
告别上下文溢出:MemTool如何优化LLM智能体的工具记忆管理
大家好,我是肆〇柒。 近期,普华永道(PricewaterhouseCoopers)商业技术与创新办公室的研究团队在LLM智能体技术领域取得了一些成果,他们提出的MemTool框架为解决多轮对话中动态工具调用的短期记忆管理问题提供了系统性解决方案。 关键发现包括:推理型LLM在自主代理模式下可实现90-94%的工具移除效率工作流和混合模式实现了跨模型一致的高移除效率(90% )工具移除效率与任务完成率存在解耦特性,需根据场景权衡选择系统提示工程和模型选择对MemTool性能有决定性影响在构建智能对话系统时,你是否遇到过这样的困扰:当LLM 智能体与用户进行多轮对话时,随着对话轮次增加,系统不断加载新工具却无法有效清理旧工具,导致上下文窗口迅速饱和,最终影响对话质量和系统稳定性?
特斯拉Dojo超算团队突然解散!20人骨干被老领导打包带走
特斯拉上个月还在倒计时Dojo二代芯片量产,现在却突然宣布解散Dojo团队——那个曾被寄予“为特斯拉市值狂增5000亿”厚望的Dojo超级计算机团队,终究没能熬过这个夏天。 消息公布后,特斯拉股价在盘后小幅下跌。 Dojo解散,前负责人也另起炉灶办起了自己的DensityAI,来研发用于驱动汽车和汽车行业人工智能数据中心芯片、硬件和软件。
GPT-5:没有AGI,失望和天花板,最具竞争力的可能是定价
GPT-5 发布速记:刚看完GPT-5发布会,我对GPT-5整体感觉都已经在标题里了。 整个发布会一上来就出现多个错误图片,瞬间刷爆整个网络。 而Sam Altman 一直在发推说GPT-5有多好,比如代码能力远超vibecoding的范围。
GPT-5,AI的「登月时刻」来了!奥特曼现场发布,三位一体博士级智能体
刚刚,万众期待的GPT-5正式发布! 发布会仅仅20分钟后,我们断定,这就是「AI的登月时刻」。 GPT-5不仅仅是GPT-4的版本迭代,GPT-5是一场真正的智能范式跃迁!
硅谷AI大佬都在造末日地堡:小扎夏威夷修了465平米,奥特曼承认有加固地下室
科技巨头、亿万富翁、AI押注者&话事人……但你可能没注意到,除了这些身份之外,奥特曼和扎克伯格还有个鲜为人知的共同点:末日堡垒建造者。 所谓末日堡垒,指的是在危机时刻可以长期生存的地下避难所,具备防灾、储粮、自给自足等功能,是科技富豪们眼中的最后保险。 据Wired报道,这个夏天,小扎斥6500万美元巨资,又悄悄在夏威夷考艾岛北部海岸买了962英亩的牧场土地。
AI修Bug新SOTA:SWE-Bench Lite60.33%修复率,像人一样能积累经验,中科院软件所出品
AI学会像人一样修Bug了! “这个Bug我上周刚修过”“这个报错怎么又来了”“新人怎么又在同一个地方踩坑”……如果你是程序员,是否经常遇到这些令人抓狂的场景? 现有的AI修复工具就像“金鱼”,只有7秒记忆,每次遇到问题都从零开始。
谷歌Genie 3突破实时壁垒:24fps生成3D世界,AI游戏时代真正来临
你有没有想过,有一天AI能够像电影特效师一样,仅凭一句话就能实时生成一个完整的、可以游玩的3D世界? 根据最新报道,谷歌DeepMind刚刚发布的Genie 3做到了这一点,而且远远超出了我们的预期。 这不再是技术演示,而是真正可用的交互平台。
强化学习+MCP=王炸?开源框架教AI在MCP中玩转工具解决任务,实测效果超越GPT!
强化学习 任意一张牌,往往就是王炸。 专注于LLM RL的科技公司OpenPipe提出全新开源强化学习框架——MCP·RL。 只需一个MCP Server的地址,agent就能自动发现工具、生成任务,通过强化学习在闭环反馈中摸索出最优调用策略。
谷歌Genie3全网玩疯!画质飞跃720P,网友造出西幻RPG游戏
全网疯玩Genie3,惊叹:这才是真正的大世界! 距离上一代Genie2,才刚刚过去7个多月,谷歌世界模型就像开了倍速进化:原本啥也看不清,突然耳聪目明一跃来到720P画质,原来只有几十秒的限时体验,现在也直接拉长到好几分钟。 世界类型也真正实现多重宇宙折叠,自然、历史、奇幻应有尽有。
又是浙大校友!AI眼镜“隔空取物”,戴上即可随心选中现实世界任意物体
只靠说话和AI眼镜互动,确实有点不方便。 现在新玩法来了! 数字替身帮你“隔空抓物”,混合现实即时选择现实世界的物体作为上下文。
字节&MAP重塑大模型推理算法优化重点,强化学习重在高效探索助力LLM提升上限
强化学习(RL)范式虽然显著提升了大语言模型(LLM)在复杂任务中的表现,但其在实际应用中仍面临传统RL框架下固有的探索难题。 一个普遍存在的现象是:在训练过程中,模型的熵值迅速下降,推理路径趋于固化,导致“利用(exploitation)”远超“探索(exploration)”,严重失衡。 这种过早收敛不仅削弱了模型的多样性生成能力,也限制了其性能上限的进一步突破。
人工智能能否实现类人记忆?探索思想上传之路
译者 | 涂承烨审校 | 重楼记忆帮助人们记住“我是谁”。 它保存着人们的经历、知识和情感。 过去,记忆被认为只存在于人脑中。
供应链管理中高价值AI应用场景的识别
AI已融入供应链的几乎所有解决方案中,成为提升销售额和利润率、同时引发人们浓厚兴趣的手段。 在竞争日益激烈的环境中,许多企业为抢占先机或保持竞争力,纷纷急于采用AI技术,但有时方式过于表面、效果不佳,最终未能创造真正的价值。 例如,在供应链应用领域,只有一小部分AI应用能通过显著的投资回报率创造真正的价值,AI已成为现实,但许多解决方案无法有效满足企业需求,更不用说克服实际的供应链挑战了,因此,关键是要透过表象,确保任何实施都能兑现承诺。
大模型训练“练兵千日”,别输在AI推理“用兵一时”
2025年被认为是AI智能体的元年,是AI走向大规模应用的开始。 随着AI应用爆发,算力的需求逻辑也正在被重塑:AI推理——而不是训练,将成为未来算力需求的核心增长点。 这种趋势在刚刚结束的2025年世界人工智能大会(WAIC)多有体现。
从GPT-OSS谈谈大模型算法和Infra演进
TL;DRgpt-oss开源了,整个模型架构的设计真的是非常的simple & elegant。 本文结合一些前段时间一些Infra相关的争议和自己开发Agent相关的分析, 来对未来模型架构演进做一些分析。 OverviewOpenAI这次开源的是gpt-oss-20b 和 gpt-oss-120b两个模型。
Self-Play Critic:以“对抗博弈”创新大语言模型推理评估
大家好,我是肆〇柒。 今天,我想和大家聊一项创新的评估思路——Self-Play Critic(SPC)。 大型语言模型(LLM)目前已成为我们生活和工作中不可或缺的工具。
一篇120页AI4Research(科学研究AI)最新系统性综述
尽管AI在科学研究中的应用取得了显著进展,但目前仍缺乏对AI在科学研究(AI4Research)中应用的全面综述,为了填补这一空白,提出了一个全面的AI4Research调查,旨在提供一个统一的视角,并系统地分类AI在研究中的应用。 AI4Research的主流流程和分类,可以分为五个关键领域:(1)用于科学理解的AI,(2)用于学术调查的AI,(3)用于科学发现的AI,(4)用于学术写作的AI,以及(5)用于学术同行评审的AI。 这些领域各自有助于提升AI融合研究与出版的有效性和效率。
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
谷歌
DeepSeek
AI新词
AI绘画
大模型
机器人
数据
Midjourney
开源
Meta
微软
智能
用户
GPT
学习
英伟达
Gemini
智能体
技术
马斯克
Anthropic
图像
AI创作
训练
LLM
论文
AI for Science
代码
腾讯
苹果
算法
Agent
Claude
芯片
具身智能
Stable Diffusion
xAI
蛋白质
人形机器人
开发者
生成式
神经网络
机器学习
AI视频
3D
字节跳动
大语言模型
RAG
Sora
百度
研究
GPU
生成
华为
工具
AGI
计算
生成式AI
AI设计
大型语言模型
搜索
亚马逊
AI模型
视频生成
特斯拉
DeepMind
场景
Copilot
深度学习
Transformer
架构
MCP
编程
视觉