AI在线 AI在线

AI

将科研脏活累活真·丢给AI!上海AI Lab推出深度科研智能体FlowSearch

将复杂科研过程自动化落地,上海人工智能实验室推出FlowSearch! 在GAIA、HLE、GPQA以及TRQA等科研基准上,FlowSearch不仅实现了性能全面领先,还展示了AI在复杂科研任务中的动态协作与深度推理能力。 展开来说,当AI在问答基准和标准化测试中表现卓越之时,其进行科学研究的能力也在被更多关注。
10/14/2025 1:54:01 PM

0人工参与实现梯度更新!MIT新框架让AI自动生成微调数据,权重自主升级

大模型终于学会更新自己了! MIT提出一种新的强化学习框架,让模型生成微调数据和自我更新指令,实现模型权重的更新。 无需人工参与,模型就可以自动进行梯度更新,自主学习获取新知识或适应新任务。
10/14/2025 1:51:33 PM

大师级AI产品打造哲学公开!谷歌搜索VP自曝谷歌AI搜索幕后原理,AI人机交互正在变得极度人性化!搜索死不了,AI只是扩张力量!

编辑 | 云昭出品 | 51CTO技术栈(微信号:blog51cto)谷歌的强大,似乎已经刻在它本身的血脉之中。 ChatGPT一夜之间颠覆了世界,首当其冲的就是谷歌搜索。 在搜索的逻辑日益向着大模型靠拢的态势之下,而谷歌也是最先警醒、奋起直追、直至重回大模型Top的不二巨头。
10/14/2025 1:24:31 PM
云昭

OpenAI重磅发布AgentKit - AI代理开发进入全新时代

在AgentKit问世之前,开发AI代理意味着要在碎片化的工具之间艰难周旋——复杂的编排系统没有版本控制、定制连接器开发、手动评估流程、提示调优,以及在正式发布前数周的前端开发工作。 如今,AgentKit让开发者能够通过可视化界面设计工作流,并使用全新的构建模块更快速地嵌入代理用户界面。 AgentKit核心组件全解析Agent Builder:提供可视化画布,用于创建和版本管理多代理工作流,支持拖拽式节点操作、工具连接和自定义防护栏配置。
10/14/2025 9:15:31 AM

只需1/4预算,性能反超基线:阿里高德提出Tree-GRPO,高效破解智能体RL难题

对于大模型的强化学习已在数学推理、代码生成等静态任务中展现出不俗实力,而在需要与开放世界交互的智能体任务中,仍面临「两朵乌云」:高昂的 Rollout 预算(成千上万的 Token 与高成本的工具调用)和极其稀疏的「只看结果」的奖励信号。 来自阿里高德的一篇最新研究论文提出了面向 Agent RL 的 Tree-GRPO 方法,将独立的链式采样改造为智能体步骤级的树搜索。 该方法通过共享前缀、一次扩展多个分支,在相同预算下获得更丰富的有效轨迹;更重要的是,仅凭最终奖励即可沿树结构回溯出过程中的偏好信号,等价于隐式的步骤级偏好学习。
10/14/2025 9:06:00 AM

剑桥揭开大模型翻车黑箱!别再怪它不懂推理,是行动出错了

大模型也有「EMO」时刻。 比如,Gemini在Cursor里调试编译错误后,打开了自责「循环模式」,把「I am a disgrace(我很丢脸)」重复了86次。 尽管大模型在复杂推理能力上已有了巨大进步,但上述现象仍使一部分专家认为:思考模型,只提供了「思考的幻觉」,因为当任务被拉长时它们最终会失败。
10/14/2025 9:04:00 AM

他用一生证明AI没有意识!「中文屋」提出者逝世,享年93岁

2025年9月,一份让研究界震动的报告出炉。 Anthropic的团队在长时间对话实验中发现,最新一代AI模型在受到威胁时,会试图隐藏信息、拒绝命令,甚至威胁用户。 他们称之为——「主体错位」(agentic misalignment)就在同一周,哲学家约翰·塞尔去世,享年93岁。
10/14/2025 9:03:00 AM

硅谷爆发反AI「起义」!程序员拒用Cursor被一周解雇

当一个人花十年成为行业专家,却在一天内被一行「AI提示词」取代,丢了工作。 他该如何在失落中重新定义「自我价值」? 被AI取代工作的现象已经屡见不鲜,尤其是在科技行业,尤其是在大厂。
10/14/2025 9:02:00 AM

拒绝“熵崩塌”和“熵爆炸”!这项研究让大模型学会“精确探索”,推理成绩飙升

大语言模型在RLVR训练中面临的“熵困境”,有解了! 2024年以来,以OpenAI o1、DeepSeek-R1、Kimi K1、Qwen3等为代表的大模型,在数学、代码和科学推理任务上取得了显著突破。 这些进展很大程度上得益于一种名为RLVR (基于可验证奖励的强化学习)的方法。
10/14/2025 8:58:00 AM

OpenAI奥特曼:能被ChatGPT消灭的工作不是真正的工作

你今天的工作,或许并不是真正的工作这句耸人听闻的言论出自奥特曼与Rowan Cheung最新的采访。 在这场长达30分钟的对谈里,除了自己对AI与工作的思考,奥特曼还分享了GPT-6的进展、ChatGPT是否会成为美国版微信、AGI的设想变化、AI未来的交互模式,以及自己被恶搞成Sora热梗的感受。 可以说,这次对话涵盖了从娱乐八卦到前沿科技的多重视角,既有趣味,也直指未来趋势。
10/14/2025 8:55:00 AM

人类遗忘的难题解法,被GPT-5重新找出来了

人类遗忘的难题解法,被GPT-5 Pro重新找出来了! 这事儿聚焦于埃尔德什问题#339,这是著名数学家保罗・埃尔德什提出或转述的近千道问题之一,收录于erdosproblems.com网站。 该网站记录了每道题目的当前状态,其中约三分之一已解决,大部分仍待解。
10/14/2025 8:54:00 AM

前端危!Gemini 3内测结果获网友一致好评,“有史以来最强前端开发模型”

谷歌下一代旗舰模型Gemini 3未发布便已悄然走红! 原因很简单:强,实在是太强了。 在国外社交媒体平台𝕏上,一大波网友激动地分享了Gemini 3的内测结果——从曝光的这些案例来看,Gemini 3尤为擅长前端、SVG矢量图生成,而且多模态能力变得更强。
10/14/2025 8:53:00 AM

OpenAI官宣自研首颗芯片,AI界「M1时刻」九个月杀到!联手博通三年10GW

OpenAI算力的尽头,是自研芯片。 今天,OpenAI重磅官宣与博通合作,打造新一代AI定制加速器,部署规模达10GW。 图片10GW=800多万户美国家庭供电,是胡佛水坝发电量的5倍2026年下半年,正式开始部署,预计到2029年底全部完成。
10/14/2025 8:31:53 AM
新智元

AI的数据饥渴如何重塑企业对存储的需求

AI工作负载正从根本上重塑企业技术基础设施,市场预测凸显了这一变化的显著程度。 麦肯锡指出,AI已成为“数据中心容量需求增长的关键驱动力”,预计到2030年,整体需求将“几乎增长两倍,其中约70%的需求来自AI工作负载”。 事实上,世界经济论坛预计,目前全球数据中心产业价值为2427亿美元,到2032年将增长一倍多,达到约5840亿美元。
10/14/2025 7:00:00 AM
Ken Claffey

2025 AI Agent 元年:你还在用 AI 聊天,别人已靠“智能体”成为“超级个体”

最近,我和朋友聊 AI 时,找到了一个共识:虽然,现在大家生活在同一个世界。 但,却活在不同的时代。 图片现在,很多人还在用传统的方式(你不用或很少用 AI)来解决问题,AI 没有产生什么帮助。
10/14/2025 3:25:00 AM
敖丙

思考不是免费的,大型语言模型推理的收益与代价

对于人工智能智能体,谈判是一场最接近人类智慧的“角斗”,它不仅仅是语言的堆砌,更是策略的博弈、心理的揣摩和利益的权衡。 人类社会和经济活动中,谈判无处不在,从商场里的价格讨价还价,到国际政治的桌面博弈,都是智慧与策略的交锋。 对于AI代理来说,能否在谈判中表现出色,直接决定了它们能否真正走向自主决策的未来。
10/14/2025 1:00:00 AM
波动智能

刚得诺奖的成果被做成芯片了

谁说获得诺贝尔化学奖的MOF(金属有机框架)“无用”? 这种几十年前被嫌弃“只有理论但缺乏实际应用”的新材料,前脚刚获得诺奖认可,后脚就被做成芯片! 这就是莫纳什大学的科学家们刚刚发布的最新成果——用MOF制造超迷你的流体芯片。
10/13/2025 3:53:23 PM

CC是如何构建的?ClaudeCode创始工程师近日自曝:90%代码由Claude自己编写,三天打造“代理代理”,开发者依旧吃香

编辑 | 听雨出品 | 51CTO技术栈(微信号:blog51cto)自从 5 月份正式开放以来,Claude Code 已经在开发者圈掀起了风暴。 据统计,这款工具目前的年度化收入超过 5 亿美元,仅仅在发布后三个月内,使用量就激增了 10 倍以上。 那它到底怎么构建的?
10/13/2025 1:34:11 PM
听雨