AI在线 AI在线

资讯列表

Meta-Think ≠ 记套路,多智能体强化学习解锁大模型元思考泛化

本文第一作者为上海交通大学计算机科学四年级博士生万梓煜,主要研究方向为强化学习、基础模型的复杂推理,通讯作者为上海交通大学人工智能学院温颖副教授和上海人工智能实验室胡舒悦老师。 团队其他成员包括来自英属哥伦比亚大学的共同第一作者李云想、Mark Schmidt 教授,伦敦大学学院的宋研、杨林易和汪军教授,上海交通大学的温潇雨,王翰竟和张伟楠教授。 引言最近,关于大模型推理的测试时间扩展(Test time scaling law )的探索不断涌现出新的范式,包括① 结构化搜索结(如 MCTS),② 过程奖励模型(Process Reward Model ) PPO,③ 可验证奖励 (Verifiable Reward) GRPO(DeepSeek R1)。
7/4/2025 8:53:00 AM

谢赛宁团队新作:不用提示词精准实现3D画面控制

曾几何时,用文字生成图像已经变得像用笔作画一样稀松平常。 但你有没有想过拖动方向键来控制画面? 像这样,拖动方向键(或用鼠标拖动滑块)让画面里的物体左右移动:还能旋转角度:缩放大小:这一神奇操作就来自于谢赛宁团队新发布的 Blender Fusion框架,通过结合图形工具 (Blender) 与扩散模型,让视觉合成不再仅仅依赖文本提示,实现了精准的画面控制与灵活操作。
7/4/2025 8:52:00 AM

推理AI致命弱点,大模型变「杠精」!被带偏后死不悔改

20世纪初,据说存在一匹会算数的马,被称为「聪明的汉斯」,但经过心理学家冯斯特的研究,最终发现这匹马其实是通过观察提问者无意识的肢体语言(如呼吸变化)来停止踩蹄,并非真正理解数学。 如今,我们发现,大模型会呈现出推理行为,甚至还存在Aha时刻这样的「顿悟现象」。 这会不会是大模型表现的如同「聪明的汉斯」那样,依赖提示词中的表面模式,而非真正具有了推理能力,DeepMind的最新研究揭示了大模型推理能力令人担忧的一面。
7/4/2025 8:49:00 AM

重磅发现!大模型的「aha moment」不是装腔作势,内部信息量暴增数倍!

刘勇,中国人民大学,长聘副教授,博士生导师,国家级高层次青年人才。 长期从事机器学习基础理论研究,共发表论文 100 余篇,其中以第一作者/通讯作者发表顶级期刊和会议论文近 50 篇,涵盖机器学习领域顶级期刊 JMLR、IEEE TPAMI、Artificial Intelligence 和顶级会议 ICML、NeurIPS 等。 你肯定见过大模型在解题时「装模作样」地输出:「Hmm…」、「Wait, let me think」、「Therefore…」这些看似「人类化」的思考词。
7/4/2025 8:47:00 AM

Gemini负责人爆料!多模态统一token表示,视觉至关重要

一次性揭秘Gemini多模态技术! 就在刚刚,Gemini模型行为产品负责人Ani Baddepudi在谷歌自家的开发者频道开启了爆料模式。 他和OpenAI前员工、现谷歌AI Studio产品负责人(Logan Kilpatrick,右)探讨了诸多众人好奇已久的问题:为啥Gemini一开始就被设计为原生多模态?
7/4/2025 8:43:00 AM

大模型越反思越错,原来是长链推理通过自我说服加重幻觉 | 北邮

来自北京邮电大学的研究团队通过思维链审计实验,首次定量揭示了这一“越想越错”现象背后的元认知偏差:长链推理中的反思不是纠错机制,而是给幻觉颁发“理性证书”——模型为保持与用户提示语义一致,宁可篡改协议定义也不否定前提。 风险缺口:长链CoT放大“误差滚雪球”推理大模型(RLLMs)能把复杂问题拆解成几十步推理,再给出看似缜密的结论。 然而,随着推理链条变长,一个令人不安的趋势浮出水面——错误不再是偶发失误,而是沿链条滚雪球式放大。
7/4/2025 8:42:00 AM

刚刚,Ilya官宣出任SSI CEO!送走「叛徒」联创,豪言不缺GPU

小扎到处挖人的举动,不仅是惹恼了奥特曼,连Ilya都忍无可忍,被炸出来了! 就在刚刚,消失许久的Ilya忽然现身X。 他发文表示,自己已亲自挂帅「安全超级智能」(SSI)的CEO。
7/4/2025 8:33:30 AM
新智元

建立基于AI的知识体系:面向企业需求的LlamaIndex与Apache Tika

译者 | 可乐审校 | 重楼LlamaIndex是一套开源Python框架,类似于智能数据管理员,能够通过文档为AI提供信息支撑。 它专为检索增强生成(RAG)而打造,可帮助AI在回答问题或生成内容前检索文件、数据库或记录条目,找寻正确信息。 这样AI生成的答案将更加准确,且显著优于依赖预训练知识储备的常规聊天机器人。
7/4/2025 8:28:50 AM
核子可乐

关于 AI 辅助软件交付成熟度模型的探讨

作者 | 张巍面对瞬息万变的市场和技术环境,越来越多企业开始探索人工智能(AI)在软件交付过程中的应用,以提升效率和创新能力。 然而,不同组织在AI赋能软件工程上的实践成熟度各不相同,亟需一套分级模型来指引演进路径。 正如自动驾驶领域采用L0到L5的级别定义来描述从人工驾驶到完全自动驾驶的演进过程,软件交付领域也可借鉴类似分级方法。
7/4/2025 8:27:59 AM
Thoughtworks洞见

Sam Altman的“温和奇点”已至:我们真的越过了AI的“事件视界”吗?

近日,OpenAI 的掌舵人 Sam Altman 在其个人博客上发表了一篇题为《The Gentle Singularity》(温和的奇点, )的重磅文章,再次将人工智能的未来推向了舆论的风口浪尖。 Altman 以其一贯的前瞻性视角,大胆宣称:“我们已越过事件视界;起飞已经开始。 人类已接近构建数字超级智能,而且至少到目前为止,它远没有看起来那么怪异。
7/4/2025 8:25:03 AM
白明的赞赏账户

Meta 官宣研发可“主动陪聊”AI 聊天机器人 Project Omni,基于用户历史记录生成对话

Meta宣布研发Project Omni项目,打造能主动与用户互动的AI聊天机器人。这些机器人基于历史聊天记录发起对话,如音乐推荐等,提高用户黏性。目前支持多样化人设和第三方接入。#AI聊天机器人# #Meta新技术#
7/4/2025 8:11:02 AM
漾仔

有人眼红我不加班,那是他不知道这五个效率爆表的AI助手!

如果你也在小团队里,这5个AI助手绝对是神器我们是一个中等规模公司里的小技术团队,这5个AI助手就像凭空多出的队友,帮我们省了一堆麻烦。 我从没想过AI助手能这么好用……直到它们真的让我的工作轻松了不少。 几年前,我们团队忙得晕头转向。
7/4/2025 8:10:46 AM
AI研究生

谷歌 Veo 3 AI 文生视频模型正式向 Pro / Ultra 会员开放,后续将新增“照片生成视频”功能

谷歌Veo 3 AI文生视频模型已向Pro/Ultra会员开放,Pro会员每天限生成3段视频。照片生成视频功能即将上线,但使用门槛仍较高,需订阅Pro会籍(每月20美元)。#AI视频生成# #谷歌Veo3#
7/4/2025 7:57:13 AM
漾仔

如何用DeepSeek做数据分析?这套方法超神!

同学们,Deepseek用起来没有! 经过半年磨合,陈老师是发现这玩意越用越好用。 今天把使用心得分享给大家。
7/4/2025 7:51:40 AM
接地气的陈老师

实现AI战略短期与长期有效的四大关键要素

分析师们敦促技术领导者要管理好预期,特别是对于GenAI,因为其在短期内往往承诺的多于实际能交付的。 Gartner建议,CIO必须帮助CFO将AI视为一项长期战略投资,而Forrester则警告说,如果对AI投资的即时回报预期未能实现,许多企业将会过早地缩减投入。 但并非所有企业都在为此挣扎,通过与四位经验丰富的IT领袖的交流,我们描绘出了一幅更为平衡的图景。
7/4/2025 7:02:00 AM
Pat Brans

2025年软件开发者必备的十大AI智能体框架全解析

人工智能智能体(AI Agent)技术正在彻底改变软件开发的范式,从简单的聊天机器人进化到具备多步推理、工具调用和协作解决问题能力的复杂系统。 对于希望构建智能应用的开发者而言,选择合适的AI智能体框架成为项目成功的关键。 本文将深入解析2025年最值得关注的11大AI智能体框架,从技术特性、适用场景到代码示例进行全方位对比,帮助开发者做出明智选择。
7/4/2025 4:22:00 AM
大模型之路

2025年需要学习的十大应用程序开发人员技能和趋势

2025开发者必看! 拥抱AI驱动的开发新范式,精通AI工具如Codeium加速设计到代码流程。 掌握跨平台开发如Flutter、React Native及WebAssembly (Wasm),关注TensorFlow.js等Web AI框架。
7/4/2025 4:00:00 AM
岱军

他做的AI视频刷爆全网!专访AI.Talk赵汗青

前两天,一个 AI 的虚拟 IP 火了,刷爆了整个 AI 圈。 这个 AI IP,叫 YURI,出自我心中一直封神的 AI 频道:AI.TALK。 当视频在手机上无法加载,可前往PC查看。
7/4/2025 2:41:37 AM
数字生命卡兹克