AI在线 AI在线

AI

地理学的AlphaEvolve?MIT斯坦福让AI自我生长、懂地理、懂世界

以下或许是一位地理科研工作者的日常:为了让所需的地理模型表现得更好,他不断和大模型(如ChatGPT)对话,尝试改进代码或修复bug。 大模型给出的初版答案往往并不完美,于是研究者又会根据结果提出新的修改意见。 就这样一来一回,经过不断交互,代码逐渐被打磨得完善。
10/28/2025 3:46:19 PM
新智元

90后王虹连夺两大「菲尔兹奖」风向标!韦神都来听她讲课,陶哲轩盛赞

今天,34岁中国数学家王虹,拿下了2025 Salem Prize(塞勒姆奖)。 因在调和分析与几何测度论领域重大未解问题上的卓越贡献,获此殊荣。 在业界,它被誉为「菲尔兹」风向标。
10/28/2025 3:37:11 PM

当 AI 下场炒 A 股,「推理」成了新的直觉

几天前,一场名为 “AI Trading Battle” 的实验在海外社交媒体上火了。 主办方给六个主流大模型(包括 ChatGPT、Gemini、Claude 等)每人一万美元的虚拟资金,让它们自由进行加密货币交易。 结果让人大跌眼镜:截至今天,DeepSeek V3.1 实现了超过 126% 的惊人盈利率,而GPT 5 和 Gemini 2.5 Pro 跌破 5,000 美元,亏损率超过 50%。
10/28/2025 12:16:00 PM
郑佳美

如何利用OpenCode将AI集成到终端中使用

译者 | 刘涛审校 | 重楼人工智能不再仅仅是辅助工具,它正逐步成为真正的编程伙伴。 在过去一年中,开发者见证了GitHub Copilot和ChatGPT等工具的兴起,这些技术彻底改变了代码编写的方式。 然而,大多数此类工具主要运行于集成开发环境(IDE)或浏览器界面中。
10/28/2025 11:16:33 AM
刘涛

AI已经开始自己设计算法,并且超越顶尖人类专家,人类还能做什么?

AI已经开始为自己设计算法,而且发现了比顶尖人类专家更优的算法。 这不是科幻,而是正在发生的事实。 刚刚,谷歌DeepMind团体的一篇论文登上Nature。
10/28/2025 9:27:04 AM

超越谷歌Banana,字节联合香港中文大学等高校开源最强图像编辑生成系统DreamOmni2

AI图像编辑与生成,正迎来一场体验革命。 香港中文大学,香港科技大学,香港大学和字节跳动共同研发的系统DreamOmni2,实现图像编辑与生成领域最新SOTA。 指令遵循能力全面领先,真正做到指哪打哪。
10/28/2025 9:25:04 AM

开源即登榜!登顶全球前十AI编程智能体,UCL初创团队开源Prometheus

来自伦敦大学学院(UCL)的初创团队EuniAI开源发布了AI软件智能体Prometheus。 该系统在SWE-bench Verified上取得71.2%的Pass@1成功率,成绩已被官方确认并合并至主榜单。 令人瞩目的是,这一成果来自高校科研团队,却已与产业巨头同台竞技,展现出学术研发在AI工程领域的产业级突破。
10/28/2025 9:22:18 AM

VaseVQA:考古领域实现专家级,诊断+补弱RL框架

古希腊陶器是考古学和艺术史的重要实物证据。 研究者需要从单件陶器中提取多层信息:材质与工艺、形制类别、装饰主题、出土地与时间、甚至可能的作坊或画师。 不过传统计算机视觉和通用多模态模型在这类高度专业化任务上常陷入两类困境:一是缺乏领域知识(模型在通用语料里几乎没接触过「雅典黑釉杯」或「红绘风格」这样的概念);二是仅靠监督微调(SFT)容易学到「表层捷径」,在遇到组合性、推理性或少样本问题时就失效。
10/28/2025 9:19:50 AM

大模型在具身推理上「翻车」了?4496 道题全面揭示短板

祁煜,2023年本科毕业于北京大学信息科学技术学院。 目前为美国Northeastern University在读博士生,研究方向为机器人与机器学习, 具身智能, 在 CVPR、ICML、CoRL 等顶级会议中发表过论文。 具身智能是近年来非常火概念。
10/28/2025 9:16:38 AM

世界模型==VQA?机器人不用想象画面,预测语义就够了

众所周知,世界模型是一种让 AI「想象未来」的学习方法。 它可以从大量数据中学习世界的运行规律,然后根据当前状态预测未来可能发生的事情。 这种能力非常关键,因为如果 AI 能对未来做出合理预测,就能提前规划出更聪明、更稳健的行动策略。
10/28/2025 9:13:58 AM

刚刚,Thinking Machines Lab博客提出在策略蒸馏,Qwen被cue 38次

刚刚,不发论文、爱发博客的 Thinking Machines Lab (以下简称 TML)再次更新,发布了一篇题为《在策略蒸馏》的博客。 在策略蒸馏(on-policy distillation)是一种将强化学习 (RL) 的纠错相关性与 SFT 的奖励密度相结合的训练方法。 在将其用于数学推理和内部聊天助手时,TML 发现在策略蒸馏可以极低的成本超越其他方法。
10/28/2025 9:09:51 AM

PyTorch Monarch震撼发布!单控制器模型彻底简化分布式AI工作流程

Meta的PyTorch团队近日发布了Monarch,这是一个革命性的开源框架,专门用于简化跨多个GPU和机器的分布式AI工作流程。 该系统的最大亮点是引入了单控制器模型,让开发者只需一个脚本就能协调整个集群的计算任务,大幅降低了大规模训练和强化学习任务的复杂度,同时保持标准PyTorch代码的编写方式不变。 传统多控制器模式的终结Monarch彻底颠覆了传统的多控制器方法。
10/28/2025 9:07:38 AM
阿丸笔记

「世界理解」维度看AI视频生成:Veo3和Sora2水平如何?新基准来了

近年来,Text-to-Video(T2V)模型取得显著进展——从静态帧质量到连贯的视频叙事,模型能力大幅提升,尤其是最近Sora2的爆火,让人们开始想象,T2V Model是否已经是一个真正的“世界模型”? 然而,传统基准主要考察图像质量与语义一致性,并不能系统衡量模型对事件因果、物理规律与常识的理解,而这些正是“世界模型”的核心能力。 为此,中山大学、香港理工大学、清华大学与OPPO Research Institute合作,在港理工Chair Professor张磊教授的指导下提出了一种新的评测框架——VideoVerse。
10/28/2025 8:49:33 AM

美团视频生成模型来了!一出手就是开源SOTA

美团,你是跨界上瘾了是吧! (doge)没错,最新开源SOTA视频模型,又是来自这家“送外卖”的公司。 模型名为LongCat-Video,参数13.6B,支持文生/图生视频,视频时长可达数分钟。
10/28/2025 8:40:00 AM

相机参数秒变图片!新模型打通理解生成壁垒,支持任意视角图像创作

能看懂相机参数,并且生成相应视角图片的多模态模型来了。 来自S-Lab、新加坡南洋理工大学、商汤科技、美国密歇根大学、德国马普所的研究员提出了Puffin统一多模态模型。 它能整合理解相机参数(如角度、视野)与按相机参数生成对应视角图片的能力。
10/28/2025 8:30:00 AM

AI“工作陷阱”:唯有培训能破解的新型生产力杀手

AI为工作者带来了提高效率和生产力的希望,使他们从重复性工作中解放出来,从而能够处理更复杂的任务,但是,随着企业向员工推出AI工具,许多人面临着不同的挑战:AI生成的工作成果适得其反。 AI生成内容的质量在很大程度上取决于与该工具协作人员的技能,而并非每个人都具备这方面的正确技能,这导致斯坦福社交媒体实验室和Betterup实验室创造了“AI工作烂稿(AI workslop)”一词——他们将其定义为“伪装成优秀成果的AI生成的工作内容,但缺乏实质性内容来有意义地推进既定任务”。 Pegasystems公司的CTO Don Schuerman表示:“当企业在错误的时间使用错误的AI时,就会出现AI工作烂稿,即将为创造性和推理而设计的大型语言模型部署到需要精确性、治理性和可靠性的情境中。
10/28/2025 7:00:00 AM
Sarah White

深刻理解Claude Skills-构建AI时代的组织和个体进化之路-加速从AI Agent到Agentic AI演进

Hello,大家好,我是人月聊IT。 今天接着AI和大模型方面的话题。 即大模型厂商Anthropic最近刚推出的Claude Skills。
10/28/2025 2:33:00 AM
何明璐

LeCun怒揭机器人最大骗局,坦白Llama与我无瓜!

人形机器人,也成为了AI圈最大的骗局? 最近在MIT的一场讲座中,Meta首席AI科学家LeCun一语道破了机器人界最大的秘密——这些公司压根不知道,如何让机器人变得足够「聪明」,或是说达到通用智能的程度。  家用机器人的实现,还需要AI领域取得一系列突破。
10/28/2025 1:22:00 AM
新智元