AI在线 AI在线

模型

Excel新AI插件!华尔街「表哥表姐」对手来了

Claude牵手微软,准备进军华尔街,在金融服务领域插一脚了! Anthropic宣布他们正在通过一个Claude For Excel来实时对接市场数据和投资组合等金融领域数据。 Claude正在分析一份包含Acme Grille, Inc.
10/29/2025 8:52:00 AM

微调已死!「共识机制」实现提示词自我进化,性能飙升

当前,人工智能领域正经历一场由「模型微调」向「上下文工程」的范式转变。 通过在输入中引入更明确的指令和更丰富详实的知识,「上下文工程」既无需投入高昂的训练成本,亦不依赖开源模型权重参数,同时能够为用户和开发者提供更强的可解释性,正逐渐成为构建高性能、可扩展且具备自我改进能力的 AI 系统的核心范式。 正因如此,「微调已死」成为了AI领域近期广泛认可的热门话题。
10/29/2025 8:40:00 AM

新范式!字节提出智能体上下文折叠框架,1/10活跃量突破长周期任务瓶颈

智能体在执行长周期任务时,始终受限于上下文长度。 为此,字节联合提出上下文折叠(Context-Folding)框架,使智能体能够主动管理其工作上下文。 该框架允许智能体通过程序分支进入子轨迹以处理子任务,完成后将中间步骤折叠压缩,仅保留结果摘要。
10/28/2025 3:53:21 PM
六一

90后王虹连夺两大「菲尔兹奖」风向标!韦神都来听她讲课,陶哲轩盛赞

今天,34岁中国数学家王虹,拿下了2025 Salem Prize(塞勒姆奖)。 因在调和分析与几何测度论领域重大未解问题上的卓越贡献,获此殊荣。 在业界,它被誉为「菲尔兹」风向标。
10/28/2025 3:37:11 PM

AI已经开始自己设计算法,并且超越顶尖人类专家,人类还能做什么?

AI已经开始为自己设计算法,而且发现了比顶尖人类专家更优的算法。 这不是科幻,而是正在发生的事实。 刚刚,谷歌DeepMind团体的一篇论文登上Nature。
10/28/2025 9:27:04 AM

超越谷歌Banana,字节联合香港中文大学等高校开源最强图像编辑生成系统DreamOmni2

AI图像编辑与生成,正迎来一场体验革命。 香港中文大学,香港科技大学,香港大学和字节跳动共同研发的系统DreamOmni2,实现图像编辑与生成领域最新SOTA。 指令遵循能力全面领先,真正做到指哪打哪。
10/28/2025 9:25:04 AM

VaseVQA:考古领域实现专家级,诊断+补弱RL框架

古希腊陶器是考古学和艺术史的重要实物证据。 研究者需要从单件陶器中提取多层信息:材质与工艺、形制类别、装饰主题、出土地与时间、甚至可能的作坊或画师。 不过传统计算机视觉和通用多模态模型在这类高度专业化任务上常陷入两类困境:一是缺乏领域知识(模型在通用语料里几乎没接触过「雅典黑釉杯」或「红绘风格」这样的概念);二是仅靠监督微调(SFT)容易学到「表层捷径」,在遇到组合性、推理性或少样本问题时就失效。
10/28/2025 9:19:50 AM

世界模型==VQA?机器人不用想象画面,预测语义就够了

众所周知,世界模型是一种让 AI「想象未来」的学习方法。 它可以从大量数据中学习世界的运行规律,然后根据当前状态预测未来可能发生的事情。 这种能力非常关键,因为如果 AI 能对未来做出合理预测,就能提前规划出更聪明、更稳健的行动策略。
10/28/2025 9:13:58 AM

刚刚,Thinking Machines Lab博客提出在策略蒸馏,Qwen被cue 38次

刚刚,不发论文、爱发博客的 Thinking Machines Lab (以下简称 TML)再次更新,发布了一篇题为《在策略蒸馏》的博客。 在策略蒸馏(on-policy distillation)是一种将强化学习 (RL) 的纠错相关性与 SFT 的奖励密度相结合的训练方法。 在将其用于数学推理和内部聊天助手时,TML 发现在策略蒸馏可以极低的成本超越其他方法。
10/28/2025 9:09:51 AM

「世界理解」维度看AI视频生成:Veo3和Sora2水平如何?新基准来了

近年来,Text-to-Video(T2V)模型取得显著进展——从静态帧质量到连贯的视频叙事,模型能力大幅提升,尤其是最近Sora2的爆火,让人们开始想象,T2V Model是否已经是一个真正的“世界模型”? 然而,传统基准主要考察图像质量与语义一致性,并不能系统衡量模型对事件因果、物理规律与常识的理解,而这些正是“世界模型”的核心能力。 为此,中山大学、香港理工大学、清华大学与OPPO Research Institute合作,在港理工Chair Professor张磊教授的指导下提出了一种新的评测框架——VideoVerse。
10/28/2025 8:49:33 AM

美团视频生成模型来了!一出手就是开源SOTA

美团,你是跨界上瘾了是吧! (doge)没错,最新开源SOTA视频模型,又是来自这家“送外卖”的公司。 模型名为LongCat-Video,参数13.6B,支持文生/图生视频,视频时长可达数分钟。
10/28/2025 8:40:00 AM

相机参数秒变图片!新模型打通理解生成壁垒,支持任意视角图像创作

能看懂相机参数,并且生成相应视角图片的多模态模型来了。 来自S-Lab、新加坡南洋理工大学、商汤科技、美国密歇根大学、德国马普所的研究员提出了Puffin统一多模态模型。 它能整合理解相机参数(如角度、视野)与按相机参数生成对应视角图片的能力。
10/28/2025 8:30:00 AM

美国大学排名出炉:哥大断崖式下滑,MIT稳居CS榜第一!

每年秋天,美国高等教育界都会迎来一场「期末大考」——U.S. News最佳大学排名。 它不仅牵动数百万学生和家长的择校决策,更在全球范围内左右着学校的声誉与资源。
10/27/2025 6:07:10 PM

知识图谱推理新sota,兼顾性能+效率!中科大新作 | NeurIPS'25

知识图谱推理(Knowledge Graph Reasoning)是人工智能的重要组成部分,在问答系统、推荐系统、语义检索和知识增强大模型等场景中具有广泛应用。 然而,随着知识图谱规模的爆炸式增长,现有推理方法在计算效率、模型表达能力和泛化能力方面面临巨大挑战。 现有知识图谱推理方法主要存在以下三类问题:推理效率低:随着知识图谱实体规模增长,候选实体空间极速膨胀,导致推理阶段计算成本急剧上升;表达能力不足:轻量级嵌入模型虽计算高效,但难以捕捉多跳关系和高阶语义结构;过平滑问题突出:基于全局注意力或深层GNN的方法容易在图上过度聚合信息,导致表示不具判别力(如图1所示)。
10/27/2025 9:15:00 AM

AI黑化如恶魔附体!LARGO攻心三步,潜意识种子瞬间开花 | NeurIPS 2025

你的AI助手真的安全吗? 你敢信吗? 只要在AI的「脑子」里注入一段精心「调制」的「想法」,就能让它自己「黑化」,说出本不该说的秘密。
10/27/2025 9:12:00 AM

可攻可防,越狱成功率近90%!六大主流模型全中招 | EMNLP'25

大型语言模型(LLMs)在信息处理、内容生成等领域应用广泛(如LLaMA、DeepSeek、ChatGPT),但随着其与现实场景深度融合,安全问题愈发凸显:可能被用于传播网络犯罪指令、虚假信息等有害内容。 尽管开发者通过监督微调(SFT)、基于人类反馈的强化学习(RLHF)等技术优化模型安全性,但面对复杂的越狱攻击,现有防护机制仍存在不足。 现有越狱攻击主要分为两类,均存在明显缺陷:手动构造提示词攻击:如PAIR、PAP等,依赖黑箱模板操控,模型更新后模板易失效,可解释性差、泛化能力弱。
10/27/2025 9:11:00 AM

日本AI王者,CTO是Transformer之父,刚拿下世界编程竞赛冠军

今年的国际编程竞赛ICFP(International Conference on Functional Programming)的冠军队伍名为「Team Unagi」,团队来自日本初创AI研究公司Sakana AI,其中的AI系统不仅帮助他们加速解决方案,更为人类队友带来了全新的解题思路。 ICFP 2025编程大赛高度开放,「任何手段皆可」,鼓励各路奇思妙想和工具(包括AI)自由登场。 Sakana AI团队选择了一条独特的「人机共创」道路。
10/27/2025 8:57:00 AM

教全世界与AI对话的男人,正式加入DeepMind!提示工程封神

全球最牛的提示工程师Riley Goodside,官宣入职谷歌DeepMind了。 Riley前后斟酌了两个月的时间,才拿下了这个决定。 2022年ChatGPT诞生之后,他仅凭和AI聊天,就能年入百万美金,引起全网关注。
10/24/2025 5:36:17 PM