AI在线 AI在线

模型

陶哲轩官宣AI数学基金首轮名单:29个项目瓜分1.3亿,数学界沸腾!

近日,陶哲轩表示,自己所担任顾问的AI数学基金,刚刚公布第一批获得资助的项目:由于收到大量高质量提案,基金已将总资助金额从900万美元翻倍至1800万美元。 预计2025年晚些时候还将再开放一轮申请。 去年12月,陶哲轩表示同意加入AI数学基金(AI for Math Fund)顾问委员会。
9/23/2025 9:15:31 AM

GPT-5仅23.3%,全球AI集体挂科!地狱级编程考试,夺金神话破灭

继IMO 2025登顶后,谷歌、OpenAI的模型,再一次拿下了ICPC金牌。 ICPC,被公认为全球最具挑战的大学生编程竞赛之一。 OpenAI和谷歌不仅解决了全部12题,还在人类选手中位列第一,难道AI编程真能所向披靡了吗?
9/23/2025 9:13:37 AM

性价比之王!马斯克发布Grok 4 Fast!200万上下文窗口,输出百万token价格仅3块5!附生成环境评估建议

昨天,马斯克的 xAI 发布了新模型 Grok 4 Fast。 作为 Grok 4 的“兄弟型号”,它更便宜、更快、可大规模扩展,目标是在长上下文推理和智能体工具使用上进一步突破。 🚀 核心看点Grok 4 Fast 是 xAI 的 Grok 4 的一个变体,强调效率和可用性,同时不牺牲性能。
9/22/2025 11:36:10 AM

EMNLP2025 | SFT与RL的结合,vivo AI Lab提出新的后训练方法

本文的第一作者曾敏来自 vivo AI Lab,主要研究方向为大语言模型、强化学习、agent。 监督微调(SFT)和强化学习(RL)微调是大模型后训练常见的两种手段。 通过强化学习微调大模型在众多 NLP 场景都取得了较好的进展,但是在文本分类场景,强化学习未取得较大的进展,其表现往往不如监督学习。
9/22/2025 10:44:20 AM

突破后训练瓶颈?Meta超级智能实验室又一力作:CaT解决RL监督难题

在 AI 领域,大家通常采取后训练方式来让模型获取专项技能。 然而后训练一般依赖带有标注参考的监督微调,或通过可验证的程序化检查器提供奖励。 这就带来一些问题,目前许多有价值的任务可能同时缺乏这两种资源。
9/22/2025 10:41:42 AM

无需训练的世界模型?西湖大学WorldForge开启空间智能新路径,让AI读懂3D世界

近来,由AI生成的视频片段以前所未有的视觉冲击力席卷了整个互联网,视频生成模型创造出了许多令人惊叹的、几乎与现实无异的动态画面。 然而,生成内容的精准可控性仍是制约其应用推广的短板,例如,模型可以生成“海滩边的排球比赛”的动态场景,但创作者很难指挥镜头何时推拉、如何摇移、从哪儿起落。 为补齐“可控性”这块短板,业界通常会在特定数据上微调或重训现有的视频生成模型,但微调一个大模型所需的时间成本和算力成本高昂,甚至还可能会削弱模型内在的世界知识,损害模型的泛化能力与画面质感。
9/22/2025 9:16:00 AM

醒醒,LLM根本没有性格!加州理工华人揭开AI人格幻觉真相

AI真的有「性格」吗? 有人拿它做过大五人格测试,发现它回答得既友善,又不焦虑,甚至比人类更稳定。 于是有了各种趣味解读:有的模型像外向的ENFP,有的则更像严谨的ISTJ,好像AI也能被贴上MBTI标签。
9/22/2025 9:13:00 AM

马斯克新模型性价比拉满:1折价格实现Gemini 2.5性能,支持2M上下文

马斯克xAI又出手了! 这次闪亮登场的是Grok 4 Fast——不仅实现1折价格追平Gemini 2.5,还支持2M上下文窗口。 除此之外,这个全新的多模态推理模型还可与X实现无缝衔接。
9/22/2025 9:11:00 AM

马斯克Grok 4 Fast首发霸榜!2.5倍速秒杀GPT-5,成本暴降98%直追Gemini

Grok 4 Fast官宣上线,马斯克再次兑现了承诺! 它首次将推理/非推理「双模式」合一,支持200万上下文,直接刷爆性价比SOTA。 推理测试中,Grok 4 Fast直接碾压前代Grok 3 Mini,尤其是数学、编码性能大增。
9/22/2025 9:06:00 AM

马斯克转发字节Seed&哥大商学院新基准:大模型搞金融,连查个股价都能出错

让AI像金融分析师一样搜索和分析数据,到底有多难? 当前的大模型虽然能回答基础金融知识,在CFA考试中取得高分,但面对真实的金融场景,它们的表现究竟如何? 为了回答这个问题,字节跳动Seed团队联合哥伦比亚大学商学院推出了FinSearchComp,这是首个完全开源的金融搜索与推理基准测试。
9/22/2025 9:04:00 AM

阿里新开源提出建设性安全对齐方案,向“让用AI的人安全”新范式跃迁

正如牡蛎历经磨砺,在坚实的外壳内将沙砾孕育成一颗温润的珍珠。 AI也可以如此,不是一个只会紧紧封闭抵御风险的系统,而是一个有底线、有分寸、也有温度的伙伴。 阿里巴巴集团安全部联合清华大学、复旦大学、东南大学、新加坡南洋理工等高校,联合发布技术报告;其理念与最近OpenAI发布的GPT-5 System Card放在首位的“From Hard Refusals to Safe-Completions”理念不谋而合。
9/22/2025 8:50:00 AM

终结CMU霸权,清华首次登顶CSRankings世界第一!北大AI领域夺冠

就在刚刚,2025 CSRankings全球计算机科学排名再次更新! 清华大学首次摘得全球第一! 而在今年4月时,排名是这样的:这次更新最大看点是中国高校集体爆发:清华大学、上海交通大学、浙江大学、北京大学分列第1、3、4、5位,直接占据了TOP 5中的4个名额。
9/22/2025 8:47:00 AM

吴恩达发帖:编程Agent确实会作妖!奖励黑客模型、甚至直接删掉了整个项目代码;Agentic测试关注度飙升,自曝自己的测试心得

编辑  | 云昭出品 | 51CTO技术栈(微信号:blog51cto)“首先要承认,编程Agent确实会‘作妖’! ”今天一早,AI大佬吴恩达针对目前火热的编程Agent产品发表了自己的观点。 虽然这个赛道很热,但吴恩达丝毫没有掩饰自己内部团队的真实使用体验。
9/19/2025 7:30:14 PM
云昭

登顶多模态推理榜MMMU!UCSD新方法超越GPT-5、Gemini

近年来,大语言模型(LLM)在推理能力上的进展显著,其中过程奖励模型(Process Reward Model, PRM)的提出,使得模型能够在推理链条的中间步骤获得监督,从而更稳健地选择合理的解题路径。 这类方法在文本推理任务中已经取得了良好效果,但在扩展至多模态场景 时,仍然面临两个突出挑战:分布偏移:多模态输入空间巨大,训练与推理分布往往存在显著差异;数据质量不均:大规模训练集不可避免地包含噪声或低质量样本,降低了有效监督信号。 因此,如何在多模态推理中有效利用高质量样本,抑制噪声样本的负面影响,成为亟需解决的问题。
9/19/2025 2:53:34 PM

斯坦福李飞飞团队,带你一句话进入无限3D世界

斯坦福大学的李飞飞教授,又带着她的新成果来“砸场子”了。 只用一张图,甚至一句话,就能直接生成一个可以让你在里面“逛街”的3D世界。 不是图片,也不是视频,而是一个活生生的、可以自由探索、永久存在的3D虚拟空间。
9/19/2025 9:06:00 AM

理解帮助生成?RecA自监督训练让统一多模态模型直升SOTA

谢集,浙江大学竺可桢学院大四学生,于加州大学伯克利分校(BAIR)进行访问,研究方向为统一多模态理解生成大模型。 第二作者为加州大学伯克利分校的 Trevor Darrell,第三作者为华盛顿大学的 Luke Zettlemoyer,通讯作者是 XuDong Wang, Meta GenAl Research Scientist,博士毕业于加州大学伯克利分校(BAIR 实验室),这篇工作为他在博士期间完成。 背景:统一多模态理解与生成模型的挑战统一多模态模型(Unified Multimodal Models, UMMs)旨在将视觉理解和生成统一于单一模型架构。
9/19/2025 9:05:18 AM

AI芯片独角兽一年估值翻番!放话“三年超英伟达”,最新融资53亿超预期

谷歌TPU团队原班人马组建,英伟达挑战者、AI芯片初创企业Groq又获融资。 超出此前的6亿预期,此次融资高达7.5亿美元(约53亿人民币),Groq现估值69亿美元(约490亿人民币)。 一年的时间,估值就涨了一倍多。
9/18/2025 12:55:18 PM

找ChatGPT谈恋爱多是“日久生情”?!MIT&哈佛正经研究

终于有科学家对“AI伴侣”这事儿展开正经研究了! 以往这类消息多以趣闻轶事出现,be like:而现在,麻省理工和哈佛大学的研究人员通过分析Reddit子版块r/MyBoyfriendIsAI上的帖子,完整揭露了人们寻找“AI男友”的动机、具体相处过程等问题,并得出了一系列有趣发现:原来大部分人并非刻意寻找AI伴侣,而是“日久生情”;用户也会通过戒指和仪式与AI结婚;通用AI比专门的恋爱AI更受欢迎,很多人的“另一半”都是ChatGPT;最痛苦的莫过于模型突然更新;……下面详细来看——都在用AI伴侣干什么? 先说一下这个r/MyBoyfriendIsAI板块。
9/18/2025 12:48:59 PM