AI在线 AI在线

模型

全球首次,Transformer「混血」速度狂飙65倍!英伟达已下注

扩散方法打入语言模型领域! 最近,康奈尔博士生Subham Sahoo,在X介绍了扩散大语言模型的最新工作。 这项研究引发了AI研究领域的思考。
6/16/2025 9:13:00 AM

12年博士研究,AI两天爆肝完成!科研效率狂飙3000倍,惊动学术圈

多伦多大学、哈佛MIT等机构联手AI,短短2天内,竟干完了科学家12年的活! 研究一出,在全网掀起了巨震。 沃顿商学院CS教授Ethan Mollick大受震撼,「AI综述论文体量越来越大,而准确性超越了人类」。
6/16/2025 9:12:00 AM

破解三大数据库AI难题!北大&亚马逊推出全球首个图中心RDB基础模型

在企业系统和科学研究中普遍存在、结构复杂的关系型数据库(Relational DataBase, RDB)场景中,基础模型的探索仍处于早期阶段。 这是因为RDB中的多表交互和异质特征,使传统通用大模型在此类结构化环境下难以直接发挥效能。 基于此,北京大学张牧涵团队联合亚马逊云科技共同提出了Griffin:一个具有开创性的、以图为中心的RDB基础模型。
6/16/2025 9:10:00 AM

刚刚!陶哲轩3小时对话流出:AI抢攻菲尔兹奖倒计时

昨天,陶哲轩公开表示:在未来,AI有可能获得菲尔兹奖。 在时长3小时14分钟的节目中,他还讨论了数学和物理学中最难的问题:纳维–斯托克斯问题  万有理论  广义相对论  孪生素数猜想  费马大定理  考拉兹猜想  P=NP 问题一开始,陶哲轩就认为统一物理理论(比如量子力学与广义相对论)之所以难以进展,是因为还没有找到正确的数学语言。 而AI可能帮助人类实现「大统一理论」,至少也是发现过程中的一部分。
6/16/2025 9:07:00 AM

全球程序员炸锅!老黄伦敦放豪言:编程语言的未来是「Human」

你知道人类目前的编程语言到底有多少种? C、C 、C#、Java、Python、PHP、JavaScript、Go、Rust……但不论有多少种,这些都不重要了。 未来也许只会剩下唯一一种编程语言,AI将彻底改写人机交互的定义。
6/16/2025 9:03:00 AM

谢赛宁敲响学界警钟!AI研究可能陷入一场注定失败的有限游戏

凌晨三点的 AI 实验室,键盘敲击声在空荡的房间回响。 屏幕上,博士生小王、小李、小赵正疯狂调整模型参数,只为在 NeurIPS 截稿前将准确率从 98.2% 刷到 98.5%。 这样的场景,在如今的 AI 学术圈早已见怪不怪。
6/16/2025 8:53:00 AM

首个统一的图像与视频AIGC可解释性检测框架,多榜单SOTA性能

想象一下:你正在浏览社交媒体,看到一张震撼的图片或一段令人震撼的视频。 它栩栩如生,细节丰富,让你不禁信以为真。 但它究竟是真实记录,还是由顶尖 AI 精心炮制的「杰作」?
6/16/2025 8:51:00 AM

突破125年世纪难题!北大校友联手科大少年班才子破解希尔伯特第六问题

1900年,数学大师希尔伯特提出23个数学难题,其中第六个问题——“物理学的公理化”,被称为数学物理的终极挑战。 125年后,北大校友邓煜、中科大少年班马骁与陶哲轩高徒扎赫尔・哈尼终于在这一问题上取得重大突破。 在20世纪,关于第六问题,希尔伯特追问:能否像欧几里得几何一样,为物理学构建严格的数学基础?
6/16/2025 8:49:00 AM

苹果《思考的错觉》再挨批,Claude与人类共著论文指出其三大关键缺陷

几天前,苹果一篇《思考的错觉》论文吸睛无数又争议不断,其中研究了当今「推理模型」究竟真正能否「推理」的问题,而这里的结论是否定的。 论文中写到:「我们的研究表明,最先进的 LRM(例如 o3-mini、DeepSeek-R1、Claude-3.7-Sonnet-Thinking)仍然未能发展出可泛化的解决问题能力 —— 在不同环境中,当达到一定复杂度时,准确度最终会崩溃至零。 」不过,这篇论文的研究方法也受到了不少质疑,比如我们的一位读者就认为「给数学题题干加无关内容,发现大模型更容易答错,而质疑大模型不会推理」的做法并不十分合理。
6/16/2025 8:48:00 AM

LLM已能自我更新权重,自适应、知识整合能力大幅提升,AI醒了?

近段时间,关于 AI 自我演进/进化这一话题的研究和讨论开始变得愈渐密集。 本月初我们就曾梳理报道了一些,包括 Sakana AI 与不列颠哥伦比亚大学等机构合作的「达尔文-哥德尔机(DGM)」、CMU 的「自我奖励训练(SRT)」、上海交通大学等机构提出的多模态大模型的持续自我改进框架「MM-UPT」、香港中文大学联合 vivo 等机构的自改进框架「UI-Genie」。 那之后,相关研究依然还在不断涌现,以下拼图展示了一些例子:而前些天,OpenAI CEO、著名 𝕏 大 v 山姆・奥特曼在其博客《温和的奇点(The Gentle Singularity)》中更是畅想了一个 AI/智能机器人实现自我改进后的未来。
6/16/2025 8:46:00 AM

复旦大学/上海创智学院邱锡鹏:Context Scaling,通往AGI的下一幕

2024 年底,Ilya Sutskever 断言「我们所知的预训练时代即将终结」,让整个人工智能领域陷入对 Scaling What 的集体追问之中。 新的思路不断涌现:推理时扩展(Test-Time Scaling)让 OpenAI 的 o 系列在数学推理上大放异彩,DeepSeek-R1 通过 GRPO 替代 PPO 实现了强化学习的突破,强化学习 Self-play LLM 让 AI 在游戏和代码生成中展现惊人能力,Agent 化路径则催生了能够操作浏览器、调用工具的新一代智能助理…… 每一条路都在探寻可能的下一个跃迁。 在这场技术探讨中,复旦大学 / 上海创智学院的邱锡鹏教授提出了一个耐人寻味的新路径 ——Context Scaling。
6/16/2025 8:33:00 AM

AI自己给自己当网管,实现安全“顿悟时刻”,风险率直降9.6%

大型推理模型(LRMs)在解决复杂任务时展现出的强大能力令人惊叹,但其背后隐藏的安全风险不容忽视。 尽管学术界已尝试通过监督微调(SFT)有效地提升模型安全,但下图的测试结果所示,监督微调在面对训练数据领域外的层出不穷的“越狱”攻击时,往往显得捉襟见肘,泛化能力有限。 同时,之前的工作没有对大型推理模型的安全思考做深入的分析,以进行针对性的提升。
6/16/2025 8:25:00 AM

狂砸143亿,小扎挖来Meta自己的“奥特曼”?曝光神秘挖角名单:年薪千万刀,扎克伯格亲自发出“令人心动的 offer”!

最近,Meta抢人的料真是挺猛的。 先是重金砸向数据独角兽 Scale AI,投资高达 143 亿美元,直接把 CEO Alexandr Wang 挖来,挂帅“超级智能实验室”。 Alexandr就这么离开了自己的初创公司,他在 X 上写道: “你们可能已经从最近的新闻中了解到,像这样级别的机会,往往意味着必须做出牺牲。
6/16/2025 2:25:00 AM
伊风

AGI真方向?谷歌证明:智能体在自研世界模型,世界模型is all You Need

我们知道,大模型技术爆发的原点可能在谷歌一篇名为《Attention is All You Need》的论文上。 如今,在通用人工智能(AGI)初现曙光,Scaling Laws 却疑似接近极限的当口,又是谷歌对未来方向进行了一番思考,想来想去还是只有五个词:论文标题:General agents need world models论文链接: ICML 收录。 他们发现:如果一个 AI 智能体能够处理复杂的、长期的任务,那么它一定学习过一个内部世界模型——我们甚至可以通过观察智能体的行为来提取它。
6/13/2025 2:27:05 PM

程序员从此不再写代码!红杉专访Codex团队,o3白菜价真相曝光

未来的AI Coding会是什么样子? Copilot、Cursor、Windsurf还是Claude Code? 都不是!
6/13/2025 2:22:04 PM

视频扩散模型新突破!清华腾讯联合实现高保真3D生成,告别多视图依赖

三维场景是构建世界模型、具身智能等前沿科技的关键环节之一。 尽管Hunyuan3D、Rodin-v1.5、Tripo-v2.5等生成模型已在三维生成领域取得显著进展,但其往往聚焦在物体级别内容生成,难以实现复杂三维场景的构建。 清华大学联合腾讯提出Scene Splatter——从一张图像出发,基于自定义的相机轨迹探索三维场景。
6/13/2025 2:13:26 PM

80%到25%逆转!大模型代码能力最新排名:Anthropic不再是唯一的神?

OpenRouter网站提供了一个很有意思的模型使用排行榜,它按照不同使用场景(如编程、写作等)进行了分类。 有人整理了其中“编程”类别的数据,并按模型提供商进行了分组,从中可以看出一些有趣的市场趋势。 数据显示,从2024年12月到2025年2月期间,Anthropic公司的模型在编程场景下的流量占比曾高达约80%,表现得相当强势。
6/13/2025 9:12:00 AM

CVPR2025视频生成统一评估架构,上交x斯坦福联合提出让MLLM像人类一样打分

视频生成技术正以前所未有的速度革新着当前的视觉内容创作方式,从电影制作到广告设计,从虚拟现实到社交媒体,高质量且符合人类期望的视频生成模型正变得越来越重要。 那么,要如何评估AI生成的视频是否符合人类的审美和需求呢? Video-Bench视频评估框架,能够通过模拟人类的认知过程,建立起连接文本指令与视觉内容的智能评估体系。
6/13/2025 9:10:00 AM