AI在线 AI在线

数学

AI七个月突破数学家“围剿”反超人类!14位数学家深挖原始推理token:不靠死记硬背靠直觉

从只能答对2%的题目,到在超难数学题集中刷下22%得分,甚至超过人类团队平均水平,大模型需要多长时间? 现在,令数学家们都惊讶的结果已经尘埃落定:7个月。 发生在大名鼎鼎的“专为为难大模型而生的”FrontierMath基准测试上的这一幕,在激起热议同时,也引发了新的思考:大模型们是怎么做到的?
6/10/2025 9:09:00 AM

思维链也会「跳帧」?浙大团队提出CoT-Bridge,显著提升数学推理性能

本文的共同第一作者是徐皓雷和颜聿辰。 徐皓雷是浙江大学的一年级硕士生,主要研究兴趣集中在大模型推理和可解释性研究;颜聿辰是浙江大学博士三年级研究生,主要研究兴趣集中在大模型推理和智能体。 本文通讯作者是浙江大学鲁伟明教授和沈永亮研究员。
6/4/2025 8:35:00 AM

AI数学能力暴涨100%,自进化直逼RL极限!CMU新作颠覆认知

通往AGI最大的绊脚石,便是互联网数据不够用了! DeepSeek-R1、OpenAI的o系推理模型出世,不再单纯依赖人类标注「标准答案」,而是通过RL实现破局。 但问题来了——当前,LLM依然需要人类设计「正确信号」来指导训练。
6/3/2025 8:51:00 AM

陶哲轩联手AI挑战经典ε-δ极限!加法秒杀、乘法翻车

数学大师陶哲轩的AI新实验来了! 这次是Lean 4自动化数学证明的第三支视频。 主要看看GitHub Copilot在处理分析学经典的「ε-δ」问题(描述函数极限的经典方法)时,效果究竟如何。
5/22/2025 9:08:40 AM

数学建模的AI助手MathModelAgent,给出题目就能完成分析到写论文全流程

一款名为MathModelAgent的AI助手在开源社区引发热议。 这款专为数学建模设计的智能工具,能够自动完成从问题分析、模型构建、代码编写到论文撰写的全流程,展现了AI在学术与技术领域的深远潜力。 MathModelAgent:数学建模的革命性助手MathModelAgent是一个多智能体协作系统,集成了多个专业模块,包括负责数学建模的“建模手”、代码编写与调试的“代码手”以及论文撰写的“论文手”。
5/19/2025 12:00:55 PM
AI在线

数学推理新标杆!DeepSeek-Prover-V2 实现数学证明的飞跃

在人工智能领域,最近一项重磅技术发布引发广泛关注 ——DeepSeek-Prover-V2。 这一模型不仅在推理性能上取得了显著提升,还被誉为通向人工通用智能(AGI)的关键一步。 DeepSeek-Prover-V2在推理能力和训练效率上都进行了革命性的创新,给数学推理研究带来了新的希望。
5/1/2025 10:00:51 AM
AI在线

数学大一统的惊人胜利!天才数学家用30年破解不可能,边看《星战》边写论文

一个与「数学大一统理论」相关的领域,一项长期以来被视作几乎不可能的数学证明,如今取得了突破。 在历经30年的努力后,数学家们证明了这个数学构想——几何Langlands Program。 著名数学家、Max Planck研究所的Peter Scholze(菲尔兹奖得主,他没有参与这项证明)兴奋地表示:看到它得到解决真是太好了。
4/8/2025 9:37:00 AM
新智元

大模型全军覆没,中科院自动化所推出多图数学推理新基准 | CVPR 2025

挑战多图数学推理新基准,大模型直接全军覆没? 事情是这样的。 近日,中国科学院自动化研究所推出多图数学推理全新基准MV-MATH(该工作已被CVPR 2025录用),这是一个精心策划的多图数学推理数据集,旨在全面评估MLLM(多模态大语言模型)在多视觉场景中的数学推理能力。
3/11/2025 1:49:20 PM
量子位

科大讯飞宣布完成星火深度推理大模型X1全面升级

科大讯飞宣布其深度推理模型 —— 星火 X1进行全新升级。 本次升级旨在提升其在数学、医疗、教育等多个领域的应用能力,带来了一系列亮点和创新。 星火 X1的数学能力得到了显著提升,尤其是在处理竞赛级难题方面的表现。
3/3/2025 3:03:00 PM
AI在线

斯坦福华人博士生打破58年僵局!牛顿提出的亲吻数问题有了新突破

牛顿想出的“球体亲吻数”(kissing number)难题,华人学者取得新进展。 n维空间中,给定一个n维球体,最多有几个相同的球体可以与它接触而不重叠? 斯坦福博士生Anqi Li在微软实习期间完成这项研究,导师Henry Cohn本意是让她用计算机辅助,她却创造性地找到了数学上的新解法。
2/10/2025 8:52:00 AM
量子位

超越国际数学奥林匹克金牌得主:谷歌 DeepMind AI 系统展现超强几何解题能力

谷歌旗下人工智能研究实验室 DeepMind 开发的人工智能系统 AlphaGeometry2 在解决国际数学奥林匹克竞赛(IMO)几何问题方面取得了突破性进展,其表现甚至超过了平均金牌得主。
2/8/2025 7:36:10 AM
远洋

数学真理的极限在哪里?希尔伯特第十问题扩展版得到证明

数学世界充满了无法触及的角落,那里存在着许许多多无法解决的问题。 现在,又一个角落被照亮了。 1900 年,著名数学家大卫・希尔伯特(David Hilbert)公布了一份清单,其中包含 23 个关键问题,并希望以此指导下个世纪的数学研究。
2/6/2025 9:50:00 AM
机器之心

让AI理解费马大定理的证明,两个月过去了,进展如何?

机器之心报道,编辑:Panda、杜伟。
12/28/2024 1:37:00 AM
机器之心

Exa CEO:我们处于AGI疯狂前夜,码农迎来“天堂”时代,最受冲击的是数学家

AGI前夜的思考Exa公司CEO Will Bryk,在目睹o3模型的进展后,分享了他对AGI未来的一些想法,以下是他社媒上的帖子整理:AGI真的来了这周我和几个朋友聊了聊o3模型,他们的反应基本都是“我的天,这真的发生了吗? ”是的,它真的发生了。 接下来的几年将会非常疯狂,这将是历史性的,甚至是星际级的事件荒谬的是,目前还没有关于AGI的深度讨论。
12/26/2024 5:00:00 PM
AI寒武纪

OpenAI o3震撼觉醒,AGI今夜降临?血洗o1,破解陶哲轩最难数学题

12天最后一天,OpenAI下一代推理模型o3真的出世了! 奥特曼、Mark Chen、任泓宇和ARC Prize基金会主席Greg Kamradt为我们做了介绍正如所爆料那样,突如其来的o3成为整场直播的「压轴菜」。 奥特曼表示,之所以跳过o2,是因为对伙伴的尊重,以及延续OpenAI一贯「起名特别差」的传统。
12/23/2024 7:40:00 AM
新智元

AI改变数学的一年!黎曼假说、朗兰兹猜想,盘点2024年数学里程碑

今年5月,由9位数学家组成的团队宣布取得重大突破——他们用总共800多页的论文,基于过去将近30年坚持不懈的努力,证明了几何朗兰兹猜想(Langlands conjecture)。 论文共同作者之一Lin Chen现任清华大学丘成桐数学科学中心助理教授几何朗兰兹猜想的证明解决了一个巨大的开放问题,而且有望影响未来数十年的研究,因为它可能建立深刻的、意想不到的联系。 更令人兴奋的是,这并不是2024年唯一的重大进展。
12/19/2024 10:30:00 AM
新智元

三名高中生重新证明百年数学定理!只用课余时间、方法非常创新

3名高中生,只用课余时间,重新证明了100年前的数学定理。 不只是圆,你可以在门格海绵(Menger Sponge)中找到任何一个数学结(knot)! 你可能对门格海绵还比较陌生,它是Karl Menger(卡尔·门格尔)在1926年创建的一个非常有趣的概念,对现代数学、图形学等领域都很重要。
12/2/2024 7:45:00 AM
量子位

陶哲轩新论文“太反直觉”:再战Erdős问题,证明44年数学猜想是错的

陶哲轩最新力作,在“自然数倒数之和是否为有理数”问题上取得一系列进展。 其中最引人瞩目的一项成果,就是证明了一个非常反直觉的猜想,居、然、是、对、的:存在一个递增的自然数级数ak,使得对任意有理数t,都是有理数。 ()一位Topos研究所的数学物理学家John Carlos Baez在评论区毫不掩饰自己的惊叹:哇哦,这个结论太反直觉了!
11/29/2024 1:25:00 PM
机器之心