AI在线 AI在线

数学

AI解数学题只靠最后一个token

henry 发自 凹非寺. 量子位 | 公众号 QbitAI大语言模型在解心算题时,只依赖最后一个token? 最近,来自加州大学圣克鲁兹分校、乔治·梅森大学和Datadog的研究人员发现:在心算任务中,几乎所有实际的数学计算都集中在序列的最后一个token上完成,而不是分散在所有token中。
9/14/2025 1:37:10 PM
henry

北大南开数学家解决著名“十杯马天尼”问题:更统一、更优雅的证明

困扰数学和量子力学交叉领域长达半个世纪的难题,因为北大、南开数学家的参与,终于是有了较为完美的答案。 这个难题有个非常有趣的名字,叫做“十杯马天尼”(The Ten Martini Problem)。 之所以叫这个名字,是因为数学家马克·卡茨(Mark Kac)在1981年表示,谁能解决这个问题,就请对方喝十杯马天尼。
8/27/2025 4:47:59 PM
十三

诺贝尔物理学成果48年后终获数学证明!中科大少年班尹骏又出现了

诺奖得主都没找到的证明方法,现在被两位华人学者突破了。 凝聚态物理奠基人菲利普·安德森(Philip Warren Anderson)提出的Anderson模型,因解释了半导体材料中电子为何突然不再流动而闻名。 这一成果也助力他获得诺奖。
8/25/2025 8:51:00 AM

和图灵机相关的这个数字,已经大到整个宇宙原子都容不下了

闻乐 发自 凹非寺. 量子位 | 公众号 QbitAI衡量图灵机最大运行步数的海狸数(busy beaver number)纪录,被刷新了! 一位神秘人突破了第六个海狸数的新下限,而且数值大到超乎想象——.
8/24/2025 2:23:20 PM
闻乐

78年后,中国数学家刷新世界记录!陶哲轩伯乐的外星人难题新突破

1947年,陶哲轩的伯乐Erdős提出了组合数学中Ramsey数下界。 10岁的陶哲轩和Erdős最近,国内的马杰等三位研究人员联手带来了首次指数级改进。 他们公布了一篇arxiv新论文展示了这一领域的惊人进展:论文链接:、计算机科学家Gil Kalai表示改进令人惊叹!
8/11/2025 9:27:00 AM

内幕曝光:OpenAI模型坦承不会第六题,三人俩月拿下IMO金牌!

OpenAI的ChatGPT真能拿到国际奥数IMO金牌? 还是OpenAI的自嗨? 背后到底有何隐情?
8/11/2025 8:57:00 AM

清华陈麟九人天团,攻克几何朗兰兹猜想!30年千页证明,冲刺菲尔兹大奖?

耗时30年,近1000页论文,终于攻克了「几何朗兰兹猜想」! 朗兰兹纲领,又被称为「大一统理论」,困扰了数学家多半个世纪,至今仍是一个未解之谜。 如今,来自普朗克数学研究所Dennis Gaitsgory和耶鲁大学Sam Raskin领衔九人团队,在五篇论文中,完成了证明其中一个分支的壮举。
7/18/2025 10:15:36 AM

数学家跨界找到百年难题最优解,能给无线通信领域带来新思路

闻乐 发自 凹非寺. 量子位 | 公众号 QbitAI一位“门外汉”闲来无事学了几个月的新理论,居然找到了百年难题的最优解。 用的还是已经被淘汰的老方法。
7/9/2025 2:14:21 PM
闻乐

有道推出“子曰3”模型,轻松破解数学难题,助力教育公平!

6月23日,网易有道正式推出并开源其最新的 “子曰3” 系列大模型,英文名为 Confucius3-Math。 这一专注于数学教育的推理模型,能够在普通的消费级 GPU 上高效运行,成为国内首个如此低成本高性能的 AI 教育工具。 在一系列数学推理任务中,“子曰3” 展现出了超越许多大规模通用模型的出色性能。
6/23/2025 6:00:39 PM
AI在线

陶哲轩罕见长长长长长访谈:数学、AI和给年轻人的建议

陶哲轩罕见接受了一次长长长长访谈,把他关于数学、AI、教育和人类智慧的最新认知,都对外分享了。 作为菲尔兹奖得主,陶哲轩一直被认为是当世最伟大的数学家之一,而这次在与MIT技术背景的播客大神Lex Fridman的对话,也是他近年来首次接受超3小时的非学术机构访谈,内容覆盖数学前沿、AI形式化验证、科研方法论等多个硬核议题。 不仅谈论分享了数学和物理相关的专业性观点,还结合当下AI技术迅速发展的背景,作出了很多像基础教育和AI应用的大众话题思考……陶哲轩金句频出,比如:AI和菲尔兹奖的距离,只差一个研究生了。
6/23/2025 8:45:00 AM

大模型也需要自我反思,上海AI Lab合成“错题本”让大模型数学成绩提升13.3%

大模型学习不仅要正确知识,还需要一个“错题本”? 上海AI Lab提出了一种新的学习方式,构建了“错误-反思-修正”数据,让大模型仿照人类的学习模式,从错误中学习、反思。 结果,在Llama3-8B上,数学题的解题准确率平均提升了13.3%。
6/18/2025 9:03:07 AM

数学圈地震!o3靠直觉刷爆人类顶尖难题,14位专家集体破防

推理模型不会推理,一夜成为硅谷最热门的话题。 来自Epoch AI最新报告称,o3-mini-high不仅会推理,还能破解顶尖数学难题。 14位数学家组团,共同评估o3在29道FrontierMath推理能力。
6/10/2025 9:22:31 AM

AI七个月突破数学家“围剿”反超人类!14位数学家深挖原始推理token:不靠死记硬背靠直觉

从只能答对2%的题目,到在超难数学题集中刷下22%得分,甚至超过人类团队平均水平,大模型需要多长时间? 现在,令数学家们都惊讶的结果已经尘埃落定:7个月。 发生在大名鼎鼎的“专为为难大模型而生的”FrontierMath基准测试上的这一幕,在激起热议同时,也引发了新的思考:大模型们是怎么做到的?
6/10/2025 9:09:00 AM

思维链也会「跳帧」?浙大团队提出CoT-Bridge,显著提升数学推理性能

本文的共同第一作者是徐皓雷和颜聿辰。 徐皓雷是浙江大学的一年级硕士生,主要研究兴趣集中在大模型推理和可解释性研究;颜聿辰是浙江大学博士三年级研究生,主要研究兴趣集中在大模型推理和智能体。 本文通讯作者是浙江大学鲁伟明教授和沈永亮研究员。
6/4/2025 8:35:00 AM

AI数学能力暴涨100%,自进化直逼RL极限!CMU新作颠覆认知

通往AGI最大的绊脚石,便是互联网数据不够用了! DeepSeek-R1、OpenAI的o系推理模型出世,不再单纯依赖人类标注「标准答案」,而是通过RL实现破局。 但问题来了——当前,LLM依然需要人类设计「正确信号」来指导训练。
6/3/2025 8:51:00 AM

陶哲轩联手AI挑战经典ε-δ极限!加法秒杀、乘法翻车

数学大师陶哲轩的AI新实验来了! 这次是Lean 4自动化数学证明的第三支视频。 主要看看GitHub Copilot在处理分析学经典的「ε-δ」问题(描述函数极限的经典方法)时,效果究竟如何。
5/22/2025 9:08:40 AM

数学建模的AI助手MathModelAgent,给出题目就能完成分析到写论文全流程

一款名为MathModelAgent的AI助手在开源社区引发热议。 这款专为数学建模设计的智能工具,能够自动完成从问题分析、模型构建、代码编写到论文撰写的全流程,展现了AI在学术与技术领域的深远潜力。 MathModelAgent:数学建模的革命性助手MathModelAgent是一个多智能体协作系统,集成了多个专业模块,包括负责数学建模的“建模手”、代码编写与调试的“代码手”以及论文撰写的“论文手”。
5/19/2025 12:00:55 PM
AI在线

数学推理新标杆!DeepSeek-Prover-V2 实现数学证明的飞跃

在人工智能领域,最近一项重磅技术发布引发广泛关注 ——DeepSeek-Prover-V2。 这一模型不仅在推理性能上取得了显著提升,还被誉为通向人工通用智能(AGI)的关键一步。 DeepSeek-Prover-V2在推理能力和训练效率上都进行了革命性的创新,给数学推理研究带来了新的希望。
5/1/2025 10:00:51 AM
AI在线