数学
AI解数学题只靠最后一个token
henry 发自 凹非寺. 量子位 | 公众号 QbitAI大语言模型在解心算题时,只依赖最后一个token? 最近,来自加州大学圣克鲁兹分校、乔治·梅森大学和Datadog的研究人员发现:在心算任务中,几乎所有实际的数学计算都集中在序列的最后一个token上完成,而不是分散在所有token中。
9/14/2025 1:37:10 PM
henry
北大南开数学家解决著名“十杯马天尼”问题:更统一、更优雅的证明
困扰数学和量子力学交叉领域长达半个世纪的难题,因为北大、南开数学家的参与,终于是有了较为完美的答案。 这个难题有个非常有趣的名字,叫做“十杯马天尼”(The Ten Martini Problem)。 之所以叫这个名字,是因为数学家马克·卡茨(Mark Kac)在1981年表示,谁能解决这个问题,就请对方喝十杯马天尼。
8/27/2025 4:47:59 PM
十三
诺贝尔物理学成果48年后终获数学证明!中科大少年班尹骏又出现了
诺奖得主都没找到的证明方法,现在被两位华人学者突破了。 凝聚态物理奠基人菲利普·安德森(Philip Warren Anderson)提出的Anderson模型,因解释了半导体材料中电子为何突然不再流动而闻名。 这一成果也助力他获得诺奖。
8/25/2025 8:51:00 AM
和图灵机相关的这个数字,已经大到整个宇宙原子都容不下了
闻乐 发自 凹非寺. 量子位 | 公众号 QbitAI衡量图灵机最大运行步数的海狸数(busy beaver number)纪录,被刷新了! 一位神秘人突破了第六个海狸数的新下限,而且数值大到超乎想象——.
8/24/2025 2:23:20 PM
闻乐
78年后,中国数学家刷新世界记录!陶哲轩伯乐的外星人难题新突破
1947年,陶哲轩的伯乐Erdős提出了组合数学中Ramsey数下界。 10岁的陶哲轩和Erdős最近,国内的马杰等三位研究人员联手带来了首次指数级改进。 他们公布了一篇arxiv新论文展示了这一领域的惊人进展:论文链接:、计算机科学家Gil Kalai表示改进令人惊叹!
8/11/2025 9:27:00 AM
内幕曝光:OpenAI模型坦承不会第六题,三人俩月拿下IMO金牌!
OpenAI的ChatGPT真能拿到国际奥数IMO金牌? 还是OpenAI的自嗨? 背后到底有何隐情?
8/11/2025 8:57:00 AM
清华陈麟九人天团,攻克几何朗兰兹猜想!30年千页证明,冲刺菲尔兹大奖?
耗时30年,近1000页论文,终于攻克了「几何朗兰兹猜想」! 朗兰兹纲领,又被称为「大一统理论」,困扰了数学家多半个世纪,至今仍是一个未解之谜。 如今,来自普朗克数学研究所Dennis Gaitsgory和耶鲁大学Sam Raskin领衔九人团队,在五篇论文中,完成了证明其中一个分支的壮举。
7/18/2025 10:15:36 AM
数学家跨界找到百年难题最优解,能给无线通信领域带来新思路
闻乐 发自 凹非寺. 量子位 | 公众号 QbitAI一位“门外汉”闲来无事学了几个月的新理论,居然找到了百年难题的最优解。 用的还是已经被淘汰的老方法。
7/9/2025 2:14:21 PM
闻乐
有道推出“子曰3”模型,轻松破解数学难题,助力教育公平!
6月23日,网易有道正式推出并开源其最新的 “子曰3” 系列大模型,英文名为 Confucius3-Math。 这一专注于数学教育的推理模型,能够在普通的消费级 GPU 上高效运行,成为国内首个如此低成本高性能的 AI 教育工具。 在一系列数学推理任务中,“子曰3” 展现出了超越许多大规模通用模型的出色性能。
6/23/2025 6:00:39 PM
AI在线
陶哲轩罕见长长长长长访谈:数学、AI和给年轻人的建议
陶哲轩罕见接受了一次长长长长访谈,把他关于数学、AI、教育和人类智慧的最新认知,都对外分享了。 作为菲尔兹奖得主,陶哲轩一直被认为是当世最伟大的数学家之一,而这次在与MIT技术背景的播客大神Lex Fridman的对话,也是他近年来首次接受超3小时的非学术机构访谈,内容覆盖数学前沿、AI形式化验证、科研方法论等多个硬核议题。 不仅谈论分享了数学和物理相关的专业性观点,还结合当下AI技术迅速发展的背景,作出了很多像基础教育和AI应用的大众话题思考……陶哲轩金句频出,比如:AI和菲尔兹奖的距离,只差一个研究生了。
6/23/2025 8:45:00 AM
大模型也需要自我反思,上海AI Lab合成“错题本”让大模型数学成绩提升13.3%
大模型学习不仅要正确知识,还需要一个“错题本”? 上海AI Lab提出了一种新的学习方式,构建了“错误-反思-修正”数据,让大模型仿照人类的学习模式,从错误中学习、反思。 结果,在Llama3-8B上,数学题的解题准确率平均提升了13.3%。
6/18/2025 9:03:07 AM
数学圈地震!o3靠直觉刷爆人类顶尖难题,14位专家集体破防
推理模型不会推理,一夜成为硅谷最热门的话题。 来自Epoch AI最新报告称,o3-mini-high不仅会推理,还能破解顶尖数学难题。 14位数学家组团,共同评估o3在29道FrontierMath推理能力。
6/10/2025 9:22:31 AM
AI七个月突破数学家“围剿”反超人类!14位数学家深挖原始推理token:不靠死记硬背靠直觉
从只能答对2%的题目,到在超难数学题集中刷下22%得分,甚至超过人类团队平均水平,大模型需要多长时间? 现在,令数学家们都惊讶的结果已经尘埃落定:7个月。 发生在大名鼎鼎的“专为为难大模型而生的”FrontierMath基准测试上的这一幕,在激起热议同时,也引发了新的思考:大模型们是怎么做到的?
6/10/2025 9:09:00 AM
思维链也会「跳帧」?浙大团队提出CoT-Bridge,显著提升数学推理性能
本文的共同第一作者是徐皓雷和颜聿辰。 徐皓雷是浙江大学的一年级硕士生,主要研究兴趣集中在大模型推理和可解释性研究;颜聿辰是浙江大学博士三年级研究生,主要研究兴趣集中在大模型推理和智能体。 本文通讯作者是浙江大学鲁伟明教授和沈永亮研究员。
6/4/2025 8:35:00 AM
AI数学能力暴涨100%,自进化直逼RL极限!CMU新作颠覆认知
通往AGI最大的绊脚石,便是互联网数据不够用了! DeepSeek-R1、OpenAI的o系推理模型出世,不再单纯依赖人类标注「标准答案」,而是通过RL实现破局。 但问题来了——当前,LLM依然需要人类设计「正确信号」来指导训练。
6/3/2025 8:51:00 AM
陶哲轩联手AI挑战经典ε-δ极限!加法秒杀、乘法翻车
数学大师陶哲轩的AI新实验来了! 这次是Lean 4自动化数学证明的第三支视频。 主要看看GitHub Copilot在处理分析学经典的「ε-δ」问题(描述函数极限的经典方法)时,效果究竟如何。
5/22/2025 9:08:40 AM
数学建模的AI助手MathModelAgent,给出题目就能完成分析到写论文全流程
一款名为MathModelAgent的AI助手在开源社区引发热议。 这款专为数学建模设计的智能工具,能够自动完成从问题分析、模型构建、代码编写到论文撰写的全流程,展现了AI在学术与技术领域的深远潜力。 MathModelAgent:数学建模的革命性助手MathModelAgent是一个多智能体协作系统,集成了多个专业模块,包括负责数学建模的“建模手”、代码编写与调试的“代码手”以及论文撰写的“论文手”。
5/19/2025 12:00:55 PM
AI在线
数学推理新标杆!DeepSeek-Prover-V2 实现数学证明的飞跃
在人工智能领域,最近一项重磅技术发布引发广泛关注 ——DeepSeek-Prover-V2。 这一模型不仅在推理性能上取得了显著提升,还被誉为通向人工通用智能(AGI)的关键一步。 DeepSeek-Prover-V2在推理能力和训练效率上都进行了革命性的创新,给数学推理研究带来了新的希望。
5/1/2025 10:00:51 AM
AI在线
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
谷歌
机器人
数据
大模型
Midjourney
开源
智能
Meta
用户
微软
GPT
学习
技术
图像
Gemini
智能体
马斯克
AI新词
AI创作
Anthropic
英伟达
论文
训练
代码
算法
LLM
Stable Diffusion
芯片
腾讯
蛋白质
苹果
Claude
开发者
AI for Science
Agent
生成式
神经网络
机器学习
3D
xAI
研究
生成
人形机器人
AI视频
百度
计算
工具
Sora
GPU
大语言模型
华为
RAG
AI设计
字节跳动
具身智能
搜索
大型语言模型
场景
深度学习
AGI
视频生成
预测
视觉
伟达
架构
Transformer
神器推荐
DeepMind
亚马逊
特斯拉
编程
MCP