数学

陶哲轩罕见长长长长长访谈：数学、AI和给年轻人的建议

陶哲轩罕见接受了一次长长长长访谈，把他关于数学、AI、教育和人类智慧的最新认知，都对外分享了。作为菲尔兹奖得主，陶哲轩一直被认为是当世最伟大的数学家之一，而这次在与MIT技术背景的播客大神Lex Fridman的对话，也是他近年来首次接受超3小时的非学术机构访谈，内容覆盖数学前沿、AI形式化验证、科研方法论等多个硬核议题。不仅谈论分享了数学和物理相关的专业性观点，还结合当下AI技术迅速发展的背景，作出了很多像基础教育和AI应用的大众话题思考……陶哲轩金句频出，比如：AI和菲尔兹奖的距离，只差一个研究生了。

6/23/2025 8:45:00 AM

大模型也需要自我反思，上海AI Lab合成“错题本”让大模型数学成绩提升13.3%

大模型学习不仅要正确知识，还需要一个“错题本”？上海AI Lab提出了一种新的学习方式，构建了“错误-反思-修正”数据，让大模型仿照人类的学习模式，从错误中学习、反思。结果，在Llama3-8B上，数学题的解题准确率平均提升了13.3%。

6/18/2025 9:03:07 AM

数学圈地震！o3靠直觉刷爆人类顶尖难题，14位专家集体破防

推理模型不会推理，一夜成为硅谷最热门的话题。来自Epoch AI最新报告称，o3-mini-high不仅会推理，还能破解顶尖数学难题。 14位数学家组团，共同评估o3在29道FrontierMath推理能力。

6/10/2025 9:22:31 AM

AI七个月突破数学家“围剿”反超人类！14位数学家深挖原始推理token：不靠死记硬背靠直觉

从只能答对2%的题目，到在超难数学题集中刷下22%得分，甚至超过人类团队平均水平，大模型需要多长时间？现在，令数学家们都惊讶的结果已经尘埃落定：7个月。发生在大名鼎鼎的“专为为难大模型而生的”FrontierMath基准测试上的这一幕，在激起热议同时，也引发了新的思考：大模型们是怎么做到的？

6/10/2025 9:09:00 AM

思维链也会「跳帧」？浙大团队提出CoT-Bridge，显著提升数学推理性能

本文的共同第一作者是徐皓雷和颜聿辰。徐皓雷是浙江大学的一年级硕士生，主要研究兴趣集中在大模型推理和可解释性研究；颜聿辰是浙江大学博士三年级研究生，主要研究兴趣集中在大模型推理和智能体。本文通讯作者是浙江大学鲁伟明教授和沈永亮研究员。

6/4/2025 8:35:00 AM

AI数学能力暴涨100%，自进化直逼RL极限！CMU新作颠覆认知

通往AGI最大的绊脚石，便是互联网数据不够用了！ DeepSeek-R1、OpenAI的o系推理模型出世，不再单纯依赖人类标注「标准答案」，而是通过RL实现破局。但问题来了——当前，LLM依然需要人类设计「正确信号」来指导训练。

6/3/2025 8:51:00 AM

陶哲轩联手AI挑战经典ε-δ极限！加法秒杀、乘法翻车

数学大师陶哲轩的AI新实验来了！这次是Lean 4自动化数学证明的第三支视频。主要看看GitHub Copilot在处理分析学经典的「ε-δ」问题（描述函数极限的经典方法）时，效果究竟如何。

5/22/2025 9:08:40 AM

数学建模的AI助手MathModelAgent，给出题目就能完成分析到写论文全流程

一款名为MathModelAgent的AI助手在开源社区引发热议。这款专为数学建模设计的智能工具，能够自动完成从问题分析、模型构建、代码编写到论文撰写的全流程，展现了AI在学术与技术领域的深远潜力。 MathModelAgent:数学建模的革命性助手MathModelAgent是一个多智能体协作系统，集成了多个专业模块，包括负责数学建模的“建模手”、代码编写与调试的“代码手”以及论文撰写的“论文手”。

5/19/2025 12:00:55 PM

AI在线

数学推理新标杆！DeepSeek-Prover-V2 实现数学证明的飞跃

在人工智能领域，最近一项重磅技术发布引发广泛关注 ——DeepSeek-Prover-V2。这一模型不仅在推理性能上取得了显著提升，还被誉为通向人工通用智能（AGI）的关键一步。 DeepSeek-Prover-V2在推理能力和训练效率上都进行了革命性的创新，给数学推理研究带来了新的希望。

5/1/2025 10:00:51 AM

AI在线

数学大一统的惊人胜利！天才数学家用30年破解不可能，边看《星战》边写论文

一个与「数学大一统理论」相关的领域，一项长期以来被视作几乎不可能的数学证明，如今取得了突破。在历经30年的努力后，数学家们证明了这个数学构想——几何Langlands Program。著名数学家、Max Planck研究所的Peter Scholze（菲尔兹奖得主，他没有参与这项证明）兴奋地表示：看到它得到解决真是太好了。

4/8/2025 9:37:00 AM

新智元

大模型全军覆没，中科院自动化所推出多图数学推理新基准 | CVPR 2025

挑战多图数学推理新基准，大模型直接全军覆没？事情是这样的。近日，中国科学院自动化研究所推出多图数学推理全新基准MV-MATH（该工作已被CVPR 2025录用），这是一个精心策划的多图数学推理数据集，旨在全面评估MLLM（多模态大语言模型）在多视觉场景中的数学推理能力。

3/11/2025 1:49:20 PM

量子位

科大讯飞宣布完成星火深度推理大模型X1全面升级

科大讯飞宣布其深度推理模型 —— 星火 X1进行全新升级。本次升级旨在提升其在数学、医疗、教育等多个领域的应用能力，带来了一系列亮点和创新。星火 X1的数学能力得到了显著提升，尤其是在处理竞赛级难题方面的表现。

3/3/2025 3:03:00 PM

AI在线

斯坦福华人博士生打破58年僵局！牛顿提出的亲吻数问题有了新突破

牛顿想出的“球体亲吻数”（kissing number）难题，华人学者取得新进展。 n维空间中，给定一个n维球体，最多有几个相同的球体可以与它接触而不重叠？斯坦福博士生Anqi Li在微软实习期间完成这项研究，导师Henry Cohn本意是让她用计算机辅助，她却创造性地找到了数学上的新解法。

2/10/2025 8:52:00 AM

量子位

超越国际数学奥林匹克金牌得主：谷歌 DeepMind AI 系统展现超强几何解题能力

谷歌旗下人工智能研究实验室 DeepMind 开发的人工智能系统 AlphaGeometry2 在解决国际数学奥林匹克竞赛（IMO）几何问题方面取得了突破性进展，其表现甚至超过了平均金牌得主。

2/8/2025 7:36:10 AM

远洋

数学真理的极限在哪里？希尔伯特第十问题扩展版得到证明

数学世界充满了无法触及的角落，那里存在着许许多多无法解决的问题。现在，又一个角落被照亮了。 1900 年，著名数学家大卫・希尔伯特（David Hilbert）公布了一份清单，其中包含 23 个关键问题，并希望以此指导下个世纪的数学研究。

2/6/2025 9:50:00 AM

机器之心

让AI理解费马大定理的证明，两个月过去了，进展如何？

机器之心报道，编辑：Panda、杜伟。

12/28/2024 1:37:00 AM

机器之心

Exa CEO：我们处于AGI疯狂前夜，码农迎来“天堂”时代，最受冲击的是数学家

AGI前夜的思考Exa公司CEO Will Bryk，在目睹o3模型的进展后，分享了他对AGI未来的一些想法，以下是他社媒上的帖子整理：AGI真的来了这周我和几个朋友聊了聊o3模型，他们的反应基本都是“我的天，这真的发生了吗？ ”是的，它真的发生了。接下来的几年将会非常疯狂，这将是历史性的，甚至是星际级的事件荒谬的是，目前还没有关于AGI的深度讨论。

12/26/2024 5:00:00 PM

AI寒武纪

OpenAI o3震撼觉醒，AGI今夜降临？血洗o1，破解陶哲轩最难数学题

12天最后一天，OpenAI下一代推理模型o3真的出世了！奥特曼、Mark Chen、任泓宇和ARC Prize基金会主席Greg Kamradt为我们做了介绍正如所爆料那样，突如其来的o3成为整场直播的「压轴菜」。奥特曼表示，之所以跳过o2，是因为对伙伴的尊重，以及延续OpenAI一贯「起名特别差」的传统。

12/23/2024 7:40:00 AM

新智元

资讯热榜

免费！让图片放大不失真的位图转矢量图神器 Tmttool AI应用新纪元：2025中国AI应用排行榜榜单揭晓丨2025年1月 GGUF 是什么？一文看懂大模型里最火的模型格式 Sora、可灵、即梦哪家强？AI视频软件深度测评！免注册免费用！17种AI绘图模型一站式体验平台LMArena 可灵、即梦、海螺、Vidu哪家强？4大AI视频神器深度测评深度拆解！这可能是全网最详细的AI视频创作教程 LangChain V1.0 深度解析：手把手带你跑通全新智能体架构

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI绘画大模型机器人数据 AI新词 Midjourney 开源 Meta 微软智能用户 GPT 学习智能体技术 Gemini 马斯克英伟达 Anthropic 图像 AI创作训练 LLM 论文代码算法苹果 AI for Science Agent Claude 腾讯芯片 Stable Diffusion 蛋白质具身智能开发者 xAI 生成式神经网络机器学习人形机器人 3D AI视频 RAG 大语言模型 Sora 研究百度生成 GPU 工具华为字节跳动计算 AGI 大型语言模型 AI设计搜索生成式AI 视频生成 DeepMind AI模型特斯拉场景深度学习亚马逊架构 Transformer MCP Copilot 编程视觉