数学

OpenAI o3震撼觉醒，AGI今夜降临？血洗o1，破解陶哲轩最难数学题

OpenAI o3震撼觉醒，AGI今夜降临？血洗o1，破解陶哲轩最难数学题

12天最后一天，OpenAI下一代推理模型o3真的出世了！奥特曼、Mark Chen、任泓宇和ARC Prize基金会主席Greg Kamradt为我们做了介绍正如所爆料那样，突如其来的o3成为整场直播的「压轴菜」。奥特曼表示，之所以跳过o2，是因为对伙伴的尊重，以及延续OpenAI一贯「起名特别差」的传统。

12/23/2024 7:40:00 AM 新智元

AI改变数学的一年！黎曼假说、朗兰兹猜想，盘点2024年数学里程碑

AI改变数学的一年！黎曼假说、朗兰兹猜想，盘点2024年数学里程碑

今年5月，由9位数学家组成的团队宣布取得重大突破——他们用总共800多页的论文，基于过去将近30年坚持不懈的努力，证明了几何朗兰兹猜想（Langlands conjecture）。论文共同作者之一Lin Chen现任清华大学丘成桐数学科学中心助理教授几何朗兰兹猜想的证明解决了一个巨大的开放问题，而且有望影响未来数十年的研究，因为它可能建立深刻的、意想不到的联系。更令人兴奋的是，这并不是2024年唯一的重大进展。

12/19/2024 10:30:00 AM 新智元

三名高中生重新证明百年数学定理！只用课余时间、方法非常创新

三名高中生重新证明百年数学定理！只用课余时间、方法非常创新

3名高中生，只用课余时间，重新证明了100年前的数学定理。不只是圆，你可以在门格海绵（Menger Sponge）中找到任何一个数学结（knot）！你可能对门格海绵还比较陌生，它是Karl Menger（卡尔·门格尔）在1926年创建的一个非常有趣的概念，对现代数学、图形学等领域都很重要。

12/2/2024 7:45:00 AM 量子位

陶哲轩新论文“太反直觉”：再战Erdős问题，证明44年数学猜想是错的

陶哲轩新论文“太反直觉”：再战Erdős问题，证明44年数学猜想是错的

陶哲轩最新力作，在“自然数倒数之和是否为有理数”问题上取得一系列进展。其中最引人瞩目的一项成果，就是证明了一个非常反直觉的猜想，居、然、是、对、的：存在一个递增的自然数级数ak，使得对任意有理数t，都是有理数。（）一位Topos研究所的数学物理学家John Carlos Baez在评论区毫不掩饰自己的惊叹：哇哦，这个结论太反直觉了！

11/29/2024 1:25:00 PM 机器之心

o1/Claude集体翻车！陶哲轩等60+顶尖数学家合力提出新数学基准，大模型正确率通通不足2%

o1/Claude集体翻车！陶哲轩等60+顶尖数学家合力提出新数学基准，大模型正确率通通不足2%

让大模型集体吃瘪，数学题正确率通通不到2%！获大神卡帕西力荐，大模型新数学基准来势汹汹——一出手，曾在国际数学奥赛中拿下83%解题率的o1模型就败下阵来，并且Claude 3.5 Sonnet、GPT-4o、Gemini 1.5 Pro等全都未攻破2%这一防线。所以，新挑战者到底啥来头？

11/12/2024 9:14:52 AM 量子位

通义千问开源Qwen2-Math，成为最先进的数学专项模型

通义千问开源Qwen2-Math，成为最先进的数学专项模型

8月9日消息，阿里通义团队开源新一代数学模型Qwen2-Math，包含1.5B、7B、72B三个参数的基础模型和指令微调模型。Qwen2-Math基于通义千问开源大语言模型Qwen2研发，旗舰模型 Qwen2-Math-72B-Instruct在权威测评集MATH上的得分超越GPT-4o、Claude-3.5-Sonnet、Gemini-1.5-Pro、Llama-3.1-405B等，以84%的准确率处理了代数、几何、计数与概率、数论等多种数学问题，成为最先进的数学专项模型。注：在MATH基准测评中，通义千问数学模

8/9/2024 3:42:00 PM 新闻助手

Qwen2-Math 开源 AI 模型发布：阿里通义千问家族新成员，数学能力超 GPT-4o

Qwen2-Math 开源 AI 模型发布：阿里通义千问家族新成员，数学能力超 GPT-4o

感谢阿里通义千问 Qwen2 开源家族迎来新成员 Qwen2-Math，共有 15 亿参数、70 亿参数和 720 亿参数三个版本，是基于 Qwen2 LLM 构建、专门用于数学解题的语言模型。简介Qwen2-Math 是一系列基于 Qwen2 LLM 构建的专门用于数学解题的语言模型，其数学能力显著超越了开源模型，甚至超过了闭源模型（如 GPT-4o），官方希望为科学界解决需要复杂多步逻辑推理的高级数学问题做出贡献。性能团队在一系列数学基准评测上评估了我们的数学专用模型 Qwen2-Math。在 Math 上的评

8/9/2024 10:02:30 AM 故渊

声称“媲美人类专家”，谷歌 Gemini 1.5 Pro 数学版“提智”：MATH 基准准确率 91.1%

声称“媲美人类专家”，谷歌 Gemini 1.5 Pro 数学版“提智”：MATH 基准准确率 91.1%

谷歌公司上周发布技术报告，表示 Gemini 1.5 Pro 模型在经过专门的数学领域训练之后，大幅提高了数学成绩，并成功解决了国际数学奥林匹克竞赛的部分问题。谷歌针对数学场景有针对性地训练 Gemini 1.5 Pro 模型，并通过 MATH 基准、美国数学邀请考试（ AIME) 和谷歌内部的 HiddenMath 基准进行测试。根据谷歌的数据，数学型 Gemini 1.5 Pro 在数学基准测试中的表现“与人类专家的表现相当”，与标准的非数学型 Gemini 1.5 Pro 相比，数学型 Gemini 1.5

5/21/2024 9:03:42 AM 故渊

为什么人工智能可以给数学带来革命性变化

为什么人工智能可以给数学带来革命性变化

编辑 | 白菜叶「提出一个猜想——一个被怀疑为真的命题，但需要明确的证明——对数学家来说就像是神圣灵感的时刻。数学猜想不仅仅是有根据的猜测。制定它们需要天才、直觉和经验的结合。即使是数学家也很难解释自己的发现过程。然而，与直觉相反，我认为这是机器智能最初最具变革性的领域。」英国伦敦数学科学研究所所长 Thomas Fink 说。2017 年，伦敦数学科学研究所的研究人员开始将机器学习应用于数学数据，作为一种爱好。在 COVID-19 大流行期间，他们发现简单的人工智能（AI）分类器可以预测椭圆曲线的排名——衡量其复

5/15/2024 4:00:00 PM ScienceAI

LLaMA-2-7B数学能力上限已达97.7%？Xwin-Math利用合成数据解锁潜力

LLaMA-2-7B数学能力上限已达97.7%？Xwin-Math利用合成数据解锁潜力

合成数据持续解锁大模型的数学推理潜力！数学问题解决能力一直被视为衡量语言模型智能水平的重要指标。通常只有规模极大的模型或经过大量数学相关预训练的模型才能有机会在数学问题上表现出色。近日，一项由 Swin-Transformer 团队打造，来自西安交通大学、中国科学技术大学、清华大学和微软亚洲研究院的学者共同完成的研究工作 Xwin 颠覆了这一认知，揭示了通用预训练下 7B（即 70 亿参数）规模的语言模型（LLaMA-2-7B）在数学问题解决方面已经展现出较强的潜力，并可使用基于合成数据的有监督微调方法促使模型愈发

3/14/2024 2:47:00 PM 机器之心

搞 AI，孩子必须学好数学：马斯克 Altman 罕见达成一致，LeCun / Jeff Dean 等 31 位大佬签署联名信

搞 AI，孩子必须学好数学：马斯克 Altman 罕见达成一致，LeCun / Jeff Dean 等 31 位大佬签署联名信

【新智元导读】基础数学已经被拔高到研究 AI 的必经之路！UC 伯克利教授发起最新倡议，31 位 AI 大佬共同签署联名信，马斯克和 Altman 竟达成一致。就在刚刚，UC 伯克利 EECS 教授 Jelani Nelson 联合发起了一个倡议，强调「坚实的数学基础对人工智能至关重要」。地址：「虽然 Elon Musk 和 Sam Altman 最近在很多问题上都有分歧，但他们都认同，AI 的构建是以代数和微积分等坚实的数学基础为支撑的。」目前，已经有 31 位业内大佬在上面签署了自己的名字。要想搞好 AI，就必

3/7/2024 9:56:48 PM 清源

想搞AI，高中别学数据科学：奥特曼、马斯克此刻终于一致了

想搞AI，高中别学数据科学：奥特曼、马斯克此刻终于一致了

高中阶段学习数据科学能不能代替数学，这个话题的讨论已经延伸到了 AI 圈。为了 AI 的发展，再不加强基础教育就晚了。在大模型技术高速发展，各家公司激烈竞争的同时，有人站出来对于未来的人才表示了担忧，焦点在于数学。近日，加州大学（UC）系统对于入学新生设立数学基础标准的消息掀起了轩然大波。随着全国范围内数学成绩的下降，一些教育工作者认为，标准的代数密集型数学教育需要改革，既可以吸引更多的学生，也可以帮助他们在日益依赖数据的未来培养相关技能。有组织称，目前至少有 17 个州已把「数据科学」作为高中数学教育的可选项，俄

3/7/2024 3:07:00 PM 机器之心

2023阿里全球数学竞赛获奖名单出炉，诞生最年轻满分金奖，年仅17岁

2023阿里全球数学竞赛获奖名单出炉，诞生最年轻满分金奖，年仅17岁

五届阿里全球数学竞赛，走出了十余名新生代数学家。

9/18/2023 9:29:00 AM 新闻助手

千亿级、数学专用，MathGPT大模型开始公测了

千亿级、数学专用，MathGPT大模型开始公测了

好未来推出数学领域千亿级大模型 MathGPT ，做好 AI 时代数学基础工作。

8/24/2023 2:21:00 PM 机器之心

学而思研发面向全球数学爱好者大模型MathGPT

学而思研发面向全球数学爱好者大模型MathGPT

面向全球数学爱好者和科研机构，计划于年内推出据了解，学而思正在进行自研数学大模型的研发，命名为MathGPT，面向全球数学爱好者和科研机构，以数学领域的解题和讲题算法为核心，目前已经取得阶段性成果，并将于年内推出基于该自研大模型的产品级应用。据悉，学而思已将MathGPT作为公司核心项目，由CTO田密负责，今年春节前，该项目已经启动相应的团队建设、数据、算力准备和技术研发。此外，学而思已经启动在美国硅谷的团队建设，将成立一支海外算法和工程团队，在全球范围内招募优秀的人工智能专家加入。MathGPT与大语言模型（LL

5/5/2023 4:55:00 PM 新闻助手

网传张益唐宣称解决黎曼猜想相关朗道-西格尔零点猜想，论文11月将公布

网传张益唐宣称解决黎曼猜想相关朗道-西格尔零点猜想，论文11月将公布

张益唐曾表示：不要盲目崇拜权威，要敢于挑战传统。对那些别人说不可能做到的事，要勇于探索。如果真正热爱，就永不放弃。

10/16/2022 12:36:00 PM 机器之心

全职任教清华，73岁丘成桐受聘清华大学讲席教授

全职任教清华，73岁丘成桐受聘清华大学讲席教授

首位华人诺贝奖获得者杨振宁先生，首位华人图灵奖获得者姚期智先生，首位华人菲尔兹奖获得者丘成桐先生，现已齐聚清华。正值清华大学求真书院成立一周年之际，担任求真书院院长的丘成桐正式宣布，将全职加入清华工作。4 月 20 日上午，丘成桐清华大学讲席教授聘任仪式在清华主楼接待厅举行。图源：清华大学新闻网在就职演讲中，丘成桐追忆了自己的老师、著名数学家陈省身先生，并表示自己接受清华大学的聘请、回到陈先生的母校任教，正是因为肩负着传承先生薪火、为祖国培养拔尖数学人才的使命。我在不同的场合阐释过数学的本质：数学是唯一与时不变的真

4/21/2022 5:07:00 PM 机器之心

中国队喜提六枚金牌，实现IMO团队三连冠：王一川拿下全场唯一满分

中国队喜提六枚金牌，实现IMO团队三连冠：王一川拿下全场唯一满分

在 IMO 2021 的赛场上，中国队又一次实现了「全员金牌」并喜提冠军，来自华师大二附中的选手王一川更是获得了全场唯一的满分成绩。

7/26/2021 4:03:00 PM 机器之心

资讯热榜

免费！让图片放大不失真的位图转矢量图神器 Tmttool AI应用新纪元：2025中国AI应用排行榜榜单揭晓丨2025年1月 6秒视频10秒生成！全新AI视频神器 Grok Imagine 深度体验+元提示词分享最火、最全的Agent记忆综述，NUS、人大、复旦、北大等联合出品后悔没早发现！教你用谷歌Gemini生成精美PPT（附提示词） GGUF 是什么？一文看懂大模型里最火的模型格式 Sora、可灵、即梦哪家强？AI视频软件深度测评！ Mac也能跑Qwen3，一文看懂本地部署qwen 3配置要求

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI新词 AI绘画大模型机器人数据 Midjourney 开源 Meta 微软智能用户 GPT 学习英伟达 Gemini 智能体技术马斯克 Anthropic 图像 AI创作训练 LLM 论文 AI for Science 代码腾讯苹果算法 Agent Claude 芯片具身智能 Stable Diffusion xAI 蛋白质人形机器人开发者生成式神经网络机器学习 AI视频 3D 字节跳动大语言模型 RAG Sora 百度研究 GPU 生成华为工具 AGI 计算生成式AI AI设计大型语言模型搜索亚马逊 AI模型视频生成特斯拉 DeepMind 场景 Copilot 深度学习 Transformer 架构 MCP 编程视觉