AI在线 AI在线

数学

o1/Claude集体翻车!陶哲轩等60+顶尖数学家合力提出新数学基准,大模型正确率通通不足2%

让大模型集体吃瘪,数学题正确率通通不到2%! 获大神卡帕西力荐,大模型新数学基准来势汹汹——一出手,曾在国际数学奥赛中拿下83%解题率的o1模型就败下阵来,并且Claude 3.5 Sonnet、GPT-4o、Gemini 1.5 Pro等全都未攻破2%这一防线。 所以,新挑战者到底啥来头?
11/12/2024 9:14:52 AM
量子位

通义千问开源Qwen2-Math,成为最先进的数学专项模型

8月9日消息,阿里通义团队开源新一代数学模型Qwen2-Math,包含1.5B、7B、72B三个参数的基础模型和指令微调模型。Qwen2-Math基于通义千问开源大语言模型Qwen2研发,旗舰模型 Qwen2-Math-72B-Instruct在权威测评集MATH上的得分超越GPT-4o、Claude-3.5-Sonnet、Gemini-1.5-Pro、Llama-3.1-405B等,以84%的准确率处理了代数、几何、计数与概率、数论等多种数学问题,成为最先进的数学专项模型。注:在MATH基准测评中,通义千问数学模
8/9/2024 3:42:00 PM
新闻助手

Qwen2-Math 开源 AI 模型发布:阿里通义千问家族新成员,数学能力超 GPT-4o

感谢阿里通义千问 Qwen2 开源家族迎来新成员 Qwen2-Math,共有 15 亿参数、70 亿参数和 720 亿参数三个版本,是基于 Qwen2 LLM 构建、专门用于数学解题的语言模型。简介Qwen2-Math 是一系列基于 Qwen2 LLM 构建的专门用于数学解题的语言模型,其数学能力显著超越了开源模型,甚至超过了闭源模型(如 GPT-4o),官方希望为科学界解决需要复杂多步逻辑推理的高级数学问题做出贡献。性能团队在一系列数学基准评测上评估了我们的数学专用模型 Qwen2-Math。在 Math 上的评
8/9/2024 10:02:30 AM
故渊

声称“媲美人类专家”,谷歌 Gemini 1.5 Pro 数学版“提智”:MATH 基准准确率 91.1%

谷歌公司上周发布技术报告,表示 Gemini 1.5 Pro 模型在经过专门的数学领域训练之后,大幅提高了数学成绩,并成功解决了国际数学奥林匹克竞赛的部分问题。谷歌针对数学场景有针对性地训练 Gemini 1.5 Pro 模型,并通过 MATH 基准、美国数学邀请考试( AIME) 和谷歌内部的 HiddenMath 基准进行测试。根据谷歌的数据,数学型 Gemini 1.5 Pro 在数学基准测试中的表现“与人类专家的表现相当”,与标准的非数学型 Gemini 1.5 Pro 相比,数学型 Gemini 1.5
5/21/2024 9:03:42 AM
故渊

为什么人工智能可以给数学带来革命性变化

编辑 | 白菜叶「提出一个猜想——一个被怀疑为真的命题,但需要明确的证明——对数学家来说就像是神圣灵感的时刻。数学猜想不仅仅是有根据的猜测。制定它们需要天才、直觉和经验的结合。即使是数学家也很难解释自己的发现过程。然而,与直觉相反,我认为这是机器智能最初最具变革性的领域。」英国伦敦数学科学研究所所长 Thomas Fink 说。2017 年,伦敦数学科学研究所的研究人员开始将机器学习应用于数学数据,作为一种爱好。在 COVID-19 大流行期间,他们发现简单的人工智能(AI)分类器可以预测椭圆曲线的排名——衡量其复
5/15/2024 4:00:00 PM
ScienceAI

LLaMA-2-7B数学能力上限已达97.7%?Xwin-Math利用合成数据解锁潜力

合成数据持续解锁大模型的数学推理潜力!数学问题解决能力一直被视为衡量语言模型智能水平的重要指标。通常只有规模极大的模型或经过大量数学相关预训练的模型才能有机会在数学问题上表现出色。近日,一项由 Swin-Transformer 团队打造,来自西安交通大学、中国科学技术大学、清华大学和微软亚洲研究院的学者共同完成的研究工作 Xwin 颠覆了这一认知,揭示了通用预训练下 7B(即 70 亿参数)规模的语言模型(LLaMA-2-7B)在数学问题解决方面已经展现出较强的潜力,并可使用基于合成数据的有监督微调方法促使模型愈发
3/14/2024 2:47:00 PM
机器之心

搞 AI,孩子必须学好数学:马斯克 Altman 罕见达成一致,LeCun / Jeff Dean 等 31 位大佬签署联名信

【新智元导读】基础数学已经被拔高到研究 AI 的必经之路!UC 伯克利教授发起最新倡议,31 位 AI 大佬共同签署联名信,马斯克和 Altman 竟达成一致。就在刚刚,UC 伯克利 EECS 教授 Jelani Nelson 联合发起了一个倡议,强调「坚实的数学基础对人工智能至关重要」。地址:「虽然 Elon Musk 和 Sam Altman 最近在很多问题上都有分歧,但他们都认同,AI 的构建是以代数和微积分等坚实的数学基础为支撑的。」目前,已经有 31 位业内大佬在上面签署了自己的名字。要想搞好 AI,就必
3/7/2024 9:56:48 PM
清源

想搞AI,高中别学数据科学:奥特曼、马斯克此刻终于一致了

高中阶段学习数据科学能不能代替数学,这个话题的讨论已经延伸到了 AI 圈。为了 AI 的发展,再不加强基础教育就晚了。在大模型技术高速发展,各家公司激烈竞争的同时,有人站出来对于未来的人才表示了担忧,焦点在于数学。近日,加州大学(UC)系统对于入学新生设立数学基础标准的消息掀起了轩然大波。随着全国范围内数学成绩的下降,一些教育工作者认为,标准的代数密集型数学教育需要改革,既可以吸引更多的学生,也可以帮助他们在日益依赖数据的未来培养相关技能。有组织称,目前至少有 17 个州已把「数据科学」作为高中数学教育的可选项,俄
3/7/2024 3:07:00 PM
机器之心

2023阿里全球数学竞赛获奖名单出炉,诞生最年轻满分金奖,年仅17岁

五届阿里全球数学竞赛,走出了十余名新生代数学家。
9/18/2023 9:29:00 AM
新闻助手

千亿级、数学专用,MathGPT大模型开始公测了

好未来推出数学领域千亿级大模型 MathGPT ,做好 AI 时代数学基础工作。
8/24/2023 2:21:00 PM
机器之心

学而思研发面向全球数学爱好者大模型MathGPT

面向全球数学爱好者和科研机构,计划于年内推出据了解,学而思正在进行自研数学大模型的研发,命名为MathGPT,面向全球数学爱好者和科研机构,以数学领域的解题和讲题算法为核心,目前已经取得阶段性成果,并将于年内推出基于该自研大模型的产品级应用。据悉,学而思已将MathGPT作为公司核心项目,由CTO田密负责,今年春节前,该项目已经启动相应的团队建设、数据、算力准备和技术研发。此外,学而思已经启动在美国硅谷的团队建设,将成立一支海外算法和工程团队,在全球范围内招募优秀的人工智能专家加入。MathGPT与大语言模型(LL
5/5/2023 4:55:00 PM
新闻助手

网传张益唐宣称解决黎曼猜想相关朗道-西格尔零点猜想,论文11月将公布

张益唐曾表示:不要盲目崇拜权威,要敢于挑战传统。对那些别人说不可能做到的事,要勇于探索。如果真正热爱,就永不放弃。
10/16/2022 12:36:00 PM
机器之心

全职任教清华,73岁丘成桐受聘清华大学讲席教授

首位华人诺贝奖获得者杨振宁先生,首位华人图灵奖获得者姚期智先生,首位华人菲尔兹奖获得者丘成桐先生,现已齐聚清华。正值清华大学求真书院成立一周年之际,担任求真书院院长的丘成桐正式宣布,将全职加入清华工作。4 月 20 日上午,丘成桐清华大学讲席教授聘任仪式在清华主楼接待厅举行。图源:清华大学新闻网在就职演讲中,丘成桐追忆了自己的老师、著名数学家陈省身先生,并表示自己接受清华大学的聘请、回到陈先生的母校任教,正是因为肩负着传承先生薪火、为祖国培养拔尖数学人才的使命。我在不同的场合阐释过数学的本质:数学是唯一与时不变的真
4/21/2022 5:07:00 PM
机器之心

中国队喜提六枚金牌,实现IMO团队三连冠:王一川拿下全场唯一满分

在 IMO 2021 的赛场上,中国队又一次实现了「全员金牌」并喜提冠军,来自华师大二附中的选手王一川更是获得了全场唯一的满分成绩。
7/26/2021 4:03:00 PM
机器之心

508人决战,北大占绝对优势:我们围观了一下2021阿里全球数学竞赛决赛真题

5 大赛道的 25 道决赛试题已正式公布,你都能看懂吗?
6/29/2021 4:07:00 PM
机器之心

清华来了第二位菲尔兹奖得主,是丘成桐力荐的老朋友Caucher Birkar

丘成桐的老朋友 Caucher Birkar 即将到任,清华来了第二位菲尔茨奖得主。
6/17/2021 3:12:00 PM
机器之心

2021阿里全球数学竞赛预选赛试题出炉:5万人参赛,第一题只有2000多人选对了(附答案)

第一道单选题,只有2251位参赛者选出了正确答案「C」。
5/19/2021 12:05:00 PM
机器之心

初三就能上清华,丘成桐数学科学领军计划首批名单出炉,本月入校接受预科培养

不需要参加高考,第一批入围「丘成桐数学科学领军计划」的神仙选手们,这个月将直接入读清华大学。
4/7/2021 3:25:00 PM
机器之心