数学推理
LLM能理解数学吗?最新研究揭露大模型数学推理的致命缺陷
你有没有想过,那些在聊天中侃侃而谈的AI大模型,遇到数学题时会是什么样子? 就像一个平时很会聊天的朋友,突然被问到复杂的数学问题时支支吾吾的样子。 最近有研究团队专门研究了这个问题,结果发现了一些让人意外的真相。
5/27/2025 1:27:00 AM
无影寺
深夜突袭,DeepSeek-Prover-V2加冕数学王者!671B数学推理逆天狂飙
就在刚刚,DeepSeek-Prover-V2正式发布。 此次DeepSeek-Prover-V2提供了两种模型尺寸:7B和671B参数。 DeepSeek-Prover-V2-671B:在DeepSeek-V3-Base基础上训练,推理性能最强。
5/1/2025 10:33:59 AM
新智元
360智脑团队成功复现Deepseek强化学习效果,发布开源模型Light-R1-14B-DS
近日,360智脑团队宣布成功复现Deepseek的强化学习效果,并正式发布开源推理模型 Light-R1-14B-DS。 该模型性能表现超越 DeepSeek-R1-Distill-Llama-70B和 DeepSeek-R1-Distill-Qwen-32B,成为业界首款在14B参数规模上实现强化学习效果的模型,显著提升了数学推理能力,成绩超过大多数32B级别模型。 与 DeepSeek-R1-14B 相比,Light-R1-14B-DS*在数学竞赛任务中表现突出:在 AIME24测试中提升4.3分,在 AIME25中更是提高10分。
3/14/2025 10:07:00 AM
AI在线
不蒸馏 R1 也能超越 DeepSeek,上海 AI Lab 用 RL 突破数学推理极限
从 Qwen2.5-32B-Base 模型出发,仅通过微调和基于结果反馈的强化学习,在不蒸馏超大模型如 DeepSeek-R1 的情况下,就能超越 DeepSeek-R1-Distill-Qwen32B 和 OpenAI-O1 系列的超强数学推理性能。
2/16/2025 12:14:22 PM
汪淼
- 1
资讯热榜
标签云
人工智能
AI
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
谷歌
机器人
数据
大模型
Midjourney
开源
智能
用户
Meta
微软
GPT
学习
技术
图像
Gemini
AI创作
马斯克
论文
智能体
Anthropic
英伟达
代码
算法
训练
Stable Diffusion
芯片
蛋白质
开发者
腾讯
生成式
LLM
苹果
Claude
神经网络
AI新词
3D
研究
机器学习
生成
AI for Science
Agent
xAI
计算
人形机器人
Sora
AI视频
GPU
AI设计
百度
华为
搜索
大语言模型
工具
场景
字节跳动
具身智能
RAG
大型语言模型
预测
深度学习
伟达
视觉
Transformer
AGI
视频生成
神器推荐
亚马逊
Copilot
DeepMind
架构
模态
应用