AI在线 AI在线

推理

UGMathBench动态基准测试数据集发布 可评估语言模型数学推理能力

近日,魔搭ModelScope社区宣布发布一项名为UGMathBench的动态基准测试数据集,旨在全面评估语言模型在本科数学广泛科目中的数学推理能力。 这一数据集的问世,填补了当前在本科数学领域评估语言模型推理能力的空白,并为研究者提供了更为丰富和具有挑战性的测试平台。 随着人工智能技术的飞速发展,自然语言模型在自动翻译、智能客服、医疗、金融等多个领域展现出巨大潜力。
5/10/2025 11:00:51 AM
AI在线

英伟达开源新一代OCR代码推理 AI 模型,超越 OpenAIo3-Mini表现

英伟达在技术界引起广泛关注,正式发布了其最新的 Open Code Reasoning(OCR)模型套装。 这一模型的推出,不仅展示了英伟达在人工智能领域的创新能力,也为开发者提供了强有力的工具,助力他们在代码推理和生成任务中取得更好的成绩。 ** 模型参数与架构:多样化选择 **英伟达的 OCR 模型套装共包含三种不同参数规模,分别为32B、14B 和7B。
5/9/2025 4:00:51 PM
AI在线

英伟达新开源模型 Llama-Nemotron 震撼发布,推理性能超越 DeepSeek-R1

近日,英伟达正式推出了其最新开源模型系列 ——Llama-Nemotron,该系列模型不仅在推能力上超越了 DeepSeek-R1,更是在内存效率和吞吐量上实现了显著提升。 根据最新发布的技术报告,Llama-Nemotron 的训练过程与众不同,采用了合成数据监督微调与强化学习的方法,以全方位提升模型的推理能力。 Llama-Nemotron 系列模型包括 LN-Nano8B、LN-Super49B 和 LN-Ultra253B。
5/7/2025 10:01:04 AM
AI在线

月之暗面 Kimi 长思考模型 API 正式发布

月之暗面科技有限公司宣布正式发布其最新的长思考模型API——kimi-thinking-preview。 这一模型具备多模态推理能力和通用推理能力,擅长深度推理,能够帮助用户解决复杂的代码问题、数学难题和工作中的挑战。 kimi-thinking-preview模型是目前最新的k系列思考模型,用户可以通过简单的API调用轻松使用。
5/6/2025 6:00:51 PM
AI在线

用多模态LLM超越YOLOv3!强化学习突破多模态感知极限|开源

超越YOLOv3、Faster-RCNN,首个在COCO2017 val set上突破30AP的纯多模态开源LLM来啦! 华中科技大学、北京邮电大学等多所高校研究团队共同推出的Perception-R1(PR1),在视觉推理中最基础的感知层面,探究rule-based RL能给模型感知pattern带来的增益。 PR1重点关注当下主流的纯视觉(计数,通用目标检测)以及视觉语言(grounding,OCR)任务,实验结果展现出在模型感知策略上的巨大潜力。
5/6/2025 8:40:00 AM
量子位

微软发布 Phi-4 系列小语言 AI 推理模型,AIME 2025 跑分超满血版 Deepseek R1

微软昨日(4 月 30 日)发布 Phi-4-reasoning 系列推理模型,通过监督微调 Phi-4,并利用 o3-mini 生成的高质量“可教导”提示数据集训练,专为复杂推理任务设计。
5/1/2025 3:07:20 PM
故渊

数学推理新标杆!DeepSeek-Prover-V2 实现数学证明的飞跃

在人工智能领域,最近一项重磅技术发布引发广泛关注 ——DeepSeek-Prover-V2。 这一模型不仅在推理性能上取得了显著提升,还被誉为通向人工通用智能(AGI)的关键一步。 DeepSeek-Prover-V2在推理能力和训练效率上都进行了革命性的创新,给数学推理研究带来了新的希望。
5/1/2025 10:00:51 AM
AI在线

中国开源大模型新成员:小米推理大模型首秀!

编辑 | 云昭进入2025以来,中国大模型的开源力量一骑绝尘,甚至盖过了Llama的势头。 今天,中国开源大模型,迎来新成员! 4月30日,赶在五一前,一条“为Reasoning而生”的Xiaomi Mimo开源模型的发布消息不胫而走,发布渠道是小米6天前新注册的公众号Xiaomi Mimo。
4/30/2025 4:48:07 PM
云昭

70亿参数干翻320亿?小米扔出“核弹级”AI MiMo 你的“破电脑”也能跑赢奥数题和复杂代码!

小米正式在Hugging Face平台发布其首个专为推理(Reasoning)设计的开源大模型——MiMo-7B。 据AIbase了解,MiMo-7B通过从预训练到后训练的强化学习(RL)优化,展现了在数学、代码和通用推理任务上的卓越性能,超越了多个32亿参数以上的基线模型。 社交平台上的热烈讨论凸显了其对AI社区的深远影响,相关细节已通过Hugging Face(huggingface.co/xiaomi/MiMo-7B)与小米官网(xiaomi.com)公开。
4/30/2025 2:00:40 PM
AI在线

小米首个推理大模型开源Xiaomi MiMo,70 亿参数

全球知名科技公司小米正式发布其首个针对推理(Reasoning)而生的大型开源模型 ——Xiaomi MiMo。 该模型旨在解决当前预训练模型在推理能力上的瓶颈,探索如何更有效地激发模型的推理潜能。 MiMo 的推出标志着小米在人工智能领域的一次重要尝试,尤其是在数学推理和代码竞赛方面,表现出色。
4/30/2025 2:00:40 PM
AI在线

小米首个推理大模型Xiaomi MiMo开源

2025年4月30日,小米公司宣布开源其首个为推理(Reasoning)而生的大模型「Xiaomi MiMo」。 这一模型的发布标志着小米在人工智能领域迈出了重要的一步,特别是在推理能力的提升上取得了显著进展。 「Xiaomi MiMo」的诞生旨在探索如何激发模型的推理潜能,特别是在预训练增长见瓶颈的情况下。
4/30/2025 10:00:55 AM
AI在线

ICLR 2025|首个动态视觉-文本稀疏化框架来了,计算开销直降50%-75%

本文由华东师范大学和小红书联合完成,共同第一作者是华东师范大学在读硕士、小红书 NLP 团队实习生黄文轩和翟子杰,通讯作者是小红书 NLP 团队负责人曹绍升,以及华东师范大学林绍辉研究员。 多模态大模型(MLLMs)在视觉理解与推理等领域取得了显著成就。 然而,随着解码(decoding)阶段不断生成新的 token,推理过程的计算复杂度和 GPU 显存占用逐渐增加,这导致了多模态大模型推理效率的降低。
4/30/2025 9:00:00 AM
机器之心

Grok 3.5测试版下周上线,专为SuperGrok用户打造,专注火箭发动机与电化学技术解答

xAI宣布Grok3.5测试版将于下周正式推出,首批仅对SuperGrok订阅用户开放。 据AIbase了解,该版本以其在火箭发动机和电化学等领域的精准技术解答能力引发热议,号称“全球首个人工智能能从第一性原理推理,生成网络上不存在的答案”。 社交平台上的讨论显示,Grok3.5的专项技术能力与开放性备受期待,相关细节已通过xAI官网(x.ai)与社交媒体逐步公开。
4/29/2025 4:00:40 PM
AI在线

阿里Qwen3深度解析:新一代开源大语言模型的革新与突破

Qwen3是什么?阿里Qwen3是通义千问系列的最新一代开源大语言模型(LLM),于2025年4月29日正式发布。 作为全球首个支持“混合推理”的模型,Qwen3包含8款不同规模的模型,涵盖稠密模型(如0.6B、4B、32B)和混合专家模型(MoE,如30B-A3B、235B-A22B),采用Apache2.0协议开源,支持免费商用。 其核心目标是提供高性能、低成本的AI解决方案,同时覆盖从边缘设备到企业级服务器的全场景需求。
4/29/2025 4:00:40 PM
AI在线

Ollama 支持全线的 Qwen 3 模型

Ollama官方宣布已全面支持阿里巴巴通义千问最新一代大语言模型系列——Qwen3。 这一重要更新进一步丰富了Ollama的开源模型生态,为开发者、企业及AI爱好者提供了更强大的本地化部署选择,显著提升了在多种场景下的AI应用灵活性与效率。   Qwen3模型:性能与规模并重Qwen3是阿里巴巴通义千问团队推出的最新一代大语言模型,涵盖从0.6亿到2350亿参数的广泛模型规模,包括高效的混合专家(MoE)模型。
4/29/2025 12:01:00 PM
AI在线

北京大学推出新基准评测PHYBench,挑战AI物理推理能力!

最近,北京大学物理学院联合多个院系,推出了一项名为 “PHYBench” 的全新评测基准,旨在检验大模型在物理推理上的真实能力。 该项目由朱华星老师和曹庆宏副院长主导,汇聚了来自物理学院和其他学科的200多名学生,其中不少人曾在全国中学生物理竞赛中获金牌。 PHYBench 设计了500道精心制作的高质量物理题,这些题目涵盖高中物理、大学物理及物理奥林匹克竞赛的各个层面。
4/29/2025 11:00:51 AM
AI在线

大幅提升 AI 推理速度:UCLA 与 Meta AI 联合推出 d1 框架

在人工智能领域,UCLA 和 Meta AI 的研究人员联合推出了一种名为 d1的新框架,该框架通过强化学习技术显著提升了扩散式大语言模型(dLLMs)的推理能力。 虽然传统的自回归模型如 GPT 受到了广泛关注,但 dLLMs 凭借其独特的优势,若能加强推理能力,将为企业带来新的效率和应用前景。 扩散式语言模型与自回归模型的生成方式截然不同。
4/29/2025 10:00:51 AM
AI在线

上交大等探索键值压缩的边界:MILLION开源框架定义模型量化推理新范式,入选顶会DAC 2025

本篇工作已被电子设计自动化领域顶级会议 DAC 2025 接收,由上海交大计算机学院蒋力教授与刘方鑫助理教授带领的 IMPACT 课题组完成,同时也获得了华为 2012 实验室和上海期智研究院的支持。 第一作者是博士生汪宗武与硕士生许鹏。 在通用人工智能的黎明时刻,大语言模型被越来越多地应用到复杂任务中,虽然展现出了巨大的潜力和价值,但对计算和存储资源也提出了前所未有的挑战。
4/29/2025 9:13:00 AM
机器之心