AI在线 AI在线

理论

大模型“拼好题”,45K数据撬动18%提升,数学问题拒绝死记硬背 | MathFusion

当前数学领域的数据生成方法常常局限于对单个问题进行改写或变换,好比是让学生反复做同一道题的变种,却忽略了数学题目之间内在的关联性。 为了打破这种局限,让大模型学会“串联”与“并联”知识,上海AI Lab、人大高瓴等团队联合提出了MathFusion,通过指令融合增强大语言模型解决数学问题的能力。 仅使用45K的合成指令,MathFusion在多个基准测试中平均准确率提升了18.0个百分点,展现了卓越的数据效率和性能。
6/18/2025 8:51:00 AM

形式化证明迈向多模态,MLLM正确率仅4%!港科大等推出全新基准

近年来,自动定理证明(ATP)取得了显著进展,但大部分工作都集中在处理纯文本形式的定理。 然而,在现实世界中,尤其是在几何学领域,许多定理的呈现和理解都离不开图像、图表等视觉元素。 人类数学家善于从这些图表中获取直觉,并将其作为引导严谨证明过程的关键。
6/18/2025 8:49:00 AM

不用千亿参数也能合成高质量数据!这个开源框架让小模型“组团逆袭”,7B性能直追72B

无需蒸馏任何大规模语言模型,小模型也能自给自足、联合提升? 上海人工智能实验室联合中国人民大学提出的GRA框架(Generator–Reviewer–Adjudicator) 正是这样一种新范式:该方法以“多人协作”、“角色分工”的理念为核心,系统性探索了多开源小模型如何通过协同机制生成高质量训练数据。 实验结果显示,在涵盖数学、代码、逻辑推理、通识问答等10个主流数据集上,GRA生成的数据质量与单个大型语言模型(如Qwen-2.5-72B-Instruct)输出相当或更高,并在多数任务中取得了显著领先。
6/18/2025 8:47:00 AM

AI记忆革命:能否突破数据牢笼,媲美人脑的适应性?​

译者 | 朱先忠审校 | 重楼本文要讨论什么内容? Meta公司努力开发出的CoCoMix(Continuous Concept Mixing:连续概念混合,出自Jihoon等人2025年发表的论文,见【引文1】)框架实现了概念学习,即学习单词背后的概念而不是仅仅预测下一个标记,从而使其具有极强的可操控性和可解释性。 但是,依然存在一个核心问题:即使是概念上非常出色的模型,在训练之后的实际部署中,也可能难以应对细微差别或事实性的回忆挑战。
6/18/2025 8:26:01 AM
朱先忠

使用谷歌的最新应用程序,免费本地运行LLM

译者 | 布加迪审校 | 重楼谷歌的Edge Gallery刚刚让AI界迎来了巨大飞跃。 就在上周,谷歌悄然发布了AI Edge Gallery,这是一款普及AI的应用程序。 谷歌Edge AI可以直接在我们的智能手机上执行强大的语言模型,摆脱依赖云的局面,而且不收订阅费。
6/18/2025 8:12:14 AM
布加迪

亚马逊首席执行官:Agent化的未来对于亚马逊格外重要!谁能精通,谁就能在这家公司产生巨大的影响力;现在的工作方式必然改变

编辑 | 云昭出品 | 51CTO技术栈(微信号:blog51cto)当地时间本周二,亚马逊首席执行官 Andy Jassy 在给员工的一份备忘录中表示:Agent 化的未来,对亚马逊而言格外重要;接下来几个月,我们会进一步加码,让开发 Agent 变得更容易。 而同时,生成式 AI 和 Agent 的落地公司的工作方式必然发生改变。 “某些岗位会减少,新的岗位也会出现。
6/18/2025 7:13:37 AM
云昭

CIO如何为AI优化数据管理

一项成功的AI计划在很大程度上取决于底层数据的质量,IT领导者们正在提升他们的数据湖、数据仓库和数据湖仓策略,以提供坚实的基础。 优质数据对于任何IT计划的成功都至关重要,对于AI项目来说更是如此。 糟糕的数据总是会产生糟糕的结果,对于AI来说,风险尤其高,因为不良数据可能导致严重的财务损失、监管罚款和声誉损害。
6/18/2025 7:08:00 AM
Stan Gibson

AI智能体的三种"人格":为什么99%的人都用错了?

昨天和一位创业朋友聊天,他抱怨说:"花了几万块做的Agent客服,效果还不如人工。 用户稍微问点复杂的,就答非所问。 " 我问他:"你选对Agent类型了吗?
6/18/2025 3:30:00 AM
大数据AI智能圈

AM-Thinking-v1:解锁 32B 模型推理潜力的密码

大家好,我是肆〇柒。 本篇想和大家分享一个后训练的模型案例 ——AM-Thinking-v1 模型。 这个模型是由贝壳(Ke.com)公司旗下的 a-m-team 团队开发的,他们一直致力于探索 AGI 技术。
6/18/2025 2:30:00 AM
肆零柒

MiniMax Agent的能力,彻底震撼了我

我最近试用了一款叫MiniMax Agent的产品,说实话,体验完之后整个人都不好了。 图片你想想,以前我们做个网站,得先构思、找素材、写代码、调UI,光是找合适的图片就要花半天时间。 现在这玩意儿,你只要说一句话,它就能帮你搞定一切。
6/18/2025 2:01:00 AM
阿丸笔记

迈向人工智能的认识论:窥探黑匣子的新方法

鉴于上述困难,研究人员正在多个方面进行创新,以更好地理解和控制大型语言模型(LLM)的推理方式。 总体而言,两种互补的策略正在形成:机械分析和归因:分解模型的内部计算(电路、神经元、注意力头),将特定的决策或步骤归因于特定的组件。 行为评估和约束:设计评估指标和训练框架,区分真正的推理和表面模式,并鼓励模型在中间步骤中讲真话。
6/18/2025 2:00:00 AM
晓晓

腾讯位置服务导航SDK鸿蒙版再升级!​

腾讯位置服务近期发布了鸿蒙版本导航SDK,是基于腾讯全新的导航引擎构建的地图导航应用程序,深度适配HarmonyOS 5及以上系统版本。 开发者可以基于鸿蒙操作系统推荐的ASKTS开发语言调用导航SDK能力,构建鸿蒙版地图导航应用。 以下为本次发布重点能力介绍:1.鸿蒙版地图引擎地图能力全面升级了3D化引擎,深度适配了鸿蒙系统技术栈:升级后展示更加真实的3D地图效果,使地图场景呈现更加有深度和立体感升级后的渲染技术能够更高效地处理大量POI,并以更加清晰、美观的方式呈现在地图上图片2.驾车导航能力适配基于多源传感数据融合与AI算法迭代,鸿蒙版导航SDK全面升级重构了SDK定位与导航引擎能力。
6/17/2025 6:05:12 PM
鸿蒙开发者社区

iPhone上也能跑Qwen3了!阿里一口气开源32款MLX模型,适配苹果全家桶!千问打入苹果生态,国行版苹果智能即将落地?!

编辑 | 伊风出品 | 51CTO技术栈(微信号:blog51cto)“源神”千问,又一次闷声干大事! 今天刷 Reddit 才发现:昨晚,阿里千问一口气开源了 32 款,适配苹果 MLX 架构的 Qwen3 模型。 没错,32 款,就是这么量大实惠。
6/17/2025 5:54:25 PM
伊风

AI助燃数字创新 SUSE Summit 2025创新峰会隆重召开

2025年6月13日 全球开源解决方案领导者SUSE在北京隆重举办了SUSE Summit 2025创新峰会。 本次峰会以“AI开源智选 助燃数字创新”为主题,汇集了行业领袖、技术专家以及众多合作伙伴,深入探讨在生成式AI浪潮下,如何基于SUSE开源模式,利用各种新功能和新技术拨开重重迷雾,快速实现企业级AI创新。 SUSE大中华区总裁陈毅威在新质生产力不断涌现的时代背景下,SUSE中国战略稳步推进。
6/17/2025 5:41:47 PM

反转!AI 推理能力遭苹果质疑后,Claude 合著论文反击:不是不会推理,是输给 Token

近日,Apple 机器学习研究团队发布了一篇名为《思考的幻觉(The Illusion of Thinking)》的论文。 图片这篇 53 页的技术报告并非普通评测,而是一记质疑当下主流 LLM 推理能力的重锤。 研究者们指出,OpenAI 的“o”系列、Google 的 Gemini 2.5、以及 DeepSeek-R 等所谓“推理型大模型”,本质上并没有从训练数据中学习到可泛化的第一性原理。
6/17/2025 5:19:31 PM

LLM 翻车现场!ChatGPT 挑战 1979《Video Chess》惨败:连车马象都认错

一场 ChatGPT 对战 Atari 2600 的象棋对局火了。 具体而言,在一场看似轻松的“AI玩具对决”里,ChatGPT输给了Atari 2600 的象棋引擎,对手只是一台48年前、频率1.19 MHz的8位主机。 图片起初,这只是Robert Jr.
6/17/2025 5:16:51 PM

网页编程众测排名:DeepSeek-R1超越Claude 4加冕全球第一

编程王者Claude地位不稳了? ? 大模型竞技场最新战报出炉,DeepSeek新版R1拿下网页编程第一,小胜Claude Opus 4。
6/17/2025 5:14:01 PM

突破多智能体系统边界,开源方案OWL超越OpenAI Deep Research,获17k star

港大、camel-ai 等多家机构联合提出了一种名为新的名为 Workforce 的创新多智能体框架,以及配套的 OWL(Optimized Workforce Learning)训练方法,在通用 AI Assistant 的标杆基准测试 GAIA 上取得了 69.70% 的准确率,不仅刷新了开源系统的最佳纪录,更是超越了多家商业系统以及 OpenAI Deep Research 的开源方案。 该研究成果所有代码均已开源,目前已经在 github 上收获了 17k 的 star。 论文标题:OWL: Optimized Workforce Learning for General Multi-Agent Assistance in Real-World Task Automation论文地址:::多智能体系统的「领域壁垒」随着 LLM 的飞速发展,单一智能体在处理复杂现实任务时逐渐暴露出局限性。
6/17/2025 3:28:03 PM