AI在线 AI在线

AI

大模型“拼好题”,45K数据撬动18%提升,数学问题拒绝死记硬背 | MathFusion

大模型“拼好题”,45K数据撬动18%提升,数学问题拒绝死记硬背 | MathFusion

当前数学领域的数据生成方法常常局限于对单个问题进行改写或变换,好比是让学生反复做同一道题的变种,却忽略了数学题目之间内在的关联性。 为了打破这种局限,让大模型学会“串联”与“并联”知识,上海AI Lab、人大高瓴等团队联合提出了MathFusion,通过指令融合增强大语言模型解决数学问题的能力。 仅使用45K的合成指令,MathFusion在多个基准测试中平均准确率提升了18.0个百分点,展现了卓越的数据效率和性能。
6/18/2025 8:51:00 AM
形式化证明迈向多模态,MLLM正确率仅4%!港科大等推出全新基准

形式化证明迈向多模态,MLLM正确率仅4%!港科大等推出全新基准

近年来,自动定理证明(ATP)取得了显著进展,但大部分工作都集中在处理纯文本形式的定理。 然而,在现实世界中,尤其是在几何学领域,许多定理的呈现和理解都离不开图像、图表等视觉元素。 人类数学家善于从这些图表中获取直觉,并将其作为引导严谨证明过程的关键。
6/18/2025 8:49:00 AM
亚马逊首席执行官:Agent化的未来对于亚马逊格外重要!谁能精通,谁就能在这家公司产生巨大的影响力;现在的工作方式必然改变

亚马逊首席执行官:Agent化的未来对于亚马逊格外重要!谁能精通,谁就能在这家公司产生巨大的影响力;现在的工作方式必然改变

编辑 | 云昭出品 | 51CTO技术栈(微信号:blog51cto)当地时间本周二,亚马逊首席执行官 Andy Jassy 在给员工的一份备忘录中表示:Agent 化的未来,对亚马逊而言格外重要;接下来几个月,我们会进一步加码,让开发 Agent 变得更容易。 而同时,生成式 AI 和 Agent 的落地公司的工作方式必然发生改变。 “某些岗位会减少,新的岗位也会出现。
6/18/2025 7:13:37 AM 云昭
CIO如何为AI优化数据管理

CIO如何为AI优化数据管理

一项成功的AI计划在很大程度上取决于底层数据的质量,IT领导者们正在提升他们的数据湖、数据仓库和数据湖仓策略,以提供坚实的基础。 优质数据对于任何IT计划的成功都至关重要,对于AI项目来说更是如此。 糟糕的数据总是会产生糟糕的结果,对于AI来说,风险尤其高,因为不良数据可能导致严重的财务损失、监管罚款和声誉损害。
6/18/2025 7:08:00 AM Stan Gibson
谷歌推理最快、成本效益最高 AI 模型:Gemini 2.5 Flash-Lite 亮相,全面升级编码、翻译、推理

谷歌推理最快、成本效益最高 AI 模型:Gemini 2.5 Flash-Lite 亮相,全面升级编码、翻译、推理

Flash-Lite在编码、数学、科学推理及多模态任务中表现全面超越前代2.0 Flash-Lite,推理速度提升且延迟更低,适合实时翻译、分类等高吞吐量场景。
6/18/2025 6:42:28 AM 故渊
AI智能体的三种"人格":为什么99%的人都用错了?

AI智能体的三种"人格":为什么99%的人都用错了?

昨天和一位创业朋友聊天,他抱怨说:"花了几万块做的Agent客服,效果还不如人工。 用户稍微问点复杂的,就答非所问。 " 我问他:"你选对Agent类型了吗?
6/18/2025 3:30:00 AM 大数据AI智能圈
迈向人工智能的认识论:窥探黑匣子的新方法

迈向人工智能的认识论:窥探黑匣子的新方法

鉴于上述困难,研究人员正在多个方面进行创新,以更好地理解和控制大型语言模型(LLM)的推理方式。 总体而言,两种互补的策略正在形成:机械分析和归因:分解模型的内部计算(电路、神经元、注意力头),将特定的决策或步骤归因于特定的组件。 行为评估和约束:设计评估指标和训练框架,区分真正的推理和表面模式,并鼓励模型在中间步骤中讲真话。
6/18/2025 2:00:00 AM 晓晓
Adobe Firefly 上线移动平台应用:支持文生图 / 视频,可调用第三方 AI 模型

Adobe Firefly 上线移动平台应用:支持文生图 / 视频,可调用第三方 AI 模型

Adobe宣布Firefly生成式AI应用现已登陆iOS/安卓平台,支持文生图、文生视频及AI照片编辑,还能使用Photoshop的生成填充和智能扩展功能。用户需Creative Cloud账号登录,部分功能需订阅。同时,Firefly Boards公测版新增视频创作能力。#AdobeFirefly# #AI生成#
6/17/2025 9:59:42 PM 漾仔
OpenAI Secures $200 Million Defense Contract Expected to be Completed by July Next Year

OpenAI Secures $200 Million Defense Contract Expected to be Completed by July Next Year

Recently, OpenAI announced a major partnership with the U.S. Department of Defense, securing a $200 million contract for one year. The purpose of this contract is to develop advanced AI tools for the Department of Defense to help address a range of national security challenges.
6/17/2025 9:03:21 PM AI在线
Akamai Achieves 70% Cloud Cost Savings Using AI and Kubernetes Platform

Akamai Achieves 70% Cloud Cost Savings Using AI and Kubernetes Platform

In the current digital age, cloud computing costs remain high, and enterprises generally waste resources in the efficiency of computing resource utilization. According to the latest statistics, it is estimated that this year companies will waste up to $44.5 billion on unnecessary cloud expenses. Akamai Technologies, a major provider of cybersecurity and content delivery services, faces complex multi-cloud infrastructure and stringent security compliance requirements, thus needing to find effective solutions to optimize cloud costs.Image Source Note: Image generated by AI, image authorized service provider MidjourneyTo address this, Akamai introduced the Kubernetes automation platform Cast AI.
6/17/2025 9:03:21 PM AI在线
反转!AI 推理能力遭苹果质疑后,Claude 合著论文反击:不是不会推理,是输给 Token

反转!AI 推理能力遭苹果质疑后,Claude 合著论文反击:不是不会推理,是输给 Token

近日,Apple 机器学习研究团队发布了一篇名为《思考的幻觉(The Illusion of Thinking)》的论文。 图片这篇 53 页的技术报告并非普通评测,而是一记质疑当下主流 LLM 推理能力的重锤。 研究者们指出,OpenAI 的“o”系列、Google 的 Gemini 2.5、以及 DeepSeek-R 等所谓“推理型大模型”,本质上并没有从训练数据中学习到可泛化的第一性原理。
6/17/2025 5:19:31 PM
LLM 翻车现场!ChatGPT 挑战 1979《Video Chess》惨败:连车马象都认错

LLM 翻车现场!ChatGPT 挑战 1979《Video Chess》惨败:连车马象都认错

一场 ChatGPT 对战 Atari 2600 的象棋对局火了。 具体而言,在一场看似轻松的“AI玩具对决”里,ChatGPT输给了Atari 2600 的象棋引擎,对手只是一台48年前、频率1.19 MHz的8位主机。 图片起初,这只是Robert Jr.
6/17/2025 5:16:51 PM
突破多智能体系统边界,开源方案OWL超越OpenAI Deep Research,获17k star

突破多智能体系统边界,开源方案OWL超越OpenAI Deep Research,获17k star

港大、camel-ai 等多家机构联合提出了一种名为新的名为 Workforce 的创新多智能体框架,以及配套的 OWL(Optimized Workforce Learning)训练方法,在通用 AI Assistant 的标杆基准测试 GAIA 上取得了 69.70% 的准确率,不仅刷新了开源系统的最佳纪录,更是超越了多家商业系统以及 OpenAI Deep Research 的开源方案。 该研究成果所有代码均已开源,目前已经在 github 上收获了 17k 的 star。 论文标题:OWL: Optimized Workforce Learning for General Multi-Agent Assistance in Real-World Task Automation论文地址:::多智能体系统的「领域壁垒」随着 LLM 的飞速发展,单一智能体在处理复杂现实任务时逐渐暴露出局限性。
6/17/2025 3:28:03 PM
同一天开源新模型,一推理一编程,MiniMax和月之暗面开卷了

同一天开源新模型,一推理一编程,MiniMax和月之暗面开卷了

同一天,国内大模型厂商扎堆发起了新模型。 AI「六小龙」中的 MiniMax 和月之暗面各自公布了开源新成果。 其中,MiniMax 启动了「MiniMax Week」,并在第一天开源了其最新的长上下文推理 LLM——MiniMax-M1。
6/17/2025 3:24:48 PM
DeepSeek-R1编程问鼎,媲美Claude 4!2025 AI上半场战报来袭

DeepSeek-R1编程问鼎,媲美Claude 4!2025 AI上半场战报来袭

编程新王,又有一位玩家成功晋级。 刚刚,LMArena公布了最新WebDev Arena排行榜,DeepSeek-R1(0528)冲进第一。 新版DeepSeek-R1编程能力,现与Gemini 2.5 Pro、Claude Opus 4并驾齐驱。
6/17/2025 3:16:15 PM 新智元
Groq携手Hugging Face挑战云服务巨头,AI 推理速度上新台阶

Groq携手Hugging Face挑战云服务巨头,AI 推理速度上新台阶

近日,人工智能推理初创公司 Groq 宣布了两项重磅消息,意在挑战亚马逊云服务(AWS)和谷歌等传统云计算服务提供商。 Groq 现在支持阿里巴巴的 Qwen332B 语言模型,并提供其完整的131,000-token 上下文窗口能力,这一技术优势在当前快速推理提供商中无出其右。 同时,Groq 也成为了 Hugging Face 平台的官方推理提供商,这意味着其技术将接触到全球数百万开发者。
6/17/2025 1:02:09 PM AI在线
首席信息安全官为何需要理解AI技术栈——网络安全视角

首席信息安全官为何需要理解AI技术栈——网络安全视角

随着人工智能技术的普及,相关风险也在蔓延。 安全负责人正面临保护尚未完全理解的系统的挑战,这构成了重大隐患。 帕拉丁全球研究所最新报告《AI技术栈:技术与网络政策入门》系统剖析了AI系统的构建原理及主要安全风险分布。
6/17/2025 9:31:53 AM 憨憨鸭
本世纪最伟大AI专访之一:AI安全、Agent、OpenAI等重磅话题

本世纪最伟大AI专访之一:AI安全、Agent、OpenAI等重磅话题

昨晚,油管千万级大V The Diary Of A CEO放出了,与图灵奖、诺贝尔奖获得者,被誉为AI教父的Geoffrey Hinton最新深度专访。 二人以对话形式主要探讨了AI的发展、安全、应用;虽然AI存在一定的风险,但在帮助人类提升科研、工作、生活水平质量等方面是非常高效。 当然也会抢走一部分人的工作,从而创造一些全新的职位。
6/17/2025 9:26:09 AM