AI在线 AI在线

AI

大模型全军覆没,中科院自动化所推出多图数学推理新基准 | CVPR 2025

挑战多图数学推理新基准,大模型直接全军覆没? 事情是这样的。 近日,中国科学院自动化研究所推出多图数学推理全新基准MV-MATH(该工作已被CVPR 2025录用),这是一个精心策划的多图数学推理数据集,旨在全面评估MLLM(多模态大语言模型)在多视觉场景中的数学推理能力。
3/11/2025 1:49:20 PM
量子位

轻松拿捏高等数学,LLM平均得分90+!GPT-4o、Mistral几乎没错

朋友会离开你,兄弟会背叛你。 但数学不会,数学不会就是不会。 相信学不好高等数学的人,对上面这个梗深有感悟。
3/11/2025 1:42:19 PM
新智元

OpenAI最强模型惨遭剖脑,CoT写下作弊自白书!不写代码耍心机被当场抓包

就在刚刚,OpenAI博客放出了一项新的研究。 他们发现,前沿推理模型一旦有机会,就会试图钻漏洞! 这种行为,被称为奖励欺骗。
3/11/2025 1:39:08 PM
新智元

从鹦鹉学舌到灵魂对话,AI的人话革命

2030年,一位老人对家庭机器人说:“我想念年轻时在西湖划船的日子。 ”AI不仅能调出当年的老照片,还能结合实时天气与老人健康数据,规划一场安全舒适的怀旧之旅,并同步预约无人游船。 当机器对人类产生“主动关怀”,标志着AI从工具进化为“生活伴侣”。
3/11/2025 1:20:43 PM
佚名

使用DeepSeek的GRPO,7B模型只需强化学习就能拿下数独

没有任何冷启动数据,7B 参数模型能单纯通过强化学习学会玩数独吗? 近日,技术博主 Hrishbh Dalal 的实践表明,这个问题的答案是肯定的。 并且他在这个过程中用到了 DeepSeek 开发的 GRPO 算法,最终他「成功在一个小型数独数据集上实现了高奖励和解答」。
3/11/2025 1:07:58 PM
机器之心

降本增效:马斯克正尝试用 AI 取代美国公务员

大西洋月刊报道称,马斯克领导的政府效率部正在努力缩减和重组美国公务员队伍,这一努力已进入新阶段。其理念很简单:利用生成式人工智能来自动化以前由人完成的工作。
3/11/2025 11:21:57 AM
陈俊熹

腾讯混元-TurboS:首个混合Transformer-Mamba MoE超大模型来了

腾讯混元团队发布了他们最新的力作——Hunyuan-TurboS,首个混合Transformer-Mamba MoE架构的超大模型大家都知道,传统Transformer模型在处理长文本时一直面临挑战,O(N²)的复杂度以及KV-Cache问题让长文本训练和推理效率大打折扣。 而这次,混元-TurboS巧妙地融合了Mamba和Transformer两种架构的优势:• Mamba的高效长序列处理能力• Transformer强大的上下文理解能力强强联合,效果自然惊艳! 官方数据显示,Hunyuan-TurboS在多个关键benchmark上表现出色:• 数学、推理、对齐能力超越或持平 GPT-4o-0806、DeepSeek-V3 以及各类开源模型。
3/11/2025 9:42:00 AM
AI寒武纪

哥大本科生靠AI横扫硅谷大厂offer,学校震怒!预言码农两年内淘汰准备退学

硅谷大型科技公司FAANG的面试,对不少人来说都是一场噩梦。 结果,哥大的一位大二学生Roy Lee,居然利用AI,顺利斩获了亚马逊、Meta和TikTok的offer,获得了直通梦中情厂的实习机会! 这个消息一出,震惊了不少人。
3/11/2025 9:40:00 AM
新智元

面试官:AI 友好的整洁业务组件架构,到底解决了什么问题?

人工智能的发展速度已经快到让人难以跟上,但真正决定 AI 实用性的,已经不仅仅是最新的模型(如 GPT-5、Gemini 2 或 Claude 4),而是如何让 AI 连接真实世界,理解实时数据,并自主执行任务。 这就是 Anthropic 的 Model Context Protocol(MCP)横空出世的原因——它不仅仅是一个升级,而是一场 AI 交互的革命! 如果你还没听说过 MCP,那么接下来的内容会彻底改变你对 AI 的认知。
3/11/2025 9:19:53 AM
dev

LeCun最新访谈对DeepSeek一顿猛夸,还谈了AI发展需理解物理世界

LeCun最新访谈,对DeepSeek一顿猛夸。 他表示,DeepSeek是一项很出色的成果,它的开源不只是成果创造者受益,全世界都能从中受益。 不过LeCun也指出,金融市场对DeepSeek出现的反应,说什么“哦,现在我们可以更便宜地训练系统了,所以我们不再需要那么多计算机”,这种说法是错误的。
3/11/2025 9:15:00 AM
量子位

Manus被破解了?曝出系统提示词和背后大模型,CTO也回复了

最近几天,一个叫「Manus」的通用 AI Agent 产品刷屏网络。 它能完成复杂的文件处理、数据分析、代码编写等多种任务。 刚上线不久,大家纷纷在线求购邀请码,都想亲自上手一试这个突然火起来的智能体。
3/11/2025 8:42:04 AM
机器之心

人类学的 MCP 彻底颠覆 AI 交互!

人工智能的发展速度已经快到让人难以跟上,但真正决定 AI 实用性的,已经不仅仅是最新的模型(如 GPT-5、Gemini 2 或 Claude 4),而是如何让 AI 连接真实世界,理解实时数据,并自主执行任务。 这就是 Anthropic 的 Model Context Protocol(MCP)横空出世的原因——它不仅仅是一个升级,而是一场 AI 交互的革命! 如果你还没听说过 MCP,那么接下来的内容会彻底改变你对 AI 的认知。
3/11/2025 8:37:17 AM
dev

人加AI:重新定义协作智能时代的工作

人机协作中缺失的中间环节“有一种新兴的协作智能,是现在公司竞争和创新所需要的,”威尔逊在我们的对话中解释道,“这真的是关于深思熟虑且严谨地创造那种结合效应,即人类的聪明才智、人类的创新加上AI系统,能够超越任何一方单独所能做到的。 ”为了说明这一点,威尔逊分享了一个立陶宛研究人员的有趣故事,该研究人员巧妙地重新利用了AlphaFold(一个预测蛋白质结构的AI系统)来解决其创造者未曾设想的复杂蛋白质相互作用问题。 结果呢?这是人类创造力与AI处理能力相结合的科学突破。
3/11/2025 8:30:00 AM
Bernard Marr

2025年的智能体:改变业务、重新定义领导力并加速数字化转型

对于CIO和CTO而言,这些系统既带来了前所未有的机遇,也肩负着重大责任。 智能体正在重塑领导者制定战略、构建基础设施和组织文化的方式,要求他们采取果断行动和具备远见卓识。 智能体在数字化转型中的角色智能体被设计为模仿人类的能力,包括学习、推理和决策。
3/11/2025 8:00:00 AM
Mohit Gupta

低价Claude3.7极速使用,白票Deepseek满血R1

在当今数字化时代,人工智能技术正以前所未有的速度改变着我们的工作和生活方式。 无论你是开发者、创意工作者、还是企业管理者,拥有高效、经济的AI工具已成为提升效率的关键。 而今天,我要向大家隆重推荐的Token-AI平台,正是实现这一目标的完美解决方案。
3/11/2025 2:00:00 AM
tokengo

Spring AI这样玩才高级!注解式AI服务开发,这些技巧 GitHub 都找不到

AI Services是什么AI Services 的设计灵感来源于 Spring Data JPA 和 Retrofit 等框架,采用声明式接口定义所需的 API,然后由框架自动生成实现该接口的代理对象。 这种方法隐藏了与 LLM 交互的复杂性,提供了简单直观的 API。 AI Services 主要处理以下常见操作:格式化输入以发送给 LLM解析 LLM 的输出同时还支持更高级的功能:聊天记忆管理工具调用(Function Calling)检索增强生成(RAG)基本使用示例LangChain4j是 Java 生态系统中的一个流行框架,它提供了两种抽象级别:低级 API 和高级 API。
3/11/2025 1:23:11 AM
冷冷

一条神奇的指令,DeepSeek直接文生图

最近又发现一条神奇的提示词指令,借助Markdown的image标签可以直接在DeepSeek当前窗口得到我们想要的图片。 效果预览我们先看看这条指令的效果:图片这是岳哥在DeepSeek官网直接生成的一辆高铁行驶在海面上生成的图片,可以在DeepSeek上直接预览和下载图片。 提示词指令这条提示词指令具体如下:复制提示词解读这条这里分为3部分第一部分的描述性内容是告诉DeepSeek要生成AI图片,并且指出要如何生成第二部分的url则是具体的AI图片生成的指令,通过替换Prompt的内容来生成第三部分则是希望DeepSeek将AI绘画的提示词以中文的形式显示出来虽然是在DeepSeek当前窗口直接输出,但其实上这里还是借助了第三方AI绘画网站生成图片的功能。
3/11/2025 12:22:00 AM
、平凡世界

「古董」GPU也能跑DeepSeek同款GRPO!显存只需1/10,上下文爆涨10倍

开源微调神器Unsloth带着黑科技又来了:上次更新把GRPO需要的内存见到了7GB,这次只需要5GB的VRAM,就能训练自己的推理模型Qwen2.5(1.5B),比上次要少2GB。 这次彻底把推理模型训练显存打下来了! 这次把GRPO训练推理模型的上下文变长10倍,同时需要的显存少了90%。
3/10/2025 1:11:26 PM
新智元