AI在线 AI在线

AI

中杯o3成OpenAI“性价比之王”?ARC-AGI测试结果出炉:得分翻倍、成本仅1/20

得分比第二名翻倍,成本却仅为1/20? o3中杯在超难推理任务ARC-AGI上的新成绩,属实又给众人带来了亿点点震撼。 根据ARC Prize官方介绍,本轮测试得出的关键结论如下:o3 (Medium) 在ARC-AGI-1上得分为57%,成本为1.5美元/任务,优于目前所有已知COT推理模型;o4-mini(Medium)在ARC-AGI-1上得分为42%,成本为0.23美元/任务,准确率不足但成本优势明显;在难度升级的ARC-AGI-2上,两种型号模型的准确率均未超过3%。
4/23/2025 11:19:31 AM
量子位

RL 是推理神器?清华上交大最新研究指出:RL 让大模型更会“套公式”、却不会真推理

清华和上交的最新论文中,上演了一场“学术打假”的戏码。 文中研究者们对当前“纯 RL 有利于提升模型推理能力”的主流观点提出了相反的意见。 通过一系列实验,他们证明引入强化学习的模型在某些任务中的表现,竟然不如未使用强化学习的模型。
4/23/2025 11:11:00 AM
郑佳美||梁丙鉴

强化学习之于 AI Agent,是灵魂、还是包袱?

自主决策能力是 Agent 受到重视,并被称为 AI 时代“新基建”原因。 从这个角度看,Workflow 似乎做不出真正的通用 Agent。 而要谈真正具备决策能力和自我意识的 Agent,其实要从 AlphaGo 的问世说起。
4/23/2025 10:57:00 AM
郑佳美

Agent 要被吃进大模型了

今天凌晨,奥特曼突然发文宣布推出自家最新的 o 系列模型:满血版 o3 和 o4-mini,同时表示这两款模型都可以自由调用 ChatGPT 里的各种工具,包括但不限于图像生成、图像分析、文件解释、网络搜索、Python。 总的来说,就是比前一代的性能更强而且价格更低。 消息一出,马上就有网友晒出了两个模型的“小球测试”结果,并配文:“这确实是迄今为止看到的最好的测试结果了。
4/23/2025 10:50:00 AM
郑佳美

Llama 4 刷榜作弊引热议,20 万显卡集群就做出了个这?

昨天一早,Meta 了放出自家用了 20 万显卡集群训练出的 Llama 4 系列模型,其中包括 Llama 4 Scout、Llama 4 Maverick 和 Llama 4 Behemoth。 消息一出,直接引爆了大模型圈。 Meta 还特意强调,这些模型都经过了大量未标注的文本、图像和视频数据的训练,视觉理解能力已经到了 Next level,有种在大模型领域一骑绝尘的既视感。
4/23/2025 10:44:00 AM
郑佳美

清华&英伟达揭露ICML最佳论文隐藏数值问题,简单掩码模型是等价更好选择 | ICLR25

掩码离散扩散模型,可能并没有看上去那么厉害。 这是清华及英伟达研究人员最新提出的观点。 他们发现,作为离散扩散模型中性能最强的类别,掩码扩散模型可能有点“被包装过度”了。
4/23/2025 9:44:54 AM

“史上最快闪存技术”登Nature!复旦新成果突破闪存速度理论极限,每秒执行操作2500000000次

史上最快的闪存器件,复旦团队造! 其研发的皮秒闪存器件“破晓(PoX)”登上了Nature,擦写速度达到了亚纳秒级,比现有速度快1万倍。 并且数据不易丢失,按照实验外推结果,保存年限可达十年以上。
4/23/2025 9:41:27 AM

AI也要007?Letta、伯克利提出「睡眠时间计算」,推理效率翻倍还不加钱

AI 也要 007 工作制了! 近日,AI 初创公司 Letta 和 UC 伯克利的研究人员提出了一种扩展人工智能能力的新方式 —— 睡眠时间计算(Sleep-time Compute),让模型在空闲时间「思考」,旨在提高大型语言模型(LLM)的推理效率,降低推理成本,同时保持或提升准确性。 睡眠时间计算的核心理念在于:智能体即使在「睡眠」(即用户未提出查询时的闲置状态)时段,也应持续运行,利用这些非交互期重组信息、提前完成推理。
4/23/2025 9:10:00 AM
机器之心

连Claude 3.5都败下阵来,大语言模型能否定位软件服务的故障根因?

论文的第一作者是香港中文大学(深圳)数据科学学院三年级博士生徐俊杰龙,指导老师为香港中文大学(深圳)数据科学学院的贺品嘉教授和微软主管研究员何世林博士。 贺品嘉老师团队的研究重点是软件工程、LLM for DevOps、大模型安全。 大型语言模型(LLM)近期在软件工程领域取得了显著进展,催生了 MetaGPT、SWE-agent、OpenDevin、Copilot 和 Cursor 等大量研究成果与实际应用,深刻影响着软件开发的方法论和实践。
4/23/2025 9:06:00 AM
机器之心

Character.AI 推出 AvatarFX 模型:AI 实现静转动,让图片角色开口说话

Character.AI 公司今天(4 月 23 日)在 X 平台发布推文,宣布推出 AvatarFX 模型,能够让静态图片中的人物“开口说话”。
4/23/2025 9:04:27 AM
故渊

3D高斯泼溅算法大漏洞:数据投毒让GPU显存暴涨70GB,甚至服务器宕机

随着3D Gaussian Splatting(3DGS)成为新一代高效三维建模技术,它的自适应特性却悄然埋下了安全隐患。 在本篇 ICLR 2025 Spotlight 论文中,研究者们提出首个专门针对3DGS的攻击方法——Poison-Splat,通过对输入图像加入扰动,即可显著拖慢训练速度、暴涨显存占用,甚至导致系统宕机。 这一攻击不仅隐蔽、可迁移,还在现实平台中具备可行性,揭示了当前主流3D重建系统中一个未被重视的安全盲区。
4/23/2025 8:50:00 AM
量子位

“Google一下” AI 化,头部网站点击率暴跌三分之一

2024年,Google大规模上线“AI 总结功能(AI Overviews)”——搜索结果页首条直接由AI生成的答案。 Google声称这能帮用户“更高效地获取信息”,甚至还说可能带动网站点击量提升。 但真实数据打脸来得很快——最新的Ahrefs分析显示:AI 总结功能让头部网站点击率暴跌34.5%。
4/23/2025 7:01:00 AM
文摘菌

苹果 Siri 团队大换血:AI 浪潮下,新负责人能否力挽狂澜?

彭博社今天(4 月 23 日)发布博文,报道称苹果新任 Siri 工程负责人 Mike Rockwell 正在对语音助手 Siri 的开发管理团队进行大刀阔斧的改革。
4/23/2025 6:37:21 AM
故渊

哥大退学生打造“AI作弊器”获3800万元融资,声称可以在各种场景中作弊

在当今数字化时代,人工智能技术正以前所未有的速度渗透到各个领域,从智能家居到自动驾驶,从医疗诊断到金融分析,AI 的应用场景不断拓展。 然而,技术的双刃剑特性也在某些领域引发了争议。 最近,两位哥伦比亚大学的退学生凭借一款“AI 作弊器”获得了大笔融资,再次引发广泛关注。
4/22/2025 5:25:50 PM

谷歌 Gemini 推出视频分析功能,能准确识别视频拍摄场所

近日,科技媒体 Android Authority 报道称,谷歌最新的 Gemini 聊天机器人引入了一项引人注目的新功能 —— 视频分析。 用户现在可以轻松上传视频并提问,Gemini 会基于视频内容进行智能分析,回答相关问题。 这一创新功能无疑为视频内容的处理带来了新的可能性,吸引了广大用户的关注。
4/22/2025 5:00:42 PM
AI在线

Claude竟藏着3307种「人格」?深扒70万次对话,这个AI会看人下菜碟

想象一下,如果能「偷听」70万次AI和人类的私密对话(别担心,是匿名的),会发现什么? AI仅仅是个概率机器,还是一个善于隐藏自己真实性格的——等会,AI真的有性格吗? 也许说性格不合适,现阶段的AI智能或许用「价值观」来形容最为合适。
4/22/2025 3:38:54 PM
新智元

初探谷歌 Gemini 视频解析功能,AI 准确识别视频拍摄场所

科技媒体 Android Authority 今天(4 月 22 日)发布博文,报道称谷歌 Gemini 聊天机器人被发现新增视频分析功能。用户可上传视频并提出相关问题,Gemini 能够基于视频内容进行精准分析。
4/22/2025 3:37:04 PM
故渊

「全球首个自回归视频生成大模型」,刚刚,Swin Transformer作者创业团队重磅开源!

视频生成领域,又出现一位重量级开源选手。 今天,马尔奖、清华特奖得主曹越的创业公司 Sand AI 推出了自己的视频生成大模型 ——MAGI-1。 这是一个通过自回归预测视频块序列来生成视频的世界模型,生成效果自然流畅,还有多个版本可以下载。
4/22/2025 3:34:08 PM
机器之心