AI在线 AI在线

AI

英伟达发布 Eagle 2.5 视觉语言 AI 模型:8B 参数媲美 GPT-4o

该模型专注于理解大规模视频和图像,尤其擅长处理高分辨率图像和长视频序列。尽管参数规模仅为 8B,Eagle 2.5 在 Video-MME 基准测试(512 帧输入)中得分高达 72.4%,接近甚至媲美 Qwen2.5-VL-72B 和 InternVL2.5-78B 等更大规模模型。
4/23/2025 2:20:25 PM
故渊

AI 革新医疗:谷歌 DeepMind 首席执行官预测,十年内帮助消灭所有疾病

接受 CBS《60 分钟》采访时,谷歌 DeepMind 联合创始人兼首席执行官戴密斯・哈萨比斯(Demis Hassabis)预测,人工智能(AI)将在未来十年内“革命化”人类健康,甚至可能帮助消灭所有疾病。
4/23/2025 2:03:01 PM
故渊

中杯o3成OpenAI“性价比之王”?ARC-AGI测试结果出炉:得分翻倍、成本仅1/20

得分比第二名翻倍,成本却仅为1/20? o3中杯在超难推理任务ARC-AGI上的新成绩,属实又给众人带来了亿点点震撼。 根据ARC Prize官方介绍,本轮测试得出的关键结论如下:o3 (Medium) 在ARC-AGI-1上得分为57%,成本为1.5美元/任务,优于目前所有已知COT推理模型;o4-mini(Medium)在ARC-AGI-1上得分为42%,成本为0.23美元/任务,准确率不足但成本优势明显;在难度升级的ARC-AGI-2上,两种型号模型的准确率均未超过3%。
4/23/2025 11:19:31 AM
量子位

RL 是推理神器?清华上交大最新研究指出:RL 让大模型更会“套公式”、却不会真推理

清华和上交的最新论文中,上演了一场“学术打假”的戏码。 文中研究者们对当前“纯 RL 有利于提升模型推理能力”的主流观点提出了相反的意见。 通过一系列实验,他们证明引入强化学习的模型在某些任务中的表现,竟然不如未使用强化学习的模型。
4/23/2025 11:11:00 AM
郑佳美||梁丙鉴

强化学习之于 AI Agent,是灵魂、还是包袱?

自主决策能力是 Agent 受到重视,并被称为 AI 时代“新基建”原因。 从这个角度看,Workflow 似乎做不出真正的通用 Agent。 而要谈真正具备决策能力和自我意识的 Agent,其实要从 AlphaGo 的问世说起。
4/23/2025 10:57:00 AM
郑佳美

Agent 要被吃进大模型了

今天凌晨,奥特曼突然发文宣布推出自家最新的 o 系列模型:满血版 o3 和 o4-mini,同时表示这两款模型都可以自由调用 ChatGPT 里的各种工具,包括但不限于图像生成、图像分析、文件解释、网络搜索、Python。 总的来说,就是比前一代的性能更强而且价格更低。 消息一出,马上就有网友晒出了两个模型的“小球测试”结果,并配文:“这确实是迄今为止看到的最好的测试结果了。
4/23/2025 10:50:00 AM
郑佳美

Llama 4 刷榜作弊引热议,20 万显卡集群就做出了个这?

昨天一早,Meta 了放出自家用了 20 万显卡集群训练出的 Llama 4 系列模型,其中包括 Llama 4 Scout、Llama 4 Maverick 和 Llama 4 Behemoth。 消息一出,直接引爆了大模型圈。 Meta 还特意强调,这些模型都经过了大量未标注的文本、图像和视频数据的训练,视觉理解能力已经到了 Next level,有种在大模型领域一骑绝尘的既视感。
4/23/2025 10:44:00 AM
郑佳美

清华&英伟达揭露ICML最佳论文隐藏数值问题,简单掩码模型是等价更好选择 | ICLR25

掩码离散扩散模型,可能并没有看上去那么厉害。 这是清华及英伟达研究人员最新提出的观点。 他们发现,作为离散扩散模型中性能最强的类别,掩码扩散模型可能有点“被包装过度”了。
4/23/2025 9:44:54 AM

“史上最快闪存技术”登Nature!复旦新成果突破闪存速度理论极限,每秒执行操作2500000000次

史上最快的闪存器件,复旦团队造! 其研发的皮秒闪存器件“破晓(PoX)”登上了Nature,擦写速度达到了亚纳秒级,比现有速度快1万倍。 并且数据不易丢失,按照实验外推结果,保存年限可达十年以上。
4/23/2025 9:41:27 AM

Transformer原作打脸DeepSeek观点?一句Wait就能引发反思,RL都不用

只要预训练,LLM就能涌现自我反思、自我纠正! Transformer首席作者Ashish Vaswani带队的新研究引来万人围观! 强化学习已证明能有效激发大语言模型的反思能力。
4/23/2025 9:36:23 AM
新智元

外媒:DeepSeek震撼世界 中国大学成为AI人才池

近年来,美国频繁渲染所谓的“中美争夺AI霸权”,尽管这一说法是否契合现实尚存争议,但不可否认的是,在美国的AI战略视野中,中国已被明确界定为核心竞争对手。 《巴伦周刊》报道称,当前美国在AI创新领域依然保持领先地位,不过中国正在快速缩小差距。 在学术研究、资本投入以及政策战略布局等关键层面,中国展现出强大的追赶态势:海量论文产出彰显科研活力,持续增长的投资为产业发展注入动力,而系统的政策支持更是为AI技术发展筑牢根基。
4/23/2025 9:34:46 AM

从Minecraft到虚幻5,AI首次实现3D游戏零样本迁移,跨游戏直接上手

该研究成果由北京大学和加州大学洛杉矶分校共同完成。 第一作者蔡少斐为北京大学三年级博士生,通讯作者为北京大学助理教授梁一韬。 该工作基于 MineStudio 开源项目,一个全流程简化版 Minecraft AI Agent 开发包,相关代码均已在 GitHub 上开源。
4/23/2025 9:28:58 AM
机器之心

生成式AI进入第二幕:交大携手创智学院提出「认知工程」,AI新纪元开始了

第二幕将催生一种全新的专业:认知工程师 (Cognitive Engineers)— 专注于将人类或 AI 在各领域的深度认知提炼、结构化并转化为 AI 可学习的形式。 无论你是技术创造者还是使用者,理解这场认知革命都至关重要。 我们正在从「AI as tools」向「AI as thinking partners」转变,这不仅改变了技术的能力边界,也改变了我们与技术协作的方式。
4/23/2025 9:23:15 AM
机器之心

AI也要007?Letta、伯克利提出「睡眠时间计算」,推理效率翻倍还不加钱

AI 也要 007 工作制了! 近日,AI 初创公司 Letta 和 UC 伯克利的研究人员提出了一种扩展人工智能能力的新方式 —— 睡眠时间计算(Sleep-time Compute),让模型在空闲时间「思考」,旨在提高大型语言模型(LLM)的推理效率,降低推理成本,同时保持或提升准确性。 睡眠时间计算的核心理念在于:智能体即使在「睡眠」(即用户未提出查询时的闲置状态)时段,也应持续运行,利用这些非交互期重组信息、提前完成推理。
4/23/2025 9:10:00 AM
机器之心

连Claude 3.5都败下阵来,大语言模型能否定位软件服务的故障根因?

论文的第一作者是香港中文大学(深圳)数据科学学院三年级博士生徐俊杰龙,指导老师为香港中文大学(深圳)数据科学学院的贺品嘉教授和微软主管研究员何世林博士。 贺品嘉老师团队的研究重点是软件工程、LLM for DevOps、大模型安全。 大型语言模型(LLM)近期在软件工程领域取得了显著进展,催生了 MetaGPT、SWE-agent、OpenDevin、Copilot 和 Cursor 等大量研究成果与实际应用,深刻影响着软件开发的方法论和实践。
4/23/2025 9:06:00 AM
机器之心

Character.AI 推出 AvatarFX 模型:AI 实现静转动,让图片角色开口说话

Character.AI 公司今天(4 月 23 日)在 X 平台发布推文,宣布推出 AvatarFX 模型,能够让静态图片中的人物“开口说话”。
4/23/2025 9:04:27 AM
故渊

3D高斯泼溅算法大漏洞:数据投毒让GPU显存暴涨70GB,甚至服务器宕机

随着3D Gaussian Splatting(3DGS)成为新一代高效三维建模技术,它的自适应特性却悄然埋下了安全隐患。 在本篇 ICLR 2025 Spotlight 论文中,研究者们提出首个专门针对3DGS的攻击方法——Poison-Splat,通过对输入图像加入扰动,即可显著拖慢训练速度、暴涨显存占用,甚至导致系统宕机。 这一攻击不仅隐蔽、可迁移,还在现实平台中具备可行性,揭示了当前主流3D重建系统中一个未被重视的安全盲区。
4/23/2025 8:50:00 AM
量子位

“Google一下” AI 化,头部网站点击率暴跌三分之一

2024年,Google大规模上线“AI 总结功能(AI Overviews)”——搜索结果页首条直接由AI生成的答案。 Google声称这能帮用户“更高效地获取信息”,甚至还说可能带动网站点击量提升。 但真实数据打脸来得很快——最新的Ahrefs分析显示:AI 总结功能让头部网站点击率暴跌34.5%。
4/23/2025 7:01:00 AM
文摘菌