模型

Groundlight 开源框架，搞定复杂的视觉推理

一直专注于让AI看懂世界的 Groundlight 研究团队，近日放大招，宣布开源了一套全新的 AI 框架!这套框架旨在攻克视觉领域的一大难题——复杂的视觉推理，让AI不仅能“看图识物”，更能像福尔摩斯一样，从图像中推理出更深层次的信息。我们都知道，现在的AI在识别猫猫狗狗方面已经炉火纯青，但要让它们理解图片背后的逻辑关系，进行更复杂的推理，就常常“卡壳”。 Groundlight 的研究人员指出，当前的视觉语言模型（VLM）在理解图像本身尚且不足的情况下，更难以完成需要深度解读的任务。

3/17/2025 3:00:00 PM AI在线

https://mp.weixin.qq.com/s/-lOj5naC2Yb3BD32YuUyOw

机构: 北京大学人工智能研究院北京通用人工智能研究院作者: 毛彦升徐宇飞李佳琪孟繁续杨昊桐郑子隆王希元张牧涵长文本任务是当下大模型研究的重点之一。在实际场景和应用中，普遍存在大量长序列（文本、语音、视频等），有些甚至长达百万级 tokens。扩充模型的长文本能力不仅意味着可以在上下文窗口中装入更长的文本，更是能够更好地建模文本段落间信息的长程依赖关系，增强对长文的阅读理解和推理。

3/17/2025 12:55:18 PM 机器之心

迁移DeepSeek-R1同款算法，小米让7B模型登顶音频理解推断MMAU榜单

7B小模型 3.8万条训练数据，就能让音频理解和推断评测基准MMAU榜单王座易主？受到DeepSeek-R1中强化学习算法的启发，小米大模型团队对阿里的Qwen2-Audio-7B模型进行了微调。结果模型在MMAU上的准确率从49.2%提升到了64.5%（涨幅31%），比以前霸榜的GPT-4o还高出近10个百分点。

3/17/2025 12:13:26 PM 量子位

AI要取代程序员？吴恩达：别信！现在学编程比以往任何时候都香

AI的爆发式发展，让很多学习编程的人或者在职的软件工程师都很迷茫焦虑，更有甚者，像Anthropic CEO Dario Amodei 前两天说：“未来 3 到 6 个月内，90% 的代码将由人工智能编写；12 个月内，几乎所有代码都可能由人工智能生成”，那么究竟将来还需不要学习编程，吴恩达老师给出了他的看法：学习编程依然非常重要以下是原文中文翻译，分享给大家吴恩达@AndrewYNg如今有些人正在劝退他人学习编程，理由是人工智能将使编程自动化。这种建议将来会被视为史上最糟糕的职业建议之一。我不同意那位图灵奖和诺贝尔奖得主所写的“编程这个职业很可能走向消亡 [...] 而不是变得无所不能。

3/17/2025 9:43:42 AM AI寒武纪

无需训练，100%完美检索！LLM练出「火眼金睛」，InfiniRetri超长文本一针见血

全新检索模式：在无限长token下，大语言模型自身或能检索信息！受大语言模型（LLM）上下文窗口大小的限制，处理输入token数超过上限的各种任务颇具挑战性，无论是简单的直接检索任务，还是复杂的多跳推理任务。尽管新提出的各种方法用来增强大语言模型的长上下文处理能力，但这些方法痛点突出：要么会产生高昂的训练后成本，要么需要额外的工具模块（如检索增强生成RAG），要么在实际任务中显示出改进，并不明显。

3/17/2025 9:40:00 AM 新智元

想纠正LMM犯错？没用！NUS华人团队：最强o1反馈修正率不到50%

大规模多模态模型（Large Multimodal Models，LMM）在人类反馈下的表现如何？这一问题对于利用LMM开发通用AI助手至关重要，现有的基准测试并未针对LMM与人类的交互智能进行测试。来自新加坡国立大学的华人团队提出了InterFeedback，一个可应用任何LMM和数据集的交互式框架。

3/17/2025 9:35:00 AM 新智元

纽约时报作家被AGI「洗脑」！AI横扫奥数金牌、编写95%代码，人类却毫无准备

一觉醒来，离AGI又近了一步。纽约时报专栏作家Kevin Roose，发帖表示自己被AGI「洗脑」了，现在对AGI深有感触。强人工智能即将到来，但人类尚未做好准备。

3/17/2025 9:32:32 AM 新智元

0行代码打造3D游戏，氛围编码席卷全网！开发30分爆赚28万

用「vide coding」制作3D游戏正在成为一股新风潮。从大V到普通网友，越来越多人加入到了这场狂欢之中。资深软件工程师Grégory D'Angelo上传了一段他vide coding出来的游戏视频。

3/17/2025 9:27:45 AM 新智元

谷歌重磅推出全新Scaling Law，抢救Transformer！3万亿美元AI面临岔路

测试时计算之后，谷歌三大团队集众人之力，发现了全新的Scaling Law！刚刚，谷歌研究员Zachary Charles宣布：「在越来越大的模型上，分布式训练取得重大突破」。这个核心算法，便是——DiLoCo的Scaling Law。

3/17/2025 9:25:00 AM 新智元

CVPR 2025：无需物理引擎，一个模型搞定图像渲染与分解

无需物理引擎，单个模型也能实现“渲染逆渲染”了！在计算机图形和视觉领域，渲染是指将3D模型变成逼真的2D图片，逆渲染则是从2D图片分析出3D模型的各种属性（如材质、光照等）。现在，从材质分解（逆渲染）——材质编辑——物体渲染的整个流程，都被统一到了一个框架中，且在性能方面达到了新SOTA。

3/17/2025 9:20:00 AM 量子位

ICLR 2025 Spotlight | 慕尼黑工业大学&北京大学：迈向无冲突训练的ConFIG方法

本文由慕尼黑工业大学与北京大学联合团队撰写。第一作者刘强为慕尼黑工业大学博士生。第二作者楚梦渝为北京大学助理教授，专注于物理增强的深度学习算法，以提升数值模拟的灵活性及模型的准确性和泛化性。

3/17/2025 9:15:00 AM 机器之心

Manus带火的MCP，让Claude一句话自动化3D建模，网友：真·AI+应用

一句话提示，Claude自动化打开Blender将2D图片转为3D建模。整个过程行云流水。而且还能只用一次提示词，再基于这个场景搭建可以互动的网页。

3/17/2025 8:55:00 AM 量子位

Nature：你的大脑衰老速度受这64个基因影响

你的大脑衰老速度，原来受这64个基因影响！事情是这样的。根据Nature最新报道，科学家们通过利用AI模型分析大量脑部扫描和遗传数据，确定了64个影响大脑衰老速度的基因，并指出了13种潜在的抗衰老药物。

3/17/2025 8:37:00 AM 量子位

谷歌Gemini突袭ChatGPT，全新升级让AI更懂你！Deep Research人人免费用

3/17/2025 8:30:00 AM 新智元

驯服AI，更懂物理！何恺明团队提出全新DHN「去噪哈密顿网络」

近日，何恺明团队提出了去噪哈密顿网络（Denoising Hamiltonian Network，DHN），就像给物理知识开了挂。传统的机器学习方法虽然能处理一些简单的物理关系，但面对复杂的物理系统时，却显得力不从心。来自MIT、斯坦福、西北大学等的研究者将哈密顿力学算子推广到神经网络中，不仅能捕捉非局部时间关系，还能通过去噪机制减轻数值积分误差。

3/17/2025 8:20:00 AM 新智元

哥大博士经费被砍当场崩溃！全美高校遭史上最大规模裁员，科研圈遭灭顶之灾

早上7点，哥大生物医学工程系的博士研究生Daniella Fodera接到实验室主任的电话，得知自己的项目基金被终止，当场崩溃痛哭。而她的遭遇，只是众多受特朗普政府决策打击的科学家的缩影。美国政府发起的削减拨款，如今已经在全美高校引起了大地震。

3/17/2025 8:10:00 AM 新智元

十个让DeepSeek变强大的指令模型

以下是10个AI指令万能公式及对比案例，涵盖不同场景下的应用技巧，帮助大家通过结构化指令提升AI输出质量：1. 角色定位法：明确AI的专家身份错误指令： "写一篇产品营销文案。 " （AI可能生成通用模板，缺乏针对性）正确公式：【角色】【任务】【场景】案例： "你是一位10年经验的数码产品营销专家，请为新品智能手表撰写一篇小红书文案，重点突出健康监测功能和商务场景适配性。

3/17/2025 12:22:00 AM 数师兄

全球首个化学反应AI「考场」，7种MLIPs模型与SOTA生成式模型同场PK

编辑 | ScienceAI过渡态（Transition State, TS）是化学反应的「关键帧」，就像群山中的最低隘口，决定了分子翻山越岭所需的能量和路径。然而，TS 的寿命仅有飞秒级（10⁻¹⁵ 秒），实验观测如同捕捉闪电一瞬——目前只能依赖量子化学计算来寻找。传统的密度泛函理论（DFT）虽能提供高精度结果，但单次 TS 搜索可能消耗数十至数千 CPU 时，面对成百上千反应节点的复杂网络，计算成本高得难以承受。

3/14/2025 3:22:00 PM ScienceAI

资讯热榜

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI新词 AI绘画大模型机器人数据 Midjourney 开源 Meta 微软智能用户 GPT 学习英伟达 Gemini 智能体技术马斯克 Anthropic 图像 AI创作训练 LLM 论文 AI for Science 代码腾讯苹果算法 Agent Claude 芯片具身智能 Stable Diffusion xAI 蛋白质人形机器人开发者生成式神经网络机器学习 AI视频 3D 字节跳动大语言模型 RAG Sora 百度研究 GPU 生成华为工具 AGI 计算生成式AI AI设计大型语言模型搜索亚马逊 AI模型视频生成特斯拉 DeepMind 场景 Copilot 深度学习 Transformer 架构 MCP 编程视觉