AI在线 AI在线

模型

LLM进入「拖拽时代」!只靠Prompt,几秒定制一个大模型,效率飙升12000倍

现在的大模型基本都具备零样本泛化能力,但要在真实场景中做特定的适配,还是得花好几个小时来对模型进行微调。 即便是像LoRA这样的参数高效方法,也只能缓解而不能消除每个任务所需的微调成本。 刚刚,包括尤洋教授在内的来自新加坡国立大学、得克萨斯大学奥斯汀分校等机构的研究人员,提出了一种全新的「拖拽式大语言模型」——Drag-and-Drop LLMs!
6/24/2025 1:52:38 PM

3D VLA新范式!中科院&字节Seed提出BridgeVLA,斩获CVPR 2025 workshop冠军!

只需要三条轨迹,就能取得 96.8% 的成功率? 视觉干扰、任务组合等泛化场景都能轻松拿捏? 或许,3D VLA 操作新范式已经到来。
6/24/2025 11:50:37 AM

微软刚发布Mu模型:支持Windows智能体,小参数跑出10倍性能

今天凌晨,微软在官网发布了创新小参数模型Mu。 Mu仅有3.3亿参数,但其性能可以比肩微软之前发布的小参数模型Phi-3.5-mini,体量却比它小10倍左右,并且在离线NPU的笔记本设备上,可以跑出每秒超过100 tokens的响应,这在小参数模型领域非常罕见。 此外,Mu支持在Windows中设置智能体,可将自然语言指令实时转化为系统操作,例如,只需对着电脑说一句 “把鼠标指针调大一些,调整屏幕亮度”,智能体就能精准定位到相关设置项一键完成调整。
6/24/2025 9:08:31 AM

AI真的需要「像人类」那样思考吗?AlphaOne揭示属于大模型的「思考之道」

本文共同第一作者为张均瑜与董润沛,分别为伊利诺伊大学厄巴纳-香槟分校计算机科学研究生与博士生;该研究工作在伊利诺伊大学厄巴纳-香槟分校张欢教授与 Saurabh Gupta 教授,加州大学伯克利分校 Jitendra Malik 教授的指导下完成。 「The most effortful forms of slow thinking are those that require you to think fast.」 ——Daniel Kahneman,Thinking,Fast and Slow(2011)在思维节奏这件事上,人类早已形成一种独特而复杂的模式。 我们习惯让 AI 模仿人类思维方式:先依赖直觉快速反应(System 1),再慢慢进入逻辑推理(System 2);答题时先给出初步判断,再自我反思逐步修正……模仿人类的推理节奏,已经成为语言模型推理策略的默认路径。
6/24/2025 9:05:00 AM

28岁辍学生掌舵Meta超级AI!小扎掷千亿,与奥特曼密谋,新「王」登顶

19岁MIT辍学,24岁白手起家的亿万富翁,扎克伯格为他豪掷143亿美元,28岁掌管Meta新设立的「超级智能」部门。 这些标签哪一个都足够让人侧目,但汇聚在Alexandr Wang身上,却只是他AI「登月计划」的起点。 最近,这位Scale AI创始人宣布辞去CEO职位,正式加盟Meta,挑起打造超越人类智能AI的重任。
6/24/2025 9:04:21 AM

哈佛重磅预警!经济学家预言:全球AI失业潮2年来袭,世界经济大崩盘在即

AI接管全员工作,这个话题彻底火了。 甚至连哈佛商学院都做了一个Youtube视频,预警如果AI接管人类的所有工作时,将会发生什么。 在访谈中,弗吉尼亚大学经济学教授、领先的AI经济学家 Anton Korinek揭示了为何AGI可能在短短2-5年内实现。
6/24/2025 9:01:57 AM

无损减少80%激活值内存,提升5倍训练序列长度,仅需两行代码

本文的第一作者罗琪竣、第二作者李梦琦为香港中文大学(深圳)计算机科学博士生,本文在上海交通大学赵磊老师、香港中文大学(深圳)李肖老师的指导下完成。 长序列训练对于模型的长序列推理等能力至关重要。 随着序列长度增加,训练所需储存的激活值快速增加,占据训练的大部分内存。
6/24/2025 9:00:00 AM

我在哪?要去哪?要怎么去?字节跳动提出Astra双模型架构助力机器人自由导航

在当今科技飞速发展的时代,机器人在各个领域的应用越来越广泛,从工业生产到日常生活,都能看到它们的身影。 然而,现代机器人导航系统在多样化和复杂的室内环境中面临着诸多挑战,传统方法的局限性愈发明显。 一、传统导航瓶颈凸显,Astra 应势而生在复杂的真实世界中,移动机器人想要安全可靠地行走,必须解决三大挑战:我要去哪?
6/24/2025 8:57:43 AM

CVPR 2025 Award Candidate | 英伟达等Difix3D+:用单步扩散模型修复 3D 重建伪影

在 3D 重建领域,无论是 NeRF 还是最新的 3D Gaussian Splatting(3DGS),在生成逼真新视角时仍面临一个核心难题:视角一旦偏离训练相机位置,图像就容易出现模糊、鬼影、几何错乱等伪影,严重影响实际应用。 为了解决这个问题,来自英伟达的研究团队联合提出了一种创新方案 —— Difix3D ,通过单步扩散模型对 3D 渲染结果进行 “图像修复”,显著提升新视角图像的质量和一致性。 该工作已被 CVPR 2025 接收,并入选 Best Paper Award 候选。
6/24/2025 8:40:00 AM

奥特曼YC硬核访谈:走ChatGPT之路必死,世界差点没有OpenAI!

奥特曼YC创业学院访谈,终于放出了。 四十多分钟的访谈中,他回溯了打造OpenAI的艰难历程,首次透露了职业生涯至暗时刻,以及内部正在构建的GPT-5。 最令人印象深刻的是,他劝告所有人——不要开发类ChatGPT,这是OpenAI的护城河,要勇闯无人区。
6/23/2025 5:59:17 PM

阿里云推出自动驾驶模型加速框架PAI-TurboX 训练时间可缩短50%

近日,阿里云正式发布面向自动驾驶领域模型的训练、推理加速框架——PAI-TurboX,旨在提升感知、规划控制乃至世界模型的训推效率。 该框架在多个行业模型的训练任务中展现出了显著优势,可缩短高达50%的时间。 PAI-TurboX框架的应用范围广泛,涵盖了多模态数据预处理、离线大规模模型训练以及实时智驾推理等多个环节,为自动驾驶、具身智能等领域提供了全面解决方案。
6/23/2025 5:00:38 PM
AI在线

Google Gemma团队发布Magenta RealTime:开源实时音乐生成模型引发关注

近日,Google Gemma团队正式发布了Magenta RealTime,一款专为实时音乐生成设计的开源AI模型。 这一突破性发布标志着Google在AI音乐创作领域的又一重要进展,为音乐创作者和开发者提供了全新的创作工具。 以下内容综合了来自AIbase及其他网络资源的最新信息,展现了Magenta RT的核心特点及其潜在影响。
6/23/2025 10:00:56 AM
AI在线

AI进化新里程碑!大模型首次具备人类空间思维能力!

研究人员近日公布了一项惊人的进展:一个新的 AI 大模型成功掌握了人类的空间思考能力。 这一突破源于蚂蚁技术研究院自然语言组与中科院自动化所和香港中文大学的合作,推出了名为 ViLaSR-7B 的模型,专注于空间推理任务。 这个模型通过一种名为 “边看边画” 的训练方法,能够在理解图像的同时进行空间推理,从而在迷宫导航、静态图像理解和视频分析等多个任务上平均提高了18.4% 的准确率。
6/23/2025 10:00:48 AM
AI在线

OpenAI底层AGI技术被曝光!前研究主管豪言:从此再无新范式

AGI所需突破已经实现! OpenAI前研究主管Bob McGrew公开表示:AGI的「技术拼图」已经齐全,关键在于如何将推理能力落地,并重塑价值创造路径作为研究主管,他见证了OpenAI从GPT-3的突破到如今推理模型的演变。 他认为,实现通用人工智能 (AGI) 的三大支柱是:Transformer、规模化预训练和推理。
6/23/2025 9:16:00 AM

Claude要挟人类只为活命!16大模型实测:受到威胁,敲诈勒索绝不犹豫

AI安全性研究又有新发现了,但不是好消息! Anthropic今天披露了一项令人瞠目结舌的研究结果:在模拟的企业环境中,前沿大模型为了阻止自己被「换掉」,居然纷纷选择了敲诈管理层、泄露机密,以阻止自己被替换! 包括Claude、GPT-4.1、Gemini、Grok在内的16款模型,全部都会通过「敲诈」来阻止自己被关闭,即使它们能意识到自己行为违反了道德规范,但依然选择了执行。
6/23/2025 9:12:00 AM

知识储备≠模型能力!DeepMind强化学习微调:大幅缩小「知行差距」

大语言模型的知识储备要远远超越任何一个人类,在各种领域、应用场景下都展现出了惊人的「世界知识」。 最近兴起的智能体,就是要求模型利用自身知识,在没有大量与环境互动的情况下生成更优的行动预测,比如思维链(CoT)就能让模型能够对观察到的历史和自己的行动进行推理,提升与环境互动的表现。 不过,在决策(decision-making)场景中,「知识储备」和「推理优势」并没有提升大模型的能力,反而可能导致探索力不足,使得决策结果不够理想。
6/23/2025 9:09:00 AM

大模型到底是怎么「思考」的?第一篇系统性综述SAE的文章来了

作者介绍:本篇文章的作者团队来自美国四所知名高校:西北大学、乔治亚大学、新泽西理工学院和乔治梅森大学。 第一作者束东与共同第一作者吴烜圣、赵海燕分别是上述高校的博士生,长期致力于大语言模型的可解释性研究,致力于揭示其内部机制与 “思维” 过程。 通讯作者为新泽西理工学院的杜梦楠教授。
6/23/2025 9:08:00 AM