AI在线 AI在线

模型

图像界的DeepSeek!12B参数对标GPT-4o,5秒出图,消费级硬件就能玩转编辑生成

图像模型开源还得是FLUX! Black Forest Labs刚刚宣布开源旗舰图像模型FLUX.1 Kontext[dev],专为图像编辑打造,还能直接在消费级芯片上运行。 只有小小的12B,更少的参数,更快的推理,性能更是媲美GPT-image-1等一众闭源模型。
6/30/2025 8:48:50 AM

盘一盘,2017年Transformer之后,LLM领域的重要论文

这两天 Andrej Karpathy 的最新演讲在 AI 社区引发了热烈讨论,他提出了「软件 3.0」的概念,自然语言正在成为新的编程接口,而 AI 模型负责执行具体任务。 Karpathy 深入探讨了这一变革对开发者、用户以及软件设计理念的深远影响。 他认为,我们不只是在使用新工具,更是在构建一种全新的计算范式。
6/30/2025 8:48:00 AM

充分激发模态协作,MokA量身打造MLLM微调新范式

本文第一作者卫雅珂为中国人民大学四年级博士生,主要研究方向为多模态学习机制、多模态大模型等,师从胡迪副教授。 作者来自于中国人民大学和上海人工智能实验室。 近年来,多模态大模型(MLLMs)已经在视觉语言、音频语言等任务上取得了巨大进展。
6/30/2025 8:44:00 AM

拯救P图废柴,阿里上新多模态模型Qwen-VLo!人人免费可玩

一上手就令网友直呼「生图能力」比GPT-4o更强? ! 就在昨夜,阿里带着全新多模态模型Qwen-VLo开启炸场模式。
6/30/2025 8:43:00 AM

无需训练,即插即用,2倍GPU端到端推理加速——视频扩散模型加速方法DraftAttention

本文第一作者为美国东北大学博士生沈轩,研究方向为高效人工智能,致力于在 GPU、移动端、FPGA 和 ASIC 等多种硬件平台上实现大模型的高效部署与加速。 第二作者为香港中文大学的韩晨夏,研究方向聚焦于计算机体系结构与 AI 系统的高效化设计。 在高质量视频生成任务中,扩散模型(Diffusion Models)已经成为主流。
6/30/2025 8:42:00 AM

ICML 2025 Spotlight | 新理论框架解锁流匹配模型的引导生成

本文第一作者是西湖大学博士生冯睿骐,通讯作者为西湖大学人工智能系助理教授吴泰霖。 吴泰霖实验室专注于解决 AI 和科学交叉的核心问题,包含科学仿真、控制、科学发现。 在解决离线强化学习、图片逆问题等任务中,对生成模型的能量引导(energy guidance)是一种可控的生成方法,它构造灵活,适用于各种任务,且允许无额外训练条件生成模型。
6/30/2025 8:36:00 AM

AgentAuditor:让智能体安全评估器的精确度达到人类水平

LLM 智能体(LLM Agent)正从 “纸上谈兵” 的文本生成器,进化为能自主决策、执行复杂任务的 “行动派”。 它们可以使用工具、实时与环境互动,向着通用人工智能(AGI)大步迈进。 然而,这份 “自主权” 也带来了新的问题:智能体在自主交互中,是否安全?
6/30/2025 8:32:00 AM

OpenAI四位华人学者集体被挖,还是Meta重金出手

再一次,Meta「搜刮」了 OpenAI 的成员。 The Information 发布了文章,谈到 Meta 再聘四名 OpenAI 研究人员。 这离上一次 OpenAI 苏黎世办公室被 Meta 一锅端只隔了短短几天时间。
6/30/2025 8:26:00 AM

AI 开始「自由玩电脑」了!吉大提出「屏幕探索者」智能体

作者简介:本文第一作者牛润良是吉林大学人工智能学院博士研究生,研究方向包括大模型智能体、强化学习,专注于 GUI Agent。 通讯作者王琪为吉林大学人工智能学院研究员,研究方向包括数据挖掘、大模型、强化学习。 迈向通用人工智能(AGI)的核心目标之一就是打造能在开放世界中自主探索并持续交互的智能体。
6/30/2025 8:25:00 AM

马斯克放话:Grok-4 于 7· 4 后上线,专治“写码难”!

6月27日,马斯克发推宣布了 Grok-4 的最新动态:这一 xAI 最新一代大模型,将在 7 月 4 日之后发布。 据马斯克推特,这次是重点是面向开发者的“专业编码模型”升级。 Grok 是马斯克在 OpenAI 之外另起炉灶的尝试。
6/30/2025 1:00:00 AM

我国自主研发首套航空运输大模型“天牧”发布,提供管理 / 协作 / 服务三大特性

据央视新闻报道,我国自主研发的首套航空运输大模型 "天牧低空大模型" 前日在南京发布,该大模型主要用于空中交通管理用途,同时具备智能问答、辅助决策等核心能力,其研发在低空智能管理领域创下多项技术首发成果,实现了多项关键技术的突破。
6/29/2025 10:50:37 AM
漾仔

8 秒转录 30 分钟播客:MacWhisper 应用接入英伟达 Parakeet 模型

科技媒体 9to5Mac 昨日(6 月 27 日)发布博文,报道称 macOS 应用 MacWhisper 在近期版本更新中,通过接入英伟达的 Parakeet 模型,转录速度飙升。
6/28/2025 6:54:35 AM
故渊

最低仅需2G显存,谷歌开源端侧模型刷新竞技场纪录,原生支持图像视频

谷歌开源模型,又上新了。 今天凌晨,谷歌正式官宣了Gemma 3n,原生支持文本、图像和音视频等多种模态。 在大模型竞技场中,Gemma 3n取得了1303分,成为了第一个超过1300分的10B以下模型。
6/27/2025 3:50:36 PM

阿里发布信息检索Agent,可自主上网查资料,GAIA基准超越GPT-4o

Agent能“看懂网页”,像人类一样上网? 阿里发布WebDancer,就像它的名字一样,为“网络舞台”而生。 只要输入指令,它就可以帮你上网搜索、做攻略,实现自主信息检索代理和类似深度研究模型的推理。
6/27/2025 3:45:28 PM

苹果出手!改进GRPO,让dLLM也能高效强化学习

最近,扩散语言模型(dLLM)有点火。 现在,苹果也加入这片新兴的战场了。 不同于基于 Transformer 的自回归式语言模型,dLLM 基于掩码式扩散模型(masked diffusion model / MDM),此前我们已经报道过 LLaDA 和 Dream 等一些代表案例,最近首款实现商业化的 dLLM 聊天机器人 Mercury 也已经正式上线(此前已有 Mercury Coder)。
6/27/2025 3:44:35 PM

突破通用领域推理的瓶颈!清华NLP实验室强化学习新研究RLPR

余天予,清华大学计算机系一年级博士生,导师为清华大学自然语言处理实验室刘知远副教授。 研究兴趣主要包括高效多模态大模型、多模态大模型对齐和强化学习,在 CVPR、AAAI等人工智能领域的著名国际会议和期刊发表多篇学术论文,谷歌学术引用1000余次。 Deepseek 的 R1、OpenAI 的 o1/o3 等推理模型的出色表现充分展现了 RLVR(Reinforcement Learning with Verifiable Reward,基于可验证奖励的强化学习)的巨大潜力。
6/27/2025 10:10:43 AM

超过GPT-image-1!大黑马Black Forest刚开源新模型,只用文本实现一键PS

今天凌晨,知名开源平台Black Forest开源了,文生图模型FLUX.1-Kontext的开发者版本。 该版本主要专注于图像编辑任务,支持迭代编辑,在各种场景和环境中都能出色地保留角色特征,还允许进行精确的局部和全局编辑,例如,用户想给一个人脸加上胡子或者更改衣服穿着、场景,FLUX.1-Kontext都能轻松实现。 简单来说,FLUX.1-Kontext开发版的主要功能可以像PS一样,让用户通过自然语言就能实现一键P图。
6/27/2025 9:26:50 AM

3D VLA新范式!CVPR冠军方案BridgeVLA,真机性能提升32%

近年来,视觉-语言-动作(VLA)模型在机器人操作任务中大放异彩,成为推动通用机器人操作的重要引擎。 但现有的VLA模型,大多只以2D信息作为输入,且需要大量的机器人数据进行微调;反观以PerAct,RVT-2为代表的3D操作策略,通常仅需要10条轨迹就能够取得不错的效果,因此,一个很自然的想法是,是否能将现有的2D VLA升级为3D VLA,使其同时兼具2D VLA的效果以及3D操作策略的效率? 中科院自动化所的研究人员提出的BridgeVLA给出了肯定的回答!
6/27/2025 9:10:17 AM