AI在线 AI在线

模型

AI一眼认出95万物种,还能分辨雄雌老幼,2亿生物图像炼成“生命视觉”大模型

让AI看懂95万物种,并自己悟出生态关系与个体差异!俄亥俄州立大学研究团队在2亿生物图像数据上训练了BioCLIP 2模型。 大规模的训练让BioCLIP 2取得了目前最优的物种识别性能。 而更令人惊喜的是,即使在训练过程中没有相应监督信号,BioCLIP 2还在栖息地识别、植物疾病识别等5个非物种任务中给出了远超DINOv2的准确率。
6/30/2025 8:52:00 AM

航空发动机用上大模型:解决复杂时序问题,性能超越ChatGPT-4o实现SOTA|上交创智复旦

时序数据分析在工业监控、医疗诊断等领域至关重要。 比如航空发动机监控这个复杂工业场景中,工程师需分析海量多通道传感器数据,以判断设备状态并制定维护决策。 然而,现有研究多聚焦于分类、预测等单一任务,与实际工业场景中专家通过自然语言进行复杂交互和决策的需求存在显著差异。
6/30/2025 8:51:00 AM

打破长视频理解瓶颈:HoPE混合位置编码提升VLM长度泛化能力

李浩然,CMU 机器学习系研究生,研究方向是基础模型的长上下文建模、对齐、以及检索增强生成。 如今的视觉语言模型 (VLM, Vision Language Models) 已经在视觉问答、图像描述等多模态任务上取得了卓越的表现。 然而,它们在长视频理解和检索等长上下文任务中仍表现不佳。
6/30/2025 8:50:00 AM

图像界的DeepSeek!12B参数对标GPT-4o,5秒出图,消费级硬件就能玩转编辑生成

图像模型开源还得是FLUX! Black Forest Labs刚刚宣布开源旗舰图像模型FLUX.1 Kontext[dev],专为图像编辑打造,还能直接在消费级芯片上运行。 只有小小的12B,更少的参数,更快的推理,性能更是媲美GPT-image-1等一众闭源模型。
6/30/2025 8:48:50 AM

盘一盘,2017年Transformer之后,LLM领域的重要论文

这两天 Andrej Karpathy 的最新演讲在 AI 社区引发了热烈讨论,他提出了「软件 3.0」的概念,自然语言正在成为新的编程接口,而 AI 模型负责执行具体任务。 Karpathy 深入探讨了这一变革对开发者、用户以及软件设计理念的深远影响。 他认为,我们不只是在使用新工具,更是在构建一种全新的计算范式。
6/30/2025 8:48:00 AM

充分激发模态协作,MokA量身打造MLLM微调新范式

本文第一作者卫雅珂为中国人民大学四年级博士生,主要研究方向为多模态学习机制、多模态大模型等,师从胡迪副教授。 作者来自于中国人民大学和上海人工智能实验室。 近年来,多模态大模型(MLLMs)已经在视觉语言、音频语言等任务上取得了巨大进展。
6/30/2025 8:44:00 AM

拯救P图废柴,阿里上新多模态模型Qwen-VLo!人人免费可玩

一上手就令网友直呼「生图能力」比GPT-4o更强? ! 就在昨夜,阿里带着全新多模态模型Qwen-VLo开启炸场模式。
6/30/2025 8:43:00 AM

无需训练,即插即用,2倍GPU端到端推理加速——视频扩散模型加速方法DraftAttention

本文第一作者为美国东北大学博士生沈轩,研究方向为高效人工智能,致力于在 GPU、移动端、FPGA 和 ASIC 等多种硬件平台上实现大模型的高效部署与加速。 第二作者为香港中文大学的韩晨夏,研究方向聚焦于计算机体系结构与 AI 系统的高效化设计。 在高质量视频生成任务中,扩散模型(Diffusion Models)已经成为主流。
6/30/2025 8:42:00 AM

ICML 2025 Spotlight | 新理论框架解锁流匹配模型的引导生成

本文第一作者是西湖大学博士生冯睿骐,通讯作者为西湖大学人工智能系助理教授吴泰霖。 吴泰霖实验室专注于解决 AI 和科学交叉的核心问题,包含科学仿真、控制、科学发现。 在解决离线强化学习、图片逆问题等任务中,对生成模型的能量引导(energy guidance)是一种可控的生成方法,它构造灵活,适用于各种任务,且允许无额外训练条件生成模型。
6/30/2025 8:36:00 AM

AgentAuditor:让智能体安全评估器的精确度达到人类水平

LLM 智能体(LLM Agent)正从 “纸上谈兵” 的文本生成器,进化为能自主决策、执行复杂任务的 “行动派”。 它们可以使用工具、实时与环境互动,向着通用人工智能(AGI)大步迈进。 然而,这份 “自主权” 也带来了新的问题:智能体在自主交互中,是否安全?
6/30/2025 8:32:00 AM

OpenAI四位华人学者集体被挖,还是Meta重金出手

再一次,Meta「搜刮」了 OpenAI 的成员。 The Information 发布了文章,谈到 Meta 再聘四名 OpenAI 研究人员。 这离上一次 OpenAI 苏黎世办公室被 Meta 一锅端只隔了短短几天时间。
6/30/2025 8:26:00 AM

AI 开始「自由玩电脑」了!吉大提出「屏幕探索者」智能体

作者简介:本文第一作者牛润良是吉林大学人工智能学院博士研究生,研究方向包括大模型智能体、强化学习,专注于 GUI Agent。 通讯作者王琪为吉林大学人工智能学院研究员,研究方向包括数据挖掘、大模型、强化学习。 迈向通用人工智能(AGI)的核心目标之一就是打造能在开放世界中自主探索并持续交互的智能体。
6/30/2025 8:25:00 AM

马斯克放话:Grok-4 于 7· 4 后上线,专治“写码难”!

6月27日,马斯克发推宣布了 Grok-4 的最新动态:这一 xAI 最新一代大模型,将在 7 月 4 日之后发布。 据马斯克推特,这次是重点是面向开发者的“专业编码模型”升级。 Grok 是马斯克在 OpenAI 之外另起炉灶的尝试。
6/30/2025 1:00:00 AM

我国自主研发首套航空运输大模型“天牧”发布,提供管理 / 协作 / 服务三大特性

据央视新闻报道,我国自主研发的首套航空运输大模型 "天牧低空大模型" 前日在南京发布,该大模型主要用于空中交通管理用途,同时具备智能问答、辅助决策等核心能力,其研发在低空智能管理领域创下多项技术首发成果,实现了多项关键技术的突破。
6/29/2025 10:50:37 AM
漾仔

8 秒转录 30 分钟播客:MacWhisper 应用接入英伟达 Parakeet 模型

科技媒体 9to5Mac 昨日(6 月 27 日)发布博文,报道称 macOS 应用 MacWhisper 在近期版本更新中,通过接入英伟达的 Parakeet 模型,转录速度飙升。
6/28/2025 6:54:35 AM
故渊

最低仅需2G显存,谷歌开源端侧模型刷新竞技场纪录,原生支持图像视频

谷歌开源模型,又上新了。 今天凌晨,谷歌正式官宣了Gemma 3n,原生支持文本、图像和音视频等多种模态。 在大模型竞技场中,Gemma 3n取得了1303分,成为了第一个超过1300分的10B以下模型。
6/27/2025 3:50:36 PM

阿里发布信息检索Agent,可自主上网查资料,GAIA基准超越GPT-4o

Agent能“看懂网页”,像人类一样上网? 阿里发布WebDancer,就像它的名字一样,为“网络舞台”而生。 只要输入指令,它就可以帮你上网搜索、做攻略,实现自主信息检索代理和类似深度研究模型的推理。
6/27/2025 3:45:28 PM

苹果出手!改进GRPO,让dLLM也能高效强化学习

最近,扩散语言模型(dLLM)有点火。 现在,苹果也加入这片新兴的战场了。 不同于基于 Transformer 的自回归式语言模型,dLLM 基于掩码式扩散模型(masked diffusion model / MDM),此前我们已经报道过 LLaDA 和 Dream 等一些代表案例,最近首款实现商业化的 dLLM 聊天机器人 Mercury 也已经正式上线(此前已有 Mercury Coder)。
6/27/2025 3:44:35 PM