模型

LeCun发布最新世界模型：首次实现16秒连贯场景预测，具身智能掌握第一视角！还打脸用了VAE

LeCun在干嘛呢？就在扎克伯克亲自带队Meta的AI项目，千亿薪酬挖得硅谷人心浮动之际。 Meta在AI领域最负盛名的大佬、图灵奖得主、深度学习三巨头之一的Yann LeCun，却几乎声量全无，他没有参与LLM基础模型的研发，也开始在社交网络上消停了。

7/1/2025 9:02:00 AM

会“思考”的目标检测模型来了！IDEA提出Rex-Thinker：基于思维链的指代物体检测模型，准确率+可解释性双突破

Caption： Rex-Thinker 的思考过程在日常生活中，我们常通过语言描述寻找特定物体：“穿蓝衬衫的人”“桌子左边的杯子”。如何让 AI 精准理解这类指令并定位目标，一直是计算机视觉的核心挑战。现有方法常被两大问题困扰：决策过程不透明（“黑箱” 预测）和拒识能力不足（对不存在物体输出错误结果）。

7/1/2025 8:53:26 AM

用好视觉Attention局部性，清华、字节提出Token Reorder，无损实现5倍稀疏、4比特量化

赵天辰，清华大学电子工程系高能效计算实验室研究生，研究方向主要是：面向视觉生成的高效算法，与软硬件协同设计近年来，随着视觉生成模型的发展，视觉生成任务的输入序列长度逐渐增长（高分辨率生成，视频多帧生成，可达到 10K-100K）。与输入序列长度呈平方复杂度的 Attention 操作，成为主要的性能瓶颈（可占据全模型的 60-80% 的开销），有明显的效率优化需求。注意力的稀疏化（Sparse Attention）与低比特量化（Attention Quantization）为常用的 Attention 优化技巧，在许多现有应用中取得优秀的效果。

6/30/2025 2:02:00 PM

RAG终极框架！港大开源RAG-Anything：统一多模态知识图谱

RAG-Anything的核心技术创新在于构建了统一的多模态知识图谱架构，能够同时处理并关联文档中的文字内容、图表信息、表格数据、数学公式等多种类型的异构内容，解决了传统RAG系统仅支持文本处理的技术限制，为多模态文档的智能理解提供了新的技术方案。项目地址：: （RAG）系统，专注解决复杂场景下的智能问答与信息检索难题。该系统提供完整的端到端多模态文档处理解决方案，能够统一处理文本、图像、表格、数学公式等多种异构内容，实现从文档解析、知识图谱构建到智能问答的全流程自动化，为下一代AI应用提供了可靠的技术基础。

6/30/2025 1:57:59 PM

百度文心大模型4.5系列正式开源，同步开放API服务

百度文心大模型开源，如期而至。就在今天，百度官宣文心大模型4.5系列正式开源，还同步提供API服务。此番，百度一次性推出10款开源模型，涵盖从47B参数的混合专家（MoE）模型到轻量级0.3B稠密型模型，覆盖文本、多模态等多种任务需求。

6/30/2025 1:54:34 PM

媲美DeepSeek！腾讯开源新版混元模型：AI Agent强化，超30种智能体指令

腾讯开源了混元大模型的最新版本Hunyuan-A13B。 Hunyuan-A13B是一个专家混合模型，拥有800亿参数，其中130亿参数处于激活状态。支持快、慢两种思考模式：快速思维模式，提供简洁高效的输出，适用于高效、简单的日常任务；慢速思维模式，支持更深层次的推理步骤包含反思和回溯，生成更长的思维链，提升复杂任务的准确性。

6/30/2025 9:04:00 AM

AI一眼认出95万物种，还能分辨雄雌老幼，2亿生物图像炼成“生命视觉”大模型

让AI看懂95万物种，并自己悟出生态关系与个体差异!俄亥俄州立大学研究团队在2亿生物图像数据上训练了BioCLIP 2模型。大规模的训练让BioCLIP 2取得了目前最优的物种识别性能。而更令人惊喜的是，即使在训练过程中没有相应监督信号，BioCLIP 2还在栖息地识别、植物疾病识别等5个非物种任务中给出了远超DINOv2的准确率。

6/30/2025 8:52:00 AM

航空发动机用上大模型：解决复杂时序问题，性能超越ChatGPT-4o实现SOTA｜上交创智复旦

时序数据分析在工业监控、医疗诊断等领域至关重要。比如航空发动机监控这个复杂工业场景中，工程师需分析海量多通道传感器数据，以判断设备状态并制定维护决策。然而，现有研究多聚焦于分类、预测等单一任务，与实际工业场景中专家通过自然语言进行复杂交互和决策的需求存在显著差异。

6/30/2025 8:51:00 AM

打破长视频理解瓶颈：HoPE混合位置编码提升VLM长度泛化能力

李浩然，CMU 机器学习系研究生，研究方向是基础模型的长上下文建模、对齐、以及检索增强生成。如今的视觉语言模型 (VLM, Vision Language Models) 已经在视觉问答、图像描述等多模态任务上取得了卓越的表现。然而，它们在长视频理解和检索等长上下文任务中仍表现不佳。

6/30/2025 8:50:00 AM

图像界的DeepSeek！12B参数对标GPT-4o，5秒出图，消费级硬件就能玩转编辑生成

图像模型开源还得是FLUX！ Black Forest Labs刚刚宣布开源旗舰图像模型FLUX.1 Kontext[dev]，专为图像编辑打造，还能直接在消费级芯片上运行。只有小小的12B，更少的参数，更快的推理，性能更是媲美GPT-image-1等一众闭源模型。

6/30/2025 8:48:50 AM

盘一盘，2017年Transformer之后，LLM领域的重要论文

这两天 Andrej Karpathy 的最新演讲在 AI 社区引发了热烈讨论，他提出了「软件 3.0」的概念，自然语言正在成为新的编程接口，而 AI 模型负责执行具体任务。 Karpathy 深入探讨了这一变革对开发者、用户以及软件设计理念的深远影响。他认为，我们不只是在使用新工具，更是在构建一种全新的计算范式。

6/30/2025 8:48:00 AM

充分激发模态协作，MokA量身打造MLLM微调新范式

本文第一作者卫雅珂为中国人民大学四年级博士生，主要研究方向为多模态学习机制、多模态大模型等，师从胡迪副教授。作者来自于中国人民大学和上海人工智能实验室。近年来，多模态大模型（MLLMs）已经在视觉语言、音频语言等任务上取得了巨大进展。

6/30/2025 8:44:00 AM

拯救P图废柴，阿里上新多模态模型Qwen-VLo！人人免费可玩

一上手就令网友直呼「生图能力」比GPT-4o更强？！就在昨夜，阿里带着全新多模态模型Qwen-VLo开启炸场模式。

6/30/2025 8:43:00 AM

无需训练，即插即用，2倍GPU端到端推理加速——视频扩散模型加速方法DraftAttention

本文第一作者为美国东北大学博士生沈轩，研究方向为高效人工智能，致力于在 GPU、移动端、FPGA 和 ASIC 等多种硬件平台上实现大模型的高效部署与加速。第二作者为香港中文大学的韩晨夏，研究方向聚焦于计算机体系结构与 AI 系统的高效化设计。在高质量视频生成任务中，扩散模型（Diffusion Models）已经成为主流。

6/30/2025 8:42:00 AM

ICML 2025 Spotlight | 新理论框架解锁流匹配模型的引导生成

本文第一作者是西湖大学博士生冯睿骐，通讯作者为西湖大学人工智能系助理教授吴泰霖。吴泰霖实验室专注于解决 AI 和科学交叉的核心问题，包含科学仿真、控制、科学发现。在解决离线强化学习、图片逆问题等任务中，对生成模型的能量引导（energy guidance）是一种可控的生成方法，它构造灵活，适用于各种任务，且允许无额外训练条件生成模型。

6/30/2025 8:36:00 AM