模型

大模型玩不好数独？！Transformer作者初创公司公布排行榜：o3 Mini High“变异数独”正确率仅2.9%

5/29/2025 8:47:00 AM

数据提取场景下不同LLM模型对比分析

在数字化时代，数据作为核心资产，其高效处理与利用成为企业和组织发展的关键。然而，大量数据以非结构化文本、传统文档等形式存在，导致数据提取面临巨大挑战。人工智能，尤其是大语言模型（LLMs）的爆发式发展，为大规模自动化数据提取提供了新的可能。

5/29/2025 1:50:00 AM 大模型之路

首个面向柔性衣物灵巧操作的仿真平台来了，北大、伯克利联合发布

本论文共同第一作者为王昱然、吴睿海、陈越，导师为北京大学董豪老师。课题组致力于统一的物体表征操作研究，以实现具有可解释性和泛化能力的物体操作策略。在机器人操作领域，柔性物体，尤其是衣物的操控始终是一个值得关注的难题。

5/28/2025 6:43:17 PM

微软开源 Aurora AI 气象模型，助力天气与环境监测

近日，微软研究院宣布开源其 Aurora AI 气象预报模型。这一模型结合了深度学习和大规模数据处理技术，旨在为气象预报和环境监测提供精准的解决方案。 Aurora AI 不仅能够高效预测天气，还可以经过微调后应用于洋流和空气质量监测等多个领域。

5/28/2025 12:01:25 PM AI在线

MiniMax开源首个视觉RL统一框架，闫俊杰领衔！推理感知两手抓，性能横扫MEGA-Bench

仅需一个强化学习（RL）框架，就能实现视觉任务大统一？现有RL对推理和感知任务只能二选一，但“大模型六小强”之一MiniMax表示：我全都要！最新开源V-Triune（视觉三重统一强化学习系统）框架，使VLM首次能够在单个后训练流程中，联合学习和掌握视觉推理和感知任务。

5/28/2025 11:55:56 AM

多模态模型具备“物理推理能力”了吗？新基准揭示：表现最好的GPT-o4 mini也远不及人类！

表现最好的GPT-o4 mini，物理推理能力也远不及人类！就在最近，来自香港大学、密歇根大学等机构的研究人员补齐了现有评估体系中的一处关键空白——评估多模态模型是否具备“物理推理能力”。物理推理，即模型在面对真实或拟真的物理情境时，能否综合利用视觉信息、物理常识、数学建模进行判断和预测，被认为是通向具身智能的关键能力。

5/28/2025 11:55:28 AM

强化学习解决长上下文推理问题：通义推出QwenLong-L1-32B

近期的推理大模型（LRMs）通过强化学习（RL）展现出强大的推理能力，但这些改进主要体现在短上下文推理任务中。相比之下，如何通过强化学习扩展 LRMs 以有效处理和推理长上下文输入，仍然是一个尚未解决的关键挑战。来自阿里巴巴通义实验室的团队首先形式化定义长上下文推理强化学习范式，并识别出其中的两个核心挑战：次优的训练效率与不稳定的优化过程。

5/28/2025 11:46:52 AM

开源模型竟被用于窃取下游微调数据？清华团队揭秘开源微调范式新型隐藏安全风险

本文作者分别来自清华大学 CoAI 小组和墨尔本大学。第一作者张哲昕为清华大学直博三年级学生，研究方向为大模型安全，主要合作者为孙玉豪，来自墨尔本大学，主要指导教师为清华大学王宏宁副教授与黄民烈教授。基于开源模型继续在下游任务上使用私有下游数据进行微调，得到在下游任务表现更好的专有模型，已经成为了一类标准范式。

5/28/2025 11:46:18 AM

全球顶尖AI做物理，被人类按地摩擦？不懂推理大翻车，本科生碾压

大模型，真的懂物理推理吗？就在刚刚，港大、密歇根大学、多伦多大学等机构的研究者用3000道物理题，给全球顶尖大模型来了一场大拷问。结果，这些顶尖AI，毫无例外全部翻车了！

5/28/2025 11:44:24 AM

GPA只有3.3，顶会一作两篇，成功杀进TOP 20 AI博士？小哥曝光关键秘诀

两篇顶会一作，在亚洲攻读硕士学位，2026年春季毕业。这位网友表示，自己计划申请2026年秋季开学的博士项目。他的条件是：本科GPA在3.2-3.3左右，不算很高，但有一些研究经验。

5/28/2025 11:43:06 AM

单卡即可微调大模型！内存占用仅1/8，性能依然拉满 | ICML 2025

诸如Qwen，GPT，DeepSeek R1等基础大模型已成为现代深度学习的基石。然而，在应用于具体下游任务时，它们庞大的参数规模使得额外微调成本较高。为了解决这一问题，近期的研究聚焦于低秩适应 (LoRA) 方法，通过保持基座模型参数冻结，仅对新增的小型轻量级适配器进行微调，从而降低微调成本。

5/28/2025 11:42:14 AM

o4-mini暴击六大数学天团，攻破陶哲轩难题！4.5h激战人类阵地失守

八支「数学家天团」和o4-mini-medium同台竞技，谁会最终胜出？最近，Epoch AI团队举办了一场竞赛，专门考察AI数学能力的进展。这场比赛邀请了约40位数学精英，分成8组，每组由学科专家和优秀本科生组成。

5/28/2025 10:30:41 AM

微软CEO吹爆「智能体」：AI不仅要“杀死”SaaS，操作系统也会“格式化”重来

5/28/2025 10:27:08 AM

ETT：打破原生多模态学习视觉瓶颈，重塑视觉tokenizer优化范式

本文由北京智源研究院多模态大模型研究中心（团队负责人王鑫龙，团队代表作 EMU 系列、EVA 系列、Painter & SegGPT）、中科院自动化所和大连理工大学联合完成。在多模态学习蓬勃发展的当下，视觉 tokenizer 作为连接视觉信息与下游任务的关键桥梁，其性能优劣直接决定了多模态模型的表现。然而，传统的视觉 tokenization 方法存在一个致命缺陷：视觉 tokenizer 的优化与下游任务的训练是相互割裂的。

5/28/2025 9:17:00 AM

One RL to See Them All？一个强化学习统一视觉-语言任务！

强化学习 (RL) 显著提升了视觉-语言模型 (VLM) 的推理能力。然而，RL 在推理任务之外的应用，尤其是在目标检测和目标定位等感知密集型任务中的应用，仍有待深入探索。近日，国内初创公司 MiniMax 提出了 V-Triune，一个视觉三重统一强化学习系统，它能使 VLM 在单一的训练流程中同时学习视觉推理和感知任务。

5/28/2025 9:15:00 AM

阿里开源长文本深度思考模型！渐进式强化学习破解长文本训练难题，登HuggingFace热榜

推理大模型开卷新方向，阿里开源长文本深度思考模型QwenLong-L1，登上HuggingFace今日热门论文第二。其32B参数版本超过OpenAI-o3-mini、Qwen3-235B-A22B等，取得与Claude-3.7-Sonnet-Thingking相当的性能。除测评分数外，论文中还详细展示了一个金融文档推理的案例。

5/28/2025 9:09:00 AM

字节推出统一多模态模型 BAGEL，GPT-4o 级的图像生成能力直接开源了！

图片字节推出的 BAGEL 是一个开源的统一多模态模型，他们直接开源了GPT-4o级别的图像生成能力。（轻松拿捏“万物皆可吉卜力”玩法~）。可以在任何地方对其进行微调、提炼和部署，它以开放的形式提供与 GPT-4o 和 Gemini 2.0 等专有系统相当的功能，通过能够实现精确、准确和逼真的输出的原生多模态架构解锁有用且有价值的图像生成。

5/27/2025 3:59:41 PM AIGC Studio

图像编辑革命，万物皆可插入！浙大/哈佛/南洋理工提出Insert Anything，告别PS抠图，AI让世界无缝生长

浙江大学、哈佛大学、南洋理工大学联合提出了统一的图像插入框架Insert Anything，支持多种实际场景，包括艺术创作、逼真的脸部交换、电影场景构图、虚拟服装试穿、配饰定制和数字道具更换，下图展示了其在各种图像编辑任务中的多功能性和有效性。效果展示相关链接论文：：：通过 DiT 中的上下文编辑插入图像本研究提出了“Insert Anything”，这是一个基于参考的图像插入统一框架，可在用户指定的灵活控制指导下将参考图像中的对象无缝集成到目标场景中。我们的方法并非针对单个任务训练单独的模型，而是在我们新的AnyInsertion数据集上训练一次——该数据集包含 12 万个提示图像对，涵盖人物、物体和服装插入等多种任务——并可轻松推广到各种插入场景。

5/27/2025 3:59:03 PM AIGC Studio

资讯热榜

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI新词 AI绘画大模型机器人数据 Midjourney 开源 Meta 微软智能用户 GPT 学习英伟达 Gemini 智能体技术马斯克 Anthropic 图像 AI创作训练 LLM 论文 AI for Science 代码腾讯苹果算法 Agent Claude 芯片具身智能 Stable Diffusion xAI 蛋白质人形机器人开发者生成式神经网络机器学习 AI视频 3D 字节跳动大语言模型 RAG Sora 百度研究 GPU 生成华为工具 AGI 计算生成式AI AI设计大型语言模型搜索亚马逊 AI模型视频生成特斯拉 DeepMind 场景 Copilot 深度学习 Transformer 架构 MCP 编程视觉