NeurIPS2025

小红书联合复旦开源 InstanceAssemble：实现 AI 图像精准排版控制

小红书联合复旦开源 InstanceAssemble：实现 AI 图像精准排版控制

近日，小红书与复旦大学联合发布了在布局控制生成（Layout-to-Image）领域的最新研究成果——InstanceAssemble。这项技术旨在解决 AI 绘画中长期存在的“构图难”问题，通过创新的机制实现了从简单到复杂场景的精准图像生成。据悉，相关论文已被人工智能顶级会议 NeurIPS2025收录。

12/26/2025 2:01:20 PM AI在线

英伟达扔下“物理 AI”重弹：开源自动驾驶推理模型Alpamayo-R1，让车辆先“思考”再踩油门

英伟达扔下“物理 AI”重弹：开源自动驾驶推理模型Alpamayo-R1，让车辆先“思考”再踩油门

加州圣迭戈电——在NeurIPS2025现场，英伟达发布首款面向L4级自动驾驶的推理视觉语言动作模型Alpamayo-R1，并同步上线GitHub与Hugging Face。新模型基于今年8月推出的Cosmos-Reason系列，可一次性处理摄像头、激光雷达与文本指令，先内部推理再输出驾驶决策，官方称其给车辆注入“人类常识”。 Alpamayo-R1亮点一览:- 统一架构:视觉语言动作三模态端到端训练，避免分模块误差叠加- 推理链路:Cosmos思维链让模型对“前车急刹、行人横穿”等场景进行多步推演，再输出加速/制动/转向信号- 即开即用:权重、推理脚本与评估工具一并打包进“Cosmos Cookbook”，开发者可按需微调英伟达首席科学家Bill Dally表示，机器人与自动驾驶将是下一波AI浪潮的核心，“我们要做所有机器人的大脑”。

12/2/2025 10:51:12 AM AI在线

NeurIPS 2025 最佳论文揭晓：阿里通义千问靠“门控注意力”摘下中国唯一大奖

NeurIPS 2025 最佳论文揭晓：阿里通义千问靠“门控注意力”摘下中国唯一大奖

全球 AI 顶会 NeurIPS 2025 今晚公布获奖名单，阿里巴巴通义千问团队凭《Attention Gating Makes Better Foundation Models》拿下最佳论文奖，成为 4 篇获奖论文中唯一中国面孔。本届大会共收稿 2 万篇，录取率仅 25%，竞争强度创历史新高。论文核心是一把“滑动门”：在标准注意力后加一层可学习的门控，实时决定哪些头、哪些 token 继续参与下游计算。

11/30/2025 2:12:37 PM AI在线

vivo AI Lab提出自我进化的移动GUI智能体，UI-Genie无需人工标注实现性能持续提升

vivo AI Lab提出自我进化的移动GUI智能体，UI-Genie无需人工标注实现性能持续提升

本文来自于香港中文大学 MMLab 和 vivo AI Lab，其中论文第一作者肖涵，主要研究方向为多模态大模型和智能体学习，合作作者王国志，研究方向为多模态大模型和 Agent 强化学习。项目 leader 任帅，研究方向为多模态大模型、Agent 及具身智能，指导教师是香港中文大学 MMLab 的李鸿升教授。近年来，多模态大模型（MLLM）在理解和生成任务上取得了巨大突破。

11/7/2025 3:25:00 PM 机器之心

资讯热榜

免费！让图片放大不失真的位图转矢量图神器 Tmttool AI应用新纪元：2025中国AI应用排行榜榜单揭晓丨2025年1月 6秒视频10秒生成！全新AI视频神器 Grok Imagine 深度体验+元提示词分享最火、最全的Agent记忆综述，NUS、人大、复旦、北大等联合出品后悔没早发现！教你用谷歌Gemini生成精美PPT（附提示词） GGUF 是什么？一文看懂大模型里最火的模型格式 Sora、可灵、即梦哪家强？AI视频软件深度测评！ Mac也能跑Qwen3，一文看懂本地部署qwen 3配置要求

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI新词 AI绘画大模型机器人数据 Midjourney 开源 Meta 微软智能用户 GPT 学习英伟达 Gemini 智能体技术马斯克 Anthropic 图像 AI创作训练 LLM 论文 AI for Science 代码腾讯苹果算法 Agent Claude 芯片具身智能 Stable Diffusion xAI 蛋白质人形机器人开发者生成式神经网络机器学习 AI视频 3D 字节跳动大语言模型 RAG Sora 百度研究 GPU 生成华为工具 AGI 计算生成式AI AI设计大型语言模型搜索亚马逊 AI模型视频生成特斯拉 DeepMind 场景 Copilot 深度学习 Transformer 架构 MCP 编程视觉