NeurIPS2025
小红书联合复旦开源 InstanceAssemble:实现 AI 图像精准排版控制
近日,小红书与复旦大学联合发布了在布局控制生成(Layout-to-Image)领域的最新研究成果——InstanceAssemble。 这项技术旨在解决 AI 绘画中长期存在的“构图难”问题,通过创新的机制实现了从简单到复杂场景的精准图像生成。 据悉,相关论文已被人工智能顶级会议 NeurIPS2025收录。
英伟达扔下“物理 AI”重弹:开源自动驾驶推理模型Alpamayo-R1,让车辆先“思考”再踩油门
加州圣迭戈电——在NeurIPS2025现场,英伟达发布首款面向L4级自动驾驶的推理视觉语言动作模型Alpamayo-R1,并同步上线GitHub与Hugging Face。 新模型基于今年8月推出的Cosmos-Reason系列,可一次性处理摄像头、激光雷达与文本指令,先内部推理再输出驾驶决策,官方称其给车辆注入“人类常识”。 Alpamayo-R1亮点一览:- 统一架构:视觉 语言 动作三模态端到端训练,避免分模块误差叠加- 推理链路:Cosmos思维链让模型对“前车急刹、行人横穿”等场景进行多步推演,再输出加速/制动/转向信号- 即开即用:权重、推理脚本与评估工具一并打包进“Cosmos Cookbook”,开发者可按需微调英伟达首席科学家Bill Dally表示,机器人与自动驾驶将是下一波AI浪潮的核心,“我们要做所有机器人的大脑”。
NeurIPS 2025 最佳论文揭晓:阿里通义千问靠“门控注意力”摘下中国唯一大奖
全球 AI 顶会 NeurIPS 2025 今晚公布获奖名单,阿里巴巴通义千问团队凭《Attention Gating Makes Better Foundation Models》拿下最佳论文奖,成为 4 篇获奖论文中唯一中国面孔。 本届大会共收稿 2 万篇,录取率仅 25%,竞争强度创历史新高。 论文核心是一把“滑动门”:在标准注意力后加一层可学习的门控,实时决定哪些头、哪些 token 继续参与下游计算。
vivo AI Lab提出自我进化的移动GUI智能体,UI-Genie无需人工标注实现性能持续提升
本文来自于香港中文大学 MMLab 和 vivo AI Lab,其中论文第一作者肖涵,主要研究方向为多模态大模型和智能体学习,合作作者王国志,研究方向为多模态大模型和 Agent 强化学习。 项目 leader 任帅,研究方向为多模态大模型、Agent 及具身智能,指导教师是香港中文大学 MMLab 的李鸿升教授。 近年来,多模态大模型(MLLM)在理解和生成任务上取得了巨大突破。
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
谷歌
DeepSeek
AI新词
AI绘画
大模型
机器人
数据
Midjourney
开源
Meta
微软
智能
用户
GPT
学习
英伟达
Gemini
智能体
技术
马斯克
Anthropic
图像
AI创作
训练
LLM
论文
AI for Science
代码
腾讯
苹果
算法
Agent
Claude
芯片
具身智能
Stable Diffusion
xAI
蛋白质
人形机器人
开发者
生成式
神经网络
机器学习
AI视频
3D
字节跳动
大语言模型
RAG
Sora
百度
研究
GPU
生成
华为
工具
AGI
计算
生成式AI
AI设计
大型语言模型
搜索
亚马逊
AI模型
视频生成
特斯拉
DeepMind
场景
Copilot
深度学习
Transformer
架构
MCP
编程
视觉