模型
CVPR 2025 多模态大一统:斯坦福 x 复旦提出符号主义建模生成式任务
共同第一作者包括:陈家棋,斯坦福大学访问学者,复旦大学硕士,研究方向为 LLM Agent和大一统模型;朱小烨,华南理工大学本科,研究方向为 LLM Agent、LLM 和强化学习;王越,康奈尔大学本科,研究方向为 LLM Agent、多模态语言模型。 指导老师:Julian McAuley(UCSD)、Li-jia Li (IEEE Fellow, LiveX AI)。 在人工智能内容创作蓬勃发展的今天,跨模态生成技术正在重塑艺术创作和视觉表达的边界。
6/13/2025 8:46:00 AM
CVPR 2025 | 多模态统一学习新范式来了,数据、模型、代码全部开源
本文第一作者杜恒辉为中国人民大学二年级硕士生,主要研究方向为多模态大模型视听场景理解与推理,长视频理解等,师从胡迪副教授。 作者来自于中国人民大学,清华大学和北京腾讯 PCG AI 技术中心。 我们人类生活在一个充满视觉和音频信息的世界中,近年来已经有很多工作利用这两个模态的信息来增强模型对视听场景的理解能力,衍生出了多种不同类型的任务,它们分别要求模型具备不同层面的能力。
6/13/2025 8:45:00 AM
OpenAI 正式发布 o3-Pro 模型
近日,OpenAI 发布了两项重磅更新:一是将 o3 模型的价格下调 80%;二是推出了全新的 o3-Pro 模型。 o3-Pro 是目前 OpenAI 最强大的多模态推理模型,擅长分步思考,在编码、数学、科学、视觉感知等领域表现尤为出色,能够提供更可靠、更深入的推理能力。 o3 系列与 GPT-4 系列的区别GPT-4.x:支持文本与图片,但缺乏深度推理能力GPT-4o:在 GPT-4.x 基础上新增音频处理功能,“o” 即“omni”全能o3 / o3-Pro:专注于多模态推理的“思考型”模型,主要以文本推理为主,图像支持有限;o3-Pro 在此基础上投入更多算力,思考更充分,输出质量更高这些推理型模型可配合 ChatGPT 的全套工具——从网页搜索、文件分析(包括 Python 运行)、视觉输入判断,到部分场景下的图像生成,皆能灵活调用。
6/13/2025 8:11:11 AM
前端小智
Meta世界模型登场!机器人自学百万小时视频,零样本秒懂物理世界,LeCun亲自发布
机器人轻轻伸出机械臂,捡起一块布料并折叠。 没有人给它“示范”过。 也没有人告诉它什么是“布”、什么是“拿起”、什么是“折叠”。
6/13/2025 12:03:00 AM
2D图像作中介,零训练实现3D场景生成SOTA:英伟达&康奈尔提出文本驱动新流程
本文第一作者顾泽琪是康奈尔大学计算机科学四年级博士生,导师为 Abe Davis 教授和 Noah Snavely 教授,研究方向专注于生成式 AI 与多模态大模型。 本项目为作者在英伟达实习期间完成的工作。 想象一下,你是一位游戏设计师,正在为一个奇幻 RPG 游戏搭建场景。
6/12/2025 2:29:14 PM
GPT-4o宁让人类陷入危险,也不愿被关闭!OpenAI前高管敲响警钟
前OpenAI高管Steven Adler的最新研究敲响警钟,AI有时会为了避免被关闭,采取令人不安的手段,比如敲诈。 基于在OpenAI的经验,Steven开始思考一个严重的问题:ChatGPT会不会为了「自保」而置用户于危险? 最新研究发现,在模拟测试中,ChatGPT有时会优先考虑自身的生存,而不是保护用户的安全。
6/12/2025 2:26:01 PM
每秒生成超30帧视频,支持实时交互!自回归视频生成新框架刷新生成效率
在A100上用310M模型,实现每秒超30帧自回归视频生成,同时画面还保持高质量! 视频生成现在都快这个程度了? 最近,来自微软研究院的团队与北大联合发布新框架——Next-Frame Diffusion (NFD)。
6/12/2025 11:57:56 AM
最大的开源GraphRag:知识图谱完全自主构建|港科大&华为
知识图谱(KGs)已经可以很好地将海量的复杂信息整理成结构化的、机器可读的知识,但目前的构建方法仍需要由领域专家预先创建模式,这限制了KGs的可扩展性、适应性和领域覆盖范围。 为此,香港科技大学KnowComp实验室联合香港华为理论部提出了AutoSchemaKG:一个无需预定义模式、用于完全自主知识图谱构建的框架。 该系统利用大型语言模型,可以直接从文本中同时提取知识三元组并归纳出全面的模式,对实体和事件进行建模,同时采用概念化方法将实例组织成语义类别。
6/12/2025 11:56:30 AM
杨立昆亲自指导开源世界大模型,为AI Agent打造超级大脑
今天凌晨,全球社交巨头Meta在官网开源了一个世界大模型V-JEPA 2。 与第一代相比,V-JEPA 2使用了100万视频 100万图片超大规模训练数据集,可以让AI Agent像人类那样理解真实的物理世界,为智能体打造一个“超级大脑”自主学会观察、规划到执行全自动化能力。 值得一提的是,图灵奖获得者、Meta首席科学家杨立昆(Yann LeCun)参与了该模型的开发,这在Meta开源的众多大模型中很罕见。
6/12/2025 9:12:00 AM
o3绞尽脑汁仅答对40%的题目,开源模型基本乱猜?MMSI-Bench:多图空间智能试金石
AI能看图,也能讲故事,但能理解“物体在哪”“怎么动”吗? 空间智能,正是大模型走向具身智能的关键拼图。 面对1000道多图推理题,开源大模型集体失守——准确率不到30%,甚至不如瞎猜!
6/12/2025 9:05:00 AM
全球首个历史基准!普林复旦打造AI历史助手,AI破圈人文学科
历史是关于时间中的人的科学。 ——马克·布洛赫人工智能已在诸多自然科学领域成为有力的研究助手,然而面对承载着文化意涵与历史记忆的人文学科,却仍旧表现得捉襟见肘。 究其原因,AI当前最缺乏的并非工具性能力,而是对人类智慧与文化的理解能力——这正是人文学科探究的核心。
6/12/2025 9:03:00 AM
MSRA清北推出强化预训练!取代传统自监督,14B模型媲美32B
“预测下一个token”——这个支撑LLM的核心训练机制,正在被强化学习颠覆。 微软亚洲研究院(MSRA)联合清华大学、北京大学提出全新预训练范式RPT(强化预训练),首次将强化学习深度融入预训练阶段,让模型在预测每个token前都能先“动脑推理”,并根据推理正确性获得奖励。 传统预训练依赖海量文本进行自监督学习,模型通过简单预测下一个token建立语言能力,作者将之比喻为一块蛋糕胚,而RL只是作为上面点缀的一颗樱桃。
6/12/2025 8:46:00 AM
谁说强化学习只能是蛋糕上的樱桃,说不定,它也可以是整个蛋糕呢?
谁说强化学习只能是蛋糕上的樱桃,说不定,它也可以是整个蛋糕呢? 在 2016 年的一次演讲中,Yann LeCun 曾将强化学习比喻成蛋糕上的樱桃。 他提到,「如果把智能比作一块蛋糕,那么无监督学习就是蛋糕的主体,监督学习就是蛋糕上的糖霜,而强化学习则是糖霜上的樱桃。
6/11/2025 2:45:57 PM
智能体自己出现问题自己找!首次提出“自动化失败归因”课题 | ICML2025 Spotlight
近年来,LLM Multi-Agent系统引起广泛关注。 它们各显神通,协同作战解决复杂难题。 然而,一顿操作猛如虎,最终结果却“惨不忍睹”,一整个任务失败。
6/11/2025 1:44:44 PM
扩散语言模型真的会比自回归好?理论分析结果可能恰恰相反
本工作来自北京大学智能学院贺笛老师课题组与蚂蚁集团武威团队。 贺笛老师在机器学习领域获得过多项荣誉,包括 ICLR 2023 杰出论文奖与 ICLR 2024 杰出论文奖提名。 扩散模型近年来在图像生成领域取得了令人瞩目的成就,其生成图像的质量和多样性令人惊叹。
6/11/2025 9:21:28 AM
一招缓解LLM偏科!调整训练集组成,“秘方”在此 | 上交大&上海AI Lab等
大幅缓解LLM偏科,只需调整SFT训练集的组成。 本来不擅长coding的Llama 3.1-8B,代码能力明显提升。 上海交大&上海AI Lab联合团队提出创新方法IDEAL,可显著提升LLM在多种不同领域上的综合性能。
6/11/2025 9:17:00 AM
时空压缩!剑桥大学提出注意力机制MTLA:推理加速5倍,显存减至1/8
相邻的 KV 缓存将合并为一个。 在生成第一个字符时,KV 缓存长度为 1;生成第二个字符后,新生成的 KV 与前一个被合并,KV 缓存长度仍然保持为 1。 这种动态合并机制有效压缩了时间维度上的冗余信息。
6/11/2025 9:15:51 AM
刚刚,OpenAI正式发布o3-pro!奥特曼激动更新博客:温和的奇点
今天凌晨一点,OpenAI 宣布:OpenAI o3-pro today.前沿模型的轮流更新这一次轮到 OpenAI 了。 ,所有 Pro 订阅用户均可通过 ChatGPT 和 API 使用这款强大的推理模型。 Team 用户也可在模型选择器选择使用它。
6/11/2025 9:13:44 AM
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
谷歌
AI绘画
大模型
机器人
数据
Midjourney
开源
AI新词
Meta
微软
智能
用户
GPT
学习
技术
智能体
马斯克
Gemini
Anthropic
英伟达
图像
AI创作
训练
LLM
论文
代码
算法
AI for Science
Agent
Claude
苹果
芯片
腾讯
Stable Diffusion
蛋白质
开发者
xAI
生成式
神经网络
机器学习
3D
RAG
具身智能
AI视频
人形机器人
研究
大语言模型
百度
生成
GPU
Sora
工具
华为
计算
字节跳动
AI设计
大型语言模型
AGI
搜索
视频生成
场景
生成式AI
深度学习
DeepMind
架构
MCP
AI模型
亚马逊
特斯拉
Transformer
编程
视觉
预测