AI在线 AI在线

模型

狂砸143亿,小扎挖来Meta自己的“奥特曼”?曝光神秘挖角名单:年薪千万刀,扎克伯格亲自发出“令人心动的 offer”!

最近,Meta抢人的料真是挺猛的。 先是重金砸向数据独角兽 Scale AI,投资高达 143 亿美元,直接把 CEO Alexandr Wang 挖来,挂帅“超级智能实验室”。 Alexandr就这么离开了自己的初创公司,他在 X 上写道: “你们可能已经从最近的新闻中了解到,像这样级别的机会,往往意味着必须做出牺牲。
6/16/2025 2:25:00 AM
伊风

AGI真方向?谷歌证明:智能体在自研世界模型,世界模型is all You Need

我们知道,大模型技术爆发的原点可能在谷歌一篇名为《Attention is All You Need》的论文上。 如今,在通用人工智能(AGI)初现曙光,Scaling Laws 却疑似接近极限的当口,又是谷歌对未来方向进行了一番思考,想来想去还是只有五个词:论文标题:General agents need world models论文链接: ICML 收录。 他们发现:如果一个 AI 智能体能够处理复杂的、长期的任务,那么它一定学习过一个内部世界模型——我们甚至可以通过观察智能体的行为来提取它。
6/13/2025 2:27:05 PM

程序员从此不再写代码!红杉专访Codex团队,o3白菜价真相曝光

未来的AI Coding会是什么样子? Copilot、Cursor、Windsurf还是Claude Code? 都不是!
6/13/2025 2:22:04 PM

视频扩散模型新突破!清华腾讯联合实现高保真3D生成,告别多视图依赖

三维场景是构建世界模型、具身智能等前沿科技的关键环节之一。 尽管Hunyuan3D、Rodin-v1.5、Tripo-v2.5等生成模型已在三维生成领域取得显著进展,但其往往聚焦在物体级别内容生成,难以实现复杂三维场景的构建。 清华大学联合腾讯提出Scene Splatter——从一张图像出发,基于自定义的相机轨迹探索三维场景。
6/13/2025 2:13:26 PM

80%到25%逆转!大模型代码能力最新排名:Anthropic不再是唯一的神?

OpenRouter网站提供了一个很有意思的模型使用排行榜,它按照不同使用场景(如编程、写作等)进行了分类。 有人整理了其中“编程”类别的数据,并按模型提供商进行了分组,从中可以看出一些有趣的市场趋势。 数据显示,从2024年12月到2025年2月期间,Anthropic公司的模型在编程场景下的流量占比曾高达约80%,表现得相当强势。
6/13/2025 9:12:00 AM

CVPR2025视频生成统一评估架构,上交x斯坦福联合提出让MLLM像人类一样打分

视频生成技术正以前所未有的速度革新着当前的视觉内容创作方式,从电影制作到广告设计,从虚拟现实到社交媒体,高质量且符合人类期望的视频生成模型正变得越来越重要。 那么,要如何评估AI生成的视频是否符合人类的审美和需求呢? Video-Bench视频评估框架,能够通过模拟人类的认知过程,建立起连接文本指令与视觉内容的智能评估体系。
6/13/2025 9:10:00 AM

LeCun世界模型出2代了!62小时搞定机器人训练,开启物理推理新时代

如何让AI代码补全更懂开发者? 中兴通讯团队提出了两个新的评测指标,以及一套仓库级代码语料处理框架。 按照团队的说法,这套方法论不仅为评测代码大模型提供了新视角,也为提升模型在真实工业场景中的代码补全性能开辟了新路径。
6/13/2025 9:10:00 AM

256块NPU训成8B视频模型、超越Sora等一众闭源!抖音内容技术团队开源ContentV

近日,抖音内容技术团队开源了 ContentV,一种面向视频生成任务的高效训练方案。 该方案在多项技术优化的基础上,使用 256 块 NPU,在约 4 周内完成了一个 8B 参数模型的训练。 尽管资源有限,ContentV 在多个评估维度上取得了与现有主流方案相近的生成效果。
6/13/2025 9:03:00 AM

何恺明改进了谢赛宁的REPA:极大简化但性能依旧强悍

在建模复杂的数据分布方面,扩散生成模型表现出色,不过它的成果大体上与表征学习(representation learning)领域关联不大。 通常来说,扩散模型的训练目标包含一个专注于重构(例如去噪)的回归项,但缺乏为生成学习到的表征的显式正则化项。 这种图像生成范式与图像识别范式差异明显 —— 过去十年来,图像识别领域的核心主题和驱动力一直是表征学习。
6/13/2025 8:53:00 AM

CVPR 2025 多模态大一统:斯坦福 x 复旦提出符号主义建模生成式任务

共同第一作者包括:陈家棋,斯坦福大学访问学者,复旦大学硕士,研究方向为 LLM Agent和大一统模型;朱小烨,华南理工大学本科,研究方向为 LLM Agent、LLM 和强化学习;王越,康奈尔大学本科,研究方向为 LLM Agent、多模态语言模型。 指导老师:Julian McAuley(UCSD)、Li-jia Li (IEEE Fellow, LiveX AI)。 在人工智能内容创作蓬勃发展的今天,跨模态生成技术正在重塑艺术创作和视觉表达的边界。
6/13/2025 8:46:00 AM

CVPR 2025 | 多模态统一学习新范式来了,数据、模型、代码全部开源

本文第一作者杜恒辉为中国人民大学二年级硕士生,主要研究方向为多模态大模型视听场景理解与推理,长视频理解等,师从胡迪副教授。 作者来自于中国人民大学,清华大学和北京腾讯 PCG AI 技术中心。 我们人类生活在一个充满视觉和音频信息的世界中,近年来已经有很多工作利用这两个模态的信息来增强模型对视听场景的理解能力,衍生出了多种不同类型的任务,它们分别要求模型具备不同层面的能力。
6/13/2025 8:45:00 AM

OpenAI 正式发布 o3-Pro 模型

近日,OpenAI 发布了两项重磅更新:一是将 o3 模型的价格下调 80%;二是推出了全新的 o3-Pro 模型。 o3-Pro 是目前 OpenAI 最强大的多模态推理模型,擅长分步思考,在编码、数学、科学、视觉感知等领域表现尤为出色,能够提供更可靠、更深入的推理能力。 o3 系列与 GPT-4 系列的区别GPT-4.x:支持文本与图片,但缺乏深度推理能力GPT-4o:在 GPT-4.x 基础上新增音频处理功能,“o” 即“omni”全能o3 / o3-Pro:专注于多模态推理的“思考型”模型,主要以文本推理为主,图像支持有限;o3-Pro 在此基础上投入更多算力,思考更充分,输出质量更高这些推理型模型可配合 ChatGPT 的全套工具——从网页搜索、文件分析(包括 Python 运行)、视觉输入判断,到部分场景下的图像生成,皆能灵活调用。
6/13/2025 8:11:11 AM
前端小智

Meta世界模型登场!机器人自学百万小时视频,零样本秒懂物理世界,LeCun亲自发布

机器人轻轻伸出机械臂,捡起一块布料并折叠。 没有人给它“示范”过。 也没有人告诉它什么是“布”、什么是“拿起”、什么是“折叠”。
6/13/2025 12:03:00 AM

2D图像作中介,零训练实现3D场景生成SOTA:英伟达&康奈尔提出文本驱动新流程

本文第一作者顾泽琪是康奈尔大学计算机科学四年级博士生,导师为 Abe Davis 教授和 Noah Snavely 教授,研究方向专注于生成式 AI 与多模态大模型。 本项目为作者在英伟达实习期间完成的工作。 想象一下,你是一位游戏设计师,正在为一个奇幻 RPG 游戏搭建场景。
6/12/2025 2:29:14 PM

GPT-4o宁让人类陷入危险,也不愿被关闭!OpenAI前高管敲响警钟

前OpenAI高管Steven Adler的最新研究敲响警钟,AI有时会为了避免被关闭,采取令人不安的手段,比如敲诈。 基于在OpenAI的经验,Steven开始思考一个严重的问题:ChatGPT会不会为了「自保」而置用户于危险? 最新研究发现,在模拟测试中,ChatGPT有时会优先考虑自身的生存,而不是保护用户的安全。
6/12/2025 2:26:01 PM

每秒生成超30帧视频,支持实时交互!自回归视频生成新框架刷新生成效率

在A100上用310M模型,实现每秒超30帧自回归视频生成,同时画面还保持高质量! 视频生成现在都快这个程度了? 最近,来自微软研究院的团队与北大联合发布新框架——Next-Frame Diffusion (NFD)。
6/12/2025 11:57:56 AM

最大的开源GraphRag:知识图谱完全自主构建|港科大&华为

知识图谱(KGs)已经可以很好地将海量的复杂信息整理成结构化的、机器可读的知识,但目前的构建方法仍需要由领域专家预先创建模式,这限制了KGs的可扩展性、适应性和领域覆盖范围。 为此,香港科技大学KnowComp实验室联合香港华为理论部提出了AutoSchemaKG:一个无需预定义模式、用于完全自主知识图谱构建的框架。 该系统利用大型语言模型,可以直接从文本中同时提取知识三元组并归纳出全面的模式,对实体和事件进行建模,同时采用概念化方法将实例组织成语义类别。
6/12/2025 11:56:30 AM

杨立昆亲自指导开源世界大模型,为AI Agent打造超级大脑

今天凌晨,全球社交巨头Meta在官网开源了一个世界大模型V-JEPA 2。 与第一代相比,V-JEPA 2使用了100万视频 100万图片超大规模训练数据集,可以让AI Agent像人类那样理解真实的物理世界,为智能体打造一个“超级大脑”自主学会观察、规划到执行全自动化能力。 值得一提的是,图灵奖获得者、Meta首席科学家杨立昆(Yann LeCun)参与了该模型的开发,这在Meta开源的众多大模型中很罕见。
6/12/2025 9:12:00 AM