AI在线 AI在线

模型

首次!世界模型、动作模型融合,全自回归模型WorldVLA来了

岑俊,阿里巴巴达摩院具身智能大模型算法研究员,博士毕业于香港科技大学。 研究方向主要是:具身智能 VLA 模型,世界模型。 阿里巴巴达摩院提出了 WorldVLA, 首次将世界模型 (World Model) 和动作模型 (Action Model/VLA Model) 融合到了一个模型中。
7/4/2025 9:07:00 AM

本地LLM万字救场指南来了!全网超全AI实测:4卡狂飙70B大模型

今年上半年,随着DeepSeek R1的发布,国内大模型的应用迎来井喷式的发展,各种大模型的信息满天飞,连普通消费者都多多少少被大模型一体机给安利了,特别是满血版的DeepSeek 671B。 然而理性地来讲,671B模型的部署成本动辄百万起步,远超一般企业的IT预算。 同时,我们对大模型的使用与功能挖掘还停留在初期阶段,特别是在后千模大战的时代,32B/70B等中档模型已经可以满足许多企业的需求。
7/4/2025 9:06:00 AM

图灵奖大佬向97年小孩哥汇报?小扎1亿年薪买新贵,老将痛诉熬夜捡GPU!

起猛了,看到LeCun给Alexandr Wang汇报了! 一个是图灵三巨头、多年学术泰斗,一个是靠着数据标注成功晋身亿万富翁的97年小孩哥,这个画面,实在是过于魔幻了。 为了Wang,小扎砸下了足足143亿美元,拿下整个Scale AI 49%股权。
7/4/2025 9:06:00 AM

登上热搜!Prompt不再是AI重点,新热点是Context Engineering

最近「上下文工程」有多火? Andrej Karpathy 为其打 Call,Phil Schmid 介绍上下文工程的文章成为 Hacker News 榜首,还登上了知乎热搜榜。 之前我们介绍了上下文工程的基本概念,今天我们来聊聊实操。
7/4/2025 9:05:00 AM

vivo突破手机AI部署难题,绕开MoE架构限制,骁龙8 Elite流畅运行|ICCV 2025

在AI迈入多模态时代的当下,“让大模型上手机”成为产业落地的焦点。 现有MLLM在手机端部署时常面临两大难题:1、纯语言任务性能下降:现有的端侧MLLM在纯文本的任务上表现不尽人意;2、手机NPU不支持MoE架构:而MoE架构恰恰是多模态训练中保持语言能力的常用手段(比如CogVLM,Wings)。 vivo AI研究院联合港中文以及上交团队为了攻克这些难题,从训练数据和模型结构两方面,系统性地分析了如何在MLLM训练中维持纯语言能力,并基于此提出了GenieBlue——专为移动端手机NPU设计的高效MLLM结构方案。
7/4/2025 9:00:00 AM

推理AI致命弱点,大模型变「杠精」!被带偏后死不悔改

20世纪初,据说存在一匹会算数的马,被称为「聪明的汉斯」,但经过心理学家冯斯特的研究,最终发现这匹马其实是通过观察提问者无意识的肢体语言(如呼吸变化)来停止踩蹄,并非真正理解数学。 如今,我们发现,大模型会呈现出推理行为,甚至还存在Aha时刻这样的「顿悟现象」。 这会不会是大模型表现的如同「聪明的汉斯」那样,依赖提示词中的表面模式,而非真正具有了推理能力,DeepMind的最新研究揭示了大模型推理能力令人担忧的一面。
7/4/2025 8:49:00 AM

Gemini负责人爆料!多模态统一token表示,视觉至关重要

一次性揭秘Gemini多模态技术! 就在刚刚,Gemini模型行为产品负责人Ani Baddepudi在谷歌自家的开发者频道开启了爆料模式。 他和OpenAI前员工、现谷歌AI Studio产品负责人(Logan Kilpatrick,右)探讨了诸多众人好奇已久的问题:为啥Gemini一开始就被设计为原生多模态?
7/4/2025 8:43:00 AM

谷歌 Veo 3 AI 文生视频模型正式向 Pro / Ultra 会员开放,后续将新增“照片生成视频”功能

谷歌Veo 3 AI文生视频模型已向Pro/Ultra会员开放,Pro会员每天限生成3段视频。照片生成视频功能即将上线,但使用门槛仍较高,需订阅Pro会籍(每月20美元)。#AI视频生成# #谷歌Veo3#
7/4/2025 7:57:13 AM
漾仔

GitHub一周2000星!国产统一图像生成模型神器升级,理解质量双up,还学会了“反思”

国产开源统一图像生成模型,技术重大升级! 新进展来自智源研究院:一模支持文生图、图像编辑、主题驱动图像生成的OmniGen,2.0新版本正式发布。 具体来说,OmniGen2在保持简洁架构的基础上,显著增强了上下文理解能力、指令遵循能力和图像生成质量。
7/3/2025 3:01:26 PM

RL缩放王炸!DeepSWE开源AI Agent登顶榜首,训练方法、权重大公开

今天凌晨,著名大模型训练平台Together.ai联合Agentica开源了创新AI Agent框架DeepSWE。 DeepSWE是基于阿里最新开源的Qwen3-32B模型之上,完全使用强化学习训练而成。 除了权重之外,训练方法、日志、数据集等所有内容也全部开源,以帮助开发人员深度学习和改进Agent。
7/3/2025 2:58:16 PM

DeepSeek-R2!?神秘模型惊现竞技场,真实身份引网友猜测

DeepSeek-R2,终于要来了? 大模型竞技场秘密上线了一个叫steve的神秘模型,在对话中透露自己来自DeepSeek。 不过,网友们并不满足于知道steve的厂商,开始讨论起了steve的具体身份。
7/3/2025 2:57:51 PM

一份假简历领5份硅谷AI工资,印度老哥真是不得了

离谱!  一群AI初创公司竟然集体控诉:我们被一个印度老哥骗了。 这个名叫Soham Parekh的人,在隐瞒真实情况下进行远程兼职,最多一次打了五份工。
7/3/2025 2:56:12 PM

超CLIP准确率11%!伯克利港大阐明「LLM文本-视觉」对齐深层机制

多模态对齐模型近年来凭借对比学习范式在图像检索、文生图等任务中表现出色。 然而,主流框架(如 CLIP)需要从零训练文本和图像编码器,导致计算成本高昂,尤其在处理长文本或大规模数据时更加明显。 近期,相关工作尝试将预训练的大语言模型(LLM)作为文本编码器融入多模态对齐框架,并在分类和检索任务上观察到性能提升。
7/3/2025 9:49:43 AM

ChatGPT惨败Llama!MIT官宣AI开飞船0%失败率,马斯克火星殖民不再是梦

刚刚,一项最新关于AI「驾驶」宇宙飞船的研究刚发布就火了! 在由Kerbal Space Program衍生的航天挑战赛中,MIT等研究团队让ChatGPT作为「主控」智能体,竟然一举夺得第二名。 这项比赛被视为太空探索自主化的重要实验场,而AI的表现,也预示着「AI开飞船」或许比我们想象的更近!
7/3/2025 9:46:37 AM

周志华团队新作:LLM中存在奖励模型,首次理论证明RL对LLM有效性

将大语言模型(LLMs)与复杂的人类价值观对齐,仍然是 AI 面临的一个核心挑战。 当前主要的方法是基于人类反馈的强化学习(RLHF)。 该流程依赖于一个通过人类偏好训练的奖励模型来对模型输出进行评分,最终对齐后的 LLM 的质量在根本上取决于该奖励模型的质量。
7/3/2025 9:41:27 AM

AI Agent、传统聊天机器人有何区别?如何评测?这篇30页综述讲明白了

论文作者包括来自上海交通大学的朱家琛、芮仁婷、单榕、郑琮珉、西云佳、林江浩、刘卫文、俞勇、张伟楠,以及华为诺亚研究所的朱梦辉、陈渤、唐睿明。 本文第一作者是朱家琛,上海交通大学博士生,主要研究兴趣集中在大模型推理,个性化 Agent。 本文通讯作者是张伟楠,上海交通大学教授,研究方向包含强化学习、数据科学、机器人控制、推荐搜索等。
7/3/2025 9:38:48 AM

刚刚,神秘模型火了!网友:是OpenAI要开源?

刚刚,OpenRouter 上出现了一个神秘模型,该模型被命名为「Cypher Alpha」。 其可以免费使用,100 万 token 上下文,还具有推理能力。 注:OpenRouter 是一个大模型 API 路由器,旨在将各种 AI 模型和服务集成到一个统一的接口中。
7/3/2025 9:31:52 AM

让GUI智能体不再「过度执行」,上海交大、Meta联合发布OS-Kairos系统

本文第一作者是上海交通大学计算机学院三年级博士生程彭洲,研究方向为多模态大模型推理、AI Agent、Agent 安全等。 通讯作者为张倬胜助理教授和刘功申教授。 一、论文概述1.1 研究背景随着多模态大语言模型(Multimodal Large Language Models, MLLMs)的快速发展,越来越多的研究聚焦于构建能够在图形用户界面(GUI)中执行复杂任务的智能体。
7/3/2025 9:27:57 AM