模型
AI是「天才」还是「话术大师」?Anthropic颠覆性实验,终揭答案!
颠覆传统AI认知! Anthropic首席执行官Dario Amodei雄心勃勃,早已立下flag:在2027年前,大多数AI模型问题将被靠谱地检测。 但LLM的幻觉与生俱来,根深蒂固。
10/31/2025 9:00:00 AM
世界模型有了开源基座Emu3.5!拿下多模态SOTA,性能超越Nano Banana
最新最强的开源原生多模态世界模型——北京智源人工智能研究院(BAAI)的悟界·Emu3.5来炸场了。 图、文、视频任务一网打尽,不仅能画图改图,还能生成图文教程,视频任务更是增加了物理真实性。 先感受一下它的高精度操作:一句话消除手写痕迹。
10/31/2025 8:50:00 AM
Meta AI部门大地震!小扎急派心腹干将「救火」
Meta AI部门再现人事大地震! 刚刚,Meta传出重大人事调整:前元宇宙负责人Vishal Shah将转岗至Meta超级智能实验室,担任人工智能产品副总裁,并向Nat Friedman汇报。 这是Meta AI部门最新一次高管调整。
10/30/2025 4:05:42 PM
中科院联合清华等发布视觉语言行动推理模型VLA-R1,让机器人先思考再行动
还记得 DeepSeek R1吗? 它实现了大语言模型先思考再回答。 刚刚,中科院自动化所、清华和GigaAI联合发布视觉-语言-行动(Vision-Language-Action, VLA)模型的R1推理版本。
10/30/2025 4:04:35 PM
告别GPT!最强AI编程神器Cursor自研核心模型,速度快4倍,AI创业公司大佬:这是我用过最疯狂的模型之一!网友:性价比不俗
编辑 | 听雨出品 | 51CTO技术栈(微信号:blog51cto)这两天真是大事不断。 AI 编程工具 Cursor 背后的初创公司 Anysphere,在最新的 Cursor 2.0 更新中正式推出了首个自研大型语言模型 —— Composer。 Composer 是一款专为生产级环境设计的高性能编程模型,旨在让 AI 能更快、更精准地执行真实软件开发任务。
10/30/2025 2:22:54 PM
听雨
阿里新研究:统一了VLA和世界模型
如果说视觉让AI看见世界,动作让AI改变世界,那么——WorldVLA正在让AI理解世界。 顾名思义,WorldVLA是一个将视觉语言动作模型(VLA)与世界模型相融合的统一框架,由阿里巴巴达摩院、湖畔实验室和浙江大学共同提出。 在该框架下,世界模型通过结合对动作与图像的理解来预测未来图像,旨在学习环境的潜在物理规律,以提升动作生成的准确性;动作模型则基于图像观测生成后续动作,不仅有助于视觉理解,还反向促进世界模型的视觉生成能力。
10/30/2025 8:53:34 AM
对 GPT 5 模型路由机制的深度解析
我们今天为大家带来的文章,作者的观点是:GPT-5 通过引入“智能路由器”架构,实现了按需调用不同专家模型的动态协作机制,标志着大模型正从“全能单体架构”迈向“专业化协同架构”的新范式。 文章深入剖析了 GPT-5 路由机制的四大决策支柱 —— 对话类型、任务复杂度、工具需求与用户显性意图,并对比了其相较于 GPT-4、Toolformer 及早期插件系统的突破性进步。 作者还详细拆解了该架构的技术实现路径、核心优势(如响应速度提升、资源成本优化、可解释性)以及潜在挑战(如延迟叠加、路由误判、调试困难)。
10/30/2025 2:13:00 AM
Baihai IDP
单条演示即可抓取一切:北大团队突破通用抓取,适配所有灵巧手本体
在灵巧手通用抓取的研究中,由于动作空间维度高、任务具有长程探索特征且涉及多样化物体,传统强化学习(RL)面临探索效率低、奖励函数及训练过程设计复杂等挑战。 基于此,北京大学及BeingBeyond团队提出DemoGrasp框架——一种简单且高效的通用灵巧手抓取学习方法。 该方法以一次成功的抓取演示轨迹为起点,通过对轨迹中的机器人动作进行编辑,以适应不同物体与姿态:改变腕部位姿用于确定“抓取位置”,调整手指关节角度用于确定“抓取方式”。
10/29/2025 4:38:26 PM
OpenAI终于快要上市了,也直面了这23个灵魂拷问
OpenAI昨天晚上9点,公布了一个消息。 这个事,影响还蛮大的,基本代表着,OpenAI在开始准备上市了。 图片然后,奥特曼也非常临时的宣布了重组的消息,以及,北京时间凌晨1点半,开始直播。
10/29/2025 4:29:27 PM
数字生命卡兹克
史上最惨一代?AI延长人类寿命,下一代活到200岁不是梦!
OpenAI、谷歌、微软、Meta、Anthropic等耳熟能详的科技大厂,高喊AGI将至。 人类可能正在站在命运的分水岭:AI或许即将自我进化,带来智能爆炸与生命延长,也可能制造出人类无法理解的「黑箱语言」。 内容创业者Matt Wolfe长期以来一直关注人工智能,并曾有幸对多位重量级人物进行专访,包括DeepMind的创始人 诺奖得主Demis Hassabis、微软CEO纳德拉以及谷歌CEO劈柴等。
10/29/2025 4:27:33 PM
MetaAI解锁Transformer潜意识,仅额外3%计算开销,性能提升最高55%
Meta FAIR部门的研究员François Fleuret发布了一篇名为《The Free Transformer》的论文,提出了一种对现有解码器Transformer模型的精妙扩展。 这项技术的核心,是让模型在生成每个字之前,能先在内部形成一个类似计划或草稿的隐性决策,而不是像过去那样,只能边写边想。 实验证明,这种先计划,后执行的模式,在编程、数学和推理等任务上带来了显著的性能提升。
10/29/2025 4:20:57 PM
清华姚班团队,开源具身智能视觉语言动作(VLA)模型工具箱,打造行业通用技术底座
一群来自清华姚班、前旷视科技的核心人物,决定为具身智能领域建立一套通用准则,叫Dexbotic。 Dexbotic是基于PyTorch的视觉语言动作(Vision-Language-Action,VLA)模型工具箱。 目的是为具身智能领域的专业人士提供一站式VLA研究服务,由一家叫原力灵机(Dexmal)的具身智能公司开发。
10/29/2025 4:11:39 PM
美团杀入视频生成模型赛道,LongCat-Video 136亿参数媲美顶尖模型,效率提升10倍
又是美团! 美团最近在AI领域的开源动作,真是令人刮目相看。 刚刚,美团LongCat团队发布了LongCat-Video的基础视频生成模型,它拥有136亿的参数量,能在数分钟内生成720p、30帧每秒的高质量视频,并且在文本转视频、图像转视频和长视频续写等多个任务上都表现出色。
10/29/2025 4:10:41 PM
天下苦VAE久矣:阿里高德提出像素空间生成模型训练范式, 彻底告别VAE依赖
近年来,基于扩散模型的图像生成技术发展迅猛,催生了Stable Diffusion、Midjourney等一系列强大的文生图应用。 然而,当前主流的训练范式普遍依赖一个核心组件——变分自编码器(VAE),这也带来了长久以来困扰研究者们的几个问题:训练复杂性:VAE旨在将高维图像压缩至低维隐空间,并能从中重建图像。 但其训练过程需要在压缩率和重建质量之间取得精妙平衡,本身就极具挑战。
10/29/2025 4:06:10 PM
刚刚,最佳VLA模型GigaBrain-0开源:世界模型驱动10倍数据,真机碾压SOTA
近日,在湖北武汉东湖高新区,极佳视界与湖北人形机器人创新中心完成战略合作签约,并联合发布端到端VLA「具身基础模型」GigaBrain-0。 这是国内首个利用「世界模型」生成数据实现真机泛化的视觉-语言-动作(VLA)基础模型,旨在通过世界模型为中心,无论在数据侧还是模型侧,彻底改变通用机器人大脑的开发方式。 GigaBrain-0拥有当前最先进的VLA模型架构,同时支持图像、点云、文本、本体状态的输入,输出结构化的任务规划和运动规划,并在大规模的数据上完成预训练,可以实现更精准的移动导航和长序列的复杂操作。
10/29/2025 4:04:51 PM
推理时扰动高熵词,增强LLM性能
本文第一作者杨震,香港科技大学(广州)博士生,研究方向是多模态理解与生成等。 本文通讯作者陈颖聪,香港科技大学(广州)助理教授,主要研究课题包括生成模型、具身智能等。 随着对大语言模型的研究越来越深入,关于测试时间扩展 (test-time scaling) 的相关研究正迅速崭露头角。
10/29/2025 9:25:34 AM
高维时序预测的ImageNet时刻!首个高维时序预测基准发布,模型领跑多数据集SOTA
时间序列预测来到真正意义上的“高维赛场”! 从原来几百维的小数据集到万维系统,时序预测模型面对真实世界,终于不用再“一碰就脆”。 这是来自全华人团队最新研究——业界首个专为高维时间序列预测设计的大规模基准Time-HD。
10/29/2025 9:12:25 AM
超越英伟达Describe Anything!中科院 & 字节联合提出「GAR」,为DeepSeek-OCR添砖加瓦
近期,DeepSeek-OCR提出了“Vision as Context Compression”的新思路,然而它主要研究的是通过模型的OCR能力,用图片压缩文档。 那么自然图像是否也能作为文本的压缩呢? 中科院&字节联合提出的「Grasp Any Region」提供了新思路。
10/29/2025 9:09:46 AM
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
谷歌
AI绘画
大模型
机器人
数据
Midjourney
开源
AI新词
Meta
微软
智能
用户
GPT
学习
技术
智能体
马斯克
Gemini
Anthropic
图像
英伟达
AI创作
训练
LLM
论文
代码
算法
AI for Science
Agent
苹果
Claude
芯片
腾讯
Stable Diffusion
蛋白质
开发者
xAI
生成式
神经网络
机器学习
3D
RAG
具身智能
AI视频
人形机器人
研究
大语言模型
百度
生成
GPU
Sora
工具
华为
计算
字节跳动
AI设计
大型语言模型
AGI
搜索
视频生成
场景
生成式AI
深度学习
DeepMind
架构
AI模型
亚马逊
特斯拉
Transformer
编程
视觉
MCP
预测