模型
向黄仁勋汇报的英伟达36人
市值第一巨头英伟达里,都有谁可以直接向CEO黄仁勋汇报? 36人。 这是最新被曝光的数字。
Sora天才辍学生归来!OpenAI组建三人神秘小队,豪赌超级人工智能
Sora背后的核心贡献者之一,这位00后的天才辍学生Will Depue,准备再次搞个大事情。 刚刚,他宣布下一个目标是,超级人工智能ASI! 在结束一段长期休息后,Will Depue宣布他再次回到OpenAI。
颤抖吧,Bug!OpenAI放出GPT-5「夜行神兽」,命中92%漏洞
刚刚,OpenAI推出了使用GPT-5寻找和修复安全漏洞的智能体Aardvark。 目前,Aardvark还处于beta测试阶段。 OpenAI称,Aardvark开创了「防御者优先」的新范式:作为自主安全研究智能体,随代码不断演化,为团队提供持续保护(continuous protection)。
OpenAI首个GPT-5找Bug智能体:全自动读代码找漏洞写修复
AI Coding火了大半年,AI Debugging也来了! 刚刚,OpenAI发布由GPT-5驱动的“白帽”Agent——Aardvark(土豚)。 这只“AI安全研究员”能帮助开发者和安全团队,在大规模代码库中自动发现并修复安全漏洞。
AI是「天才」还是「话术大师」?Anthropic颠覆性实验,终揭答案!
颠覆传统AI认知! Anthropic首席执行官Dario Amodei雄心勃勃,早已立下flag:在2027年前,大多数AI模型问题将被靠谱地检测。 但LLM的幻觉与生俱来,根深蒂固。
世界模型有了开源基座Emu3.5!拿下多模态SOTA,性能超越Nano Banana
最新最强的开源原生多模态世界模型——北京智源人工智能研究院(BAAI)的悟界·Emu3.5来炸场了。 图、文、视频任务一网打尽,不仅能画图改图,还能生成图文教程,视频任务更是增加了物理真实性。 先感受一下它的高精度操作:一句话消除手写痕迹。
Meta AI部门大地震!小扎急派心腹干将「救火」
Meta AI部门再现人事大地震! 刚刚,Meta传出重大人事调整:前元宇宙负责人Vishal Shah将转岗至Meta超级智能实验室,担任人工智能产品副总裁,并向Nat Friedman汇报。 这是Meta AI部门最新一次高管调整。
中科院联合清华等发布视觉语言行动推理模型VLA-R1,让机器人先思考再行动
还记得 DeepSeek R1吗? 它实现了大语言模型先思考再回答。 刚刚,中科院自动化所、清华和GigaAI联合发布视觉-语言-行动(Vision-Language-Action, VLA)模型的R1推理版本。
告别GPT!最强AI编程神器Cursor自研核心模型,速度快4倍,AI创业公司大佬:这是我用过最疯狂的模型之一!网友:性价比不俗
编辑 | 听雨出品 | 51CTO技术栈(微信号:blog51cto)这两天真是大事不断。 AI 编程工具 Cursor 背后的初创公司 Anysphere,在最新的 Cursor 2.0 更新中正式推出了首个自研大型语言模型 —— Composer。 Composer 是一款专为生产级环境设计的高性能编程模型,旨在让 AI 能更快、更精准地执行真实软件开发任务。
阿里新研究:统一了VLA和世界模型
如果说视觉让AI看见世界,动作让AI改变世界,那么——WorldVLA正在让AI理解世界。 顾名思义,WorldVLA是一个将视觉语言动作模型(VLA)与世界模型相融合的统一框架,由阿里巴巴达摩院、湖畔实验室和浙江大学共同提出。 在该框架下,世界模型通过结合对动作与图像的理解来预测未来图像,旨在学习环境的潜在物理规律,以提升动作生成的准确性;动作模型则基于图像观测生成后续动作,不仅有助于视觉理解,还反向促进世界模型的视觉生成能力。
对 GPT 5 模型路由机制的深度解析
我们今天为大家带来的文章,作者的观点是:GPT-5 通过引入“智能路由器”架构,实现了按需调用不同专家模型的动态协作机制,标志着大模型正从“全能单体架构”迈向“专业化协同架构”的新范式。 文章深入剖析了 GPT-5 路由机制的四大决策支柱 —— 对话类型、任务复杂度、工具需求与用户显性意图,并对比了其相较于 GPT-4、Toolformer 及早期插件系统的突破性进步。 作者还详细拆解了该架构的技术实现路径、核心优势(如响应速度提升、资源成本优化、可解释性)以及潜在挑战(如延迟叠加、路由误判、调试困难)。
单条演示即可抓取一切:北大团队突破通用抓取,适配所有灵巧手本体
在灵巧手通用抓取的研究中,由于动作空间维度高、任务具有长程探索特征且涉及多样化物体,传统强化学习(RL)面临探索效率低、奖励函数及训练过程设计复杂等挑战。 基于此,北京大学及BeingBeyond团队提出DemoGrasp框架——一种简单且高效的通用灵巧手抓取学习方法。 该方法以一次成功的抓取演示轨迹为起点,通过对轨迹中的机器人动作进行编辑,以适应不同物体与姿态:改变腕部位姿用于确定“抓取位置”,调整手指关节角度用于确定“抓取方式”。
OpenAI终于快要上市了,也直面了这23个灵魂拷问
OpenAI昨天晚上9点,公布了一个消息。 这个事,影响还蛮大的,基本代表着,OpenAI在开始准备上市了。 图片然后,奥特曼也非常临时的宣布了重组的消息,以及,北京时间凌晨1点半,开始直播。
史上最惨一代?AI延长人类寿命,下一代活到200岁不是梦!
OpenAI、谷歌、微软、Meta、Anthropic等耳熟能详的科技大厂,高喊AGI将至。 人类可能正在站在命运的分水岭:AI或许即将自我进化,带来智能爆炸与生命延长,也可能制造出人类无法理解的「黑箱语言」。 内容创业者Matt Wolfe长期以来一直关注人工智能,并曾有幸对多位重量级人物进行专访,包括DeepMind的创始人 诺奖得主Demis Hassabis、微软CEO纳德拉以及谷歌CEO劈柴等。
MetaAI解锁Transformer潜意识,仅额外3%计算开销,性能提升最高55%
Meta FAIR部门的研究员François Fleuret发布了一篇名为《The Free Transformer》的论文,提出了一种对现有解码器Transformer模型的精妙扩展。 这项技术的核心,是让模型在生成每个字之前,能先在内部形成一个类似计划或草稿的隐性决策,而不是像过去那样,只能边写边想。 实验证明,这种先计划,后执行的模式,在编程、数学和推理等任务上带来了显著的性能提升。
清华姚班团队,开源具身智能视觉语言动作(VLA)模型工具箱,打造行业通用技术底座
一群来自清华姚班、前旷视科技的核心人物,决定为具身智能领域建立一套通用准则,叫Dexbotic。 Dexbotic是基于PyTorch的视觉语言动作(Vision-Language-Action,VLA)模型工具箱。 目的是为具身智能领域的专业人士提供一站式VLA研究服务,由一家叫原力灵机(Dexmal)的具身智能公司开发。
美团杀入视频生成模型赛道,LongCat-Video 136亿参数媲美顶尖模型,效率提升10倍
又是美团! 美团最近在AI领域的开源动作,真是令人刮目相看。 刚刚,美团LongCat团队发布了LongCat-Video的基础视频生成模型,它拥有136亿的参数量,能在数分钟内生成720p、30帧每秒的高质量视频,并且在文本转视频、图像转视频和长视频续写等多个任务上都表现出色。
天下苦VAE久矣:阿里高德提出像素空间生成模型训练范式, 彻底告别VAE依赖
近年来,基于扩散模型的图像生成技术发展迅猛,催生了Stable Diffusion、Midjourney等一系列强大的文生图应用。 然而,当前主流的训练范式普遍依赖一个核心组件——变分自编码器(VAE),这也带来了长久以来困扰研究者们的几个问题:训练复杂性:VAE旨在将高维图像压缩至低维隐空间,并能从中重建图像。 但其训练过程需要在压缩率和重建质量之间取得精妙平衡,本身就极具挑战。
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
谷歌
DeepSeek
AI绘画
AI新词
大模型
机器人
数据
Midjourney
开源
Meta
微软
智能
用户
GPT
学习
智能体
技术
Gemini
英伟达
马斯克
Anthropic
图像
AI创作
训练
LLM
论文
代码
AI for Science
苹果
腾讯
算法
Agent
Claude
芯片
Stable Diffusion
具身智能
xAI
蛋白质
开发者
人形机器人
生成式
神经网络
机器学习
AI视频
3D
RAG
大语言模型
字节跳动
Sora
百度
研究
GPU
生成
工具
华为
AGI
计算
AI设计
生成式AI
大型语言模型
搜索
视频生成
亚马逊
特斯拉
AI模型
DeepMind
场景
深度学习
Copilot
Transformer
架构
MCP
编程
视觉