AI在线 AI在线

模型

一张照片,一个3D「你」:计算所等提出HumanLift,实现高保真数字人重建

创建具有高度真实感的三维数字人,在三维影视制作、游戏开发以及虚拟/增强现实(VR/AR)等多个领域均有着广泛且重要的应用。 尽管现有技术在从多视角图片重建高质量、可动画化的三维人体模型任务中展现出诸多优势,但从单张参考图像重建真实感三维数字人,依旧面临技术复杂、资源消耗大的挑战。 如何兼顾三维一致性与参考图像一致性,重建出高质量、高真实感的人物外观与姿势,以及如何生成高真实度且细节一致的服饰、人脸等,都是亟待解决的难题。
10/22/2025 9:03:00 AM

文本已死,视觉当立!Karpathy狂赞DeepSeek新模型,终结分词器时代

DeepSeek再次让全世界大吃一惊! 他们最新成果DeepSeek-OCR,从根本上改变了游戏规则——文本并非通用的输入。 反而,视觉将取而代之!
10/22/2025 9:01:31 AM

Embedding黑箱成为历史!这个新框架让模型“先解释,再学Embedding”

让模型先解释,再学Embedding! 来自UIUC、ANU、港科大、UW、TAMU等多所高校的研究人员,最新推出可解释的生成式Embedding框架——GRACE。 过去几年,文本表征(Text Embedding)模型经历了从BERT到E5、GTE、LLM2Vec,Qwen-Embedding等不断演进的浪潮。
10/22/2025 8:39:31 AM

长序列推理不再卡顿!北大华为KV缓存管理框架实现4.7倍推理加速

北大华为联手推出KV cache管理新方式,推理速度比前SOTA提升4.7倍! 大模型处理长序列时,KV cache的内存占用随序列长度线性增长,已成为制约模型部署的严峻瓶颈。 为此,来自北京大学与华为的研究团队联合提出了LouisKV——一个专为长输入、长输出等各类长序列场景设计的高效KV cache 检索框架。
10/21/2025 12:31:13 PM

ChatGPT千亿tokens,干掉麦肯锡5000名顾问

全球顶级咨询公司麦肯锡,居然收到了OpenAI最近给Tokens消耗大客户颁发的奖牌。 麦肯锡自己还怪自豪的,第一时间就把奖牌po到了领英上。 等等,好像哪里不对……但凡过遍脑子,都能察觉出“这份荣耀”有点不对味——你花百万美金买PPT的麦肯锡,竟然是ChatGPT的大客户?
10/21/2025 12:29:37 PM

ChatGPT也遭殃,亚马逊服务器故障,半个互联网都崩了

亚马逊一声咳嗽,半个互联网都地震了。 由于亚马逊AWS服务器宕机,大量互联网服务被迫中断,ChatGPT也被殃及。 故障发生在美国东部us-east-1区域,是AWS全球服务最核心的一块。
10/21/2025 12:27:41 PM

科研狗狂喜!Claude新版神器一键跑完整套流程,告别996爆肝研究

科研狗的春天来了! 今天,Anthropic正式发布「Claude生命科学版」(Claude for Life Sciences)。 背后用的是,最强大的Claude Sonnet 4.5模型。
10/21/2025 9:04:15 AM

LLM记忆管理终于不用“手把手教”了,新框架让智能体自主管理记忆系统

不再依赖人工设计,让模型真正学会管理记忆。 来自来自加州大学圣地亚哥分校、斯坦福大学的研究人员提出了一个创新的强化学习框架——Mem-α,用于训练LLM智能体自主管理复杂的记忆系统。 在实际应用中,仅仅依靠prompts和instructions往往不足以覆盖所有场景:模型经常会遇到不知道如何更新记忆的情况,尤其是当记忆系统像MIRIX那样变得复杂时。
10/21/2025 8:53:00 AM

OpenAI也缺卡!僧多粥少,自曝内部抢卡抢到发疯

OpenAI正面临绝对的算力稀缺。 总裁Greg Brockman自曝内部算力资源争夺严重,已经到了用痛苦与煎熬来形容的程度。 说起来也不意外,现在AI领域但凡想搞点新东西,算力都是绕不开的坎儿。
10/21/2025 8:52:00 AM

1.58bit不输FP16!微软推出全新模型蒸馏框架,作者全是华人

1.58bit量化,内存仅需1/10,但表现不输FP16? 微软最新推出的蒸馏框架BitNet Distillation(简称BitDistill),实现了几乎无性能损失的模型量化。 该框架在4B及以下的Qwen、Gemma上已被证实有效,理论上可用于其他Transformer模型。
10/20/2025 5:15:35 PM

开源对机器人的价值,远超大模型时代的想象丨唐文斌深度对谈抱抱脸创始人

“很多模型在模拟器里完美运行,但一到现实就彻底失灵。 ”在最新一次线上对谈中,Dexmal联合创始人唐文斌与Hugging Face联合创始人Thomas Wolf指出了当前机器人研究的最大痛点。 唐文斌是旷视科技联合创始人兼CTO,原力灵机(Dexmal)CEO、清华大学“姚班”出身、首届“Yao Award”金牌得主。
10/20/2025 9:30:15 AM

GPT-5破解世纪难题,竟是上网抄来的!哈萨比斯:太尴尬了

OpenAI团队狂吹了一波GPT-5,结果竟是闹剧一场......事情是这样的。 几天前,OpenAI科学家Sebastien Bubeck激动转发,两位研究员联手GPT-5 Pro,仅用了一个周末,破解了10个「百年悬案」——埃尔德什难题(Erdos problems)紧接着,OpenAI科学副总裁Kevin Weil等人纷纷加入,大肆宣传。 然而,真相很快浮出水面:这十道难题,早就被学界解决,并非由GPT-5独立解决,它只是通过检索网络文献给出了答案。
10/20/2025 9:13:00 AM

浙大推出首个「多图应用题」基准GSM8K-V,全面评估 VLM数学推理能力

「小明买了3个苹果,每个5元,他付了20元,应该找回多少钱? 」这是典型的小学数学应用题。 但在日常生活中,我们更常遇到的是它的视觉版本:看到货架上的苹果标价牌,数出购物篮里的苹果数量,估算总价,再从收银员手中接过找零,快速判断对不对。
10/20/2025 9:12:00 AM

英伟达4段简短提示词,IOI夺金!开源模型也能征服最难编程竞赛

IOI(国际信息学奥林匹克)是全球中学生算法编程竞赛的最高殿堂,每年只有不到10%选手能拿到金牌。 比赛要求选手在两天内各5小时独立解决3道高难度算法题,全程断网、不能借助外部资料,每题最多允许50次提交尝试。 要拿金牌,既要有过硬的算法思维,又得策略得当、在有限提交内调优代码。
10/20/2025 9:10:00 AM

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

在当前多模态AI发展浪潮中,视觉语言模型(Vision Language Models, VLMs)因其能通过「看图 文字交互」处理多样任务而备受关注。 然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。 相比之下,纯视觉模型(pure vision models)在 绝对深度估计(metric depth estimation) 等三维理解任务上,凭借专门设计的网络结构与损失函数,早已达到了超越人类的精度。
10/20/2025 9:09:00 AM

长上下文窗口、Agent崛起,RAG已死?

在技术飞速更新迭代的今天,每隔一段时间就会出现「XX 已死」的论调。 「搜索已死」、「Prompt 已死」的余音未散,如今矛头又直指 RAG。 向量数据库 Chroma 创始人兼 CEO Jeff Huber 在播客与访谈中抛出「RAG 已死,上下文工程当立」的表述,主张以上下文工程框架取代对「RAG」这一术语的狭义依赖。
10/20/2025 9:06:00 AM

教多模态大模型学会“反思”和“复盘”,上交&上海AI Lab重磅发布MM-HELIX&AHPO,破解多模态复杂推理难题

多模态大模型表现越来越惊艳,但人们也时常困于它的“耿直”。 无论是生成代码、分析图表还是回答问题,诸多多模态大模型(MLLM)都倾向于给出一个“一步到位”的答案。 它们就像一个从不检查作业的“学霸”,虽然知识渊博,但一旦在复杂的、需要反复试错的问题上走错一步,就很难回头。
10/20/2025 9:02:00 AM

让模型“看视频写网页”,GPT-5仅得36.35分!上海AI Lab联合发布首个video2code基准

多模态大模型在根据静态截图生成网页代码(Image-to-Code)方面已展现出不俗能力,这让许多人对AI自动化前端开发充满期待。 然而,一个网页的真正价值远不止于其静态布局。 用户的点击、筛选、表单提交,乃至游戏中的每一步操作,都构成了其核心的交互功能。
10/20/2025 9:01:00 AM