模型
一张照片,一个3D「你」:计算所等提出HumanLift,实现高保真数字人重建
创建具有高度真实感的三维数字人,在三维影视制作、游戏开发以及虚拟/增强现实(VR/AR)等多个领域均有着广泛且重要的应用。 尽管现有技术在从多视角图片重建高质量、可动画化的三维人体模型任务中展现出诸多优势,但从单张参考图像重建真实感三维数字人,依旧面临技术复杂、资源消耗大的挑战。 如何兼顾三维一致性与参考图像一致性,重建出高质量、高真实感的人物外观与姿势,以及如何生成高真实度且细节一致的服饰、人脸等,都是亟待解决的难题。
10/22/2025 9:03:00 AM
文本已死,视觉当立!Karpathy狂赞DeepSeek新模型,终结分词器时代
DeepSeek再次让全世界大吃一惊! 他们最新成果DeepSeek-OCR,从根本上改变了游戏规则——文本并非通用的输入。 反而,视觉将取而代之!
10/22/2025 9:01:31 AM
Embedding黑箱成为历史!这个新框架让模型“先解释,再学Embedding”
让模型先解释,再学Embedding! 来自UIUC、ANU、港科大、UW、TAMU等多所高校的研究人员,最新推出可解释的生成式Embedding框架——GRACE。 过去几年,文本表征(Text Embedding)模型经历了从BERT到E5、GTE、LLM2Vec,Qwen-Embedding等不断演进的浪潮。
10/22/2025 8:39:31 AM
长序列推理不再卡顿!北大华为KV缓存管理框架实现4.7倍推理加速
北大华为联手推出KV cache管理新方式,推理速度比前SOTA提升4.7倍! 大模型处理长序列时,KV cache的内存占用随序列长度线性增长,已成为制约模型部署的严峻瓶颈。 为此,来自北京大学与华为的研究团队联合提出了LouisKV——一个专为长输入、长输出等各类长序列场景设计的高效KV cache 检索框架。
10/21/2025 12:31:13 PM
ChatGPT千亿tokens,干掉麦肯锡5000名顾问
全球顶级咨询公司麦肯锡,居然收到了OpenAI最近给Tokens消耗大客户颁发的奖牌。 麦肯锡自己还怪自豪的,第一时间就把奖牌po到了领英上。 等等,好像哪里不对……但凡过遍脑子,都能察觉出“这份荣耀”有点不对味——你花百万美金买PPT的麦肯锡,竟然是ChatGPT的大客户?
10/21/2025 12:29:37 PM
ChatGPT也遭殃,亚马逊服务器故障,半个互联网都崩了
亚马逊一声咳嗽,半个互联网都地震了。 由于亚马逊AWS服务器宕机,大量互联网服务被迫中断,ChatGPT也被殃及。 故障发生在美国东部us-east-1区域,是AWS全球服务最核心的一块。
10/21/2025 12:27:41 PM
科研狗狂喜!Claude新版神器一键跑完整套流程,告别996爆肝研究
科研狗的春天来了! 今天,Anthropic正式发布「Claude生命科学版」(Claude for Life Sciences)。 背后用的是,最强大的Claude Sonnet 4.5模型。
10/21/2025 9:04:15 AM
LLM记忆管理终于不用“手把手教”了,新框架让智能体自主管理记忆系统
不再依赖人工设计,让模型真正学会管理记忆。 来自来自加州大学圣地亚哥分校、斯坦福大学的研究人员提出了一个创新的强化学习框架——Mem-α,用于训练LLM智能体自主管理复杂的记忆系统。 在实际应用中,仅仅依靠prompts和instructions往往不足以覆盖所有场景:模型经常会遇到不知道如何更新记忆的情况,尤其是当记忆系统像MIRIX那样变得复杂时。
10/21/2025 8:53:00 AM
OpenAI也缺卡!僧多粥少,自曝内部抢卡抢到发疯
OpenAI正面临绝对的算力稀缺。 总裁Greg Brockman自曝内部算力资源争夺严重,已经到了用痛苦与煎熬来形容的程度。 说起来也不意外,现在AI领域但凡想搞点新东西,算力都是绕不开的坎儿。
10/21/2025 8:52:00 AM
1.58bit不输FP16!微软推出全新模型蒸馏框架,作者全是华人
1.58bit量化,内存仅需1/10,但表现不输FP16? 微软最新推出的蒸馏框架BitNet Distillation(简称BitDistill),实现了几乎无性能损失的模型量化。 该框架在4B及以下的Qwen、Gemma上已被证实有效,理论上可用于其他Transformer模型。
10/20/2025 5:15:35 PM
开源对机器人的价值,远超大模型时代的想象丨唐文斌深度对谈抱抱脸创始人
“很多模型在模拟器里完美运行,但一到现实就彻底失灵。 ”在最新一次线上对谈中,Dexmal联合创始人唐文斌与Hugging Face联合创始人Thomas Wolf指出了当前机器人研究的最大痛点。 唐文斌是旷视科技联合创始人兼CTO,原力灵机(Dexmal)CEO、清华大学“姚班”出身、首届“Yao Award”金牌得主。
10/20/2025 9:30:15 AM
GPT-5破解世纪难题,竟是上网抄来的!哈萨比斯:太尴尬了
OpenAI团队狂吹了一波GPT-5,结果竟是闹剧一场......事情是这样的。 几天前,OpenAI科学家Sebastien Bubeck激动转发,两位研究员联手GPT-5 Pro,仅用了一个周末,破解了10个「百年悬案」——埃尔德什难题(Erdos problems)紧接着,OpenAI科学副总裁Kevin Weil等人纷纷加入,大肆宣传。 然而,真相很快浮出水面:这十道难题,早就被学界解决,并非由GPT-5独立解决,它只是通过检索网络文献给出了答案。
10/20/2025 9:13:00 AM
浙大推出首个「多图应用题」基准GSM8K-V,全面评估 VLM数学推理能力
「小明买了3个苹果,每个5元,他付了20元,应该找回多少钱? 」这是典型的小学数学应用题。 但在日常生活中,我们更常遇到的是它的视觉版本:看到货架上的苹果标价牌,数出购物篮里的苹果数量,估算总价,再从收银员手中接过找零,快速判断对不对。
10/20/2025 9:12:00 AM
英伟达4段简短提示词,IOI夺金!开源模型也能征服最难编程竞赛
IOI(国际信息学奥林匹克)是全球中学生算法编程竞赛的最高殿堂,每年只有不到10%选手能拿到金牌。 比赛要求选手在两天内各5小时独立解决3道高难度算法题,全程断网、不能借助外部资料,每题最多允许50次提交尝试。 要拿金牌,既要有过硬的算法思维,又得策略得当、在有限提交内调优代码。
10/20/2025 9:10:00 AM
超越纯视觉模型!不改VLM标准架构,实现像素级深度预测
在当前多模态AI发展浪潮中,视觉语言模型(Vision Language Models, VLMs)因其能通过「看图 文字交互」处理多样任务而备受关注。 然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。 相比之下,纯视觉模型(pure vision models)在 绝对深度估计(metric depth estimation) 等三维理解任务上,凭借专门设计的网络结构与损失函数,早已达到了超越人类的精度。
10/20/2025 9:09:00 AM
长上下文窗口、Agent崛起,RAG已死?
在技术飞速更新迭代的今天,每隔一段时间就会出现「XX 已死」的论调。 「搜索已死」、「Prompt 已死」的余音未散,如今矛头又直指 RAG。 向量数据库 Chroma 创始人兼 CEO Jeff Huber 在播客与访谈中抛出「RAG 已死,上下文工程当立」的表述,主张以上下文工程框架取代对「RAG」这一术语的狭义依赖。
10/20/2025 9:06:00 AM
教多模态大模型学会“反思”和“复盘”,上交&上海AI Lab重磅发布MM-HELIX&AHPO,破解多模态复杂推理难题
多模态大模型表现越来越惊艳,但人们也时常困于它的“耿直”。 无论是生成代码、分析图表还是回答问题,诸多多模态大模型(MLLM)都倾向于给出一个“一步到位”的答案。 它们就像一个从不检查作业的“学霸”,虽然知识渊博,但一旦在复杂的、需要反复试错的问题上走错一步,就很难回头。
10/20/2025 9:02:00 AM
让模型“看视频写网页”,GPT-5仅得36.35分!上海AI Lab联合发布首个video2code基准
多模态大模型在根据静态截图生成网页代码(Image-to-Code)方面已展现出不俗能力,这让许多人对AI自动化前端开发充满期待。 然而,一个网页的真正价值远不止于其静态布局。 用户的点击、筛选、表单提交,乃至游戏中的每一步操作,都构成了其核心的交互功能。
10/20/2025 9:01:00 AM
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
谷歌
AI绘画
大模型
机器人
数据
Midjourney
开源
AI新词
Meta
微软
智能
用户
GPT
学习
技术
智能体
马斯克
Gemini
Anthropic
图像
英伟达
AI创作
训练
LLM
论文
代码
算法
AI for Science
Agent
苹果
Claude
芯片
腾讯
Stable Diffusion
蛋白质
开发者
xAI
生成式
神经网络
机器学习
3D
RAG
具身智能
AI视频
人形机器人
研究
大语言模型
百度
生成
GPU
Sora
工具
华为
计算
字节跳动
AI设计
大型语言模型
AGI
搜索
视频生成
场景
生成式AI
深度学习
DeepMind
架构
AI模型
亚马逊
特斯拉
Transformer
编程
视觉
MCP
预测