AI在线 AI在线

模型

一图胜千言被实现了!DeepSeek-OCR用图片压缩文本,10倍压缩率

DeepSeek开源了DeepSeek-OCR,用1张图片的信息,还原10页书的文字,10倍的压缩率,可以做到几乎不丢失信息。 视觉编码器走了不少弯路大型语言模型记性不好,或者说,能记住的东西太有限。 你给它一篇长长的文章,它的计算量呈二次方往上飙。
10/24/2025 12:19:18 PM

斯坦福与Adobe新研究,模仿蒸馏技术轻松让200亿参数图像生成高质量大模型

高质量图像生成又加速了! 斯坦福大学和 Adobe 研究院联手,用 pi-Flow(基于策略的流模型)技术,让 200 亿参数的文本到图像大模型,在 4 步之内就生成了媲美教师模型的高质量、高多样性图片。 让图像生成模型少走几步所有玩过 AI 绘画的人都有一个共同的体验,未蒸馏的原版大模型,点击生成,看着进度条一点点爬升,从一个模糊的噪声,慢慢变得清晰。
10/24/2025 12:17:22 PM

Meta打碎Transformer 8年铁律!改写AI最底层规则,模型首次冒出潜意识

Transformer可以说整个LLM的基石,但这个基石要松动了! 8年了! 持续了8年的Transformer底层架构似乎要被Meta打破了。
10/24/2025 10:10:22 AM

田渊栋被裁后新offer排到法国!原来Llama 4.5训完后被卸磨杀驴了

硅谷真是干啥都迅猛啊! 裁员也是……量子位刚刚从Meta一线获悉,田渊栋前脚刚发了推文说自己被裁,后脚就被解除了公司内部各种权限——嘿,亚历山大王的刀,就是这么快。 这也是这次裁员中最具争议的地方,“在Meta工作已超过十年的田渊栋和他的组员,整组被一锅端了”,这是为什么?
10/24/2025 9:31:42 AM

AI是否足够的中立?宾夕法尼亚大学发现AI训练数据中的隐形偏见

Media Psychology》上的新研究发现,人工智能训练数据里的种族偏见,即便明晃晃地摆在眼前,我们大多数人也根本看不出来。 宾夕法尼亚州立大学和俄勒冈州立大学的研究人员发表了一项研究,直接戳破了我们对自身洞察力的幻想。 这项研究的核心发现:普通用户无法注意到AI训练数据中的偏见,特别是当偏见将某个种族与某种特定情绪(比如快乐或悲伤)悄悄绑定时。
10/24/2025 8:55:40 AM

现在,最会赚钱的AI是Qwen3!全球六大模型厮杀,Top 2来自中国

Qwen3 Max,一骑绝尘! 就在刚刚,大模型「炒股」大赛,迎来新晋王者。 阿里的Qwen3 Max凭借谋略一跃而上,超越此前冠军DeepSeek,首次登上「最会赚钱」模型的宝座。
10/24/2025 8:39:41 AM

无VAE扩散模型! 清华&可灵团队「撞车」谢赛宁团队「RAE」

长期以来,扩散模型的训练通常依赖由变分自编码器(VAE)构建的低维潜空间表示。 然而,VAE 的潜空间表征能力有限,难以有效支撑感知理解等核心视觉任务,同时「VAE Diffusion」的范式在训练与推理效率上也存在显著瓶颈。 清华大学智能视觉团队和快手可灵团队联合推出《Latent Diffusion Model without Variational Autoencoder》与近期爆火的谢赛宁团队 RAE 工作不谋而合,但在总体设计思路与研究重点上有所差异。
10/23/2025 4:56:40 PM

仅100种子题,合成数据质量超GPT-5,阿里、上交提出Socratic-Zero框架

本文(共同)第一作者为王少博(上交 AI)、焦政博(上财)。 (共同)通讯作者为魏虎(阿里巴巴)和张林峰(上交 AI)。 本文其他作者来自阿里巴巴、武大、浙大等。
10/23/2025 4:45:09 PM

CIKM'25 |告别黑箱解释!首个潜变量自动解释框架

如今,深度生成模型(Deep Generative Models),如变分自编码器(VAE)和扩散模型,已成为图像、音频乃至视频生成领域的核心技术。 它们通过学习数据的潜在分布,赋予AI强大的「想象力」,能够创造出以假乱真的新内容。 然而,这些模型内部运作的机制却如同一个巨大的「黑箱」。
10/23/2025 12:49:08 PM

Meta「透视」AI思维链:CRV推理诊断,准确率达 92%!

「Meta刚刚找到一种方法,可以实时观察AI的思维过程崩溃。 」一条看似寻常的推文,在AI圈炸开了锅。  发帖人是研究员@JacksonAtkinsX,他称Meta的新技术能让机器的思维「透明化」——不仅能看到模型在想什么,还能看见它在哪一步彻底「想错」。
10/23/2025 12:46:39 PM

一个指令误导智能模型!北航等首创3D语义攻击框架,成功率暴涨119%

人工智能模型的安全对齐问题,一直像悬在头顶的达摩克利斯之剑。 自对抗样本被发现以来,这一安全对齐缺陷,广泛、长期地存在与不同的深度学习模型中。 对此,北京航空航天大学与中关村实验室团队提出了一项全新框架InSUR,基于指令不确定性约简的思想,实现独立于具体任务与模型的对抗样本生成。
10/23/2025 12:32:05 PM

中国模型打服硅谷:Airbnb联创CEO感叹又快又好又便宜!把ChatGPT合作都拒了

当OpenAI为ChatGPT各种造势时,中国模型也在凭实力圈粉老外。 最近,爱彼迎(Airbnb)联合创始人兼CEO Brian Chesky的一番公开表态掀起波澜:我们很大程度上依赖阿里巴巴的Qwen模型。 它非常好,速度也很快,而且很便宜。
10/23/2025 12:26:18 PM

OpenAI秘密项目曝出!百名投行精英密训AI,华尔街最贵苦力要失业了?

AI先是找上程序员,现在轮到银行分析师了。 下一个华尔街的培训基地可能是一个提示库! 刚刚,OpenAI内部一个秘密项目曝出!
10/23/2025 9:26:41 AM

SIGGRAPH Asia 2025|电影级运镜一键克隆!港中文&快手可灵团队发布CamCloneMaster

本文第一作者罗亚文,香港中文大学 MMLab 博士一年级在读,研究方向为视频生成,导师为薛天帆教授。 个人主页:,你是否曾梦想复刻《盗梦空间》里颠覆物理的旋转镜头,或是重现《泰坦尼克号》船头经典的追踪运镜? 在 AI 视频生成中,这些依赖精确相机运动的创意,实现起来却往往异常困难。
10/23/2025 9:23:18 AM

R-HORIZON:长程推理时代来临,复旦NLP&美团LongCat重磅发布LRMs能力边界探测新范式

陆毅,复旦大学自然语言处理实验室硕士生,在 ACL、EMNLP、COLM、NeurIPS 等顶会发表论文十余篇,LongCat Team 核心成员,研究方向为大模型的复杂推理和长序列建模,指导老师为桂韬老师。 郭林森,硕士毕业于东南大学,在 NAACL、EMNLP、Recsys 等会议发表论文多篇,目前就职于美团,LongCat Team 核心成员,研究方向为大模型评测与数据价值挖掘。 王嘉宁,获得华东师范大学博士学位,曾前往 UCSD 访问学习,在 ACL、EMNLP、AAAI、ICLR 等顶会发表论文数十篇,目前就职于美团,LongCat Team 核心成员,研究方向为大模型训练与复杂推理。
10/23/2025 9:10:39 AM

清华联手英伟达打造扩散模型新蒸馏范式!视频生成提速50倍,四步出片不穿模

让视频生成提速50倍,不穿模还不糊字。 新蒸馏范式让Wan2.1 14B仅需4步就生成吃火锅视频:这是清华大学朱军教授团队, NVIDIA Deep Imagination研究组联合提出的一种全新的大规模扩散模型蒸馏范式——分数正则化连续时间一致性模型 (Score-Regularized Continuous-Time Consistency Model, rCM)。 该方法首次将连续时间一致性蒸馏成功扩展至百亿参数级别的文生图和文生视频模型,解决了现有方法在真实应用场景中的瓶颈。
10/23/2025 9:02:12 AM

智谱运气是差一点点,视觉Token研究又和DeepSeek撞车了

这不巧了吗……智谱和DeepSeek,又双叒撞车了。 太卷了,DeepSeek-OCR刚发布不到一天,智谱就开源了自家的视觉Token方案——Glyph。 既然是同台对垒,那自然得请这两天疯狂点赞DeepSeek的卡帕西来鉴赏一下:或许你也会对我们的工作感兴趣。
10/23/2025 8:55:04 AM

不改模型也能提升推理性能?ICLR投稿提出测试时扩展新范式OTV

近年来,大语言模型在各类任务上表现出色,但幻觉、逻辑错误、推理漏洞等问题仍屡见不鲜。 这促使研究者持续探索提升模型输出可靠性的新路径。 现有主流范式各有优势,也存在局限。
10/23/2025 8:50:32 AM