AI在线 AI在线

训练

DeepSeek、OpenAI、Kimi视觉推理到底哪家强?港中文MMLab推出推理基准MME-COT

OpenAI o1和DeepSeek-R1靠链式思维(Chain-of-Thought, CoT)展示了超强的推理能力,但这一能力能多大程度地帮助视觉推理,又应该如何细粒度地评估视觉推理呢? 为此,来自港中文MMLab的研究者们提出了MME-CoT。 这是一个全面且专门用于评估LMMs中视觉推理能力的Benchmark,包括了数学、科学、OCR、逻辑、时空和通用场景。
2/24/2025 8:30:00 AM
量子位

大模型扩展新维度:Scaling Down、Scaling Out

本文由悉尼大学计算机学院王云柯,李言蹊和徐畅副教授完成。 王云柯是悉尼大学博士后,李言蹊是悉尼大学三年级博士生,徐畅副教授是澳洲ARC Future Fellow,其团队长期从事机器学习算法、生成模型等方向的研究。 近年来, Scaling Up 指导下的 AI 基础模型取得了多项突破。
2/21/2025 1:20:00 PM
机器之心

机器人视觉控制新范式!ByteDance Research新算法实现通过性能SOTA

世界模型(World Model)作为近年来机器学习和强化学习的研究热点,通过建立智能体对其所处环境的一种内部表征和模拟,能够加强智能体对于世界的理解,进而更好地进行规划和决策。 在强化学习领域中,世界模型通常被建模为一个神经网络,通过历史状态和动作,预测未来可能出现的状态。 其中,Dreamer 算法在多种模拟环境的成功表现让我们看到了世界模型优秀的表征和泛化能力。
2/21/2025 1:00:00 PM
机器之心

再次颠覆学界想象,何恺明发表新作:扩散模型不一定需要噪声条件

一直以来,研究者普遍认为,去噪扩散模型要想成功运行,噪声条件是必不可少的。 而大神何恺明的一项最新研究,对这个观点提出了「质疑」。 「受图像盲去噪研究的启发,我们研究了各种基于去噪的生成模型在没有噪声调节的情况下的表现。
2/21/2025 9:40:00 AM
机器之心

小红书等给AI图像检测上难度!数据集均通过人类感知“图灵测试” | ICLR 2025

量:图像分辨率从720P到4K不等,提供了更高质量的图像数据,增加了检测模型的挑战性。 AIDE模型:多专家融合的检测框架在AI生成图像检测领域,现有的检测方法往往只能从单一角度进行分析,难以全面捕捉AI生成图像与真实图像之间的细微差异。 为了解决这一问题,研究者们提出了简单且有效的AIDE(AI-generated Image DEtector with Hybrid Features)模型,该模型通过融合多种专家模块,从低级像素统计和高级语义两个层面全面捕捉图像特征,实现了对AI生成图像的精准检测。
2/20/2025 1:50:00 PM
量子位

视频版IC-Light来了!Light-A-Video提出渐进式光照融合,免训练一键视频重打光

本文作者来自于上海交通大学,中国科学技术大学以及上海人工智能实验室等。 其中第一作者周彧杰为上海交通大学二年级博士生,师从牛力副教授。 数字化时代,视频内容的创作与编辑需求日益增长。
2/20/2025 1:00:00 PM
机器之心

物理直觉不再是人类专属?LeCun等新研究揭示AI可如何涌现出此能力

在当今的 AI 领域,图灵奖得主 Yann LeCun 算是一个另类。 即便眼见着自回归 LLM 的能力越来越强大,能解决的任务也越来越多,他也依然坚持自己的看法:自回归 LLM 没有光明的未来。 在近期的一次演讲中,他将自己的观点总结成了「四个放弃」:放弃生成式模型、放弃概率模型、放弃对比方法、放弃强化学习。
2/20/2025 12:37:57 PM
机器之心

英伟达开源4K图像生成模型Sana,可在16G显存电脑部署,支持ComfyUI和LoRA训练

英伟达开源了一个可以直接生成 4K 图片的模型 Sana。 Sana-0.6B 可以在 16GB 的笔记本电脑 GPU 上部署。 生成 1024 × 1024 分辨率的图像只需不到 1 秒钟。
2/20/2025 9:55:01 AM
AIGC Studio

Kimi新论文再次“撞车”DeepSeek,都谈到了长文注意力机制

Kimi背后的长上下文处理机制曝光了! 这项名为MoBA的新型注意力机制,能将处理1M长文本的速度一下子提升6.5倍,而且还是经过Kimi平台实际验证的那种。 概括而言,这项耗时一年半的工作主要看点在:把完整上下文划分成块,让每个查询token自动去关注最相关的KV块,这样就能高效处理长序列数据;提出一种新的参数无关的top-k门控机制,它能给每个查询token挑选出最相关的块,保证模型只聚焦在最有用信息的块上;支持在全注意力和稀疏注意力模式之间轻松切换;一言以蔽之,MoBA将MoE(专家混合)应用于注意力机制,通过遵循一种“less structure” 原则,允许模型自主决定关注哪些区域或位置。
2/19/2025 4:01:37 PM
量子位

DeepSeek新注意力机制引热议!梁文锋亲自提交预印本,目标明确降低计算成本

DeepSeek新注意力机制论文一出,再次引爆讨论热度。 依然是熟悉的画风,熟悉的味道——那边马斯克疯狂烧了20万张卡训出Grok 3,这厢DeepSeek重点关注的依然是压缩计算和推理成本。 具体来说,新论文提出了一种可原生训练的稀疏注意力机制,名为NSA(Native Sparse Attention)。
2/19/2025 4:01:37 PM
量子位

奥特曼押注惨败,爆火Ai Pin已死!ChatGPT版iPhone终结,惠普1.16亿美元接盘

谁也没想到,曾红极一时爆火硬件Ai Pin直接挂了! 刚刚,惠普以1.16亿美元收购了前苹果夫妻高管联手创办的AI初创Humane。 曾经,AI硬件这个领域被奥特曼寄予厚望,为此他大力投资了消费硬件初创Humane。
2/19/2025 2:02:23 PM
新智元

强化学习Scaling Law错了?无需蒸馏,数据量只要1/6,效果还更好

DeepSeek-R1带火了使用强化学习训练LLM。 在训练中,AI灵机一动,让作者耳目一新,甚至因此惊叹到:这就是强化学习的力与美! DeepSeek-R1-Zero惊艳了研究人员然而,对RL训练的理解存在空白:这些工作的训练数据的透明度有限,谁知道是方法好还是数据集质量好?
2/18/2025 3:02:13 PM
新智元

嚯!大语言扩散模型来了,何必只预测下一个token | 人大高瓴&蚂蚁

用扩散模型替代自回归,大模型的逆诅咒有解了!人大高瓴人工智能研究院、蚂蚁共同提出LLaDA(a Large Language Diffusion with mAsking)。 LLaDA-8B在上下文学习方面与LLaMA3-8B能力相当,而且在反转诗歌任务中超越GPT-4o。 在大语言模型领域,反转诗歌是一个特殊任务,它用来评估模型在处理语言模型的双向依赖关系和逻辑推理能力。
2/18/2025 1:00:00 PM
量子位

北大、KAUST、字节联合提出“可逆扩散模型”赋能图像重建,代码已开源!

本篇文章来自公众号粉丝投稿,论文提出了一种可逆扩散模型(Invertible Diffusion Models,IDM)。 这一方法通过引入(1)端到端的训练框架与(2)可逆网络设计,有效提升了图像重建的性能与效率。 一、论文信息论文标题:Invertible Diffusion Models for Compressed Sensing论文作者:Bin Chen(陈斌), Zhenyu Zhang(张振宇), Weiqi Li(李玮琦), Chen Zhao(赵琛), Jiwen Yu(余济闻), Shijie Zhao(赵世杰), Jie Chen(陈杰) and Jian Zhang(张健)作者单位:北京大学信息工程学院、阿卜杜拉国王科技大学、字节跳动发表刊物:IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI)发表时间:2025年2月5日正式版本:::、任务背景扩散模型作为当前非常知名且强大的生成模型之一,已在图像重建任务中展现出极大的潜力。
2/18/2025 9:27:20 AM
Bin Chen等

DeepSeek团队新作:把代码变成思维链,大模型推理各种能力全面提升

用代码训练大模型思考,其他方面的推理能力也能提升。 DeepSeek团队最新研究,利用300多万个实例,将代码转换成思考过程,构建出数据集CODEI/O,对Qwen、Llama等模型进行了训练。 结果,在各种类型的推理任务当中,模型性能都取得了全面提升,包括在非代码类的推理任务上,也展现出了良好的迁移能力。
2/17/2025 2:43:51 PM
量子位

直逼DeepSeek-R1-32B,碾压李飞飞s1!UC伯克利等开源全新SOTA推理模型

32B推理模型,仅用1/8数据,与同尺寸DeepSeek-R1打成平手! 就在刚刚,来自斯坦福、UC伯克利、华盛顿大学等机构联手发布了一款SOTA级推理模型——OpenThinker-32B,并同时开源了高达114k的训练数据。 项目主页: Face:::采用经DeepSeek-R1验证标注(基于R1蒸馏)的大规模优质数据集,便可训练出SOTA的推理模型。
2/14/2025 9:20:00 AM
新智元

打破纪录!谷歌全网扒1000亿图像文本对,ViT大佬坐镇:数据Scaling潜力依旧

史上最大规模视觉语言数据集:1000亿图像-文本对! 较此前纪录扩大10倍。 这就是由谷歌推出的最新数据集WebLI-100B。
2/14/2025 9:17:00 AM
量子位

o3斩获IOI金牌冲榜全球TOP 18,自学碾压顶尖程序员!48页技术报告公布

几天前,谷歌AlphaGeometry 2拿下IMO金牌,震惊了所有人。 这次,o3在IOI 2024竞赛中取得惊人的394分(满分600),一举夺得金牌,实力相当于全球第18名赛级选手。 不仅如此,在世界级编程竞赛CodeForces上,o3位居全球Top 200之列,堪比人类顶尖程序员。
2/14/2025 8:30:00 AM
新智元