AI在线 AI在线

模型

仅用25%数据实现性能超越!MapGS:解决特定传感器配置的在线建图模型训练问题

本文经3D视觉之心公众号授权转载,转载请联系出处。 避免传感器配置差异近年来,多模态传感器融合的新进展推动了自动驾驶应用中感知方法的发展。 这些进展涵盖了 3D 目标检测、在线地图生成与推理、占用预测,以及端到端框架的形式。
1/22/2025 10:40:00 AM
3D视觉之心

你要跳舞么?复旦&微软提出StableAnimator:可实现高质量和高保真的ID一致性人类视频生成

本文经AIGC Studio公众号授权转载,转载请联系出处。 由复旦、微软、虎牙、CMU的研究团队提出的StableAnimator框架,实现了高质量和高保真的ID一致性人类视频生成。 StableAnimator 生成的姿势驱动的人体图像动画展示了其合成高保真和 ID 保留视频的能力。
1/22/2025 10:30:00 AM
AIGC Studio

图像超分辨新SOTA!南洋理工提出InvSR,利用大模型图像先验提高SR性能, 登上Huggingface热门项目

南洋理工大学的研究者们提出了一种基于扩散反演的新型图像超分辨率 (SR) 技术,可以利用大型预训练扩散模型中蕴含的丰富图像先验来提高 SR 性能。 该方法的核心是一个深度噪声预测器,用于估计前向扩散过程的最佳噪声图。 一旦训练完成,这个噪声预测器就可以用来初始化沿扩散轨迹的部分采样过程,从而生成理想的高分辨率结果。
1/22/2025 10:15:00 AM
AIGC Studio

解决文生图质量和美学问题,字节跳动提出VMix:多维度美学控制方法,一键提升图像美学

本文经AIGC Studio公众号授权转载,转载请联系出处。 为了解决扩散模型在文生图的质量和美学问题,字节跳动&中科大研究团队提出VMix美学条件注入方法,通过将抽象的图像美感拆分成不同维度的美学向量引入扩散模型,从而实现细粒度美学图像生成。 论文基于提出的方法训练了一个即插即用的模块,无需再训练即可应用于不同的开源模型,提升模型的生成美感。
1/22/2025 9:48:07 AM
AIGC Studio

中科院北大等揭示「蒸馏真相」:除Claude豆包Gemini,其他很多模型都「蒸」过头

模型蒸馏是一种将知识从大型语言模型(LLMs)转移到较小模型的技术,旨在创建资源高效且性能卓越的模型。 然而,过度蒸馏可能会导致同质化,降低模型之间的多样性,并削弱它们稳健处理复杂或新任务的能力。 这些限制凸显了系统地量化蒸馏过程及其影响的必要性。
1/22/2025 9:32:30 AM
新智元

预测精度媲美实验!哥大团队开发可解释细胞「基础」模型,揭示213种人类细胞调控语法

编辑 | 萝卜皮转录调控涉及调控序列和蛋白质之间的复杂相互作用,指导所有生物过程。 转录计算模型缺乏通用性,无法准确推断未知的细胞类型和条件。 哥伦比亚大学的研究人员介绍了 GET(general expression transformer),这是一种可解释的基础模型,旨在揭示 213 种人类胎儿和成人细胞类型的调控语法。
1/21/2025 7:13:00 PM
ScienceAI

特朗普一上台,拜登AI禁令被秒撤!硅谷科技「壕客」齐聚就职典礼现场

特朗普上任,美国科技巨头「春天到了」! 在特朗普第二次就职典礼上,扎克伯格、贝索斯、皮查伊和马斯克坐在显要席位上,据报道比特朗普的内阁成员还要靠前。 而苹果CEO库克位置相对靠后,与欧洲首富、印度首富等坐一起。
1/21/2025 1:50:00 PM
新智元

AI盈利难、机器人泡沫多!马库斯25年AI预测,隔空喊话马斯克

去年,马库斯对于AI趋势的预测几乎全部正确,但完全没想到OpenAI可以估值到1500亿美元。 在本月2日,马库斯发表了对2025年的25个AI预测,涵盖AGI、GenAI、自动驾驶、人形机器人、智能体等多个方向。 马斯克(Elon Musk),曾预测2025年底的AI能力:「我们就会拥有比任何人都聪明的AI」。
1/21/2025 1:21:45 PM
新智元

AI智能体2小时击败人类,引爆贝叶斯推理革命!仅用10%数据训练秒杀大模型

最近,Verses团队在AI领域投下了一枚重磅炸弹,他们自研的Genius智能体,创造了一个几乎不可能的奇迹——只用10%数据,训练2小时,就能打造出最强AI智能体! 在经典游戏Pong中,Genius智能体多次达到完美的20分,一举超越了苦练数天的其他AI,和顶尖的人类玩家。 更让人惊掉下巴的是,它的规模只有SOTA模型IRIS的4%(缩小了96%),直接在搭载M1芯片的MacBook上就能跑。
1/21/2025 1:15:37 PM
新智元

AI大牛颜水成宣布回归学界!重返新加坡国立任特聘教授,专注e-AGI研究

在产业界兜兜转转几年后,颜水成再次选择回归学界——重返新加坡国立大学NUS,担任计算机系特聘教授。 没错,就是他第一个教职所在地,也是他声名鹊起的地方。 而距离他上一次动向,过去不到三个月。
1/21/2025 12:47:20 PM
量子位

OpenAI智能体新线索曝光!网友:新ChatGPT时刻要来了

没错,OpenAI的智能体时代真的要来了! 据大名鼎鼎的“情报员”光头哥爆料,OpenAI在MAC版ChatGPT桌面应用中隐藏了启用/禁用智能体的选项。 从截图来看,确实是传闻已久、代号为“Operator(操作员)”的辣个:而且这则爆料也得到了日常关注苹果方面消息的博主@M1的再次佐证:Operator正在内测中,即将上线MAC版ChatGPT桌面应用……根据介绍,Operator能够接管用户PC,直接代替人类自主执行一系列操作(如编码开发应用、订餐,做攻略等等)。
1/21/2025 12:44:50 PM
量子位

「DeepSeek接班OpenAI」,最新开源的R1推理模型,让AI圈爆了

昨晚,大模型领域再次「热闹起来」,月之暗面发布在数学、代码、多模态推理能力层面全面对标 OpenAI 的满血版 o1 的多模态思考模型 K1.5。 而最近大热的 DeepSeek 正式推出了 DeepSeek-R1,同样在数学、代码和自然语言推理等任务上比肩 OpenAI o1 正式版。 去年 12 月开源的大模型 DeepSeek-V3 刚刚掀起了一阵热潮,实现了诸多的不可能。
1/21/2025 11:53:53 AM
机器之心

CVPR 2024 Spotlight | 解锁图像编辑新境界, 北大、腾讯提出DiffEditor,让精细编辑更简单!

本文经AIGC Studio公众号授权转载,转载请联系出处。 在图像生成领域,大型文本到图像(T2I)扩散模型近年来取得了革命性的突破。 然而,将这些强大的生成能力转化为精细的图像编辑任务,仍面临诸多挑战。
1/21/2025 10:45:00 AM
AIGC Studio

OminiControl:一个新的FLUX通用控制模型,单个模型实现图像主题控制和深度控制

OminiControl 也开源了其可控生成模型。 OminiControl 是一个最小但功能强大的FLUX通用控制框架,可以一个模型实现图像主题控制和深度控制。 比如一个提示词加一个服装图片就能让生成的人物穿上服装。
1/21/2025 10:20:00 AM
AIGC Studio

DeepSeek是新源神!推理模型o1性能1/50价格,微调/数据/商用全免费,蒸馏1.5B小模型可比GPT-4o

DeepSeek新发布远超预期,Reddit/𝕏狂暴刷屏中。 这次大事共有3件:开源DeepSeek-R1推理大模型,与o1性能相近。 开源DeepSeek-R1-Zero,预训练模型直接RL,不走SFT,堪称语言模型的AlphaZero。
1/21/2025 10:10:56 AM

港科大提出端侧文生图模型SnapGen,参数仅SD十分之一,1.4秒内生成1024分辨率图像

本文经AIGC Studio公众号授权转载,转载请联系出处。 这项工作提出了一种新颖且高效的 T2I 模型SnapGen,SnapGen 是第一个可以在1.4秒内在移动设备上合成高分辨率图像(1024x1024 ) 的图像生成模型(379M ) ,并在 GenEval 指标上 达到0.66。 该模型全面超越了许多现有的数十亿参数模型,例如 SDXL、Lumina-Next 和 Playgroundv2。
1/21/2025 9:50:00 AM
AIGC Studio

震惊 AI 界!DeepSeek-R1 :纯RL打造推理王者,AI 自主学习里程碑「技术报告解读」

刚看完DeepSeek R1技术报告论文《DeepSeek-R1:强化学习驱动的大语言模型推理能力提升》,这篇论文最令人震惊的点在于:DeepSeek-R1-Zero 作为一个完全没有使用任何监督微调(SFT)数据,仅通过纯粹的强化学习(RL)训练的模型,展现出了惊人的推理能力,推理基准测试上可以媲美乃至超越 OpenAI 的 o1 系列模型(如 o1-0912),完全开源,报告毫无保留的奉上了R1的训练秘密,值得注意的是,这是第一个开放研究验证了 LLM 的推理能力可以完全通过 RL 来激励,而不需要 SFT。 这一突破为该领域的未来发展铺平了道路具体来说,以下几点尤其令人震惊:纯 RL 的成功: 以往的模型在提升推理能力时,通常依赖于 SFT 作为预训练步骤。 DeepSeek-R1-Zero 打破了这一常规,证明了仅通过设计合适的奖励机制和训练模板,就可以让模型在没有 SFT 的情况下(冷启动),通过自我博弈和进化,自发地学习到复杂的推理策略,这让我想起了AlphaZero--从零开始掌握围棋、将棋和国际象棋,而无需先模仿人类大师的棋步,这是整个技术报告最重要的启示惊人的性能提升: DeepSeek-R1-Zero 在 AIME 2024 基准测试上,pass@1 分数从 15.6% 提升到了 71.0%,通过多数投票更是达到了 86.7%,与 OpenAI-01-0912 的表现相当甚至更好。
1/21/2025 9:36:51 AM
AI寒武纪

Kimi硬刚多模态满血版o1,首曝训练细节!强化学习scaling新范式诞生

还记得吗,AI大神Karpathy曾说过,「英文是最热门的编程语言」。 两年后的现在,这个规则彻底要被颠覆了。 从今天起,中文很有可能成为全球最热门的编程语言!
1/21/2025 9:00:00 AM
新智元