AI在线 AI在线

理论

ICML 2025 Spotlight | 清华朱军组&NVIDIA提出DDO:扩散/自回归模型训练新范式,刷新图像生成SOTA

文章一作郑凯文为清华大学三年级博士生,研究方向为深度生成模型,曾提出流式扩散模型最大似然估计改进技术 i-DODE,扩散模型高效采样器 DPM-Solver-v3,扩散桥模型采样器 DBIM 以及掩码式离散扩散模型采样器 FHS 等。 清华大学朱军教授团队与 NVIDIA Deep Imagination 研究组联合提出一种全新的视觉生成模型优化范式 —— 直接判别优化(DDO)。 该方法将基于似然的生成模型(如扩散模型、自回归模型)隐式参数化为 GAN,从而设计出一种无需额外网络、训练高效的微调方法,并大幅突破传统最大似然训练的性能瓶颈。
7/2/2025 9:21:30 AM

大模型时代,通用视觉模型将何去何从?

过去几年,通用视觉模型(Vision Generalist Model,简称 VGM)曾是计算机视觉领域的研究热点。 它们试图构建统一的架构,能够处理图像、点云、视频等多种视觉模态输入,以及分类、检测、分割等多样的下游任务,向着「视觉模型大一统」的目标迈进。 然而,随着大语言模型 LLM 的迅猛发展,研究热点已经悄然发生转移。
7/2/2025 9:17:13 AM

Meta“1亿美元年薪”震荡硅谷!奥特曼回应:总有人唯利是图,而且都算不上TOP

疯狂,太疯狂。 这两天,硅谷乃至全球AI领域的注意力都被Meta老板扎克伯克带走了,毕竟也不是谁都能boss直聘,一举挖走8名OpenAI核心员工。 更何况其中大部分,还是以聪明能干吃苦耐劳著称的华人研究员。
7/2/2025 9:13:56 AM

华为又开源了个大的:超大规模MoE推理秘籍

超大规模MoE模型(如DeepSeek),到底该怎么推理才能做到又快又稳。 现在,这个问题似乎已经有了标准答案——华为一个新项目,直接把推理超大规模MoE背后的架构、技术和代码,统统给开源了! 这个新开源项目名叫Omni-Infer,整体来看,它对于企业用户来说是非常利好的。
7/2/2025 8:55:00 AM

一文读懂数据标注:定义、最佳实践、工具、优势、挑战、类型等

想知道自动驾驶汽车或语音助手等尖端人工智能系统如何实现其惊人的准确性吗? 秘诀在于高质量的数据标注。 这一过程确保数据被精确标记和分类,从而使机器学习 (ML) 模型发挥最佳性能。
7/2/2025 8:54:01 AM
晓晓

超越微软,全球第一!上交AI智能体炼成「Kaggle特级大师」,登顶OpenAI MLE-bench

就在刚刚,一支来自中国高校的团队成功刷榜了OpenAI发布的权威基准测试MLE-bench! 这一次,荣耀属于上海交通大学人工智能学院Agents团队。 他们提出的AI专家智能体「ML-Master」,凭借着29.3%的平均奖牌率,拿下第一!
7/2/2025 8:50:00 AM

Meta抄袭DeepSeek大翻车?硅谷大佬爆料亮点满满,AI军备烧钱真相震碎硅谷

谁会首先到达ASI(超级智能)? 大佬斩钉截铁的回答,让主持人惊呆了几秒。 GPT-4.5到底哪里出了问题?
7/2/2025 8:47:00 AM

你的Agent电脑助手正在踩雷!最新研究揭秘Computer-Use Agent的安全漏洞

本文由上海 AI Lab、中国科学技术大学和上海交通大学联合完成。 主要作者包括中国科学技术大学硕士生杨靖懿、上海交通大学本科生邵帅。 通讯作者为刘东瑞和邵婧,上海 AI Lab 安全团队,研究方向为 AI 安全可信。
7/2/2025 8:46:00 AM

策略改写「一战历史」!中科院开源全新博弈智能体框架DipLLM

围棋、德州扑克曾是AI崛起的试炼场,从AlphaGo到Libratus,人工智能不断刷新策略上限。 但接下来的战场更难——Diplomacy:一款融合协作与竞争的七人博弈游戏,单轮动作空间高达10的64次方,其策略建模复杂度前所未有! 为此,Meta曾推出智能体Cicero[Meta, Science 2022],结合人类数据与策略搜索,在该领域实现突破,但其方法高度依赖超大规模均衡搜索与重资源训练,难以扩展与迁移。
7/2/2025 8:43:00 AM

四年三次加码核聚变,硅谷巨头们疯狂抢电ing

当前的趋势是AI,AI的下一个趋势是——电。 准确说是核电。 AI狂飙的时代,算力需求呈指数级攀升。
7/2/2025 8:42:00 AM

伯克利&Meta面向具身智能的世界模型:让AI通过全身动作「看见」未来

本文基于 Yutong Bai、Danny Tran、Amir Bar、Yann LeCun、Trevor Darrell 和 Jitendra Malik 等人的研究工作。 论文标题:Whole-Body Conditioned Egocentric Video Prediction论文地址:::,人工智能领域一直在思考一个看似简单但非常根本的问题:如果一个智能体要在真实世界中行动、规划,并且和环境互动,它需要一个怎样的「世界模型」? 在很多早期研究中,世界模型就是一个预测引擎:只要给它一个抽象的控制指令,比如「向前走一米」或者「向左转 30 度」,它就能模拟出未来的图像。
7/2/2025 8:40:00 AM

借助氛围编程用Python编写一个速读应用程序,只需15分钟

译者 | 布加迪审校 | 重楼少些滚动,多点专注。 在这个用时15分钟的Python 项目中,我们将借助氛围编程编写一个简洁、无干扰的速读应用程序。 想象一下:你想构建一个速读应用程序。
7/2/2025 8:38:11 AM
布加迪

1080p飞升4k,浙大开源原生超高清视频生成方案,突破AI视频生成清晰度上限

为什么AI生成的视频总是模糊卡顿? 为什么细节纹理经不起放大? 为什么动作描述总与画面错位?
7/2/2025 8:30:00 AM

当我们谈激活函数时,我们在谈什么?—— 从梯度消失到 ReLU 革命神经网络非线性的秘诀

激活函数本质上是神经网络的“秘密武器”,它使神经网络能够学习复杂的模式,并对现实世界中普遍存在的非线性关系进行建模。 但这些函数究竟是什么,为什么它们如此重要呢? 更重要的是,它们从何而来?
7/2/2025 7:30:13 AM
柏企阅文

网络犯罪分子将恶意AI推向新高度

网络犯罪分子已开始利用地下论坛帖子和泄露数据来优化恶意的大型语言模型(LLM),以便为特定的诈骗方案定制AI模型,威胁情报公司Flashpoint警告称。 具体而言,诈骗者正在使用恶意数据集(如泄露的凭证、诈骗脚本和信息窃取日志)对非法LLM(包括WormGPT和FraudGPT)进行微调。 当对手利用这些模型生成输出时,他们会收集用户反馈来微调回应,从而形成一个恶性循环,使攻击能力随时间不断增强。
7/2/2025 7:25:00 AM
John Leyden

提示工程运维崛起:应对错误输入和语境膨胀带来的隐性AI成本

模型提供商不断推出越来越复杂的大型语言模型(LLM),这些模型具有更长的上下文窗口和增强的推理能力。 这使得模型能够处理更多信息并进行更多“思考”,但同时也增加了计算量:模型处理和输出的信息越多,消耗的能量就越大,成本也就越高。 再加上提示词调整(prompting)所涉及的反复试验——可能需要尝试几次才能得到预期结果,而且有时手头的问题根本不需要一个能像博士那样思考的模型——计算支出可能会失去控制。
7/2/2025 7:25:00 AM
Taryn

智能扩展之道:企业IT团队如何为AI配置恰到好处的算力

AI项目负责人很少会从深入讨论基础设施和硬件开始,但经验丰富的规模化实施者警告说,如果不持续战略性地关注企业级关键基础,部署高价值生产工作负载将难以圆满完成。 好消息:企业越来越认识到,基础设施在推动收入增长、降低成本和提高效率的生成式、智能体及其他智能应用中发挥着关键作用。 据IDC统计,到2025年,与去年同期相比,企业在AI部署的计算和存储硬件基础设施上的支出将增长97%,研究人员预测,全球在该领域的投资将从目前的1500亿美元激增至2028年的2000亿美元。
7/2/2025 7:16:00 AM
Joe

CFO需要能创造价值的AI:实效指标胜过营销演示

近期多项调查表明,AI的蜜月期正迅速接近尾声。 尽管2024年以试点项目和概念验证演示为主,但到了2025年年中,对可衡量成果的压力正不断增大,即便CFO们对AI的兴趣依然高涨。 根据毕马威对300名美国金融高管的调查,投资者要求展示GenAI投资回报率的压力显著增加。
7/2/2025 7:10:00 AM
James