AI在线 AI在线

工程

AI大佬曼宁转赞,MetaGPT团队首提「Atom of Thoughts」,原子化思考让4o-mini暴打推理模型?

AoT 作者团队来自 MetaGPT 开源社区。 第一作者为香港科技大学(广州)的滕枫蔚,通讯作者为 DeepWisdom 创始人兼 CEO 吴承霖。 团队还包括 DeepWisdom 研究员于兆洋、中国人民大学的石泉、香港科技大学(广州)的博士生张佳钇和助理教授骆昱宇。
3/16/2025 12:03:00 AM
机器之心

TRACE:因果事件建模助力视频理解大模型的时间定位能力

论文第一作者为香港中文大学(深圳)理工学院在读博士生郭永新,指导老师为通讯作者为香港中文大学(深圳)理工学院 / 人工智能学院助理教授唐晓莹,课题组研究方向包括大模型、联邦学习、充电智能优化与博弈等。 下班回家后你正深陷于一部两小时的综艺节目中,渴望找到那些让人捧腹的爆笑片段,却如同大海捞针。 或者,在紧张刺激的足球赛中,你渴望捕捉到那决定性的绝杀瞬间,但传统 AI 视频处理技术效率低下,且模型缺乏泛化能力。
3/15/2025 11:58:00 PM
机器之心

「压缩即智能」得到实验验证,无需预训练和大量数据就能解决ARC-AGI问题

「压缩即智能」。 这并不是一个新想法,著名 AI 研究科学家、OpenAI 与 SSI 联合创始人 Ilya Sutskever 就曾表达过类似的观点。 甚至早在 1998 年,计算机科学家 Jose Hernandez-Orallo 就已经在论文《A Formal Definition of Intelligence Based on an Intensional Variant of Algorithmic Complexity》中有过相关的理论论述。
3/15/2025 11:56:00 PM
机器之心

3FS系列(一):存储新纪元的开篇——3FS编译调优与部署的工程实践

系列文章目录3FS系列(一):存储新纪元的开篇——3FS编译调优与部署的工程实践引言2月24日,重磅存储系统3FS(Fire-Flyer File System) 在 DeepSeek 轰轰烈烈的开源周压轴登场,补齐了计算、网络以外的另一块拼图——存储。 区别于过往巧妙算法的开源库,3FS 是完整的涉及多种节点、结合多种外部节点的高速并行文件系统,其代码结构清晰、模块间解耦程度高,充分展现了 DeepSeek 工程师对复杂工程的驾驭能力。 作为 DeepSeek 开源生态的一部分,3FS 于 2025 年 2 月 27 日在 GitHub 上正式开源,一经发布热度值瞬间爆表,引发业界关注。
3/14/2025 5:32:00 PM
九章云极DataCanvas

没有归一化层的Transformer!刘壮带队,何恺明、Yann LeCun都参与了

何恺明又双叒叕发新作了,这次还是与图灵奖得主 Yann LeCun 合作。 这项研究的主题是没有归一化层的 Transformer(Transformers without Normalization),并已被 CVPR 2025 会议接收。                                                          Meta FAIR 研究科学家刘壮的推文过去十年,归一化层已经巩固了其作为现代神经网络最基本组件之一的地位。
3/14/2025 3:54:00 PM
机器之心

人类秒懂,AI却懵圈:VLM²-Bench揭示视觉语言模型「视觉关联」能力短板

本文来自港科与 MIT 教授团队。 本文有两个共同一作:张鉴殊为武汉大学本科四年级,本篇为其在港科大访问期间完成,将于 2025 秋季前往美国西北大学攻读 CS PhD。 姚栋宇目前就读于 CMU CS 系下的 MSCV 项目。
3/14/2025 3:48:00 PM
机器之心

arXiv科研神器:Mistral OCR、Claude 3.7合体实现论文速读

还有人沉浸在阅读论文的苦恼吗? 面对 arXiv 上浩如烟海的学术论文,你是否也曾感到无从下手? 复杂的术语、冗长的段落、晦涩的图表,仿佛一道道高墙,将知识与理解隔离开来。
3/14/2025 11:51:00 AM
机器之心

将哈密顿力学泛化到神经算子,何恺明团队又发新作,实现更高级物理推理

继上月末连发两篇论文(扩散模型不一定需要噪声条件和分形生成模型)之后,大神何恺明又出新作了! 这次的主题是「用于物理推理的去噪哈密顿网络」。 物理推理包含推断、预测和解释动态系统行为的能力,这些是科学研究的基础。
3/12/2025 2:30:00 PM
机器之心

GPT4规模大模型落地,Meta提ExFM框架:万亿参数基础大模型的工业级落地成为可能

如何让万亿级基础大模型能够高效、低成本地服务于大规模工业级应用,并且让能够随着模型规模的提升(Scaling)而得到持续的性能增长? 这一直是众多企业困扰良久的难题。 在线广告推荐系统是互联网平台的核心服务之一,其模型性能直接影响用户体验与商业价值。
3/12/2025 2:24:00 PM
机器之心

在长文本上比Flash Attention快10倍!清华等提出APB序列并行推理框架

在 ChatGPT 爆火两年多的时间里,大语言模型的上下文窗口长度基准线被拉升,以此为基础所构建的长 CoT 推理、多 Agent 协作等类型的高级应用也逐渐增多。 随之而来的是,长文本推理速度被提出更高要求,而基于现有 Transformer 架构的模型受限于注意力机制的二次方复杂度,难以在较短时延内处理超长文本请求。 针对这一痛点,清华大学 NLP 实验室联手中南大学、北京邮电大学以及腾讯微信 AI 实验室取得了突破,共同提出了 APB 框架 —— 其核心是一个整合了稀疏注意力机制的序列并行推理框架,通过整合局部 KV 缓存压缩方式以及精简的跨 GPU 通信机制,解决了长上下文远距离语义依赖问题,在无性能损失的前提下大幅度提升超长文本预填充的效率。
3/12/2025 10:31:00 AM
机器之心

国产编程语言的进击:MoonBit 发布 LLVM 后端,同步入驻世界一流高校课程体系

在人工智能驱动全球技术竞赛的当下,国产基础软件的自主化进程正迈向深水区。 作为这一进程中的代表性力量,MoonBit 月兔以 “快速、简单、可拓展” 为核心特质,逐步构建起跨越学术与产业的技术生态。 自2022年诞生以来,MoonBit通过多后端架构设计,在编译速度、运行效率和代码体积等关键指标上实现对传统编程语言的超越,覆盖从嵌入式设备到云端服务的全栈开发场景,成为极少数能在工业级性能与教学实践价值间取得平衡的编程语言及开发者工具链。
3/11/2025 2:04:00 PM
新闻助手

ICLR 2025 | 原生3D+流匹配,现有SOTA被GaussianAnything超越

兰宇时,MMLab@NTU博士生,导师为 Chen Change Loy。 本科毕业于北京邮电大学,目前主要研究兴趣为基于神经渲染的 3D 生成模型、3D 重建与编辑。 尽管 3D 内容生成技术取得了显著进展,现有方法仍在输入格式、潜空间设计和输出表示上面临挑战。
3/11/2025 12:01:00 PM
机器之心

全新CoD颠覆推理范式,准确率接近但token消耗成倍降低

如今,OpenAI o1 和 DeepSeek R1 等推理模型的发展,显著提升了思维链 (CoT) 之类的技术在大语言模型 (LLM) 推理任务上的表现。 这种范式鼓励模型将问题分解为逐步探索,模仿人类的结构化推理过程。 虽然这种方法有效,但它在推理时需要更多的计算资源,导致输出冗长且延迟更高。
3/10/2025 6:29:00 PM
机器之心

机器人泛化能力大幅提升:HAMSTER层次化方法和VLA尺度轨迹预测,显著提升开放世界任务成功率

近年来,人工智能在视觉和自然语言处理方面取得了惊人的泛化能力,但在机器人操作领域,端到端方法往往需要大量昂贵的本域数据,且难以在不同硬件平台与开放场景下推广。 为此,HAMSTER(Hierarchical Action Models with Separated Path Representations)通过层次化架构,在高层利用域外数据微调的大模型(VLM)生成二维路径,中间表示解耦了任务规划与具体执行,让低层控制模块专注于实际动作控制。 实验表明,HAMSTER 在多种操作任务中都体现出更高的任务成功率与更好的跨平台泛化性能,并显著降低了对昂贵机器人演示数据的依赖。
3/10/2025 6:27:00 PM
机器之心

随着大模型在长文本处理任务中的应用日益广泛,如何客观且精准地评估其长文本能力已成为一个亟待解决的问题。

随着大模型在长文本处理任务中的应用日益广泛,如何客观且精准地评估其长文本能力已成为一个亟待解决的问题。 传统上,困惑度(Perplexity, PPL)被视为衡量模型语言理解与生成质量的标准指标——困惑度越低,通常意味着模型对下一个词的预测能力越强。 由于长文本可被视为一般文本的扩展,许多研究自然地通过展示模型在长文本上的低困惑度来证明其长文本泛化能力的有效性。
3/9/2025 7:29:00 PM
机器之心

CVPR 2025|北大开源多模态驱动的定制化漫画生成框架DiffSensei,还有4.3万页漫画数据集

随着生成式人工智能技术(AIGC)的突破,文本到图像模型在故事可视化领域展现出巨大潜力,但在多角色场景中仍面临角色一致性差、布局控制难、动态叙事不足等挑战。 为此,北京大学、上海人工智能实验室、南洋理工大学联合推出 DiffSensei,首个结合多模态大语言模型(MLLM)与扩散模型的定制化漫画生成框架。 论文地址: 仓库: - - ,实现了对多角色外观、表情、动作的精确控制,并支持对话布局的灵活编码。
3/7/2025 12:48:00 PM
机器之心

FP8训练新范式:减少40%显存占用,训练速度提高1.4倍

近期DeepSeek V3 引爆国内外的社交媒体,他们在训练中成功应用了 FP8 精度,显著降低了 GPU 内存使用和计算开销。 这表明,FP8 量化技术在优化大型模型训练方面正发挥着越来越重要的作用。 近期,来自伯克利,英伟达,MIT 和清华的研究者们提出了显存高效的 FP8 训练方法:COAT(Compressing Optimizer states and Activation for Memory-Efficient FP8 Training),致力于通过 FP8 量化来压缩优化器状态和激活值,从而提高内存利用率和训练速度。
3/7/2025 10:30:00 AM
机器之心

DeepSeek的MLA,任意大模型都能轻松迁移了

复旦 NLP 实验室博士后纪焘是这篇文章的第一作者,研究方向为大模型高效推理、多模态大模型,近期代表工作为首个NoPE外推HeadScale、注意力分块外推LongHeads、多视觉专家大模型MouSi,发表ACL、ICLR、EMNLP等顶会顶刊论文 20 余篇。 DeepSeek-R1 作为 AI 产业颠覆式创新的代表轰动了业界,特别是其训练与推理成本仅为同等性能大模型的数十分之一。 多头潜在注意力网络(Multi-head Latent Attention, MLA)是其经济推理架构的核心之一,通过对键值缓存进行低秩压缩,显著降低推理成本 [1]。
3/6/2025 9:15:00 PM
机器之心