工程

arXiv科研神器：Mistral OCR、Claude 3.7合体实现论文速读

还有人沉浸在阅读论文的苦恼吗？面对 arXiv 上浩如烟海的学术论文，你是否也曾感到无从下手？复杂的术语、冗长的段落、晦涩的图表，仿佛一道道高墙，将知识与理解隔离开来。

3/14/2025 11:51:00 AM

机器之心

将哈密顿力学泛化到神经算子，何恺明团队又发新作，实现更高级物理推理

继上月末连发两篇论文（扩散模型不一定需要噪声条件和分形生成模型）之后，大神何恺明又出新作了！这次的主题是「用于物理推理的去噪哈密顿网络」。物理推理包含推断、预测和解释动态系统行为的能力，这些是科学研究的基础。

3/12/2025 2:30:00 PM

机器之心

GPT4规模大模型落地，Meta提ExFM框架：万亿参数基础大模型的工业级落地成为可能

如何让万亿级基础大模型能够高效、低成本地服务于大规模工业级应用，并且让能够随着模型规模的提升（Scaling）而得到持续的性能增长？这一直是众多企业困扰良久的难题。在线广告推荐系统是互联网平台的核心服务之一，其模型性能直接影响用户体验与商业价值。

3/12/2025 2:24:00 PM

机器之心

在长文本上比Flash Attention快10倍！清华等提出APB序列并行推理框架

在 ChatGPT 爆火两年多的时间里，大语言模型的上下文窗口长度基准线被拉升，以此为基础所构建的长 CoT 推理、多 Agent 协作等类型的高级应用也逐渐增多。随之而来的是，长文本推理速度被提出更高要求，而基于现有 Transformer 架构的模型受限于注意力机制的二次方复杂度，难以在较短时延内处理超长文本请求。针对这一痛点，清华大学 NLP 实验室联手中南大学、北京邮电大学以及腾讯微信 AI 实验室取得了突破，共同提出了 APB 框架 —— 其核心是一个整合了稀疏注意力机制的序列并行推理框架，通过整合局部 KV 缓存压缩方式以及精简的跨 GPU 通信机制，解决了长上下文远距离语义依赖问题，在无性能损失的前提下大幅度提升超长文本预填充的效率。

3/12/2025 10:31:00 AM

机器之心

国产编程语言的进击：MoonBit 发布 LLVM 后端，同步入驻世界一流高校课程体系

在人工智能驱动全球技术竞赛的当下，国产基础软件的自主化进程正迈向深水区。作为这一进程中的代表性力量，MoonBit 月兔以 “快速、简单、可拓展” 为核心特质，逐步构建起跨越学术与产业的技术生态。自2022年诞生以来，MoonBit通过多后端架构设计，在编译速度、运行效率和代码体积等关键指标上实现对传统编程语言的超越，覆盖从嵌入式设备到云端服务的全栈开发场景，成为极少数能在工业级性能与教学实践价值间取得平衡的编程语言及开发者工具链。

3/11/2025 2:04:00 PM

新闻助手

ICLR 2025 | 原生3D+流匹配，现有SOTA被GaussianAnything超越

兰宇时，MMLab@NTU博士生，导师为 Chen Change Loy。本科毕业于北京邮电大学，目前主要研究兴趣为基于神经渲染的 3D 生成模型、3D 重建与编辑。尽管 3D 内容生成技术取得了显著进展，现有方法仍在输入格式、潜空间设计和输出表示上面临挑战。

3/11/2025 12:01:00 PM

机器之心

全新CoD颠覆推理范式，准确率接近但token消耗成倍降低

如今，OpenAI o1 和 DeepSeek R1 等推理模型的发展，显著提升了思维链 (CoT) 之类的技术在大语言模型 (LLM) 推理任务上的表现。这种范式鼓励模型将问题分解为逐步探索，模仿人类的结构化推理过程。虽然这种方法有效，但它在推理时需要更多的计算资源，导致输出冗长且延迟更高。

3/10/2025 6:29:00 PM

机器之心

机器人泛化能力大幅提升：HAMSTER层次化方法和VLA尺度轨迹预测，显著提升开放世界任务成功率

近年来，人工智能在视觉和自然语言处理方面取得了惊人的泛化能力，但在机器人操作领域，端到端方法往往需要大量昂贵的本域数据，且难以在不同硬件平台与开放场景下推广。为此，HAMSTER（Hierarchical Action Models with Separated Path Representations）通过层次化架构，在高层利用域外数据微调的大模型（VLM）生成二维路径，中间表示解耦了任务规划与具体执行，让低层控制模块专注于实际动作控制。实验表明，HAMSTER 在多种操作任务中都体现出更高的任务成功率与更好的跨平台泛化性能，并显著降低了对昂贵机器人演示数据的依赖。

3/10/2025 6:27:00 PM

机器之心

随着大模型在长文本处理任务中的应用日益广泛，如何客观且精准地评估其长文本能力已成为一个亟待解决的问题。

随着大模型在长文本处理任务中的应用日益广泛，如何客观且精准地评估其长文本能力已成为一个亟待解决的问题。传统上，困惑度（Perplexity, PPL）被视为衡量模型语言理解与生成质量的标准指标——困惑度越低，通常意味着模型对下一个词的预测能力越强。由于长文本可被视为一般文本的扩展，许多研究自然地通过展示模型在长文本上的低困惑度来证明其长文本泛化能力的有效性。

3/9/2025 7:29:00 PM

机器之心

CVPR 2025｜北大开源多模态驱动的定制化漫画生成框架DiffSensei，还有4.3万页漫画数据集

随着生成式人工智能技术（AIGC）的突破，文本到图像模型在故事可视化领域展现出巨大潜力，但在多角色场景中仍面临角色一致性差、布局控制难、动态叙事不足等挑战。为此，北京大学、上海人工智能实验室、南洋理工大学联合推出 DiffSensei，首个结合多模态大语言模型（MLLM）与扩散模型的定制化漫画生成框架。论文地址：仓库： - - ，实现了对多角色外观、表情、动作的精确控制，并支持对话布局的灵活编码。

3/7/2025 12:48:00 PM

机器之心

FP8训练新范式：减少40%显存占用，训练速度提高1.4倍

近期DeepSeek V3 引爆国内外的社交媒体，他们在训练中成功应用了 FP8 精度，显著降低了 GPU 内存使用和计算开销。这表明，FP8 量化技术在优化大型模型训练方面正发挥着越来越重要的作用。近期，来自伯克利，英伟达，MIT 和清华的研究者们提出了显存高效的 FP8 训练方法：COAT（Compressing Optimizer states and Activation for Memory-Efficient FP8 Training），致力于通过 FP8 量化来压缩优化器状态和激活值，从而提高内存利用率和训练速度。

3/7/2025 10:30:00 AM

机器之心

DeepSeek的MLA，任意大模型都能轻松迁移了

复旦 NLP 实验室博士后纪焘是这篇文章的第一作者，研究方向为大模型高效推理、多模态大模型，近期代表工作为首个NoPE外推HeadScale、注意力分块外推LongHeads、多视觉专家大模型MouSi，发表ACL、ICLR、EMNLP等顶会顶刊论文 20 余篇。 DeepSeek-R1 作为 AI 产业颠覆式创新的代表轰动了业界，特别是其训练与推理成本仅为同等性能大模型的数十分之一。多头潜在注意力网络（Multi-head Latent Attention, MLA）是其经济推理架构的核心之一，通过对键值缓存进行低秩压缩，显著降低推理成本 [1]。

3/6/2025 9:15:00 PM

机器之心

强化学习成帮凶，对抗攻击LLM有了新方法

事物都有多面性，正如水，既能载舟，亦能覆舟，还能煮粥。强化学习也是如此。它既能帮助 AlphaGo 击败顶级围棋棋手，还能帮助 DeepSeek-R1 获得强大的推理能力，但它也可能被恶意使用，成为攻击 AI 模型的得力武器。

3/6/2025 9:11:00 PM

机器之心

ET-SEED：提升机器人操作泛化能力的高效等变扩散策略

本文介绍了人工智能领域顶级会议 ICLR 2025 接收论文 "ET-SEED: Efficient Trajectory-Level SE (3) Equivariant Diffusion Policy"。该论文由北京大学前沿计算研究中心董豪老师组完成，本文有三位共同第一作者：铁宸睿本科毕业于北京大学，现为新加坡国立大学博士生，陈越是北京大学硕士生，吴睿海是北京大学博士生；通讯作者董豪是北京大学助理教授，其领导的实验室主要研究方向为具身智能、大模型、计算机视觉与强化学习。论文链接：：： SE (3) 等变的扩散策略（ET-SEED），通过将等变表示学习和扩散策略结合，使机器人能够在极少的示范数据下高效学习复杂操作技能，并能够泛化到不同物体姿态和环境中。

3/6/2025 3:57:00 PM

机器之心