理论

告别玄学选LLM！弗吉尼亚理工选型框架入选ICML 2025

还在靠“开盲盒”选择大模型？来自弗吉尼亚理工大学的研究人员推出了个选型框架LensLLM——大幅提升选型效果的同时，成本却降低近90%。众所周知，在大模型如雨后春笋般爆发的时代，选型成了AI工程师和研究员最大的痛点之一：模型多如牛毛，怎么选才不会“踩坑”？

6/19/2025 8:55:00 AM

75%预训练数据都能删！Jeff Dean新作：全自动筛除低质量数据

机器学习领域有一条铁律，「Garbage In, Garbage Out.」，就是说模型的质量很大程度上取决于训练数据的质量。大模型在预训练阶段会吸收海量的数据，其中数据的来源非常杂，导致质量参差不齐。大量的实验和经验已经证明了，对预训练数据进行质量筛选是提高模型能力和效率的关键。

6/19/2025 8:50:00 AM

字节Seed提出序贯策略优化方法，突破同传“质量-延迟”权衡问题

AI字幕总是慢半拍，质量和延迟难以平衡是业界老问题了。为此，香港中文大学、字节跳动Seed和斯坦福大学研究团队出手，提出了一种面向同声传译的序贯策略优化框架 (Sequential Policy Optimization for Simultaneous Machine Translation, SeqPO-SiMT)。在70亿参数（7B）规模上实现SOTA。

6/19/2025 8:49:00 AM

人工智能代理时代的安全、风险与合规治理

自主性催生治理模式变革人工智能代理（AI agents）正迅速成为企业运营的基础设施。无论是处理服务工单、自动化政策执行、定制用户体验还是管理监管文件，AI代理已突破实验环境局限，深度参与企业服务交付、决策制定和运营扩展的全过程。这类代理与传统机器人或确定性RPA（机器人流程自动化）系统存在本质差异。

6/19/2025 8:05:00 AM

清茶泡饭

智能体开发实战 | 基于Dify+MCP实现理财助手智能体

前言AI智能体通过感知环境、自主决策和执行任务，突破传统大模型仅限于语言交互的局限。例如，当用户指令“订一张明天去北京的机票”时，智能体不仅理解语义，还能自动调用航班查询接口、完成支付并同步至日程系统。这种能力使其在客服、医疗、智能制造等领域展现出颠覆性潜力。

6/19/2025 3:30:00 AM

AI大模型应用开发

2025年AI驱动软件开发：16款“Vibe Coding”工具盘点

大家好，我是肆〇柒。相信绝大多数 Coder，在 AI 时代的当下，都离不开一款好用的 AI 辅助编程工具，毕竟科技的进步正不断重塑着我们的工作模式。正因如此，2025 年的 Vibe Coding 理念为软件开发领域带来了前所未有的变革。

6/19/2025 3:00:00 AM

肆零柒

迈向人工智能的认识论：对人工智能安全和部署的影响以及十大典型问题

理解大型语言模型（LLM）的推理方式不仅仅是一个理论探索，它对于在现实世界中安全地部署人工智能具有直接的实践意义。在医疗保健、法律、金融和安全等领域，人工智能做出错误决策或基于错误原因做出正确决策的代价可能极其高昂。最后一部分将讨论研究结果对部署人工智能系统的意义，并就未来的安全策略和透明度标准提出建议。

6/19/2025 2:30:00 AM

晓晓

他解释说，随着GenAI功能的普及，企业必须实施保护措施来管理风险，特别是在输入/输出处理和微调实践方面，尽早建立这些控制措施可以确保安全、合规地采用AI，同时不损害创新。对于那些已经推出了GenAI功能的团队，他们首先应该审计或检查什么?GenAI . 以传统威胁模型经常忽视的方式扩大了你的攻击面，新进入这一领域的安全从业人员应该首先了解这类新的漏洞以及如何防御它们，一个好的起点是OWASP为大型语言模型(LLM)制定的十大安全风险列表，其中概述了常见的漏洞，如提示注入、数据泄露和不安全的插件设计。

6/19/2025 1:30:00 AM

Mirko

MiniMax 发布 M1 大模型，百万Token上下文+MoE架构，只花了 GPT-4 的零头！

近日，国内 AI 初创公司 MiniMax 发布了一款全新的语言大模型 MiniMax-M1。有两个方面最引人注目：1.高达100万Token的上下文处理能力。 2.极具竞争力的训练成本效益。

6/18/2025 4:42:38 PM

单GPU搞定高清长视频生成，效率×10！引入Mamba机制突破DiT瓶颈 | 普林斯顿&Meta

视频生成模型太贵太慢怎么办？普林斯顿大学和Meta联合推出的新框架LinGen，以MATE线性复杂度块取代传统自注意力，将视频生成从像素数的平方复杂度压到线性复杂度，使单张GPU就能在分钟级长度下生成高质量视频，大幅提高了模型的可扩展性和生成效率。实验结果表明，LinGen在视频质量上优于DiT（胜率达75.6%），并且最高可减少15×（11.5×）FLOPs（延迟）。

6/18/2025 4:42:15 PM

统一框架下的具身多模态推理：自变量机器人让AI放下海德格尔的锤子

当一位熟练的木匠抓起锤子时，锤子消失了 —— 不是物理上的消失，而是无需思考便可自如使用。然而，当前最先进的机器人仍然无法“放下”这把“锤子”，它们被困在循环中 —— 识别锤子、规划如何使用锤子，每一次交互都需要重新“拿起”工具作为认知对象，这种割裂式的处理方式让 AI 永远无法达到人类那种直觉的工具使用境界。具身智能的突破，不会来自对现有基于视觉 - 语言基础模型的修补，而将源于一场架构革命。

6/18/2025 4:41:45 PM

10×加速！DCM显著提升视频扩散模型推理效率！HunyuanVideo13B推理时间从1500秒缩短至120秒！

本文由南京大学，香港大学，上海人工智能实验室，中国科学院大学与南洋理工大学 S-Lab 联合完成。扩散模型在视频合成任务中取得了显著成果，但其依赖迭代去噪过程，带来了巨大的计算开销。尽管一致性模型（Consistency Models）在加速扩散模型方面取得了重要进展，直接将其应用于视频扩散模型却常常导致时序一致性和外观细节的明显退化。

6/18/2025 4:39:02 PM

谷歌Gemini 2.5全线爆发！勇战「濒死恐慌」，却被丝血宝可梦吓到当场宕机

昨夜，Gemini 2.5全家桶三款模型，正式上线。 Gemini 2.5 Pro （正式版，与0605预览版相比无明显变化） Gemini 2.5 Flash（正式版，与0520预览版相比定价有变） Gemini 2.5 Flash-Lite（预览版，最小推理模型）这次，Gemini 2.5 Flash和Gemini 2.5 Pro正式版上线，与谷歌I/O大会公布的预览版性能无明显变化。 2.5 Flash-Lite预览版则是速度最快、性价比最高的Gemini 2.5系模型。

6/18/2025 2:18:23 PM

AI玩宝可梦找出30年前代码Bug！谷歌论文介绍AI通关全过程，复杂任务都能解

谷歌Gemini 2.5系列大模型技术报告发布，一大重点居然是AI玩《宝可梦》？没错，就是那个童年回忆里的游戏，谷歌花超长篇幅介绍了Gemini 2.5 Pro玩《宝可梦蓝》时的具体行为，70页的论文，Pokemon关键词出现59次。其中特别报告了当AI控制的游戏角色濒临死亡时，Gemini 2.5 Pro会陷入“恐慌”状态，导致模型推理能力显著下降，甚至会忘记使用一些基本功能，比如寻路工具。

6/18/2025 2:06:40 PM

√N并行+84倍计算加速！英伟达港大全新图像注意力：空间结构都保留

Transformer 及其核心的注意力机制在自然语言处理和计算机视觉等领域带来了革命性进展，展现出强大的深度上下文建模和数据间复杂依赖关系捕捉能力。然而，其在处理视觉数据时面临两大核心挑战：二次计算复杂度使其难以高效处理高分辨率图像等长上下文数据；忽略空间结构，将多维图像视为无结构的一维标记序列，破坏了图像固有的空间连贯性，而这种信息对于依赖空间关系的视觉任务至关重要。为克服效率瓶颈，近期研究如线性注意力和状态空间模型（如 Mamba）致力于将复杂度降低至线性。

6/18/2025 1:59:11 PM