理论

全面评估多模态模型视频OCR能力，Gemini 准确率仅73.7%

全面评估多模态模型视频OCR能力，Gemini 准确率仅73.7%

多模态大模型（MLLM）在静态图像上已经展现出卓越的 OCR 能力，能准确识别和理解图像中的文字内容。然而，当应用场景从静态图像拓展至动态视频时，即便是当前最先进的模型也面临着严峻的挑战。 MME-VideoOCR 致力于系统评估并推动MLLM在视频OCR中的感知、理解和推理能力。

6/3/2025 8:22:00 AM

1/15成本，实现AI水印新SOTA | 南洋理工大学&A*STAR

1/15成本，实现AI水印新SOTA | 南洋理工大学&A*STAR

给AI生成的作品打水印，让AIGC图像可溯源，已经成为行业共识。问题是，传统水印方法通常把图像当成一个整体处理，全局嵌入、水印提取一锅端，存在不少“短板”：比如，图像局部区域被篡改，就可能导致全局提取失败，也无法定位水印所在具体区域。又比如，无法只保护某个区域，如人脸、LOGO等。

6/3/2025 8:20:00 AM

斯坦福意外用AI生成超强CUDA内核，性能比人类专家优化得还要好！翻倍碾压原生PyTorch，华人主创

斯坦福意外用AI生成超强CUDA内核，性能比人类专家优化得还要好！翻倍碾压原生PyTorch，华人主创

好家伙，AI意外生成的内核（kernel），性能比人类专家专门优化过的还要好！斯坦福最近披露了一组新发现，结果真的太亮眼了。由AI优化的内核，在常见深度学习操作上，翻倍超越原生PyTorch，性能至多可以提升近400%——矩阵乘法（Matmul，FP32）：性能达到PyTorch torch.matmul的101.3%。

6/3/2025 8:17:00 AM

陶哲轩转发！DeepMind开源「AI数学证明标准习题集」

陶哲轩转发！DeepMind开源「AI数学证明标准习题集」

陶哲轩转发，AI搞数学证明的标准习题集来了！ DeepMind最新开源形式化数学猜想库——猜想库收录了经典的形式化表述的数学猜想集合，例如，解析数论中的四个朗道问题。不仅如此，资源库中还提供了各种代码函数，以方便用户对自然语言的数学猜想进行形式化的表述。

6/3/2025 8:15:00 AM

10个小模型并联跑赢GPT-4.1！无额外训练，方法仅四步

10个小模型并联跑赢GPT-4.1！无额外训练，方法仅四步

近年来，语言模型技术迅速发展，然而代表性成果如Gemini 2.5Pro和GPT-4.1，逐渐被谷歌、OpenAI等科技巨头所垄断。与此同时，开源社区的小规模模型正面临日益严峻的挑战——他们参数规模通常仅在7B左右，难以在多任务、多领域场景中与大型闭源模型相抗衡，尚未形成真正意义上的通用人工智能能力。在此背景下，上海人工智能实验室联合东北大学、西北工业大学等机构，提出了Avengers框架，旨在探索开源小模型群体智能的新路径。

6/3/2025 8:12:00 AM

谷歌破解了 AI 最大难题（以及其他 19 个重大更新）

谷歌破解了 AI 最大难题（以及其他 19 个重大更新）

谷歌在 2025 年 I/O 大会上发布的内容，简直让人震惊。这次更新涉及广泛，将极大提升你的工作效率，让你更快完成任务，成为更高效的人。下面是谷歌 I/O 2025 的 20 个最疯狂 AI 更新盘点。

6/3/2025 8:10:52 AM 前端小智

全球首个AI智能体「自进化」开源框架来了！一次部署，终生可用

全球首个AI智能体「自进化」开源框架来了！一次部署，终生可用

在大语言模型技术迅猛发展的今天，各类AI智能体已广泛应用于科研和工业场景。然而，在实际应用中，构建一个高效、稳定的多智能体系统仍面临诸多挑战：从智能体选型、提示词调试到工作流设计，流程复杂，成本高昂。更重要的是，当前多智能体系统通常「部署即固化」，缺乏自我演化机制。

6/3/2025 8:09:00 AM

为什么非要做Agent？我用传统方法也能实现啊！

为什么非要做Agent？我用传统方法也能实现啊！

"我硬编码10分钟就能搞定的功能，你用Agent折腾半天还不稳定，图啥？ " 技术群里，老王又开始质疑我们的Agent项目了。作为一个写了15年代码的资深工程师，他的话很有代表性。

6/3/2025 6:39:54 AM 大数据AI智能圈

AI大模型踩过的坑，每一个都价值千万

AI大模型踩过的坑，每一个都价值千万

看着你们公司几十台服务器嗡嗡作响，显卡温度报警声此起彼伏，老板又在催问"大模型什么时候能上线？ " 这个熟悉的场景，是不是让你想起了那句话——"理想很丰满，现实很骨感"。训练一个千亿参数的大模型，好比盖一栋摩天大楼。

6/3/2025 6:30:05 AM 大数据AI智能圈

人工智能和知识图谱二：构建和使用知识图谱的工具包和算法

人工智能和知识图谱二：构建和使用知识图谱的工具包和算法

一、知识表示标准RDF 和 SPARQL许多知识图谱的核心是资源描述框架 (RDF)，它是 W3C 标准，用于以主语-谓语-宾语三元组的形式表示信息。 RDF 提供了一个灵活的图形数据模型，其中每个三元组（例如Alice worksAt CompanyX）都断言资源之间的关系。它带有形式语义（RDF Schema、OWL 本体），可实现丰富的知识建模（例如类层次结构、域/范围限制）。

6/3/2025 6:14:37 AM 晓晓

MARFT：多智能体协作与强化学习微调的协同进化

MARFT：多智能体协作与强化学习微调的协同进化

大家好，我是肆〇柒。今天，继续 RL 相关话题，我们来探讨一个在人工智能领域极具应用潜力的话题 —— Multi-Agent Reinforcement Fine-Tuning（MARFT）。这个概念融合了大型语言模型（LLM）、多智能体系统（LaMAS）和强化学习（RL）的精华，为解决复杂任务提供了全新的视角和方法论。

6/3/2025 6:12:03 AM 肆零柒

人工智能和知识图谱一：人工智能中知识图谱的概述

人工智能和知识图谱一：人工智能中知识图谱的概述

知识图谱 (KG) 是由现实世界实体（节点）及其相互关系（边）组成的结构化网络，以机器可读的形式对知识进行编码。在人工智能领域，知识图谱是语义理解、推理和数据集成的强大工具。它们为人工智能系统提供上下文，通过链接不同的数据源并揭示隐藏的关系，实现更易于解释、更准确的决策。

6/3/2025 6:03:06 AM 晓晓

AI投顾时代：你是否信任 “机器人理财师”？

AI投顾时代：你是否信任 “机器人理财师”？

在科技飞速发展的今天，人工智能（AI）早已不是科幻电影里的概念，它正在悄然渗透进我们的生活。在与财富息息相关的金融领域，当 “机器人理财师” 开始为你规划资产，你会选择信任吗？我们该拥抱效率，还是警惕失控？

6/3/2025 3:25:00 AM 中兴文档

首次解释LLM如何推理反思！西北大学谷歌新框架：引入贝叶斯自适应强化学习，数学推理全面提升

首次解释LLM如何推理反思！西北大学谷歌新框架：引入贝叶斯自适应强化学习，数学推理全面提升

推理模型常常表现出类似自我反思的行为，但问题是——这些行为是否真的能有效探索新策略呢？对此，西北大学与Google、谷歌DeepMind团队质疑了传统强化学习与反思的关系，并提出了贝叶斯自适应的强化学习方法，首次解释了为什么、如何、以及何时应该反思并探索新策略。图片通过对比分别使用传统强化学习和新方法训练的模型，研究人员发现：在完成“模型需要在3步内输出三个连续相同字符”这一合成任务中，传统RL往往一条路走到黑，而新方法懂得排除无效假设，适时切换新策略。

6/3/2025 3:15:00 AM 量子位

基于Gemini与Qdrant构建生产级RAG管道：设计指南与代码实践

基于Gemini与Qdrant构建生产级RAG管道：设计指南与代码实践

一、RAG技术的核心价值与应用场景在人工智能领域，检索增强生成（Retrieval-Augmented Generation, RAG）正成为解决大语言模型（LLM）知识更新滞后、生成内容不可追溯等问题的关键技术。传统的微调（Fine-Tuning）方法将知识固化在模型参数中，难以应对动态领域的快速变化；而RAG通过将检索与生成解耦，实现了知识的实时更新与可追溯性，尤其适用于政策频繁变动、对准确性要求极高的场景，如医疗、法律和航空管理。本文以构建机场智能助理为例，结合Google的Gemini多模态模型与Qdrant向量数据库，详细阐述如何设计并实现一个高可靠、可扩展的生产级RAG管道。

6/3/2025 2:55:00 AM 大模型之路

RAG中基于图的重排序：利用图神经网络革新信息检索（含代码）

RAG中基于图的重排序：利用图神经网络革新信息检索（含代码）

一、信息检索的演进与图重排序的崛起在大数据与人工智能技术爆发的时代，信息检索（IR）系统面临着前所未有的挑战：用户查询日益复杂，跨领域知识需求激增，传统基于词法匹配或单一语义向量的检索模型逐渐暴露局限性。两阶段检索架构——初始检索与重排序——虽已成为主流，但第一阶段的快速检索常因忽略文档间关联而引入噪声，第二阶段的传统重排序器（如交叉编码器）又难以捕捉结构化知识与全局语义关系。在此背景下，基于图的重排序（Graph-Based Re-ranking）技术应运而生，通过图神经网络（GNN）建模文档、实体与查询间的复杂关系，为信息检索领域注入了全新的活力。

6/3/2025 2:11:00 AM 大模型之路

AI Agents vs Agentic AI：有何区别？为何如此重要？

AI Agents vs Agentic AI：有何区别？为何如此重要？

如果你最近一直在关注 AI，你可能听说过 “AI Agents” 和 “Agentic AI” 这两个术语。虽然它们听起来像是高深的科技术语，但实际上指的是两种不同类型的人工智能，它们都对我们的世界产生了巨大的影响。它们究竟是什么？

6/3/2025 1:55:00 AM 架构精进之路

AI Agent 五大工作模式详解

AI Agent 五大工作模式详解

在AI Agent的架构设计中，工作模式决定了智能体如何规划、执行任务并优化自身行为。本文将深入解析五大主流工作模式：提示链 (Prompt Chaining)、路由 (Routing)、并行化 (Parallelization)、协调者-工作者 (Orchestrator-Workers) 和 **评估者-优化者 (Evaluator-Optimizer)**，通过技术图解与实例揭示其运作机制。一、提示链 (Prompt Chaining)：分步拆解的思维链核心思想：将复杂任务拆解为顺序执行的子任务链，前一步输出作为后一步输入，形成推理流水线。

6/3/2025 1:43:00 AM 程序员秋天

资讯热榜

免费！让图片放大不失真的位图转矢量图神器 Tmttool AI应用新纪元：2025中国AI应用排行榜榜单揭晓丨2025年1月 6秒视频10秒生成！全新AI视频神器 Grok Imagine 深度体验+元提示词分享最火、最全的Agent记忆综述，NUS、人大、复旦、北大等联合出品后悔没早发现！教你用谷歌Gemini生成精美PPT（附提示词） GGUF 是什么？一文看懂大模型里最火的模型格式 Sora、可灵、即梦哪家强？AI视频软件深度测评！ OmniParser V2 在 Windows 系统上的详细安装与运行指南

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI新词 AI绘画大模型机器人数据 Midjourney 开源 Meta 微软智能用户 GPT 学习英伟达 Gemini 智能体技术马斯克 Anthropic 图像 AI创作训练 LLM 论文 AI for Science 代码腾讯苹果算法 Agent Claude 芯片具身智能 Stable Diffusion xAI 蛋白质人形机器人开发者生成式神经网络机器学习 AI视频 3D 字节跳动大语言模型 RAG Sora 百度研究 GPU 生成华为工具 AGI 计算生成式AI AI设计大型语言模型搜索亚马逊 AI模型视频生成特斯拉 DeepMind 场景 Copilot 深度学习 Transformer 架构 MCP 编程视觉