理论

深度解析大模型技术演进脉络：RAG、Agent与多模态的实战经验与未来图景

作者 | jaymie大模型作为产业变革的核心引擎。通过RAG、Agent与多模态技术正在重塑AI与现实的交互边界。三者协同演进，不仅攻克了数据时效性、专业适配等核心挑战，更推动行业从效率革新迈向业务重构。

5/20/2025 8:30:00 AM 腾讯技术工程

Transformer 模型结构详解及代码实现!

一、Transformer简要发展史以下是Transformer模型发展历史中的关键节点：Transformer架构于2017年6月推出。原本研究的重点是翻译任务。随后推出了几个有影响力的模型，包括：时间模型简要说明2017 年 6 月「Transformer」Google 首次提出基于 Attention 的模型，用于机器翻译任务2018 年 6 月「GPT」第一个使用 Transformer 解码器模块进行预训练的语言模型，适用于多种 NLP 任务2018 年 10 月「BERT」使用 Transformer 编码器模块，通过掩码语言建模生成更强大的句子表示2019 年 2 月「GPT-2」更大更强的 GPT 版本，由于潜在风险未立即发布，具备出色的文本生成能力2019 年 10 月「DistilBERT」BERT 的轻量化版本，在保留 97% 性能的同时，速度更快、内存占用更低2019 年 10 月「BART、T5」使用完整的 Encoder-Decoder 架构，在各种 NLP 任务中表现优异2020 年 5 月「GPT-3」超大规模语言模型，支持“零样本学习”，无需微调即可完成新任务这个列表并不全面，只是为了突出一些不同类型的 Transformer 模型。

5/20/2025 8:15:00 AM 郭小喵玩AI

新的自主式AI工具带来新的威胁：智能体泛滥

你可能已经拥有一个用于开发和管理智能体的平台，甚至可能有两个或更多，这种智能体的泛滥使得智能体能够在企业的更多领域中运作，但也带来了更高的复杂性、增加了安全顾虑，并可能损害投资回报率。在过去的一年里，供应商们一直在急于将智能体产品添加到他们的产品组合中。微软、AWS、谷歌、IBM、Salesforce、ServiceNow、Workday和SAP都已经涉足这一领域，而数据管理软件提供商Informatica本周也承诺将在其智能数据管理云中添加智能体，以自动化数据处理流程。

5/20/2025 7:00:00 AM Anirban

理解 RAG 第九部分：针对 RAG 微调 LLM

在“理解 RAG”系列的前几篇文章中，我们重点探讨了检索增强生成的各个方面。文章中，我们重点介绍了与大型语言模型 (LLM) 集成的检索器组件，该组件用于检索有意义且真实的上下文知识，从而提升 LLM 输入的质量，并最终提升其生成的输出响应。具体来说，我们学习了如何管理传递给 LLM 的上下文长度、如何优化检索，以及如何利用向量数据库和索引策略来有效地检索知识。

5/20/2025 6:00:00 AM 晓晓

基于Bad Cases的Dify合同审查案例演示（工作流拆解）

4月底时，知识星球里有个关于在 RAG 流程中，如何实现基于 Bad Cases（负面案例）的合同审查和合同生成（基于合同模板）的提问，算是一个很有代表性的进阶 RAG 应用方向，这篇针对其中的合同审查场景来做些介绍和演示。注：“整体文档理解”（Bad Cases 分析）和“结构化对象检索”（模板匹配）合同审查场景里，利用历史上的“坏案例”（Bad Cases，包含合同原文和审查结果）来辅助新合同的审查，而不仅仅依赖预设规则是个很实际的业务需求。但标准 RAG 主要召回与问题语义相似的片段，确实很难让 LLM 理解一个 Bad Cases 的整体情况和参考价值。

5/20/2025 4:00:00 AM

有目的地设计人工智能：意图矩阵

在竞相添加“智能”功能的过程中，许多产品陷入了一个陷阱：推出人工智能是因为他们可以，而不是因为他们应该。当团队争相实现自动化时，他们常常不会停下来思考：人工智能在这里扮演什么角色？它应该接管一切，还是协助用户？

5/20/2025 3:00:00 AM 晓晓

从代码助手到工程伙伴：Windsurf 的 SWE-1 开启 AI 辅助开发新范式

译者 | 刘汪洋审校 | 重楼如今，在许多 Vibe Coding 平台通常会借助现有的大型语言模型 (LLMs) 来辅助编写代码。不过，写代码仅仅是开发人员日常工作的一小部分。要想构建一个完善的企业级生产平台，还得用上各种工具来审查代码、提交代码，并进行长期的维护。

5/20/2025 12:08:00 AM 刘汪洋

为什么 API 必不可少，而 MCP 暂时是可选的

作者 | Gil Feig编辑 | 云昭出品 | 51CTO技术栈（微信号：blog51cto）AI 助手在产品体验中的重要性日益凸显，而一种新的标准也应运而生，它助力 AI 助手的构建：模型上下文协议 (MCP)。随着 Anthropic、OpenAI 和 Gemini 等主流大型语言模型 (LLM) 提供商的采用，该协议迅速在更广泛的软件生态系统中获得了广泛关注，各大公司纷纷构建自己的 MCP 服务器。作为参与构建 MCP 服务器和 API 集成的人员，我亲眼目睹了这种快速采用导致的混乱。

5/19/2025 7:01:14 PM 云昭

新技术栈来了！四剑客联手打造下一代互联网！智能体互联时代将至！A2A、MCP、Kafka 与 Flink如何强强联手？

编译 | 云昭出品 | 51CTO技术栈（微信号：blog51cto）智能体（Agent）是个不可逆的趋势。但今天的AI 智能体似乎还处于一个“前标准化”阶段。这些雨后春笋般的智能体越来越多，性能强大、增长迅速，但彼此之间却无法协作——有的智能体用来分析数据，有的用来编写代码，有的用来自动化客户关系管理（CRM）工作流，但它们彼此孤立，互不往来。

5/19/2025 6:57:05 PM 云昭

北邮港大联手！LightRAG：图结构赋能的高效检索增强生成新范式

现有 RAG 系统在处理复杂查询时力不从心。一方面，它们依赖扁平的数据表示，无法有效捕捉实体间的复杂关系；另一方面，缺乏上下文感知能力，导致生成的回答碎片化，难以形成连贯的逻辑。例如，当用户询问 “电动汽车的兴起如何影响城市空气质量和公共交通基础设施？

5/19/2025 6:03:15 PM Goldma

调查显示67%的工作使用AI，但领导者是否了解其局限性？

在一份针对1000名知识型员工的调查中，67%的受访者表示其所在公司使用AI，其中56%的公司鼓励员工使用AI。该调查由Owl Labs发起，他们发现Z世代员工更有可能表示自己“高度依赖”AI，其中70%的最年轻一代员工在工作中依赖这项技术完成多项任务。这与OpenAI CEO萨姆·奥特曼(Sam Altman)的观察一致，他最近表示，Z世代员工将ChatGPT视为“人生顾问”。

5/19/2025 3:06:44 PM Chris

AI生成视频总不符合物理规律？匹兹堡大学团队新作PhyT2V：不重训练模型也能让物理真实度狂飙2.3倍！

本文由匹兹堡大学智能系统实验室（Intelligent Systems Laboratory）的研究团队完成。第一作者为匹兹堡大学的一年级博士生薛琪耀。当前文本生成视频（T2V）技术正在从注重视觉质量与模型规模的扩展阶段，迈向更关注物理一致性与现实合理性的推理驱动阶段。

5/19/2025 3:00:38 PM

全新GPU高速互联设计，为大模型训练降本增效！北大/阶跃/曦智提出新一代高带宽域架构

随着大模型的参数规模不断扩大，分布式训练已成为人工智能发展的中心技术路径。如此一来，高带宽域的设计对提升大模型训练效率至关重要。然而，现有的HBD架构在可扩展性、成本和容错能力等方面存在根本性限制：以交换机为中心的HBD（如NVIDIA NVL-72）成本高昂、不易扩展规模；以GPU为中心的HBD（如 Google TPUv3和Tesla Dojo）存在严重的故障传播问题；TPUv4等交换机-GPU混合HBD采用折中方案，但在成本和容错方面仍然不甚理想。

5/19/2025 2:57:44 PM

参数量暴降，精度反升！哈工大宾大联手打造点云分析新SOTA

新架构选择用KAN做3D感知，点云分析有了新SOTA！来自哈尔滨工业大学（深圳）和宾夕法尼亚大学的联合团队最近推出了一种基于Kolmogorov-Arnold Networks(KANs)的3D感知解决方案——PointKAN，在处理点云数据的下游任务上展现出巨大的潜力。 △PointKAN与同类产品的比较替代传统的MLP方案，PointKAN具有更强的学习复杂几何特征的能力。

5/19/2025 2:56:45 PM

三金，又是中国队！全球机器人视触融合挑战赛揭榜

今天，机器人和自动化领域的全球顶级会议ICRA 2025在亚特兰大正式拉开帷幕。不久前，机器人领域的顶级赛事——ManiSkill-ViTac 2025也公布了获奖团队名单。 5月23日，ManiSkill-ViTac 2025的成果将在ICRA 2025第六届ViTac国际研讨会中集中汇报。

5/19/2025 2:55:41 PM

蚂蚁集团 KAG：知识增强生成如何革新专业领域大模型应用？万字深入解读！

在大语言模型（LLMs）的应用浪潮中，检索增强生成（RAG）技术得到广泛运用，利用外部检索系统，显著提升大语言模型的时效性，并大幅减少模型幻觉。为了进一步提升RAG在多跳任务、跨段落任务的性能，研究人员引入了知识图谱，包括GraphRAG、DALK、SUGRE、ToG 2.0 和 HippoRAG 等。尽管 RAG 及其优化方案已经解决了因知识缺乏和更新导致的大部分幻觉问题，但生成的文本仍然缺乏连贯性和逻辑性，难以产生正确且有价值的答案，尤其是在法律、医学和科学等需要分析推理的专业领域：首先，真实场景的业务流程一般需要基于知识片段之间特定关系的推理来收集与回答问题相关的信息。

5/19/2025 2:50:00 PM Goldma

使用 Unsloth 高效微调 Qwen3，国产大模型的轻量化和部署实践

近年来，大语言模型在自然语言处理任务中取得了显著进展。然而，对于开发者和中小型企业，模型微调的资源需求仍是一个挑战。本文将讨论如何利用 Unsloth 框架，在有限的硬件资源下完成 Qwen3-14B 的高效微调，并支持后续部署。

5/19/2025 9:32:06 AM 口袋数据

深入 GraphRAG：构建更强大的知识增强问答系统的六大开源项目

前几天我分享了一篇文章知识图谱向量数据库：打造更智能的RAG系统，介绍了如何把知识图谱和RAG系统相结合，来提升检索内容的准确性。然后有读者询问我是否有相关的开源项目推荐，我整理了下，目前有6个关注比较高的图RAG项目，大家可以关注学习一下。 Microsoft GraphRAG微软官方发布的 GraphRAG 是一个构建在 LLM 与图机器学习结合基础上的检索增强生成系统。

5/19/2025 9:28:31 AM 贝塔街的万事屋

资讯热榜

免费！让图片放大不失真的位图转矢量图神器 Tmttool AI应用新纪元：2025中国AI应用排行榜榜单揭晓丨2025年1月 6秒视频10秒生成！全新AI视频神器 Grok Imagine 深度体验+元提示词分享最火、最全的Agent记忆综述，NUS、人大、复旦、北大等联合出品后悔没早发现！教你用谷歌Gemini生成精美PPT（附提示词） GGUF 是什么？一文看懂大模型里最火的模型格式 Sora、可灵、即梦哪家强？AI视频软件深度测评！ OmniParser V2 在 Windows 系统上的详细安装与运行指南

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI新词 AI绘画大模型机器人数据 Midjourney 开源 Meta 微软智能用户 GPT 学习英伟达 Gemini 智能体技术马斯克 Anthropic 图像 AI创作训练 LLM 论文 AI for Science 代码腾讯苹果算法 Agent Claude 芯片具身智能 Stable Diffusion xAI 蛋白质人形机器人开发者生成式神经网络机器学习 AI视频 3D 字节跳动大语言模型 RAG Sora 百度研究 GPU 生成华为工具 AGI 计算生成式AI AI设计大型语言模型搜索亚马逊 AI模型视频生成特斯拉 DeepMind 场景 Copilot 深度学习 Transformer 架构 MCP 编程视觉