LLM

RAG中基于图的重排序：利用图神经网络革新信息检索（含代码）

RAG中基于图的重排序：利用图神经网络革新信息检索（含代码）

一、信息检索的演进与图重排序的崛起在大数据与人工智能技术爆发的时代，信息检索（IR）系统面临着前所未有的挑战：用户查询日益复杂，跨领域知识需求激增，传统基于词法匹配或单一语义向量的检索模型逐渐暴露局限性。两阶段检索架构——初始检索与重排序——虽已成为主流，但第一阶段的快速检索常因忽略文档间关联而引入噪声，第二阶段的传统重排序器（如交叉编码器）又难以捕捉结构化知识与全局语义关系。在此背景下，基于图的重排序（Graph-Based Re-ranking）技术应运而生，通过图神经网络（GNN）建模文档、实体与查询间的复杂关系，为信息检索领域注入了全新的活力。

6/3/2025 2:11:00 AM 大模型之路

Claude 团队打开大模型“脑回路”，推出开源 LLM 思维可视化工具

Claude 团队打开大模型“脑回路”，推出开源 LLM 思维可视化工具

Claude 团队来搞开源了 —— 推出“电路追踪”（circuit tracing）工具，可以帮大伙儿读懂大模型的“脑回路”，追踪其思维过程。

5/31/2025 10:36:22 PM 汪淼

LLM可以在没有采用强化学习或大型数据集的情况下学习推理吗？

LLM可以在没有采用强化学习或大型数据集的情况下学习推理吗？

译者 | 李睿审校 | 重楼针对提升LLM推理能力面临的挑战，斯坦福大学研究人员提出了“思考、修剪、训练”（TPT）框架，让LLM利用自生成且验证正确的数据迭代优化。研究表明，无需强化学习、大型数据集或外部教师模型，TPT可以使较小模型推理性能媲美甚至超越大模型，凸显了TPT框架在提升模型推理能力和准确性的潜力。目前，缺乏高质量的训练数据仍然是提高大型语言模型（LLM）推理能力的主要障碍之一。

5/30/2025 10:50:27 AM 李睿

LLM省钱大测评！48块GH200，首个百亿级参数量实证

LLM省钱大测评！48块GH200，首个百亿级参数量实证

近年来，大型语言模型（LLM）如GPT系列取得了革命性进展，在自然语言处理、内容创作、多语言翻译乃至科学研究等众多领域展现出惊人能力。然而，模型参数量（如DeepseekR1的671B参数）和上下文窗口的急剧膨胀，带来了巨大的计算力（GPT-3训练约需3640Petaflop/s-days）、能源消耗和资金投入（GPT-3训练成本估计超460万美元）。高昂的成本已成为制约LLM进一步发展和广泛应用的关键瓶颈。

5/30/2025 8:50:00 AM

如何使用 LLM实现电子表格规范化

如何使用 LLM实现电子表格规范化

一、如何使用 LLM实现电子表格规范化请观察以下电子表格：图片从“为什么”开始图片让我们看一下这个Excel电子表格，其中包含电影奖项的信息。这是一个典型的、常见的电子表格，每个人都可能在日常工作中使用它。但它有什么问题呢？

5/29/2025 9:48:22 AM 晓晓

快速理解热门 LLM 大语言模型

快速理解热门 LLM 大语言模型

作者 | masonpy本文尽量用最简单的方式, 帮读者理解 LLM，Transformer, Prompt, Function calling, MCP, Agent, A2A 等这些基本概念。表述时不追求绝对准确，尽量通俗易懂，部分内容有个人理解的成份，内容难免疏漏, 欢迎指正。注意：本文需要你有基本的代码阅读能力，当然非开发阅读也不会很困难。

5/29/2025 8:30:00 AM 腾讯技术工程

AlphaEvolve: 谷歌DeepMind迈向通用人工智能（AGI）的突破性一步

AlphaEvolve: 谷歌DeepMind迈向通用人工智能（AGI）的突破性一步

译者 | 李睿审校 | 重楼谷歌DeepMind推出的AlphaEvolve旨在自主发现算法和科学解决方案。它基于进化计算原理，通过LLM驱动的独立进化流程，不断优化代码。 AlphaEvolve不仅超越人类专家设计的算法，还在数学和谷歌基础设施优化上取得突破。

5/29/2025 8:19:49 AM 李睿

数据提取场景下不同LLM模型对比分析

数据提取场景下不同LLM模型对比分析

在数字化时代，数据作为核心资产，其高效处理与利用成为企业和组织发展的关键。然而，大量数据以非结构化文本、传统文档等形式存在，导致数据提取面临巨大挑战。人工智能，尤其是大语言模型（LLMs）的爆发式发展，为大规模自动化数据提取提供了新的可能。

5/29/2025 1:50:00 AM 大模型之路

告别卡脖子，华为黑科技破局！昇腾推理加速1.6倍打破LLM降智魔咒

告别卡脖子，华为黑科技破局！昇腾推理加速1.6倍打破LLM降智魔咒

LLM发展到今天，下一步该往哪个方向探索？显然，如今最明显的一个问题就是，大模型的参数规模还是太大了——DeepSeek-V3的参数为671B，Llama 3.1系列最大为405B，GPT-4o为200B，Claude 3.5 Sonnet为175B。参数规模在不断增长，高昂的计算成本和推理延迟，该怎么破？

5/28/2025 8:51:00 AM

我的RAG开源项目300+star了，十分适合新手入门（日志级详细拆解）

我的RAG开源项目300+star了，十分适合新手入门（日志级详细拆解）

三个月前，我在 Github 上开源的一个 RAG 练手项目，目前已经有了 327 个 star，总共解决了 22 个 issues。结合过去几个月的项目实践，我重新对项目做了轻量化重构，降低资源消耗与部署门槛。项目地址：，五脏俱全。

5/28/2025 5:00:00 AM 韦东东

「DeepSeek 技术解析」：LLM 训练中的强化学习算法

「DeepSeek 技术解析」：LLM 训练中的强化学习算法

我们将深入探讨 DeepSeek 模型训练策略中的关键创新之一[1, 2]：群组相对策略优化（Grouped Relative Policy Optimization，GRPO）[3]。为确保本文自成体系并阐明 GRPO 的理论基础，我们将首先介绍强化学习的基础概念，重点解析强化学习（RL）及基于人类反馈的强化学习（RLHF）在 LLM 训练中的核心作用。接着我们将探讨不同的强化学习范式，包括基于价值的强化学习、基于策略的强化学习和 Actor-Critic 强化学习，回顾经典算法如置信域策略优化（TRPO）和近端策略优化（PPO），最后解析 GRPO 带来的优化创新。

5/28/2025 2:25:00 AM Baihai IDP

北大团队首次系统性评估大语言模型心理特征，推动AI评估新标准

北大团队首次系统性评估大语言模型心理特征，推动AI评估新标准

在人工智能迅猛发展的今天，大语言模型（LLM）展现出了超凡的能力，但如何科学评估它们的 “心智” 特征，比如价值观、性格和社交智能，依旧是一个亟待解决的难题。近期，北京大学的宋国杰教授团队发布了一篇全面的综述论文，系统梳理了大语言模型心理测量学的研究进展，为 AI 的评估提供了新视角。这篇论文名为《大语言模型心理测量学:评估、验证与增强的系统综述》，长达63页，引用了500篇相关文献。

5/27/2025 4:01:00 PM AI在线

北大团队发布首篇大语言模型心理测量学系统综述：评估、验证、增强

北大团队发布首篇大语言模型心理测量学系统综述：评估、验证、增强

随着大语言模型（LLM）能力的快速迭代，传统评估方法已难以满足需求。如何科学评估 LLM 的「心智」特征，例如价值观、性格和社交智能？如何建立更全面、更可靠的 AI 评估体系？

5/27/2025 3:21:06 PM

这篇 AI Agent 漫游指南，带你建立全面的科技史观

这篇 AI Agent 漫游指南，带你建立全面的科技史观

作者 | kong以OpenAI o1与DeepSeek R1为代表的"类Agent"模型、OpenAI DeepResearch为代表的“真Agent”模型，正在重构AI Agent的技术范式。 Agentic Workflow的王座还没坐热，强化学习驱动的端到端Agent模型训练已呼啸而来。未来趋势已指明：模型即产品，工程化Agent的命运将如何？

5/27/2025 10:05:00 AM 腾讯技术工程

LiteLLM：用于统一大模型访问的开源网关

LiteLLM：用于统一大模型访问的开源网关

译者 | 核子可乐审校 | 重楼摘要：LiteLLM 允许开发者像调用 OpenAI API 那样集成各种大语言模型（LLM），并支持故障转移、预算控制、速率限制以及对API调用的实时监控。不同提供商发布的大语言模型（LLM）层出不穷——包括 Anthropic、谷歌、Meta、微软、英伟达、OpenAI 等等——这为开发者提供了丰富的选择，但也令复杂性一路攀升。每家提供商都有其独特的API特性和响应格式，使得在同一个应用中切换模型或支持多个后端变得愈发困难。

5/27/2025 8:19:06 AM 核子可乐

LLM能理解数学吗？最新研究揭露大模型数学推理的致命缺陷

LLM能理解数学吗？最新研究揭露大模型数学推理的致命缺陷

你有没有想过，那些在聊天中侃侃而谈的AI大模型，遇到数学题时会是什么样子？就像一个平时很会聊天的朋友，突然被问到复杂的数学问题时支支吾吾的样子。最近有研究团队专门研究了这个问题，结果发现了一些让人意外的真相。

5/27/2025 1:27:00 AM 无影寺

LLM的 “自信陷阱”：上下文幻觉如何侵蚀 AI 信任？

LLM的 “自信陷阱”：上下文幻觉如何侵蚀 AI 信任？

一、当AI自信地给出错误答案在数字技术飞速发展的今天，大语言模型（LLMs）正以前所未有的速度渗透到我们生活的方方面面。从智能客服到医疗诊断，从金融分析到法律文书，这些模型凭借其强大的语言理解和生成能力，似乎正在重塑人类与信息交互的方式。然而，在其光鲜亮丽的表现背后，一个隐蔽而危险的问题正悄然浮现——上下文幻觉（Contextual Hallucination）。

5/26/2025 1:45:00 AM 大模型之路

进化智能体 AlphaEvolve：科学发现与算法优化的新引擎

进化智能体 AlphaEvolve：科学发现与算法优化的新引擎

大家好，我是肆〇柒。今天，我们来聊一个非常有趣且前沿的Agent技术——AlphaEvolve。这是一个由 Google DeepMind 开发的进化型编码智能体，它通过结合大型语言模型（LLM）和进化算法，为科学发现和算法优化带来了另外一种可能性。

5/23/2025 3:00:00 AM 肆零柒

资讯热榜

AI应用新纪元：2025中国AI应用排行榜榜单揭晓丨2025年1月免费！让图片放大不失真的位图转矢量图神器 Tmttool 这样在本地搭建DeepSeek可以直接封神：本地部署+避坑指南（升级版） GGUF 是什么？一文看懂大模型里最火的模型格式后悔没早发现！教你用谷歌Gemini生成精美PPT（附提示词） Mac也能跑Qwen3，一文看懂本地部署qwen 3配置要求 6秒视频10秒生成！全新AI视频神器 Grok Imagine 深度体验+元提示词分享最火、最全的Agent记忆综述，NUS、人大、复旦、北大等联合出品

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI新词 AI绘画大模型机器人数据 Midjourney 开源 Meta 微软智能用户 GPT 学习英伟达 Gemini 智能体技术马斯克 Anthropic 图像 AI创作训练 LLM 论文 AI for Science 代码腾讯苹果算法 Agent Claude 芯片具身智能 Stable Diffusion xAI 蛋白质人形机器人开发者生成式神经网络机器学习 AI视频 3D 大语言模型字节跳动 RAG Sora 百度研究 GPU 生成华为工具 AGI 计算生成式AI AI设计大型语言模型搜索亚马逊 AI模型视频生成特斯拉 DeepMind 场景 Copilot 深度学习 Transformer 架构 MCP 编程视觉