理论

RAG系列：系统评估 - 基于LLM-as-judge实现评估系统

引言在系统评估 - 五个主流评估指标详解中，我们了解了 RAG 系统评估的 5 个主流指标，它们分别是上下文召回率（Context Recall）、上下文相关性（Context Relevance）、答案忠实度（Faithfulness）、答案相关性（Answer Relevance）以及答案正确性（Answer Correctness），也简单了解了一些 RAG 系统的评估方法以及主流的评估系统。今天我们将基于 LLM-as-judge 自己实现一套 RAG 系统评估系统，然后通过该评估系统评估我们在基于 DeepSeek Chroma LangChain 开发一个简单 RAG 系统中搭建好的基础版 RAG 系统，以基础版 RAG 系统这 5 个评估指标值作为基准，通过学习不同的优化方法来提升这 5 个指标。因为是通过 LLM 来评估，所以评估 LLM 的能力越强，理论上评估就会越准确，因此在实际的业务场景中，尽可能选用能力更强的 LLM。

5/26/2025 9:57:46 AM 燃哥讲AI

多模态混合检索与多智能体RAG的破局之道

AI的感知困境：一只眼睛的世界我们习惯了AI能够处理文字、分析数据，但在处理复杂信息时，传统AI面临着三大感知困境：文字与图像割裂好比戴着眼罩工作的设计师，AI只能读懂文字，却看不懂图表中的趋势线、饼图中的占比关系。 OCR技术让AI能提取图像中的文字，却无法理解一张财务图表所传达的"销售额正在快速增长"这类视觉信息。这就像让一个人只通过摸索来理解一幅画，注定失之偏颇。

5/26/2025 9:49:59 AM 大数据AI智能圈

生成式人工智能永远不会取代人类的创造力

我记得第一次听说ChatGPT的时候；我错误地以为这只是又一股潮流，会随着时间的流逝而消逝。也许我太天真了。计算机怎么可能取代真正的创造力呢？

5/26/2025 9:47:34 AM 晓晓

硅谷顶级AI天才成「团宠」：布林请吃饭，奥特曼约打牌

硅谷巨头们，正掀起一场前所未有的人才争夺战。如今，OpenAI、谷歌、xAI等公司不惜重金，争夺那些能够改变游戏规则的「超级明星研究员」。路透爆料称，顶级AI研究人员的年薪已突破天际。

5/26/2025 9:46:08 AM

华为中科大联创大模型低比特量化算法，1‰数据实现昇腾无损压缩7倍

大模型，如今堪称AI界的「吞金巨兽」。从写诗到解题，从对话到编程，它们几乎无所不能，但动辄千亿甚至万亿参数的规模，让部署成本高得离谱。以FP16精度部署的DeepSeek-R1 671B为例，推理时大概需要1342GB的显存，如果是32GB 5090显卡，需要整整42张！

5/26/2025 9:41:26 AM

刷新世界记录！40B模型+20万亿token，散户组团挑战算力霸权

互联网上最大规模的预训练来了！ Nous Research宣布正式推出Psyche网络（Psyche Network），通过去中心化方式革新人工智能（AI）训练。 Psyche网络利用区块链技术，汇聚全球计算资源，成功启动了40B参数大语言模型Consilience的预训练任务，总计20万亿token，创下了迄今为止互联网上最大规模的预训练纪录。

5/26/2025 9:39:15 AM 新智元

Gartner：到2029年，50%的云计算将用于AI工作负载

全球著名咨询调查机构Gartner在官网公布了，未来4年影响云计算增长的几大趋势。分别包括对云的不满、AI/机器学习需求增加、多云和跨云、行业解决方案、数字主权和可持续性。对云的不满尽管云采用仍在增长，但并非所有实施都成功。

5/26/2025 9:22:00 AM

312条轨迹激发241%性能！上交大与SII开源电脑智能体，超越 Claude 3.7

自 Anthropic 推出 Claude Computer Use，打响电脑智能体（Computer Use Agent）的第一枪后，OpenAI 也相继推出 Operator，用强化学习（RL）算法把电脑智能体的能力推向新高，引发全球范围广泛关注。业界普遍认为，需要海量的轨迹数据或复杂的强化学习才能实现电脑智能体的水平突破——这可能意味着大量的人工轨迹标注，以及大规模虚拟机环境的构建，以支撑智能体的学习与优化。然而，来自上海交通大学和 SII 的最新研究却给出了一个非共识答案：仅需 312 条人类标注轨迹，使用 Claude 3.7 Sonnet 合成更丰富的动作决策，就能激发模型 241% 的性能，甚至超越 Claude 3.7 Sonnet extended thinking 模式，成为 Windows 系统上开源电脑智能体的新一代 SOTA。

5/26/2025 9:21:00 AM

只用图像也能思考，强化学习造就推理模型新范式！复杂场景规划能力Max

近年来，LLM 及其多模态扩展（MLLM）在多种任务上的推理能力不断提升。然而，现有 MLLM 主要依赖文本作为表达和构建推理过程的媒介，即便是在处理视觉信息时也是如此。常见的 MLLM 结构。

5/26/2025 9:16:00 AM 机器之心

AI在「赚钱锦标赛」夺冠，比人类还会做生意！躺赚时代要来了？

如何用AI赚钱，可能是这个时代最常见的问题。有些人选择用大模型写小说、写报告、写文案等等，但这些场景只是让模型在执行一些「短期且孤立」的任务。如果能找到合适的应用场景，比如「用自动驾驶跑网约车」，并且模型还能够在长时间内保持连贯的输出，再那岂不是就能躺赚了？

5/26/2025 9:14:00 AM

15亿美元AI独角兽崩塌，全是印度程序员冒充！微软亚马逊惨遭忽悠

印度老哥是真的有点猛啊！今天要说的这位，是AI编程公司Builder.ai的创始人兼前CEO——Sachin Dev Duggal。他不仅造了个「全是人工，没有智能」的假AI公司从软银、微软等巨头手里骗到了数亿美元融资，估值干到15亿而且还敢对投资人虚报300%的营收是的，这家公司的后台里并没有AI，有的只是一群印度老哥假装AI写代码。

5/26/2025 9:12:00 AM

H20之后，英伟达全新特供版GPU曝光！单GPU售价低至6500美元

过去，英伟达在中国AI芯片市场几乎「垄断」，出货占比95%。然而，在美国出口限制以及国产芯片崛起的背景下，现在其在中国的市场份额已经跌至50%。为了应对这一局面，黄仁勋即将亮出一颗「阉割版」的Blackwell GPU。

5/26/2025 9:10:00 AM

50年僵局打破！MIT最新证明：对于算法少量内存胜过大量时间

相信大家都曾有过这样的经历：运行某个程序时，电脑突然卡住，轻则恢复文件，重则重新创建；或者手机频繁弹出「内存不足」的警告，让我们不得不忍痛删除珍贵的照片或应用。这些日常的烦恼，其实都指向了计算世界中两个至关重要的基本要素：时间和空间。时间和空间（也称为内存）是计算中最基本的两种资源：任何算法在执行时都需要一定的时间，并在运行过程中占用一定的空间以存储数据。

5/26/2025 9:09:00 AM 机器之心

比甄嬛还狠！奥特曼「千面人设」被揭穿，MIT华人记者7年曝黑幕

OpenAI的「宫斗」往事，还有大瓜！因为曝料实在太过惊人，奥特曼在相关书籍正式出版之前，否认三连，撇清关系。但曝料人Karen Hao毕业于MIT，曝料过多家美国科技巨头的「黑幕」，因新闻报道获得多个奖项。

5/26/2025 9:07:00 AM

DeepSeek用的GRPO有那么特别吗？万字长文分析四篇精品论文

随着 DeepSeek R1 的持续爆火，推理和强化学习已经成为 AI 领域的热门词汇。短短几个月的时间，我们已经见证了太多的推理大模型，AI 更新迭代速度似乎已经快进到了以天为单位。但在众多研究成果中找到值得关注的内容并不容易。

5/26/2025 8:48:00 AM

ChatGPT引爆教育革命，学习效果暴涨86.7%！

现在的学生，已经离不开各种AIGC工具了，不论是写作业，还是生成笔记，或者通过阅读AI生成的摘要来读文献。面对这些离不开AI的学生，老师和家长都开始担忧了，这样下去，孩子会不会越变越笨啊。然而，最近一项发表在Nature子刊的研究，基于对59项研究对汇总（元分析）指出，ChatGPT的使用对提高K12（中小学生）的学习表现有显著的正向影响，对于培养学生解决复杂问题的能力也有所帮助。

5/26/2025 8:43:00 AM

矩阵乘法新突破！XX^T原来可以更快！RL助力搜索，世界纪录又被提升了5%

深圳市大数据研究院、香港中文大学（深圳）研究团队最新研究发现，这类特殊的矩阵乘法可以进一步加速，并在强化学习与组合优化技术的结合下发掘出了一种新的算法，节省 5% 的乘法数量。论文标题：XXt Can Be Faster论文链接： X 引发热烈讨论，并引起 MIT、斯坦福、哈佛及 Google DeepMind 科学家的广泛关注。背景矩阵乘法优化堪称计算机科学领域的「珠穆朗玛峰」。

5/26/2025 8:41:00 AM

打破思维链推理瓶颈！“软推理”让大模型学会人类抽象能力，token使用量还更少了

不再像CoT（“思维链”）一样“一个字一个字往外蹦”，加上“软思维”就能让大模型像人类一样进行抽象思考。来自SimularAI和微软DeepSpeed的研究员联合提出了Soft Thinking，让模型在连续的概念空间中进行 “软推理”，而非局限于离散的语言符号，打破了基于离散token的推理瓶颈。相比标准CoT，Soft Thinking最高提升Pass@1平均准确率2.48%、减少token使用量22.4%。

5/26/2025 8:40:00 AM

资讯热榜

免费！让图片放大不失真的位图转矢量图神器 Tmttool AI应用新纪元：2025中国AI应用排行榜榜单揭晓丨2025年1月 6秒视频10秒生成！全新AI视频神器 Grok Imagine 深度体验+元提示词分享最火、最全的Agent记忆综述，NUS、人大、复旦、北大等联合出品后悔没早发现！教你用谷歌Gemini生成精美PPT（附提示词） GGUF 是什么？一文看懂大模型里最火的模型格式 Sora、可灵、即梦哪家强？AI视频软件深度测评！ OmniParser V2 在 Windows 系统上的详细安装与运行指南

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI新词 AI绘画大模型机器人数据 Midjourney 开源 Meta 微软智能用户 GPT 学习英伟达 Gemini 智能体技术马斯克 Anthropic 图像 AI创作训练 LLM 论文 AI for Science 代码腾讯苹果算法 Agent Claude 芯片具身智能 Stable Diffusion xAI 蛋白质人形机器人开发者生成式神经网络机器学习 AI视频 3D 字节跳动大语言模型 RAG Sora 百度研究 GPU 生成华为工具 AGI 计算生成式AI AI设计大型语言模型搜索亚马逊 AI模型视频生成特斯拉 DeepMind 场景 Copilot 深度学习 Transformer 架构 MCP 编程视觉