大语言模型

用Ray观测和监控大语言模型工作负载

译者 | 布加迪审校 | 重楼前言GPT-4、PHI2、BERT和T5等大语言模型（LLM）的出现已彻底改变了自然语言处理，这些模型支持高端应用程序，包括聊天机器人、推荐系统和分析。然而，LLM中工作负载的规模和复杂性使得保证性能和可靠性成了一大挑战。在这种情况下，在使用Ray等框架部署工作负载的同时进行监控和观测显得非常必要。

1/27/2025 8:23:41 AM

布加迪

AI 运维的新时代：从 MLOps 到 LLMOps深度解析

作者 | 崔皓审校 | 重楼摘要文章围绕 LLMOps（大语言模型运维）展开，详细解析了企业如何使用大语言模型（LLMs），以及 LLMOps 在优化 LLM 开发、部署和管理中的核心作用。文章首先介绍了提示词工程（Prompt Engineering）、检索增强生成（RAG）和微调（Fine-tuning）等常见 LLM 应用场景，并深入探讨了这些方法的挑战和局限性。随后，通过对比 MLOps 和 LLMOps，突出了后者在管理复杂模型生命周期中的独特价值。

1/16/2025 11:45:26 AM

崔皓

AMD把o1炼成了实验室助手，自动科研经费节省84%

芯片强者AMD最新推出科研AI，o1-preview竟成天选打工人？注意看，只需将科研idea和相关笔记一股脑丢给AI，研究报告甚至是代码就能立马出炉了。这个AI系统代号“Agent Laboratory”，全程由LLM（大语言模型）驱动完成文献综述、实验，以及报告，一站式搞定科学研究。

1/10/2025 2:14:44 PM

一文看懂推理并行的定义及其工作原理

译者 | 布加迪审校 | 重楼近年来，我们见证了两个反复出现的趋势：发布的GPU功能越来越强大，以及拥有数十亿、乃至数万亿个参数和加长型上下文窗口的大语言模型（LLM）层出不穷。许多企业正在利用这些LLM，或进行微调，或使用RAG构建具有特定领域知识的应用程序，并将其部署在专用GPU服务器上。现在说到在GPU上部署这些模型，需要注意的一点是模型大小，即相比GPU上的可用内存，将模型加载到GPU内存中所需的空间（用于存储参数和上下文token）实在太大了。

1/9/2025 11:14:14 AM

布加迪

SafeDrive：大语言模型实现知识驱动和数据驱动的风险-敏感决策

24年12月来自USC、U Wisconsin、U Michigan、清华大学和香港大学的论文“SafeDrive: Knowledge- and Data-Driven Risk-Sensitive Decision-Making for Autonomous Vehicles with Large Language Models”。自动驾驶汽车 (AV) 的最新进展利用大语言模型 (LLM) 在正常驾驶场景中表现良好。然而，确保动态、高风险环境中的安全并管理，对安全至关重要的长尾事件仍然是一项重大挑战。

1/9/2025 9:38:25 AM

黄浴

多模态大语言模型空间智能新探索：仅需单张图片或一句话，就可以精准生成3D建模代码啦！

计算机辅助设计（CAD）已经成为许多行业设计、绘图和建模的标准方法。如今，几乎每一个制造出来的物体都是从参数化 CAD 建模开始的。 CAD 构造序列是 CAD 模型表示的一种类型，不同于 Mesh 类型的三角网格、B-rep 格式的点、线、面表示，它被描述为一系列建模操作，包括确定草图 3D 起点和 3D 草图平面方向、绘制 2D 草图、将草图拉伸成 3D 实体形状的完整参数和过程，以 JSON 代码格式储存和表示。

1/3/2025 11:37:13 AM

别再将LLM当成数据库了

译者 | 布加迪审校 | 重楼想象一下，你戴着耳机驾驶一辆汽车，每五分钟才更新一次路况信息，而不是持续不断地提供当前位置情况的视频流。过不了多久，你就会撞车。虽然这种类型的批处理在现实世界中并不适用，却是当今许多系统运行的方式。

1/3/2025 8:13:08 AM

布加迪

上交大揭露大模型审稿风险：一句话就能让论文评分飞升

大语言模型（LLMs）正以前所未有的方式，深刻影响着学术同行评审的格局。同行评审作为科学研究的基石，其重要性毋庸置疑。然而，随着大语言模型逐渐渗透到这一核心过程，我们是否已经准备好面对它可能带来的深远影响？

1/2/2025 7:00:00 AM

SCOPE：面向大语言模型长序列生成的双阶段KV缓存优化框架

Key-Value (KV)缓存已成为大语言模型(LLM)长文本处理的关键性能瓶颈。当前研究尚未充分关注解码阶段的优化，这一阶段具有同等重要性，因为：1、对需要完整上下文的场景，预填充阶段的过度压缩会显著降低模型的推理理解能力2、在长输出推理任务中存在重要特征的显著偏移现象这篇论文提出SCOPE框架，通过分离预填充与解码阶段的KV缓存优化策略，实现高效的缓存管理。该框架保留预填充阶段的关键KV缓存信息，同时引入基于滑动窗口的新型策略，用于解码阶段重要特征的高效选取。

12/30/2024 1:13:35 PM

SACHIN KUMAR

26 年前的古董 Win98 电脑成功运行大语言模型：搭载奔腾 II 处理器、128MB 内存

一个名为 EXO Labs 的组织今日在社交媒体上发布了一段视频，展示了一台运行 Windows 98 系统的 26 年高龄的奔腾 II 电脑（128MB 内存）成功运行大型语言模型（LLM）的情形。随后，EXO Labs 在其博客上发表了一篇详细文章，进一步阐述了这个项目的细节，以及其“普及人工智能”的愿景。

12/30/2024 7:53:23 AM

远洋

SPAR：融合自对弈与树搜索的高性能指令优化框架

大语言模型的指令遵循能力需要模型能够准确识别指令中的细微要求，并在输出中精确体现这些要求。现有方法通常采用偏好学习进行优化，在创建偏好对时直接从模型中采样多个独立响应。但是这种方法可能会引入与指令精确遵循无关的内容变化（例如，同一语义的不同表达方式），这干扰了模型学习识别能够改进指令遵循的关键差异。

12/26/2024 3:35:33 PM

SACHIN KUMAR

人工智能中的智能体内存：持久内存是如何重新定义大语言模型应用程序的

译者 | 张哲刚审校 | 重楼人工智能（AI）从根本上改变了我们的生活、工作以及通信方式。 GPT-4、BERT、Llama 等大语言模型（LLM）在对话式人工智能方面取得了显著进步，不但响应迅速，而且做到了拟人化。即便如此，这些系统仍然普遍存在一个致命缺陷，那就是无法在单个会话之外保留上下文信息。

12/26/2024 8:00:00 AM

张哲刚

首个科学计算基座大模型BBT-Neutron开源！突破大科学装置数据分析瓶颈

高能物理是探索宇宙基本组成与规律的前沿科学领域，研究粒子在极高能量下的相互作用，是揭示宇宙起源、暗物质与暗能量等未解之谜的重要手段。高能物理实验（如粒子对撞实验、暗物质与暗能量实验等）产生的数据量极为庞大且复杂，传统的数据分析方法在处理海量数据和复杂物理结构时，面临计算瓶颈。近期，arXiv上更新了一篇名为《Scaling Particle Collision Data Analysis 》的论文。

12/25/2024 2:30:00 PM

新智元

美国哥伦比亚大学研究：大语言模型正在变得越来越像人类大脑

哥伦比亚大学和费因斯坦医学研究所的研究团队近期进行了一项研究，探索了LLM与大脑神经反应的相似性。研究表明，随着LLM技术的进步，这些模型不仅在性能上有所提升，而且结构上也越来越接近人类大脑。

12/20/2024 10:18:16 AM

清源

谷歌发布 FACTS Grounding 基准：Gemini、GPT-4o、Claude 当评委，成 AI 大语言模型“幻觉照妖镜”

12 月 18 日消息，谷歌 DeepMind 团队于 12 月 17 日发布博文，宣布推出 FACTS Grounding 基准测试，评估大型语言模型（LLMs）根据给定材料是否准确作答，并避免“幻觉”（即捏造信息）的能力，从而提升 LLMs 的事实准确性，增强用户信任度，并拓展其应用范围。数据集在数据集方面，ACTS Grounding 数据集包含 1719 个示例，涵盖金融、科技、零售、医疗和法律等多个领域，每个示例包含一篇文档、一条要求 LLM 基于文档的系统指令和随附的提示词。示例文档长度不一，最长可达 32000 个 token（约 20000 字）。

12/18/2024 1:24:30 PM

故渊

Differential Transformer: 通过差分注意力机制提升大语言模型性能

Transformer模型已经成为大语言模型（LLMs）的标准架构，但研究表明这些模型在准确检索关键信息方面仍面临挑战。今天介绍一篇名叫Differential Transformer的论文，论文的作者观察到一个关键问题：传统Transformer模型倾向于过分关注不相关的上下文信息，这种"注意力噪声"会影响模型的性能。在这篇论文中，作者注意到transformer模型倾向于关注不相关的上下文。

12/17/2024 2:39:16 PM

佚名

清华本科生获NeurIPS Math-AI 杰出论文奖：REBASE算法让小模型实现推理大突破

刚刚由清华大学本科生伍垟圳为一作的论文《推理Scaling Laws：面向语言模型问题求解的计算最优推理实证分析》在顶级AI学术会议NeurIPS 2024 Math-AI上荣获杰出论文奖（Outstanding Paper Award）。这项研究不仅刷新了人们对推理阶段计算优化的理解，还为如何在有限计算资源下实现更高效的大语言模型（LLM）推理提供了全新的思路论文亮点：推理阶段的计算优化新突破1. 小模型也能打败大模型：重新定义推理阶段的效率论文系统性地研究了不同模型大小和推理策略在固定计算预算下的表现，发现小模型（如Llemma-7B）在结合高级推理算法后，能够实现比大模型（如Llemma-34B）更优的成本性能平衡。

12/17/2024 11:30:00 AM

AI寒武纪

如何在安卓手机上本地安装和运行LLM?

译者 | 布加迪审校 | 重楼了解如何将AI的力量径直带入到你的安卓手机上：没有云，没有互联网，只有纯粹的设备端智能！在安卓手机上本地运行大语言模型（LLM）意味着你可以在不依赖云服务器或互联网连接的情况下访问人工智能（AI）模型。这种本地环境通过确保数据安全、并在设备端来确保隐私。

12/12/2024 8:26:50 AM

布加迪

资讯热榜

GGUF 是什么？一文看懂大模型里最火的模型格式 AI应用新纪元：2025中国AI应用排行榜榜单揭晓丨2025年1月免费！让图片放大不失真的位图转矢量图神器 Tmttool 免注册免费用！17种AI绘图模型一站式体验平台LMArena Sora、可灵、即梦哪家强？AI视频软件深度测评！可灵、即梦、海螺、Vidu哪家强？4大AI视频神器深度测评 LangChain V1.0 深度解析：手把手带你跑通全新智能体架构深度拆解！这可能是全网最详细的AI视频创作教程

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT DeepSeek 谷歌 AI绘画大模型机器人数据 AI新词 Midjourney 开源 Meta 微软智能用户 GPT 学习技术智能体 Gemini 马斯克 Anthropic 英伟达图像 AI创作训练 LLM 论文代码算法苹果 AI for Science Agent Claude 芯片腾讯 Stable Diffusion 蛋白质开发者具身智能 xAI 生成式神经网络机器学习 3D AI视频人形机器人 RAG 大语言模型研究百度 Sora 生成 GPU 工具华为计算字节跳动 AGI 大型语言模型 AI设计搜索生成式AI 视频生成 DeepMind 特斯拉场景深度学习 AI模型架构亚马逊 Transformer MCP 编程视觉预测