大语言模型

衡水家长怒批双休是胡搞时，美国正用AI挽救崩溃少年

AI好好用报道编辑：Sia这些少年们或许正在经历数字时代最温柔的守夜。要不说，还得是衡水的中学。每上一次热搜，都有点「语不惊人死不休」的气势。

3/3/2025 9:49:00 PM

AI好好用

RAG（一）RAG开山之作：知识密集型NLP任务的“新范式”

在AI应用爆发的时代，RAG（Retrieval-Augmented Generation，检索增强生成）技术正逐渐成为AI 2.0时代的“杀手级”应用。它通过将信息检索与文本生成相结合，突破了传统生成模型在知识覆盖和回答准确性上的瓶颈。不仅提升了模型的性能和可靠性，还降低了成本，增强了可解释性。

3/3/2025 11:41:11 AM

Glodma

Toolformer揭秘：大语言模型如何自学成才，掌握工具使用！

大语言模型（LLMs）在处理自然语言处理任务时展现出了令人印象深刻的零样本和少样本学习能力，但它们在一些基础功能上表现不佳，例如算术运算或事实查找。这些局限性包括无法访问最新事件的信息、倾向于虚构事实、难以理解低资源语言、缺乏进行精确计算的数学技能，以及对时间进展的不敏感。为了克服这些限制，一个简单的方法是让语言模型能够使用外部工具，如搜索引擎、计算器或日历。

2/26/2025 2:22:18 PM

Glodma

大语言模型：表面的推理能力背后是出色的规划技巧

译者 | 刘汪洋审校 | 重楼大语言模型(LLMs)在技术发展上取得了显著突破。 OpenAI 的 o3、Google 的 Gemini 2.0和 DeepSeek 的R1展现出了卓越的能力：它们能处理复杂问题、生成自然的对话内容，甚至精确编写代码。业界常把这些先进的LLMs 称为"推理模型"，因为它们在分析和解决复杂问题时表现非凡。

2/25/2025 9:49:12 AM

刘汪洋

构建一个完全本地的语音激活的实用RAG系统

译者 | 布加迪审校 | 重楼本文将探讨如何构建一个RAG系统并使其完全由语音激活。 RAG（检索增强生成）是一种将外部知识用于额外上下文以馈入到大语言模型（LLM），从而提高模型准确性和相关性的技术。这是一种比不断微调模型可靠得多的方法，可以改善生成式AI的结果。

2/24/2025 8:39:08 AM

布加迪

昆仑万维旗下Opera接入DeepSeek R1模型支持本地个性化部署

2月17日，昆仑万维旗下的Opera团队在Opera Developer中接入了DeepSeek R1系列模型，实现了本地个性化部署。这一举措标志着Opera在AI技术应用方面的进一步拓展，为用户提供了更强大的本地AI功能。 Opera在2024年率先将内置本地大语言模型（LLM）引入Web浏览器，为用户提供了超过50种LLM的访问权限。

2/20/2025 8:58:00 AM

AI在线

DeepSeek-V3深入解读！

上一篇文章对DeepSeek-R1进行了详细的介绍，今天来看看DeepSeek-R1的基座模型DeepSeek-V3。项目地址：：现有的开源模型在性能和训练成本之间往往难以达到理想的平衡。一方面，为了提升模型性能，需要增加模型规模和训练数据量，这会导致训练成本急剧上升；另一方面，高效的训练和推理架构对于降低计算资源消耗至关重要。

2/19/2025 10:49:30 AM

Glodma

一文说清楚分布式思维状态：由事件驱动的多智能体系统

译者 | 核子可乐审校 | 重楼大语言模型的能力上限止步于聊天机器人、问答系统、翻译等特定语言，要想进一步展现潜力、解决更广泛的问题，就必须想办法让它根据洞察力采取行动。换言之，只有掌握了推理的武器，大语言模型才算真正的完全体。这种推理智能体在AI研究领域有着悠久历史，他们能够对以往接触过的情况进行概括，再据此处理从未见过的情况。

2/19/2025 10:49:24 AM

核子可乐

Grok-3正式发布:马斯克"钞能力"催生AI新王座挑战者

埃隆·马斯克旗下xAI公司正式发布Grok系列第三代大语言模型，在AI领域掀起新一轮技术海啸。这款被开发者称为"当下地表最强"的模型，或将重塑全球AI竞争格局。据官方披露，Grok-3在多项核心指标上已超越现有主流模型，测试用户反馈其实际表现达到"o3-full"基准水平。

2/18/2025 1:49:00 PM

AI在线

树莓派 Zero“硬核改造”：8 年老设备实现本地运行大语言模型

越南开发者 Binh Pham 最近尝试使用树莓派 Zero（Raspberry Pi Zero）进行了一项创新实验。他成功地将这款设备改造为一个小型 USB 驱动器，使其能够在本地运行 LLM，无需任何额外设备。

2/18/2025 7:48:52 AM

远洋

麻省理工科技评论：2025年AI五大趋势

随着人工智能技术的迅猛发展，对其未来“走向”的准确预测变得尤为复杂。尽管如此，鉴于人工智能正在深刻地改变着各行各业，持续关注并理解其发展趋势对于科技从业者、研究学者以及行业分析师来说至关重要。 2025年，预计人工智能将在众多领域扮演更加核心的角色，推动生产力提升和行业创新。

2/17/2025 11:16:28 AM

佚名

大语言模型的解码策略与关键优化总结

本文系统性地阐述了大型语言模型(Large Language Models, LLMs)中的解码策略技术原理及其实践应用。通过深入分析各类解码算法的工作机制、性能特征和优化方法，为研究者和工程师提供了全面的技术参考。主要涵盖贪婪解码、束搜索、采样技术等核心解码方法，以及温度参数、惩罚机制等关键优化手段。

2/17/2025 10:13:27 AM

佚名

零基础也能看懂的ChatGPT等大模型入门解析！

近两年，大语言模型LLM(Large Language Model)越来越受到各行各业的广泛应用及关注。对于非相关领域研发人员，虽然不需要深入掌握每一个细节，但了解其基本运作原理是必备的技术素养。本文笔者结合自己的理解，用通俗易懂的语言对复杂的概念进行了总结，与大家分享~什么是ChatGPT？

2/17/2025 10:09:54 AM

郭小喵玩AI

乐天发布首款日本大语言模型Rakuten AI 2.0

乐天集团宣布推出其首个日本大语言模型（LLM）和小语言模型(SLM)，命名为Rakuten AI2.0和Rakuten AI2.0mini。这两款模型的发布旨在推动日本的人工智能（AI）发展。 Rakuten AI2.0基于混合专家(MoE)架构，是一款8x7B 的模型，由八个各自拥有70亿参数的模型组成，每个模型充当一个专家。

2/13/2025 2:38:00 PM

AI在线

CoAT: 基于蒙特卡洛树搜索和关联记忆的大模型推理能力优化框架

研究者提出了一种新的关联思维链(Chain-of-Associated-Thoughts, CoAT)方法，该方法通过整合蒙特卡洛树搜索(Monte Carlo Tree Search, MCTS)和关联记忆机制来提升大语言模型(LLMs)的推理能力。区别于传统的单步推理方法，CoAT致力于增强LLM的结构化推理能力和自适应优化能力，实现动态知识整合。

2/13/2025 9:34:13 AM

佚名

检索增强生成（RAG）过时了，缓存增强生成（CAG）上位

译者 | 布加迪审校 | 重楼检索增强生成（RAG）已成为为定制信息定制大语言模型（LLM）的事实上的方法。然而RAG带来了前期技术成本，并且速度可能很慢。由于长上下文LLM方面取得的进步，企业可以通过在提示中插入所有的专有信息来绕过RAG。

2/11/2025 8:00:00 AM

布加迪

腾讯申请“大语言模型训练方法”专利，提升模型泛化能力与准确性

天眼查App显示，腾讯科技（深圳）有限公司近日申请了一项名为“大语言模型的训练方法、装置、计算机设备及存储介质”的专利。这项专利的摘要揭示了该方法通过引入第一摘要文本和第二摘要文本，在大语言模型的训练过程中为模型提供更多可学习的信息。根据专利描述，第一摘要文本和第二摘要文本所包含的信息量不同，其中第一摘要文本中还包含了正确语句和错误语句。

2/10/2025 10:31:00 AM

AI在线

腾讯发布大语言模型训练新专利，提升模型泛化与准确性

近日，腾讯科技（深圳）有限公司在天眼查 App 上公布了一项关于大语言模型的训练方法及相关设备的专利。这项专利的名称为 “大语言模型的训练方法、装置、计算机设备及存储介质”，旨在通过创新的训练方式，提升大语言模型的学习能力和准确性。在大语言模型的训练过程中，传统方法往往依赖于单一的文本摘要，可能导致模型过拟合，生成内容的准确性和多样性受到影响。

2/8/2025 5:52:00 PM

AI在线

资讯热榜

6秒视频10秒生成！全新AI视频神器 Grok Imagine 深度体验+元提示词分享 AI玩拼图游戏暴涨视觉理解力，告别文本中心训练，无需标注的多模态大模型后训练范式 OpenAI 为 ChatGPT 推出智能记忆清理功能，Plus 用户率先体验「性价比王者」Claude Haiku 4.5来了，速度更快，成本仅为Sonnet 4的1/3 大模型降本增效，稀疏注意力机制的魔力在哪？ Claude 与 Microsoft 365 深度整合，企业效率再提升！ AI音乐创作成程序员新副业：单曲播放破200万，版权收入数万元报告揭示互联网新趋势：超半数新内容由 AI 生成

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT DeepSeek 谷歌 AI绘画机器人数据大模型 Midjourney 开源 Meta 智能微软用户 AI新词 GPT 学习技术智能体马斯克 Gemini 图像 Anthropic 英伟达 AI创作训练论文 LLM 代码算法芯片 Stable Diffusion AI for Science 苹果腾讯 Agent Claude 蛋白质开发者生成式神经网络 xAI 机器学习 3D 人形机器人研究生成 AI视频百度大语言模型具身智能 Sora 工具 GPU 华为 RAG 计算字节跳动 AI设计搜索 AGI 大型语言模型场景视频生成深度学习架构 DeepMind 视觉预测 Transformer 伟达编程 AI模型生成式AI 亚马逊特斯拉

大语言模型

衡水家长怒批双休是胡搞时，美国正用AI挽救崩溃少年

RAG（一）RAG开山之作：知识密集型NLP任务的“新范式”

Toolformer揭秘：大语言模型如何自学成才，掌握工具使用！

大语言模型：表面的推理能力背后是出色的规划技巧

构建一个完全本地的语音激活的实用RAG系统

昆仑万维旗下Opera接入DeepSeek R1模型 支持本地个性化部署

DeepSeek-V3深入解读！

一文说清楚分布式思维状态：由事件驱动的多智能体系统

Grok-3正式发布:马斯克"钞能力"催生AI新王座挑战者

树莓派 Zero“硬核改造”：8 年老设备实现本地运行大语言模型

麻省理工科技评论：2025年AI五大趋势

大语言模型的解码策略与关键优化总结

零基础也能看懂的ChatGPT等大模型入门解析！

乐天发布首款日本大语言模型Rakuten AI 2.0

CoAT: 基于蒙特卡洛树搜索和关联记忆的大模型推理能力优化框架

检索增强生成（RAG）过时了，缓存增强生成（CAG）上位

腾讯申请“大语言模型训练方法”专利，提升模型泛化能力与准确性

腾讯发布大语言模型训练新专利，提升模型泛化与准确性

昆仑万维旗下Opera接入DeepSeek R1模型支持本地个性化部署