大语言模型
RAG(一)RAG开山之作:知识密集型NLP任务的“新范式”
在AI应用爆发的时代,RAG(Retrieval-Augmented Generation,检索增强生成)技术正逐渐成为AI 2.0时代的“杀手级”应用。 它通过将信息检索与文本生成相结合,突破了传统生成模型在知识覆盖和回答准确性上的瓶颈。 不仅提升了模型的性能和可靠性,还降低了成本,增强了可解释性。
3/3/2025 11:41:11 AM
Glodma
Toolformer揭秘:大语言模型如何自学成才,掌握工具使用!
大语言模型(LLMs)在处理自然语言处理任务时展现出了令人印象深刻的零样本和少样本学习能力,但它们在一些基础功能上表现不佳,例如算术运算或事实查找。 这些局限性包括无法访问最新事件的信息、倾向于虚构事实、难以理解低资源语言、缺乏进行精确计算的数学技能,以及对时间进展的不敏感。 为了克服这些限制,一个简单的方法是让语言模型能够使用外部工具,如搜索引擎、计算器或日历。
2/26/2025 2:22:18 PM
Glodma
大语言模型:表面的推理能力背后是出色的规划技巧
译者 | 刘汪洋审校 | 重楼大语言模型(LLMs)在技术发展上取得了显著突破。 OpenAI 的 o3、Google 的 Gemini 2.0和 DeepSeek 的R1展现出了卓越的能力:它们能处理复杂问题、生成自然的对话内容,甚至精确编写代码。 业界常把这些先进的LLMs 称为"推理模型",因为它们在分析和解决复杂问题时表现非凡。
2/25/2025 9:49:12 AM
刘汪洋
构建一个完全本地的语音激活的实用RAG系统
译者 | 布加迪审校 | 重楼本文将探讨如何构建一个RAG系统并使其完全由语音激活。 RAG(检索增强生成)是一种将外部知识用于额外上下文以馈入到大语言模型(LLM),从而提高模型准确性和相关性的技术。 这是一种比不断微调模型可靠得多的方法,可以改善生成式AI的结果。
2/24/2025 8:39:08 AM
布加迪
昆仑万维旗下Opera接入DeepSeek R1模型 支持本地个性化部署
2月17日,昆仑万维旗下的Opera团队在Opera Developer中接入了DeepSeek R1系列模型,实现了本地个性化部署。 这一举措标志着Opera在AI技术应用方面的进一步拓展,为用户提供了更强大的本地AI功能。 Opera在2024年率先将内置本地大语言模型(LLM)引入Web浏览器,为用户提供了超过50种LLM的访问权限。
2/20/2025 8:58:00 AM
AI在线
DeepSeek-V3深入解读!
上一篇文章对DeepSeek-R1进行了详细的介绍,今天来看看DeepSeek-R1的基座模型DeepSeek-V3。 项目地址::现有的开源模型在性能和训练成本之间往往难以达到理想的平衡。 一方面,为了提升模型性能,需要增加模型规模和训练数据量,这会导致训练成本急剧上升;另一方面,高效的训练和推理架构对于降低计算资源消耗至关重要。
2/19/2025 10:49:30 AM
Glodma
一文说清楚分布式思维状态:由事件驱动的多智能体系统
译者 | 核子可乐审校 | 重楼大语言模型的能力上限止步于聊天机器人、问答系统、翻译等特定语言,要想进一步展现潜力、解决更广泛的问题,就必须想办法让它根据洞察力采取行动。 换言之,只有掌握了推理的武器,大语言模型才算真正的完全体。 这种推理智能体在AI研究领域有着悠久历史,他们能够对以往接触过的情况进行概括,再据此处理从未见过的情况。
2/19/2025 10:49:24 AM
核子可乐
Grok-3正式发布:马斯克"钞能力"催生AI新王座挑战者
埃隆·马斯克旗下xAI公司正式发布Grok系列第三代大语言模型,在AI领域掀起新一轮技术海啸。 这款被开发者称为"当下地表最强"的模型,或将重塑全球AI竞争格局。 据官方披露,Grok-3在多项核心指标上已超越现有主流模型,测试用户反馈其实际表现达到"o3-full"基准水平。
2/18/2025 1:49:00 PM
AI在线
树莓派 Zero“硬核改造”:8 年老设备实现本地运行大语言模型
越南开发者 Binh Pham 最近尝试使用树莓派 Zero(Raspberry Pi Zero)进行了一项创新实验。他成功地将这款设备改造为一个小型 USB 驱动器,使其能够在本地运行 LLM,无需任何额外设备。
2/18/2025 7:48:52 AM
远洋
麻省理工科技评论:2025年AI五大趋势
随着人工智能技术的迅猛发展,对其未来“走向”的准确预测变得尤为复杂。 尽管如此,鉴于人工智能正在深刻地改变着各行各业,持续关注并理解其发展趋势对于科技从业者、研究学者以及行业分析师来说至关重要。 2025年,预计人工智能将在众多领域扮演更加核心的角色,推动生产力提升和行业创新。
2/17/2025 11:16:28 AM
佚名
大语言模型的解码策略与关键优化总结
本文系统性地阐述了大型语言模型(Large Language Models, LLMs)中的解码策略技术原理及其实践应用。 通过深入分析各类解码算法的工作机制、性能特征和优化方法,为研究者和工程师提供了全面的技术参考。 主要涵盖贪婪解码、束搜索、采样技术等核心解码方法,以及温度参数、惩罚机制等关键优化手段。
2/17/2025 10:13:27 AM
佚名
零基础也能看懂的ChatGPT等大模型入门解析!
近两年,大语言模型LLM(Large Language Model)越来越受到各行各业的广泛应用及关注。 对于非相关领域研发人员,虽然不需要深入掌握每一个细节,但了解其基本运作原理是必备的技术素养。 本文笔者结合自己的理解,用通俗易懂的语言对复杂的概念进行了总结,与大家分享~什么是ChatGPT?
2/17/2025 10:09:54 AM
郭小喵玩AI
乐天发布首款日本大语言模型Rakuten AI 2.0
乐天集团宣布推出其首个日本大语言模型(LLM)和小语言模型(SLM),命名为Rakuten AI2.0和Rakuten AI2.0mini。 这两款模型的发布旨在推动日本的人工智能(AI)发展。 Rakuten AI2.0基于混合专家(MoE)架构,是一款8x7B 的模型,由八个各自拥有70亿参数的模型组成,每个模型充当一个专家。
2/13/2025 2:38:00 PM
AI在线
CoAT: 基于蒙特卡洛树搜索和关联记忆的大模型推理能力优化框架
研究者提出了一种新的关联思维链(Chain-of-Associated-Thoughts, CoAT)方法,该方法通过整合蒙特卡洛树搜索(Monte Carlo Tree Search, MCTS)和关联记忆机制来提升大语言模型(LLMs)的推理能力。 区别于传统的单步推理方法,CoAT致力于增强LLM的结构化推理能力和自适应优化能力,实现动态知识整合。
2/13/2025 9:34:13 AM
佚名
检索增强生成(RAG)过时了,缓存增强生成(CAG)上位
译者 | 布加迪审校 | 重楼检索增强生成(RAG)已成为为定制信息定制大语言模型(LLM)的事实上的方法。 然而RAG带来了前期技术成本,并且速度可能很慢。 由于长上下文LLM方面取得的进步,企业可以通过在提示中插入所有的专有信息来绕过RAG。
2/11/2025 8:00:00 AM
布加迪
腾讯申请“大语言模型训练方法”专利,提升模型泛化能力与准确性
天眼查App显示,腾讯科技(深圳)有限公司近日申请了一项名为“大语言模型的训练方法、装置、计算机设备及存储介质”的专利。 这项专利的摘要揭示了该方法通过引入第一摘要文本和第二摘要文本,在大语言模型的训练过程中为模型提供更多可学习的信息。 根据专利描述,第一摘要文本和第二摘要文本所包含的信息量不同,其中第一摘要文本中还包含了正确语句和错误语句。
2/10/2025 10:31:00 AM
AI在线
腾讯发布大语言模型训练新专利,提升模型泛化与准确性
近日,腾讯科技(深圳)有限公司在天眼查 App 上公布了一项关于大语言模型的训练方法及相关设备的专利。 这项专利的名称为 “大语言模型的训练方法、装置、计算机设备及存储介质”,旨在通过创新的训练方式,提升大语言模型的学习能力和准确性。 在大语言模型的训练过程中,传统方法往往依赖于单一的文本摘要,可能导致模型过拟合,生成内容的准确性和多样性受到影响。
2/8/2025 5:52:00 PM
AI在线
EvalPlanner:基于“计划-执行”双阶段的大语言模型评估框架
大语言模型(LLM)评估系统在生成思维链(Chain-of-Thought, CoT)序列时,需要系统地捕捉评估过程中的推理步骤。 但是由于缺乏人工标注的CoT训练数据,以及预定义评估提示在复杂任务中的局限性,构建高质量的LLM评估模型面临重大挑战。 另外手动调整评估指令的方法在面对多样化和复杂任务时表现出明显的局限性。
2/7/2025 4:07:39 PM
SACHIN KUMAR
资讯热榜
标签云
人工智能
OpenAI
AIGC
AI
ChatGPT
AI绘画
DeepSeek
数据
模型
机器人
谷歌
大模型
Midjourney
智能
用户
开源
学习
GPT
微软
Meta
图像
AI创作
技术
论文
Stable Diffusion
马斯克
Gemini
算法
蛋白质
芯片
代码
生成式
英伟达
腾讯
神经网络
研究
计算
Anthropic
3D
Sora
AI for Science
AI设计
机器学习
开发者
GPU
AI视频
华为
场景
人形机器人
预测
百度
苹果
伟达
Transformer
深度学习
xAI
模态
字节跳动
Claude
大语言模型
搜索
驾驶
具身智能
神器推荐
文本
Copilot
LLaMA
算力
安全
视觉
视频生成
训练
干货合集
应用
大型语言模型
科技
亚马逊
智能体
DeepMind
特斯拉