AI在线 AI在线

大语言模型

RAG(七)Chain-of-Note:笔记链让检索增强型语言模型更强大!

现有的检索增强型语言模型(Retrieval-Augmented Language Models, RALMs)在处理外部知识时存在一定的局限性。 这些模型有时会因为检索到不相关或不可靠的信息而产生误导性的回答,或者在面对检索信息和模型内在知识的干扰时,无法正确选择使用哪一种知识。 此外,在检索信息不足或完全不存在的情况下,标准的RALMs可能会尝试生成一个答案,即使它们并不具备足够的信息来准确作答。
3/25/2025 10:41:06 AM
Goldma

蚂蚁集团推出两款 MoE 大模型,用国产芯片训练成本显著降低

据证券时报报道,近日,蚂蚁集团 Ling 团队在预印版 Arxiv 平台发表技术成果论文《每一个 FLOP 都至关重要:无需高级 GPU 即可扩展 3000 亿参数混合专家 LING 大模型》,宣布推出两款不同规模的 MoE (混合专家)大语言模型 —— 百灵轻量版(Ling-Lite)与百灵增强版(Ling-Plus),并提出一系列创新方法,实现在低性能硬件上高效训练大模型,显著降低成本。
3/24/2025 3:04:26 PM
远洋

"瀚海智语"大模型正式发布,助力中国海洋领域智能化

国家自然资源部近日宣布,国家海洋环境预报中心联合海洋出版社有限公司和三六零数字安全科技集团有限公司成功开发并发布了海洋垂直领域大语言模型——"瀚海智语"(英文名称OceanDS)。 该模型以360智脑13B和Deepseek-R1-70B大模型为基座,专注于海洋领域应用,已顺利通过专家评审并正式发布。 "瀚海智语"的问世标志着中国在海洋领域人工智能技术应用方面迈出了重要一步,将为海洋行业的智慧化转型提供强有力的技术支撑。
3/24/2025 10:28:00 AM
AI在线

图灵奖得主杨立昆:大语言模型发展已接近瓶颈,AI 仅靠文本训练无法实现人类级智能

杨立昆表示,“真正的 AI”需要理解物理世界,拥有持久的记忆,支持推理和规划。
3/23/2025 10:53:06 PM
清源

RAG(六)大语言模型应用中的分块策略详解

1、分块在不同应用场景的作用语义搜索在语义搜索中,索引一组文档,每个文档包含特定主题的有价值信息。 通过应用有效的分块策略,可以确保搜索结果准确捕捉用户查询的核心。 分块的大小和方式直接影响搜索结果的准确性和相关性:分块过小:可能会丢失上下文信息,导致搜索结果无法准确理解用户查询的意图。
3/21/2025 2:34:17 PM
Goldma

LLM核心损失函数深度剖析——KL散度与交叉熵损失

在深度学习和机器学习领域,损失函数是模型优化的核心工具之一。 它不仅决定了模型的训练方向,还直接影响模型的性能和泛化能力。 随着大语言模型(LLM)的兴起,对损失函数的理解和应用变得更加重要。
3/18/2025 10:28:32 AM
Goldma

实战攻略:使用KubeMQ简化多LLM集成流程

译者 | 核子可乐审校 | 重楼将多个大语言模型集成至应用程序当中往往是项艰巨的挑战,各类不同API及通信协议的协同处理,以及如何确保请求路由的复杂性难题往往令人望而生畏。 好在可以使用消息代理与路由机制更优雅地解决此类问题,在解决痛点的同时实现多个关键优势。 本文将向大家介绍具体操作步骤。
3/18/2025 8:00:00 AM
核子可乐

RAG(四)Adaptive Retrieval --语言模型的信任边界,参数与非参数记忆的有效性研究

大语言模型(LMs)在许多自然语言处理任务上表现优异,但它们在记忆和回忆不太常见或不流行的事实知识方面存在明显的局限性。 并且,当涉及到长尾实体(即那些在网络上讨论较少、出现频率较低的实体)的问题时,LMs 的性能显著下降,并且增加模型规模并不能有效地解决这一问题。 此外,LMs 对于自身知识边界的认识有限,有时会产生幻觉,即生成看似合理但实际上错误的信息。
3/17/2025 12:52:44 PM
Glodma

OpenAI重磅剧透:GPT-5“很快推出”,CPO预测年内AI代码自动化将达99%!

近日,OpenAI 首席产品官(CPO)Kevin Weil 在一次备受关注的访谈中透露了多个重磅消息,引发业界广泛关注。 最引人瞩目的是关于备受期待的 GPT-5以及 AI 代码自动化进程的预测。 对于 GPT-5的发布时间,Kevin Weil 虽然没有给出具体日期,但他明确表示:“我不会给你具体时间,但 GPT-5会很快出现。
3/17/2025 11:19:00 AM
AI在线

LLM词元:开发者实现AI高效开发的入门指南

译者 | 布加迪审校 | 重楼大语言模型(LLM)已彻底改变了机器理解和生成人类语言的方式,幕后支持从聊天机器人到内容生成器的各种应用。 其出色功能背后是每个开发人员都应该理解的一个基本概念:词元。 这个基本单元直接影响使用LLM时的模型性能和成本。
3/17/2025 8:00:00 AM
布加迪

百万成本揭秘LLM训练黄金法则,阶跃星辰推出全领域适用的超参数优化工具

在人工智能的激烈竞争中,一场耗资百万美元的大规模实验正悄然改变着大语言模型的训练方式。 阶跃星辰研究团队日前发布重磅研究成果,他们通过耗费近100万NVIDIA H800GPU小时的算力,从零开始训练了3,700个不同规模的模型,累计训练了惊人的100万亿个token,揭示出一条被称为"Step Law"的普适性缩放规律,为大语言模型的高效训练提供了全新指南。 这项研究不仅仅是对超参数优化的探索,更是第一个全面考察模型最优超参在不同形状、稀疏度和数据分布下稳定性的工作。
3/13/2025 3:41:00 PM
AI在线

硅基流动完成新一轮融资,美团入股,智谱退出

天眼查App显示,北京硅基流动科技有限公司近日发生重大工商变更。 在此次变更中,北京智谱华章科技有限公司退出股东行列,同时新增四家投资方:美团旗下天津三快科技有限公司北京星连鼎森股权投资基金合伙企业(有限合伙)南京绿涌锦航股权投资管理合伙企业(有限合伙)中小企业发展基金普华(杭州)创业投资合伙企业(有限合伙)。 此次融资后,硅基流动注册资本由约1375.8万人民币增至约1512.4万人民币,增幅约10%。
3/12/2025 2:31:00 PM
AI在线

亚马逊云科技率先推出完全托管DeepSeek-R1,企业AI部署再添利器

亚马逊云科技近日宣布,DeepSeek-R1大语言模型现已作为完全托管的无服务器服务在Amazon Bedrock上正式可用。 作为首个将该模型作为完全托管服务推出的云服务提供商,亚马逊云科技进一步扩展了客户使用DeepSeek-R1及其蒸馏版本的方式。 通过完全托管的服务方式,客户无需处理复杂的技术设置或运维,即可轻松将DeepSeek-R1应用于企业级部署。
3/11/2025 11:21:00 AM
AI在线

DeepSeek级AI?训练自己的推理模型仅需七个步骤

译者 | 布加迪审校 | 重楼谁需要超级计算机? 仅用15GB VRAM就可以训练你自己的功能强大的AI推理模型! DeepSeek的R1模型在不需要人类反馈的情况下就能进行更深思熟虑的推理,已颠覆了大语言模型(LLM)领域。
3/11/2025 8:37:42 AM
布加迪

鸿海首个大语言模型 FoxBrain 发布:具备推理能力,未来计划部分开源

据路透社报道,鸿海今日宣布推出首个大语言模型“FoxBrain”,并计划利用该技术优化制造和供应链管理。
3/10/2025 3:55:19 PM
清源

S3FT选择性自监督微调:通过智能选择训练样本提升大模型整体表现

选择性自我监督微调(Selective Self-to-Supervised Fine-Tuning,S3FT)是一种创新的大语言模型微调方法,该方法通过部署专门的语义等价性判断器来识别训练集中模型自身生成的正确响应。 在微调过程中,S3FT策略性地结合这些正确响应与剩余样本的标准答案(或其释义版本)来优化模型。 与传统监督微调(SFT)相比,S3FT不仅在特定任务上表现出更优的性能,还显著提升了模型的跨域泛化能力。
3/10/2025 10:24:04 AM
佚名

Seed Research | 形式化数学推理新SOTA!BFS-Prover模型最新开源

近日,豆包大模型团队提出 BFS-Prover,一个基于大语言模型 (LLM) 和最优先树搜索 (BFS) 的高效自动形式化定理证明系统。 团队通过该成果发现,简单的 BFS 方法经过系统优化后,可在大规模定理证明任务中展现卓越性能与效率,无需复杂的蒙特卡洛树搜索和价值函数。 在数学定理证明基准 MiniF2F 测试集上,BFS-Prover 取得了 72.95% 准确率,超越此前所有方法。
3/4/2025 9:00:00 AM
Seed Research

衡水家长怒批双休是胡搞时,美国正用AI挽救崩溃少年

AI好好用报道编辑:Sia这些少年们或许正在经历数字时代最温柔的守夜。 要不说,还得是衡水的中学。 每上一次热搜,都有点「语不惊人死不休」的气势。
3/3/2025 9:49:00 PM
AI好好用