LLM
LLM可以在没有采用强化学习或大型数据集的情况下学习推理吗?
译者 | 李睿审校 | 重楼针对提升LLM推理能力面临的挑战,斯坦福大学研究人员提出了“思考、修剪、训练”(TPT)框架,让LLM利用自生成且验证正确的数据迭代优化。 研究表明,无需强化学习、大型数据集或外部教师模型,TPT可以使较小模型推理性能媲美甚至超越大模型,凸显了TPT框架在提升模型推理能力和准确性的潜力。 目前,缺乏高质量的训练数据仍然是提高大型语言模型(LLM)推理能力的主要障碍之一。
5/30/2025 10:50:27 AM
李睿
LLM省钱大测评!48块GH200,首个百亿级参数量实证
近年来,大型语言模型(LLM)如GPT系列取得了革命性进展,在自然语言处理、内容创作、多语言翻译乃至科学研究等众多领域展现出惊人能力。 然而,模型参数量(如DeepseekR1的671B参数)和上下文窗口的急剧膨胀,带来了巨大的计算力(GPT-3训练约需3640Petaflop/s-days)、能源消耗和资金投入(GPT-3训练成本估计超460万美元)。 高昂的成本已成为制约LLM进一步发展和广泛应用的关键瓶颈。
5/30/2025 8:50:00 AM
如何使用 LLM实现电子表格规范化
一、如何使用 LLM实现电子表格规范化请观察以下电子表格:图片从“为什么”开始图片让我们看一下这个Excel电子表格,其中包含电影奖项的信息。 这是一个典型的、常见的电子表格,每个人都可能在日常工作中使用它。 但它有什么问题呢?
5/29/2025 9:48:22 AM
晓晓
快速理解热门 LLM 大语言模型
作者 | masonpy本文尽量用最简单的方式, 帮读者理解 LLM,Transformer, Prompt, Function calling, MCP, Agent, A2A 等这些基本概念。 表述时不追求绝对准确,尽量通俗易懂,部分内容有个人理解的成份,内容难免疏漏, 欢迎指正。 注意:本文需要你有基本的代码阅读能力,当然非开发阅读也不会很困难。
5/29/2025 8:30:00 AM
腾讯技术工程
AlphaEvolve: 谷歌DeepMind迈向通用人工智能(AGI)的突破性一步
译者 | 李睿审校 | 重楼谷歌DeepMind推出的AlphaEvolve旨在自主发现算法和科学解决方案。 它基于进化计算原理,通过LLM驱动的独立进化流程,不断优化代码。 AlphaEvolve不仅超越人类专家设计的算法,还在数学和谷歌基础设施优化上取得突破。
5/29/2025 8:19:49 AM
李睿
数据提取场景下不同LLM模型对比分析
在数字化时代,数据作为核心资产,其高效处理与利用成为企业和组织发展的关键。 然而,大量数据以非结构化文本、传统文档等形式存在,导致数据提取面临巨大挑战。 人工智能,尤其是大语言模型(LLMs)的爆发式发展,为大规模自动化数据提取提供了新的可能。
5/29/2025 1:50:00 AM
大模型之路
告别卡脖子,华为黑科技破局!昇腾推理加速1.6倍打破LLM降智魔咒
LLM发展到今天,下一步该往哪个方向探索? 显然,如今最明显的一个问题就是,大模型的参数规模还是太大了——DeepSeek-V3的参数为671B,Llama 3.1系列最大为405B,GPT-4o为200B,Claude 3.5 Sonnet为175B。 参数规模在不断增长,高昂的计算成本和推理延迟,该怎么破?
5/28/2025 8:51:00 AM
我的RAG开源项目300+star了,十分适合新手入门(日志级详细拆解)
三个月前,我在 Github 上开源的一个 RAG 练手项目,目前已经有了 327 个 star,总共解决了 22 个 issues。 结合过去几个月的项目实践,我重新对项目做了轻量化重构,降低资源消耗与部署门槛。 项目地址:,五脏俱全。
5/28/2025 5:00:00 AM
韦东东
「DeepSeek 技术解析」:LLM 训练中的强化学习算法
我们将深入探讨 DeepSeek 模型训练策略中的关键创新之一[1, 2]:群组相对策略优化(Grouped Relative Policy Optimization,GRPO)[3]。 为确保本文自成体系并阐明 GRPO 的理论基础,我们将首先介绍强化学习的基础概念,重点解析强化学习(RL)及基于人类反馈的强化学习(RLHF)在 LLM 训练中的核心作用。 接着我们将探讨不同的强化学习范式,包括基于价值的强化学习、基于策略的强化学习和 Actor-Critic 强化学习,回顾经典算法如置信域策略优化(TRPO)和近端策略优化(PPO),最后解析 GRPO 带来的优化创新。
5/28/2025 2:25:00 AM
Baihai IDP
北大团队首次系统性评估大语言模型心理特征,推动AI评估新标准
在人工智能迅猛发展的今天,大语言模型(LLM)展现出了超凡的能力,但如何科学评估它们的 “心智” 特征,比如价值观、性格和社交智能,依旧是一个亟待解决的难题。 近期,北京大学的宋国杰教授团队发布了一篇全面的综述论文,系统梳理了大语言模型心理测量学的研究进展,为 AI 的评估提供了新视角。 这篇论文名为《大语言模型心理测量学:评估、验证与增强的系统综述》,长达63页,引用了500篇相关文献。
5/27/2025 4:01:00 PM
AI在线
北大团队发布首篇大语言模型心理测量学系统综述:评估、验证、增强
随着大语言模型(LLM)能力的快速迭代,传统评估方法已难以满足需求。 如何科学评估 LLM 的「心智」特征,例如价值观、性格和社交智能? 如何建立更全面、更可靠的 AI 评估体系?
5/27/2025 3:21:06 PM
这篇 AI Agent 漫游指南,带你建立全面的科技史观
作者 | kong以OpenAI o1与DeepSeek R1为代表的"类Agent"模型、OpenAI DeepResearch为代表的“真Agent”模型,正在重构AI Agent的技术范式。 Agentic Workflow的王座还没坐热,强化学习驱动的端到端Agent模型训练已呼啸而来。 未来趋势已指明:模型即产品,工程化Agent的命运将如何?
5/27/2025 10:05:00 AM
腾讯技术工程
LiteLLM:用于统一大模型访问的开源网关
译者 | 核子可乐审校 | 重楼摘要:LiteLLM 允许开发者像调用 OpenAI API 那样集成各种大语言模型(LLM),并支持故障转移、预算控制、速率限制以及对API调用的实时监控。 不同提供商发布的大语言模型(LLM)层出不穷——包括 Anthropic、谷歌、Meta、微软、英伟达、OpenAI 等等——这为开发者提供了丰富的选择,但也令复杂性一路攀升。 每家提供商都有其独特的API特性和响应格式,使得在同一个应用中切换模型或支持多个后端变得愈发困难。
5/27/2025 8:19:06 AM
核子可乐
LLM能理解数学吗?最新研究揭露大模型数学推理的致命缺陷
你有没有想过,那些在聊天中侃侃而谈的AI大模型,遇到数学题时会是什么样子? 就像一个平时很会聊天的朋友,突然被问到复杂的数学问题时支支吾吾的样子。 最近有研究团队专门研究了这个问题,结果发现了一些让人意外的真相。
5/27/2025 1:27:00 AM
无影寺
LLM的 “自信陷阱”:上下文幻觉如何侵蚀 AI 信任?
一、当AI自信地给出错误答案在数字技术飞速发展的今天,大语言模型(LLMs)正以前所未有的速度渗透到我们生活的方方面面。 从智能客服到医疗诊断,从金融分析到法律文书,这些模型凭借其强大的语言理解和生成能力,似乎正在重塑人类与信息交互的方式。 然而,在其光鲜亮丽的表现背后,一个隐蔽而危险的问题正悄然浮现——上下文幻觉(Contextual Hallucination)。
5/26/2025 1:45:00 AM
大模型之路
进化智能体 AlphaEvolve:科学发现与算法优化的新引擎
大家好,我是肆〇柒。 今天,我们来聊一个非常有趣且前沿的Agent技术——AlphaEvolve。 这是一个由 Google DeepMind 开发的进化型编码智能体,它通过结合大型语言模型(LLM)和进化算法,为科学发现和算法优化带来了另外一种可能性。
5/23/2025 3:00:00 AM
肆零柒
Qwen3:开源 LLM 的革新者与多语言先锋(万字)
“ Qwen3 模型以其卓越的性能、效率和多语言能力,为开源大语言模型领域树立了新的标杆,引领着技术发展的新潮流。 ”大家好,我是肆〇柒。 在 4 月底的时候 Qwen3 开源放出了权重,在热火朝天开炉炼丹后的不久,上周三千问团队又放出了 Qwen3 的技术报告,最近有点小忙,所以虽然第一时间阅读了技术报告,但是一直没有发文出来。
5/22/2025 5:00:00 AM
肆零柒
并行扩展(Parallel Scaling):一种新型语言模型扩展范式(万字)
“ PARSCALE 作为一种新型的语言模型扩展范式,通过增加并行计算次数 P,在保持参数规模几乎不变的情况下,能够显著提升模型的推理能力。 ”大家好,我是肆〇柒。 今天,我们来聊一项可以改变语言模型性能的技术——PARSCALE(Parallel Scaling)。
5/22/2025 4:00:00 AM
肆零柒
资讯热榜
标签云
人工智能
AI
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
谷歌
数据
机器人
大模型
Midjourney
开源
智能
用户
Meta
微软
GPT
学习
技术
图像
Gemini
AI创作
马斯克
论文
Anthropic
代码
英伟达
算法
Stable Diffusion
智能体
训练
芯片
开发者
蛋白质
生成式
腾讯
苹果
AI新词
神经网络
3D
LLM
Claude
研究
生成
机器学习
计算
AI for Science
Sora
人形机器人
AI视频
xAI
AI设计
GPU
华为
百度
搜索
Agent
大语言模型
场景
字节跳动
预测
大型语言模型
深度学习
工具
伟达
视觉
Transformer
RAG
具身智能
神器推荐
亚马逊
Copilot
模态
AGI
LLaMA
文本
算力
驾驶