AI在线 AI在线

LLM

通用LLM压缩算法,居然藏视频编码里!2.5bit实现4bit性能,硬件无缝支持

在大模型的发展历程中,提升参数规模已被多次证明是提升模型智能的最有效手段之一。 然而,随着模型参数量的增加,GPU内存容量和互联带宽已成为限制未来更大规模模型训练和部署的主要瓶颈。 在有限的硬件资源下,如何更有效地训练和推理更大规模的模型,已成为一个备受关注且具有显著经济价值的课题。
9/5/2025 9:15:00 AM

奥数金牌只是序章!OpenAI谷歌彻底打脸预言家,AI巨浪势不可挡

2022年,预言家放言:到2025年,押注90%的概率AI拿不下国际奥数IMO金牌。 然而仅仅两年,OpenAI与谷歌DeepMind双双击碎了悲观预言:LLM不仅提前「封神」摘金,还打破了对AI能力边界的想象。 从语言生成到逻辑推理,从通用能力到专业领域竞技,生成式AI正以惊人的速度越过每一道人类设下的「智力高墙」。
9/4/2025 9:07:26 AM

大语言模型为何难以突破科学瓶颈——每位快消行业的高管必须了解的真相

我们正处在一个时代,GenAI能够在几分钟内起草复杂的法律协议,在几秒钟内设计出合理的营销活动,并可按需在数十种语言之间自由切换。 从早期的机器学习模型到如今的GPT-4、Claude、Gemini等大型语言模型(LLM),能力的跃升堪称惊人。 因此,企业高管提出一个合理的疑问:如果AI能写出一篇令人信服的研究论文,或者模拟一场技术对话,为什么不能开展科学实验?在某些圈子里,甚至流传着一种说法:科学家可能很快会像旅行社代理人或电影放映员一样,被“颠覆”到无关紧要。
9/4/2025 7:00:00 AM
Kumar

AI能否像人类一样“按步骤”推理?一项数学证明的答案

在过去几年里,大语言模型(LLM)与深度学习的浪潮席卷了几乎所有计算领域。 从医学诊断到金融建模,从化学分子设计到物理模拟,这些模型在推理任务上的表现一次次刷新了人们的认知。 它们不仅能处理复杂的自然语言,还能跨越模态边界,将图像、语音、代码等信息融会贯通,展现出惊人的“多才多艺”。
9/4/2025 1:45:00 AM
FleakenS

14B打败671B!微软rStar2-Agent在数学推理上超过DeepSeek-R1

现在,LLM 已经可以获得非常强大的推理能力,而其中关键便是测试时扩展(test-time scaling)。 通常而言,延长思维链(CoT)就可以延长「思考时间」,从而显著提升性能,尤其是当使用大规模强化学习和可验证奖励 (RLVR) 进行优化时。 然而,对于容易出现细微中间错误或需要创造性推理转变的难题,较长的思维链仍然存在根本性的局限性。
9/2/2025 10:20:10 AM

从“知识断片”到“零样本推理”:AutoBnB-RAG如何赋能多智能体AI安全协作

大家好,我是肆〇柒。 今天要和大家分享的这项研究来自佐治亚理工学院(Georgia Institute of Technology)的工作,AutoBnB-RAG非常巧妙,为解决大型语言模型在网络安全决策中的“知识断片”问题,提供了一个既符合人类专家直觉又极具工程智慧的方案——让AI团队在“卡壳”时才去“查资料”。 这个研究为我们在多智能体中应用 agentic RAG 带来一些启发。
9/2/2025 2:00:00 AM
肆零柒

GPT-5冷酷操盘,狼人杀一战封神!七大LLM狂飙演技,人类玩家看完沉默

一群模型去玩狼人杀,谁能夺下冠军? 这不,GPT-5、Gemini 2.5 Pro、Qwen3-235B-Instruct、GPT-OSS-120B等七大顶尖模型组队,同擂台开战。 一共210场血战,最终,GPT-5以96.7%的胜率独占榜首。
9/1/2025 9:03:00 AM

LLM也具有身份认同?当LLM发现博弈对手是自己时,行为变化了

LLM 似乎可以扮演任何角色。 使用提示词,你可以让它变身经验丰富的老师、资深程序员、提示词优化专家、推理游戏侦探…… 但你是否想过:LLM 是否存在某种身份认同? 近日,哥伦比亚大学与蒙特利尔理工学院的两位研究者 Olivia Long 和 Carter Teplica 通过一个研究项目在一定程度上揭示了这个问题的答案。
8/31/2025 6:08:00 PM
机器之心

Karpathy盛赞「环境中心」!AGI最后一块拼图开源,大厂豪掷百万锁死

强化学习时代,什么最重要? Karpathy给出了答案,环境! 只有环境,才能让LLM真正进行交互、执行动作、观察结果。
8/29/2025 5:09:30 PM
新智元

ChatGPT后遗症来了!人类日常聊天越来越AI化

和AI聊了两年多,人类说话ChatGPT味越来越重了? 最新研究结果显示,还真是。 佛罗里达州立大学的研究团队花了两年时间,分析了ChatGPT发布前后的非脚本化口语录音,在2210万个词的数据集中发现像“delve”、“intricate”这些学术写作词高频出现在人们日常说话中。
8/28/2025 4:55:58 PM
闻乐

从需求分析到代码生成,LLM都能干点啥?一文读懂291个软工Benchmark!

近年来,ChatGPT、Llama等大语言模型在软件工程领域的能力突飞猛进,从需求分析、代码生成到测试与维护几乎无所不能。 但一个核心问题是:我们如何客观评估这些模型在不同软件工程任务中的表现? 在SE领域,Benchmark既是分数卡,让不同模型在同一标准下比拼;也是方向盘,引导技术改进与未来研究方向。
8/28/2025 9:10:00 AM

从3000万到1777.9 Token:LogicRAG用动态逻辑图实现“零预建图的高效推理

大家好,我是肆〇柒。 今天要和大家分享的是一项来自香港理工大学的研究——LogicRAG。 这项工作挑战了当前主流的GraphRAG范式,提出了一种无需预建图、按需生成动态逻辑结构的新型RAG框架。
8/28/2025 1:00:00 AM
肆零柒

那么多的MCP server,如何构建自己的MCP client?

现在,每个人都痴迷于大模型的能力,从GPT-5的谣言, 到Claude 3 性能, 以及Gemini的多模态演示。 但事实是,模型并不是人工智能的全部,但Agent可能是。 Agent的定义可能不是它们知道什么,而是由它们能做什么来定义。
8/27/2025 1:33:00 AM
曹洪伟

ChatGPT到底学了多少「污言秽语」?清华团队首提大语言模型中文语料污染治理技术

本文第一作者是清华大学博士生张清杰,研究方向是大语言模型异常行为和可解释性;本文通讯作者是清华大学邱寒副教授;其他作者来自清华大学、南洋理工大学和蚂蚁集团。 如果我们的教科书里包含大量的污言秽语,那么我们能学好语言吗? 这种荒唐的问题却出现在最先进 ChatGPT 系列模型的学习过程中。
8/26/2025 9:15:00 AM

多智能体系统不是银弹

一、背景介绍可以了解到多智能体系统,正是通过独特的架构设计,让 AI 突破单智能体的能力边界,实现更复杂的任务协作。 多智能体组成虚拟团队,模拟人类专业协作模式,以解决超越单智能体能力边界的复杂问题。 image.png在众多多智能体框架中,LangGraph 的多智能体架构设计极具代表性,堪称实践典范。
8/26/2025 9:14:26 AM
架构精进之路

告别固定分块!2024 EMNLP 新方法 LumberChunker:用 LLM 实现动态语义分块,检索效果显著提升

在大语言模型(LLM)主导的现代 NLP 领域,密集检索已成为问答、摘要、知识问答等任务的核心支撑 —— 毕竟模型再强大,也需要精准的外部上下文来避免 “幻觉”、获取最新信息。 但检索效果的好坏,往往卡在一个容易被忽视的环节:文本分块。 传统分块方法(按句子、段落或固定长度切割)就像用尺子机械丈量文本,完全忽略了内容的语义关联性:要么把一个完整的概念拆得七零八落,导致检索片段上下文残缺;要么把多个无关主题硬塞进一个块里,引入大量噪声。
8/25/2025 8:59:13 AM
Goldma

运用轻量化大语言模型:实现事件响应加速与幻觉抑制双重突破

墨尔本大学和伦敦帝国理工学院的研究人员开发了一种利用大语言模型(LLM)改进事件响应规划的方法,重点在于降低产生幻觉的风险,该方法采用经过微调的小型大语言模型,并结合检索增强生成技术和决策理论规划。 他们所针对的问题十分常见:目前事件响应在很大程度上仍依赖人工操作,速度缓慢,且依赖专家配置的应急预案。 许多企业需要数周甚至数月才能从事件中完全恢复。
8/25/2025 7:00:00 AM
Mirko Zorz

大模型的基石:LLM预训练全解析

前言过去几年,大语言模型(LLM, Large Language Models)逐渐成为人工智能领域的核心驱动力。 从GPT到LLaMA,再到国内外涌现的大大小小模型,它们无一不是在“预训练”这一步骤中打下了坚实的基础。 可以说,预训练是LLM的生命起点,是它们从“婴儿”成长为“博学者”的关键阶段。
8/24/2025 9:24:07 AM
AI大模型应用开发