LLM

别让千亿参数成摆设！万字解读LLM应用的生存法则

现在大家都在聊大模型，动不动就说什么“智能涌现”、“颠覆行业”。但说实话，真正能把大模型用好的，不是谁喊得响，而是看谁的系统设计够硬核！什么是大模型应用系统设计？

6/16/2025 8:06:51 AM

曹洪伟

AI记忆伪装被戳穿！GPT、DeepSeek等17款主流大模型根本记不住数字

在进入本文之前，我们先来玩个 10 秒小游戏：在心里选一个「1-10」的整数。现在设想我问：「你想的是 5 吗？」如果听到是自己的数字，你会本能地答 Yes，其余统统 No。

6/16/2025 6:00:00 AM

机器之心

迈向人工智能的认识论：真的没有人真正了解大型语言模型 (LLM) 的黑箱运作方式吗

如果大型语言模型能够推理，但没有人能够看到它是如何推理的，那么它真的在思考吗？简而言之，像 GPT-4 这样的大型语言模型 (LLM) 展现出卓越的能力，但其运作方式却如同“黑匣子”，这意味着它们的内部决策过程在很大程度上是不透明的，甚至对其创建者而言也是如此。本系列文章综合了近期关于 LLM 可解释性的研究，重点关注这些模型的推理方式、其解释的可靠性（思维链）以及对安全性和部署的影响。

6/16/2025 2:30:00 AM

晓晓

TypeScript 杀疯了，开发 AI 应用新趋势！

随着 AI 技术的迅猛发展，越来越多开发者开始构建基于大模型（LLM）、多智能体协作、浏览器端推理等新型应用。在这一浪潮中，TypeScript 凭借其强大的类型系统、成熟的工具链和活跃的生态，正逐步成为现代 AI 应用开发的主流选择之一。根据 Y Combinator 统计，约有 60% 至 70% 的 AI Agent 初创公司采用 TypeScript 开发。

6/13/2025 11:25:04 AM

CUGGZ

强化预训练（RPT）：LLM 预训练新范式，当模型学会战略思考

大家好，我是肆〇柒。在当下，大型语言模型（LLM）正以其卓越的能力在诸多任务中引人瞩目。这些能力的提升，很大程度上得益于在大规模文本数据上的 next-token-prediction 自监督学习范式。

6/13/2025 9:29:51 AM

肆零柒

学术综述论文在科学研究中发挥着至关重要的作用，特别是在研究文献快速增长的时代。传统的人工驱动综述写作需要研究者审阅大量文章，既耗时又难以跟上最新进展。而现有的自动化综述生成方法面临诸多挑战：AI生成的综述结构往往缺乏连贯逻辑，组织结构较差，存在宽度和深度的结构失衡问题；在参考文献方面，经常无法引用真正相关和有影响力的文献，容易引用无关文献而忽略核心贡献；评估方式主要依赖LLM整体质量评估，缺乏对大纲质量、参考文献相关性等关键方面的细粒度分析。

6/13/2025 9:08:00 AM

一文读懂LLM基于JSON Schema的结构化输出

什么是基于JSON Schema的结构化输出大语言模型通常会生成无特定结构的自由格式文本，在能够有效使用之前需要进行大量的后期处理。这种不可预测性会导致错误、浪费时间并增加成本。 OpenAI推出基于JSON Schema的结构化输出以解决这一问题。

6/12/2025 2:30:00 AM

AI大模型应用开发

Mistral的首个强推理模型：拥抱开源，推理速度快10倍

大模型强推理赛道，又迎来一位重量级玩家。本周二，欧洲人工智能公司 Mistral AI 发布了 Magistral，这是一个全新的大语言模型（LLM）系列，展现了强大的推理能力。它能够进行不断反思，并解决更复杂的任务。

6/11/2025 2:39:50 PM

一招缓解LLM偏科！调整训练集组成，“秘方”在此 | 上交大&上海AI Lab等

大幅缓解LLM偏科，只需调整SFT训练集的组成。本来不擅长coding的Llama 3.1-8B，代码能力明显提升。上海交大&上海AI Lab联合团队提出创新方法IDEAL，可显著提升LLM在多种不同领域上的综合性能。

6/11/2025 9:17:00 AM

MCP 很好，但它不是万灵药！真正的技术进步，往往始于祛魅之后的清醒认知

当下AI领域最炙手可热的概念，莫过于MCP。 MCP 指的是Model Context Protocol（模型上下文协议）。令人意外的是，一个协议系统的热度，甚至盖过了OpenAI发布的最新模型，成为行业讨论的焦点。

6/11/2025 9:00:00 AM

腾讯技术工程

LLM 推理引擎综述：优化与效率的多维探索

大家好，我是肆〇柒，玩开源模型蛮久了，做开源模型项目的各位，应该都了解推理引擎在工程落地上的重要性。一个好的推理引擎，不仅要具备算力的精准调度能力，还需要符合工程基线的稳定性指标，更重要的，还要保障模型的推理精度符合业务标准。然而，随着模型规模的指数级膨胀，如何高效地部署和运行这些模型，成为了技术发展道路上的关键挑战。

6/11/2025 2:30:00 AM

肆零柒

Qwen：PARSCALE 让语言模型在并行中飞跃

大家好，我是肆〇柒。今天，我们来聊聊大型语言模型（LLM）领域的一项研究——PARSCALE。在人工智能快速发展的当下，大型语言模型应用前景无比广阔，然而，随着模型规模的不断膨胀，我们正面临着前所未有的挑战。

6/11/2025 2:00:00 AM

肆零柒

苹果再轰AI推理能力，GitHub大佬怒怼：这不是推理能力的真实面貌！

最近，苹果公司发布了一篇引发热议的论文，指出当前的大语言模型（LLM）在推理方面存在重大缺陷。这一观点迅速在社交媒体上引起热议，尤其是 GitHub 的高级软件工程师 Sean Goedecke 对此提出了强烈反对。他认为，苹果的结论过于片面，并不能全面反映推理模型的能力。

6/10/2025 5:00:56 PM

AI在线

首创像素空间推理，7B模型领先GPT-4o，让VLM能像人类一样「眼脑并用」

视觉语言模型（VLM）正经历从「感知」到「认知」的关键跃迁。当OpenAI的o3系列通过「图像思维」（Thinking with Images）让模型学会缩放、标记视觉区域时，我们看到了多模态交互的全新可能。然而，当前主流VLM仍被困在「文本茧房」中——依赖文本token间接翻译视觉信息，在高清图像中的微小物体、视频里的动态细节等场景中，常常因缺乏直接视觉操作能力而「视而不见」。

6/10/2025 9:07:00 AM

大模型能够自发形成“人类思维地图”！Nature子刊重磅研究揭示多模态大模型类脑机制

大模型≠随机鹦鹉！ Nature子刊最新研究证明：大模型内部存在着类似人类对现实世界概念的理解。 LLM能理解现实世界和各种抽象概念吗？

6/10/2025 9:04:00 AM

大厂实践： LLM 加速大规模测试迁移

Airbnb最近完成了第一次由 LLM 驱动的大规模代码迁移，将 3500 个测试文件从 Enzyme 更新为 React测试库（RTL，React Testing Library）。最初我们估计这需要 1 年半的时间来手工完成，但通过使用前沿模型和强大的自动化组合，我们在 6 周内完成了整个迁移。本文将重点介绍从 Enzyme 迁移到 RTL 所面临的独特挑战，如何通过 LLM 解决这些挑战，以及如何构建迁移工具来执行 LLM 驱动的大规模迁移。

6/10/2025 8:15:00 AM

俞凡 DeepNoMind

如何解决导致GenAI程序沉没的两个问题

在GenAI时代，发展轨迹呈现出典型的“进两步，退一步”模式。随着公司逐渐掌握GenAI的独特复杂性，初期取得的进展往往伴随着倒退和重复工作，在某些情况下，甚至可能威胁到整个开发进程的停滞。导致挫败感和延误的原因众多，从人才短缺到持续的数据质量问题不一而足，但根据我们过去两年与超过150家公司合作开展GenAI项目的经验来看，在构建过程中几乎总会遇到两个主要障碍：• 创新失败：流程限制、缺乏专注以及重复性的返工扼杀了创新。

6/10/2025 7:09:00 AM

Curt Jacobsen

RL 驱动 LLM 智能体：ML-Agent 创新自主机器学习工程

大家好，我是肆〇柒。这两天看到一篇关于自主进化智能体的论文，本篇就让我们一起了解一下这个机器学习工程的的研究 ——ML-Agent。在当下，机器学习工程已成为科技创新的关键驱动力。

6/10/2025 4:00:00 AM

肆零柒

资讯热榜

GGUF 是什么？一文看懂大模型里最火的模型格式 AI应用新纪元：2025中国AI应用排行榜榜单揭晓丨2025年1月免费！让图片放大不失真的位图转矢量图神器 Tmttool Sora、可灵、即梦哪家强？AI视频软件深度测评！免注册免费用！17种AI绘图模型一站式体验平台LMArena 可灵、即梦、海螺、Vidu哪家强？4大AI视频神器深度测评 LangChain V1.0 深度解析：手把手带你跑通全新智能体架构深度拆解！这可能是全网最详细的AI视频创作教程

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT DeepSeek 谷歌 AI绘画大模型机器人数据 AI新词 Midjourney 开源 Meta 微软智能用户 GPT 学习技术智能体 Gemini 马斯克 Anthropic 英伟达图像 AI创作训练 LLM 论文代码算法苹果 AI for Science Agent Claude 芯片腾讯 Stable Diffusion 蛋白质开发者具身智能 xAI 生成式神经网络机器学习 3D 人形机器人 AI视频 RAG 大语言模型研究百度 Sora 生成 GPU 工具华为计算字节跳动 AGI 大型语言模型 AI设计搜索生成式AI 视频生成 DeepMind 特斯拉场景 AI模型深度学习亚马逊架构 Transformer MCP 编程视觉预测

LLM