AI在线 AI在线

LLM

迈向人工智能的认识论:真的没有人真正了解大型语言模型 (LLM) 的黑箱运作方式吗

如果大型语言模型能够推理,但没有人能够看到它是如何推理的,那么它真的在思考吗? 简而言之,像 GPT-4 这样的大型语言模型 (LLM) 展现出卓越的能力,但其运作方式却如同“黑匣子”,这意味着它们的内部决策过程在很大程度上是不透明的,甚至对其创建者而言也是如此。 本系列文章综合了近期关于 LLM 可解释性的研究,重点关注这些模型的推理方式、其解释的可靠性(思维链)以及对安全性和部署的影响。
6/16/2025 2:30:00 AM
晓晓

TypeScript 杀疯了,开发 AI 应用新趋势!

随着 AI 技术的迅猛发展,越来越多开发者开始构建基于大模型(LLM)、多智能体协作、浏览器端推理等新型应用。 在这一浪潮中,TypeScript 凭借其强大的类型系统、成熟的工具链和活跃的生态,正逐步成为现代 AI 应用开发的主流选择之一。 根据 Y Combinator 统计,约有 60% 至 70% 的 AI Agent 初创公司采用 TypeScript 开发。
6/13/2025 11:25:04 AM
CUGGZ

强化预训练(RPT):LLM 预训练新范式,当模型学会战略思考

大家好,我是肆〇柒。 在当下,大型语言模型(LLM)正以其卓越的能力在诸多任务中引人瞩目。 这些能力的提升,很大程度上得益于在大规模文本数据上的 next-token-prediction 自监督学习范式。
6/13/2025 9:29:51 AM
肆零柒

AI自动写学术综述:10分钟生成6万字,成本不到四块钱

学术综述论文在科学研究中发挥着至关重要的作用,特别是在研究文献快速增长的时代。 传统的人工驱动综述写作需要研究者审阅大量文章,既耗时又难以跟上最新进展。 而现有的自动化综述生成方法面临诸多挑战:AI生成的综述结构往往缺乏连贯逻辑,组织结构较差,存在宽度和深度的结构失衡问题;在参考文献方面,经常无法引用真正相关和有影响力的文献,容易引用无关文献而忽略核心贡献;评估方式主要依赖LLM整体质量评估,缺乏对大纲质量、参考文献相关性等关键方面的细粒度分析。
6/13/2025 9:08:00 AM

一文读懂LLM基于JSON Schema的结构化输出

什么是基于JSON Schema的结构化输出大语言模型通常会生成无特定结构的自由格式文本,在能够有效使用之前需要进行大量的后期处理。 这种不可预测性会导致错误、浪费时间并增加成本。 OpenAI推出基于JSON Schema的结构化输出以解决这一问题。
6/12/2025 2:30:00 AM
AI大模型应用开发

Mistral的首个强推理模型:拥抱开源,推理速度快10倍

大模型强推理赛道,又迎来一位重量级玩家。 本周二,欧洲人工智能公司 Mistral AI 发布了 Magistral,这是一个全新的大语言模型(LLM)系列,展现了强大的推理能力。 它能够进行不断反思,并解决更复杂的任务。
6/11/2025 2:39:50 PM

一招缓解LLM偏科!调整训练集组成,“秘方”在此 | 上交大&上海AI Lab等

大幅缓解LLM偏科,只需调整SFT训练集的组成。 本来不擅长coding的Llama 3.1-8B,代码能力明显提升。 上海交大&上海AI Lab联合团队提出创新方法IDEAL,可显著提升LLM在多种不同领域上的综合性能。
6/11/2025 9:17:00 AM

MCP 很好,但它不是万灵药!真正的技术进步,往往始于祛魅之后的清醒认知

当下AI领域最炙手可热的概念,莫过于MCP。 MCP 指的是Model Context Protocol(模型上下文协议)。 令人意外的是,一个协议系统的热度,甚至盖过了OpenAI发布的最新模型,成为行业讨论的焦点。
6/11/2025 9:00:00 AM
腾讯技术工程

LLM 推理引擎综述:优化与效率的多维探索

大家好,我是肆〇柒,玩开源模型蛮久了,做开源模型项目的各位,应该都了解推理引擎在工程落地上的重要性。 一个好的推理引擎,不仅要具备算力的精准调度能力,还需要符合工程基线的稳定性指标,更重要的,还要保障模型的推理精度符合业务标准。 然而,随着模型规模的指数级膨胀,如何高效地部署和运行这些模型,成为了技术发展道路上的关键挑战。
6/11/2025 2:30:00 AM
肆零柒

Qwen:PARSCALE 让语言模型在并行中飞跃

大家好,我是肆〇柒。 今天,我们来聊聊大型语言模型(LLM)领域的一项研究——PARSCALE。 在人工智能快速发展的当下,大型语言模型应用前景无比广阔,然而,随着模型规模的不断膨胀,我们正面临着前所未有的挑战。
6/11/2025 2:00:00 AM
肆零柒

苹果再轰AI推理能力,GitHub大佬怒怼:这不是推理能力的真实面貌!

最近,苹果公司发布了一篇引发热议的论文,指出当前的大语言模型(LLM)在推理方面存在重大缺陷。 这一观点迅速在社交媒体上引起热议,尤其是 GitHub 的高级软件工程师 Sean Goedecke 对此提出了强烈反对。 他认为,苹果的结论过于片面,并不能全面反映推理模型的能力。
6/10/2025 5:00:56 PM
AI在线

首创像素空间推理,7B模型领先GPT-4o,让VLM能像人类一样「眼脑并用」

视觉语言模型(VLM)正经历从「感知」到「认知」的关键跃迁。 当OpenAI的o3系列通过「图像思维」(Thinking with Images)让模型学会缩放、标记视觉区域时,我们看到了多模态交互的全新可能。 然而,当前主流VLM仍被困在「文本茧房」中——依赖文本token间接翻译视觉信息,在高清图像中的微小物体、视频里的动态细节等场景中,常常因缺乏直接视觉操作能力而「视而不见」。
6/10/2025 9:07:00 AM

大模型能够自发形成“人类思维地图”!Nature子刊重磅研究揭示多模态大模型类脑机制

大模型≠随机鹦鹉! Nature子刊最新研究证明:大模型内部存在着类似人类对现实世界概念的理解。 LLM能理解现实世界和各种抽象概念吗?
6/10/2025 9:04:00 AM

大厂实践: LLM 加速大规模测试迁移

Airbnb最近完成了第一次由 LLM 驱动的大规模代码迁移,将 3500 个测试文件从 Enzyme 更新为 React测试库(RTL,React Testing Library)。 最初我们估计这需要 1 年半的时间来手工完成,但通过使用前沿模型和强大的自动化组合,我们在 6 周内完成了整个迁移。 本文将重点介绍从 Enzyme 迁移到 RTL 所面临的独特挑战,如何通过 LLM 解决这些挑战,以及如何构建迁移工具来执行 LLM 驱动的大规模迁移。
6/10/2025 8:15:00 AM
俞凡 DeepNoMind

如何解决导致GenAI程序沉没的两个问题

在GenAI时代,发展轨迹呈现出典型的“进两步,退一步”模式。 随着公司逐渐掌握GenAI的独特复杂性,初期取得的进展往往伴随着倒退和重复工作,在某些情况下,甚至可能威胁到整个开发进程的停滞。 导致挫败感和延误的原因众多,从人才短缺到持续的数据质量问题不一而足,但根据我们过去两年与超过150家公司合作开展GenAI项目的经验来看,在构建过程中几乎总会遇到两个主要障碍:• 创新失败:流程限制、缺乏专注以及重复性的返工扼杀了创新。
6/10/2025 7:09:00 AM
Curt Jacobsen

RL 驱动 LLM 智能体:ML-Agent 创新自主机器学习工程

大家好,我是肆〇柒。 这两天看到一篇关于自主进化智能体的论文,本篇就让我们一起了解一下这个机器学习工程的的研究 ——ML-Agent。 在当下,机器学习工程已成为科技创新的关键驱动力。
6/10/2025 4:00:00 AM
肆零柒

一文讲清楚大模型中六个关键词及原理:LLM、Transformer、Bert、预训练、微调FineTuning、机器学习

什么是大模型,相信每个人都能说上一个一二三点来。 比如:OpenAI、ChatGPT、DeepSeek、豆包、Manus等。 也知道大模型需要做训练与推理。
6/10/2025 1:00:00 AM
Zack之云原生

文档解析LLM MonkeyOCR震撼登场:3B小模型完胜Gemini

随着大语言模型(LLM)技术的迅猛发展,文档解析领域迎来了一位新星——MonkeyOCR。 这款轻量级文档解析模型以其卓越的性能和高效的处理速度,迅速成为业界关注的焦点。 MonkeyOCR:小模型,大能量MonkeyOCR以仅3B参数的轻量级架构,在英文文档解析任务中展现出惊艳的性能。
6/9/2025 12:00:56 PM
AI在线