大型语言模型

杨立昆炮轰LLM：Meta AI战略走错了方向

Meta首席AI科学家杨立昆（Yann LeCun）在离职后的首次公开访谈中直言，大型科技公司对大型语言模型(LLM)的巨额投入是“战略错误”，无法通向真正的计算机智能。他指出，LLM仅擅长“统计式文本补全”，缺乏对物理世界的理解、长期推理与规划能力，因此“注定无法诞生人类级智能”。图源备注：图片由AI生成，图片授权服务商MidjourneyLeCun认为，下一代突破应来自“世界模型”（World Model）。

11/18/2025 10:41:57 AM

AI在线

揭开MiniMax M2的神秘面纱：为何选择全注意力机制？

在当今人工智能迅速发展的浪潮中，MiniMax M2 作为一款新的预训练模型，吸引了众多关注。其采用的全注意力机制（Full Attention）引发了广泛讨论，许多技术专家和爱好者不禁疑惑：“为何不继续发展线性或稀疏注意力技术？ ” 对此，MiniMax M2 的预训练负责人决定深入探讨这一决策的背后原因。

11/6/2025 5:47:14 PM

AI在线

Meta 研究人员揭开大语言模型黑箱，修复 AI 推理缺陷

近日，Meta 的人工智能研究团队与爱丁堡大学合作，开发了一种新技术，能够预测大型语言模型（LLM）推理的正确性，并在发现错误时进行修复。这种名为电路基础推理验证(CRV)的方法，旨在深入观察 LLM 的内部 “推理电路”，以便在模型解决问题时检测出计算错误的迹象。研究表明，CRV 可以通过构建并观察模型内部激活的计算图，以高准确率检测到 LLM 的推理错误。

10/31/2025 9:47:00 AM

AI在线

反事实解释增强的大型语言模型少样本知识蒸馏技术

在当前大型语言模型(LLM)快速发展的背景下，模型规模与计算资源需求之间的矛盾日益凸显。虽然大型语言模型展现出了卓越的性能，但其庞大的参数量和推理成本使其难以在资源受限的环境中部署。本文对最新发表在arXiv上的研究论文《Few-Shot Knowledge Distillation of LLMs With Counterfactual Explanations》进行深入分析，该论文提出了一种新颖的知识蒸馏方法，通过反事实解释(Counterfactual Explanations)增强少样本学习，实现了更高效的模型压缩。

10/30/2025 2:25:00 AM

可可

从零实现一个17M参数的GPT预训练模型

大家好，我是写代码的中年人！今天我们使用开源的的中文数据进行模型的预训练，下面跟着我的步骤，从零实现你的预训练模型。本文所有代码和数据资源位置：、预训练模型的概念预训练模型(Pretrained Model)就是一个已经在海量数据上训练过的模型，它学会了语言的基本规律、结构和语义，然后可以拿来做各种下游任务，比如写作、翻译、问答、分类、生成代码等。

10/24/2025 10:41:33 AM

写代码的中年人

应对模型推理缺陷:苹果MIND团队加紧招聘AI人才

在苹果公司最近发布一项引发广泛讨论的研究，揭示当前大型推理模型存在重大缺陷之后，该公司正迅速行动，加紧招聘该领域的高级人才。苹果西雅图的MIND（机器学习与人工智能研究）团队正在招募一名专家，旨在培养在**推理、规划、工具使用和基于代理的LLM（大型语言模型）**方面拥有深厚专业知识的人才。招聘核心要求:开发更准确高效的新型架构该职位的核心目标是开发更准确、更高效的新型LLM和VLM（视觉语言模型）架构。

10/23/2025 9:42:21 AM

AI在线

AI 驱动的“数字孪生”解放工作效率:初创公司 Viven 获3500万美元种子轮融资，解决员工“不在场”痛点

内部沟通和信息协调是项目推进的常态，然而，当掌握关键信息的员工因休假或时区差异而无法及时回复时，项目进度往往被迫停滞，造成高昂的时间成本。人工智能招聘初创公司 Eightfold 的联合创始人 Ashutosh Garg 和 Varun Kacholia 认为，利用先进的大型语言模型（LLM）和数据隐私技术可以解决这一难题。两人于今年早些时候创立了 Viven。

10/16/2025 10:12:01 AM

AI在线

思考不是免费的，大型语言模型推理的收益与代价

对于人工智能智能体，谈判是一场最接近人类智慧的“角斗”，它不仅仅是语言的堆砌，更是策略的博弈、心理的揣摩和利益的权衡。人类社会和经济活动中，谈判无处不在，从商场里的价格讨价还价，到国际政治的桌面博弈，都是智慧与策略的交锋。对于AI代理来说，能否在谈判中表现出色，直接决定了它们能否真正走向自主决策的未来。

10/14/2025 1:00:00 AM

波动智能

Anthropic 突破性发现:仅250份中毒文件即可攻破大型 AI 模型

Anthropic 联合英国人工智能安全研究所和艾伦图灵研究所发布的一项关键研究表明，只需250份被“投毒”的文件，就能成功在大型语言模型（LLM）中植入后门，且这种攻击的有效性与模型的大小无关。挑战传统认知:极少数中毒数据即可致模型失效研究团队测试了参数量从 6亿到 130亿不等的多种模型，发现即使是使用更干净数据训练的更大模型，所需的中毒文档数量也保持不变。这一发现颠覆了长期以来的假设——即攻击者需要控制训练数据的特定比例才能破坏模型。

10/12/2025 9:23:39 AM

AI在线

Anthropic研究：仅需 250 份中毒文件即可轻易攻破大型 AI 模型

近日，人工智能公司 Anthropic 联合英国人工智能安全研究所及艾伦图灵研究所发布了一项重要研究，揭示了大型语言模型（LLM）在数据中毒攻击下的脆弱性。研究表明，只需250份被 “投毒” 的文件，便能够在多种规模的 AI 模型中植入后门，而这一攻击手段的有效性与模型的大小并无直接关系。在这项研究中，科研团队对参数量从6亿到130亿的多种模型进行了测试。

10/12/2025 9:23:24 AM

AI在线

新工具来袭！BentoML发布llm-optimizer，助你轻松优化LLM推理性能

近日，知名开源项目 BentoML 推出了一款名为 llm-optimizer 的全新工具，旨在为开发者提供一种简单而高效的方法来优化大型语言模型（LLM）的推理性能。随着人工智能技术的迅速发展，LLM 的应用也越来越广泛，如何高效地部署和使用这些模型成为了不少开发者面临的挑战。 llm-optimizer 的推出，无疑为这一问题提供了极具价值的解决方案。

9/16/2025 10:06:26 AM

AI在线

瑞士科技新突破:Apertus开源模型挑战AI“黑箱”，全面公开训练细节

瑞士的科研机构正在联手挑战大型语言模型的“黑箱”现状。瑞士联邦理工学院洛桑分校（EPFL）、**苏黎世联邦理工学院（ETH Zurich）以及瑞士国家超级计算中心（CSCS）**近日发布了一款名为 Apertus 的大规模开源语言模型。该模型不仅在名称上——拉丁语意为“开放”——彰显了其核心理念，更在实践中将“开放”做到了极致。

9/16/2025 10:06:26 AM

AI在线

DeepL 推出企业级 AI 智能体，挑战 OpenAI 与微软

德国初创公司 DeepL 宣布将业务从翻译拓展至企业通用 AI 智能体领域。新推出的 DeepL 智能体能跨人力资源、市场营销等部门执行重复性和耗时任务，支持自然语言指令操作。该产品基于 DeepL 自研大型语言模型，并整合外部模型。

9/4/2025 10:52:19 AM

AI在线

谷歌推出新方法：训练数据量减少 1 万倍，提升模型精准度

近日，谷歌在其研究中提出了一种新颖的主动学习筛选流程，旨在大幅降低微调大型语言模型所需的训练数据量。根据实验结果，这种方法能够将训练数据量降低至原来的1万分之一，同时提高模型与人类专家判断的一致性达65%。在实际应用中，如广告内容分类、金融数据安全分析等领域，对高保真训练数据的需求一直很高，但筛选出符合要求的数据不仅难度大，成本也极为昂贵。

8/25/2025 3:00:52 PM

AI在线

AI爬虫“入侵”网络:Fastly 报告揭示，Meta、OpenAI 等巨头成主要流量来源

您好，这是一份我为您整理的关于AI爬虫对网络影响的新闻稿，内容紧凑且重点突出。据云服务公司 Fastly 最新报告显示，人工智能（AI）爬虫正在给开放网络带来沉重负担，网站流量的显著增长并非来自人类访客，而是日益庞大的机器人程序，特别是来自大型AI公司的爬虫和抓取程序。报告指出，在所有访问网站的AI机器人流量中，AI爬虫占据了高达**80%的份额，而剩下的20%**则由 AI抓取程序贡献。

8/22/2025 10:54:52 AM

AI在线

微软Copilot打破Excel工作流壁垒:一键完成数据分析、分类与内容生成

微软正在通过一项名为“Copilot”的新功能，将大型语言模型（LLM）的强大能力直接引入 Excel 单元格，旨在从根本上改变用户处理数据的方式。这项集成将加快数据分析、文本分类和内容生成等任务的速度，让用户无需手动编辑或依赖外部工具。使用简单，功能强大新的 Copilot 功能通过一个简单的公式 =COPILOT（prompt_part1， [context1]， ...）即可使用。

8/20/2025 10:05:59 AM

AI在线

如何训练你的大型语言模型

打造一个听起来很智能的大型语言模型 (LLM) 助手，就像在反复塑造泥塑一样。你从一块泥土开始，把它挤压成一个可行的结构，然后开始精雕细琢，直到最终成品。越接近最终成品，那些精妙的点缀就越重要，正是这些点缀决定了最终成品是杰作还是恐怖谷效应。

8/19/2025 10:10:46 AM

晓晓

Self-Play Critic：以“对抗博弈”创新大语言模型推理评估

大家好，我是肆〇柒。今天，我想和大家聊一项创新的评估思路——Self-Play Critic（SPC）。大型语言模型（LLM）目前已成为我们生活和工作中不可或缺的工具。

8/8/2025 3:00:00 AM

肆零柒

资讯热榜

GGUF 是什么？一文看懂大模型里最火的模型格式 AI应用新纪元：2025中国AI应用排行榜榜单揭晓丨2025年1月免费！让图片放大不失真的位图转矢量图神器 Tmttool 免注册免费用！17种AI绘图模型一站式体验平台LMArena 可灵、即梦、海螺、Vidu哪家强？4大AI视频神器深度测评 Sora、可灵、即梦哪家强？AI视频软件深度测评！深度拆解！这可能是全网最详细的AI视频创作教程一张合影就能泄露全家信息？央视紧急预警：“读心AI”正让社交晒图变成隐私炸弹

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT DeepSeek 谷歌 AI绘画大模型机器人数据 Midjourney AI新词开源 Meta 微软智能用户 GPT 学习技术智能体马斯克 Gemini Anthropic 英伟达图像 AI创作训练 LLM 论文代码算法 AI for Science Agent 苹果 Claude 芯片腾讯 Stable Diffusion 蛋白质开发者 xAI 生成式神经网络具身智能机器学习 3D RAG AI视频人形机器人研究大语言模型百度生成 Sora GPU 工具华为计算字节跳动 AI设计大型语言模型 AGI 搜索视频生成生成式AI 场景 DeepMind 深度学习 AI模型特斯拉架构 MCP 亚马逊 Transformer 编程视觉预测

大型语言模型

杨立昆炮轰LLM：Meta AI战略走错了方向

揭开MiniMax M2的神秘面纱：为何选择全注意力机制？

​Meta 研究人员揭开大语言模型黑箱，修复 AI 推理缺陷

反事实解释增强的大型语言模型少样本知识蒸馏技术

从零实现一个17M参数的GPT预训练模型

应对模型推理缺陷:苹果MIND团队加紧招聘AI人才

AI 驱动的“数字孪生”解放工作效率:初创公司 Viven 获3500万美元种子轮融资，解决员工“不在场”痛点

思考不是免费的，大型语言模型推理的收益与代价

Anthropic 突破性发现:仅250份中毒文件即可攻破大型 AI 模型

​Anthropic研究：仅需 250 份中毒文件即可轻易攻破大型 AI 模型

新工具来袭！BentoML发布llm-optimizer，助你轻松优化LLM推理性能

瑞士科技新突破:Apertus开源模型挑战AI“黑箱”，全面公开训练细节

DeepL 推出企业级 AI 智能体，挑战 OpenAI 与微软

谷歌推出新方法：训练数据量减少 1 万倍，提升模型精准度

AI爬虫“入侵”网络:Fastly 报告揭示，Meta、OpenAI 等巨头成主要流量来源

微软Copilot打破Excel工作流壁垒:一键完成数据分析、分类与内容生成

如何训练你的大型语言模型

Self-Play Critic：以“对抗博弈”创新大语言模型推理评估

Meta 研究人员揭开大语言模型黑箱，修复 AI 推理缺陷

Anthropic研究：仅需 250 份中毒文件即可轻易攻破大型 AI 模型