大型语言模型
揭开MiniMax M2的神秘面纱:为何选择全注意力机制?
在当今人工智能迅速发展的浪潮中,MiniMax M2 作为一款新的预训练模型,吸引了众多关注。 其采用的全注意力机制(Full Attention)引发了广泛讨论,许多技术专家和爱好者不禁疑惑:“为何不继续发展线性或稀疏注意力技术? ” 对此,MiniMax M2 的预训练负责人决定深入探讨这一决策的背后原因。
11/6/2025 5:47:14 PM
AI在线
Meta 研究人员揭开大语言模型黑箱,修复 AI 推理缺陷
近日,Meta 的人工智能研究团队与爱丁堡大学合作,开发了一种新技术,能够预测大型语言模型(LLM)推理的正确性,并在发现错误时进行修复。 这种名为电路基础推理验证(CRV)的方法,旨在深入观察 LLM 的内部 “推理电路”,以便在模型解决问题时检测出计算错误的迹象。 研究表明,CRV 可以通过构建并观察模型内部激活的计算图,以高准确率检测到 LLM 的推理错误。
10/31/2025 9:47:00 AM
AI在线
反事实解释增强的大型语言模型少样本知识蒸馏技术
在当前大型语言模型(LLM)快速发展的背景下,模型规模与计算资源需求之间的矛盾日益凸显。 虽然大型语言模型展现出了卓越的性能,但其庞大的参数量和推理成本使其难以在资源受限的环境中部署。 本文对最新发表在arXiv上的研究论文《Few-Shot Knowledge Distillation of LLMs With Counterfactual Explanations》进行深入分析,该论文提出了一种新颖的知识蒸馏方法,通过反事实解释(Counterfactual Explanations)增强少样本学习,实现了更高效的模型压缩。
10/30/2025 2:25:00 AM
可可
从零实现一个17M参数的GPT预训练模型
大家好,我是写代码的中年人! 今天我们使用开源的的中文数据进行模型的预训练,下面跟着我的步骤,从零实现你的预训练模型。 本文所有代码和数据资源位置:、预训练模型的概念预训练模型(Pretrained Model)就是一个已经在海量数据上训练过的模型,它学会了语言的基本规律、结构和语义,然后可以拿来做各种下游任务,比如写作、翻译、问答、分类、生成代码等。
10/24/2025 10:41:33 AM
写代码的中年人
应对模型推理缺陷:苹果MIND团队加紧招聘AI人才
在苹果公司最近发布一项引发广泛讨论的研究,揭示当前大型推理模型存在重大缺陷之后,该公司正迅速行动,加紧招聘该领域的高级人才。 苹果西雅图的MIND(机器学习与人工智能研究)团队正在招募一名专家,旨在培养在**推理、规划、工具使用和基于代理的LLM(大型语言模型)**方面拥有深厚专业知识的人才。 招聘核心要求:开发更准确高效的新型架构该职位的核心目标是开发更准确、更高效的新型LLM和VLM(视觉语言模型)架构。
10/23/2025 9:42:21 AM
AI在线
AI 驱动的“数字孪生”解放工作效率:初创公司 Viven 获3500万美元种子轮融资,解决员工“不在场”痛点
内部沟通和信息协调是项目推进的常态,然而,当掌握关键信息的员工因休假或时区差异而无法及时回复时,项目进度往往被迫停滞,造成高昂的时间成本。 人工智能招聘初创公司 Eightfold 的联合创始人 Ashutosh Garg 和 Varun Kacholia 认为,利用先进的 大型语言模型 (LLM) 和 数据隐私技术 可以解决这一难题。 两人于今年早些时候创立了 Viven。
10/16/2025 10:12:01 AM
AI在线
思考不是免费的,大型语言模型推理的收益与代价
对于人工智能智能体,谈判是一场最接近人类智慧的“角斗”,它不仅仅是语言的堆砌,更是策略的博弈、心理的揣摩和利益的权衡。 人类社会和经济活动中,谈判无处不在,从商场里的价格讨价还价,到国际政治的桌面博弈,都是智慧与策略的交锋。 对于AI代理来说,能否在谈判中表现出色,直接决定了它们能否真正走向自主决策的未来。
10/14/2025 1:00:00 AM
波动智能
Anthropic 突破性发现:仅250份中毒文件即可攻破大型 AI 模型
Anthropic 联合英国人工智能安全研究所和艾伦图灵研究所发布的一项关键研究表明,只需250份被“投毒”的文件,就能成功在大型语言模型(LLM)中植入后门,且这种攻击的有效性与模型的大小无关。 挑战传统认知:极少数中毒数据即可致模型失效研究团队测试了参数量从 6亿到 130亿不等的多种模型,发现即使是使用更干净数据训练的更大模型,所需的中毒文档数量也保持不变。 这一发现颠覆了长期以来的假设——即攻击者需要控制训练数据的特定比例才能破坏模型。
10/12/2025 9:23:39 AM
AI在线
Anthropic研究:仅需 250 份中毒文件即可轻易攻破大型 AI 模型
近日,人工智能公司 Anthropic 联合英国人工智能安全研究所及艾伦图灵研究所发布了一项重要研究,揭示了大型语言模型(LLM)在数据中毒攻击下的脆弱性。 研究表明,只需250份被 “投毒” 的文件,便能够在多种规模的 AI 模型中植入后门,而这一攻击手段的有效性与模型的大小并无直接关系。 在这项研究中,科研团队对参数量从6亿到130亿的多种模型进行了测试。
10/12/2025 9:23:24 AM
AI在线
新工具来袭!BentoML发布llm-optimizer,助你轻松优化LLM推理性能
近日,知名开源项目 BentoML 推出了一款名为 llm-optimizer 的全新工具,旨在为开发者提供一种简单而高效的方法来优化大型语言模型(LLM)的推理性能。 随着人工智能技术的迅速发展,LLM 的应用也越来越广泛,如何高效地部署和使用这些模型成为了不少开发者面临的挑战。 llm-optimizer 的推出,无疑为这一问题提供了极具价值的解决方案。
9/16/2025 10:06:26 AM
AI在线
瑞士科技新突破:Apertus开源模型挑战AI“黑箱”,全面公开训练细节
瑞士的科研机构正在联手挑战大型语言模型的“黑箱”现状。 瑞士联邦理工学院洛桑分校(EPFL)、**苏黎世联邦理工学院(ETH Zurich)以及瑞士国家超级计算中心(CSCS)**近日发布了一款名为 Apertus 的大规模开源语言模型。 该模型不仅在名称上——拉丁语意为“开放”——彰显了其核心理念,更在实践中将“开放”做到了极致。
9/16/2025 10:06:26 AM
AI在线
DeepL 推出企业级 AI 智能体,挑战 OpenAI 与微软
德国初创公司 DeepL 宣布将业务从翻译拓展至 企业通用 AI 智能体 领域。 新推出的 DeepL 智能体 能跨人力资源、市场营销等部门执行重复性和耗时任务,支持自然语言指令操作。 该产品基于 DeepL 自研大型语言模型,并整合外部模型。
9/4/2025 10:52:19 AM
AI在线
谷歌推出新方法:训练数据量减少 1 万倍,提升模型精准度
近日,谷歌在其研究中提出了一种新颖的主动学习筛选流程,旨在大幅降低微调大型语言模型所需的训练数据量。 根据实验结果,这种方法能够将训练数据量降低至原来的1万分之一,同时提高模型与人类专家判断的一致性达65%。 在实际应用中,如广告内容分类、金融数据安全分析等领域,对高保真训练数据的需求一直很高,但筛选出符合要求的数据不仅难度大,成本也极为昂贵。
8/25/2025 3:00:52 PM
AI在线
AI爬虫“入侵”网络:Fastly 报告揭示,Meta、OpenAI 等巨头成主要流量来源
您好,这是一份我为您整理的关于AI爬虫对网络影响的新闻稿,内容紧凑且重点突出。 据云服务公司 Fastly 最新报告显示,人工智能(AI)爬虫正在给开放网络带来沉重负担,网站流量的显著增长并非来自人类访客,而是日益庞大的机器人程序,特别是来自大型AI公司的爬虫和抓取程序。 报告指出,在所有访问网站的AI机器人流量中,AI爬虫占据了高达**80%的份额,而剩下的20%**则由 AI抓取程序贡献。
8/22/2025 10:54:52 AM
AI在线
微软Copilot打破Excel工作流壁垒:一键完成数据分析、分类与内容生成
微软正在通过一项名为“Copilot”的新功能,将大型语言模型(LLM)的强大能力直接引入 Excel 单元格,旨在从根本上改变用户处理数据的方式。 这项集成将加快数据分析、文本分类和内容生成等任务的速度,让用户无需手动编辑或依赖外部工具。 使用简单,功能强大新的 Copilot 功能通过一个简单的公式 =COPILOT(prompt_part1, [context1], ...) 即可使用。
8/20/2025 10:05:59 AM
AI在线
如何训练你的大型语言模型
打造一个听起来很智能的大型语言模型 (LLM) 助手,就像在反复塑造泥塑一样。 你从一块泥土开始,把它挤压成一个可行的结构,然后开始精雕细琢,直到最终成品。 越接近最终成品,那些精妙的点缀就越重要,正是这些点缀决定了最终成品是杰作还是恐怖谷效应。
8/19/2025 10:10:46 AM
晓晓
Self-Play Critic:以“对抗博弈”创新大语言模型推理评估
大家好,我是肆〇柒。 今天,我想和大家聊一项创新的评估思路——Self-Play Critic(SPC)。 大型语言模型(LLM)目前已成为我们生活和工作中不可或缺的工具。
8/8/2025 3:00:00 AM
肆零柒
17 种 RAG 架构实现原理与选型
RAG(Retrieval-Augmented Generation)是一种结合外部知识检索与语言模型生成的混合技术架构。 它在大型语言模型(如 GPT)生成能力的基础上,通过外部知识库提高了准确性、时效性和可控性,广泛用于企业问答、搜索增强、智能客服、代码辅助、知识图谱等场景。 然而,RAG不是一个固定结构,也没有固定的套路,而是一套可以灵活演化的系统。
8/4/2025 6:05:00 AM
Andflow
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
谷歌
AI绘画
大模型
机器人
数据
Midjourney
开源
Meta
AI新词
微软
智能
用户
GPT
学习
技术
智能体
马斯克
Gemini
图像
Anthropic
英伟达
AI创作
训练
LLM
论文
代码
算法
Agent
AI for Science
芯片
苹果
Claude
腾讯
Stable Diffusion
蛋白质
开发者
生成式
神经网络
xAI
机器学习
3D
RAG
人形机器人
AI视频
研究
大语言模型
生成
具身智能
Sora
工具
GPU
百度
华为
计算
字节跳动
AI设计
大型语言模型
AGI
搜索
视频生成
场景
深度学习
架构
生成式AI
DeepMind
编程
亚马逊
视觉
Transformer
AI模型
预测
特斯拉
MCP