AI在线 AI在线

理论

1万tokens是检验长文本的新基准,超过后18款大模型集体失智

上下文扩展至1万tokens,LLM集体“失智”! 且“智商”不是均匀下降,而是在一些节点突然断崖式下跌。 比如Claude Sonnet 4,就是在1000tokens后准确率一路下滑,从90%降到60%。
7/17/2025 10:47:33 AM

从聊天记录到数字资产:MIRIX 让记忆可买卖

大家好,我是肆〇柒。 当下,LLM 智能体在各种复杂任务中表现得越来越出色。 然而,记忆这一关键要素却始终制约着 LLM 智能体的进一步发展。
7/17/2025 10:08:30 AM
肆零柒

揭秘大模型的魔法:从Transformer架构开始,一步步揭开它的神秘面纱

大家好,我是写代码的中年人,本章我们正式进入Transformer架构的学习。 从 ChatGPT 到文生图,从语音助手到AI绘本的自动生成,背后几乎都躲着一个强大的架构,它像一台“魔法机器”,能读懂语言、生成内容、甚至推理判断。 但这一切魔法的根基,其实都是数学和工程的艺术结晶。
7/17/2025 9:47:07 AM
写代码的中年人

孙正义宣称要部署10亿个智能体,释放出什么信号?

在科技圈,沉寂颇久的孙正义又扔下了一颗重磅炸弹。 最近,他公开表示,打算在今年于软银集团内部部署 10 亿个 AI 智能体,还要给这些智能体设计专门的操作系统。 此语一出,业界纷纷侧目,孙正义这葫芦里,到底卖的什么药?
7/17/2025 9:39:15 AM
小菲

RAG 中文本分块全攻略,这个项目让效率狂飙

在构建 Retrieval-Augmented Generation(RAG)系统时,文本分块作为关键前置环节,其质量直接影响检索精度与生成内容的相关性。 今天给大家推荐一个自己近期整理的项目 ——Awesome-Chunker,一站式聚合并复现了当下主流的文本分块技术,从经典方法到前沿算法应有尽有,助你在 RAG 开发中少走弯路! 1、项目核心价值 让分块不再是难题在 RAG 任务的探索之路上,相信不少研究者都和我一样,为寻找一个能系统提升分块质量的项目而苦恼。
7/17/2025 9:35:26 AM
Goldma

离职员工首次长文揭秘真实的OpenAI:一半是天才,一半是疯子,7周时间上线code x

本文是OpenAI离职员工Calvin French-Owen在OpenAI工作一年的回忆与反思感悟。 作者从OpenAI的企业文化,技术栈揭秘,以及在OpenAI用7天时间打造编程代理code x 的故事,让我们首次得以窥见OpenAI内部,非常值得一看。 我在OpenAI一年的反思与感悟作者:Calvin French-Owen日期:2025年7月15日三周前,我离开了OpenAI。
7/17/2025 9:25:53 AM

投奔小扎,Jason Wei连发两篇博文公布“屠龙术”:一个公式看透AI,一条心法指引人生

Jason Wei:OpenAI研究科学家,OpenAI思维链研究开创者,《Chain-of-thought prompting elicits reasoning in large language models》论文第一作者,谷歌学术他引17000余次(CoT单篇),高中学历,毕业于全美顶级的科技高中:托马斯·杰弗逊科学技术高中,sat 2390(2400满分),强化学习大神。 在刚刚爆出被小扎挖走,加入meta超级智能实验室后,Jason Wei 连发两篇文章,一篇是关于 AI 发展的核心驱动力公式——“验证者定律”,另一篇则是从强化学习中悟出的人生哲学——“人生要走 On-Policy 路线”,这可能就是jason wei 在OpenAI最后的遗作了吧。 验证者定律说的是:训练人工智能解决一个任务的难易程度与该任务的可验证性成正比。
7/17/2025 9:24:08 AM

面对无解问题大模型竟会崩溃?港中文&华为联合提出首个大模型推理可靠性评估基准

本文作者是香港中文大学博士三年级薛博阳,导师为黄锦辉教授,目前在伦敦大学学院进行访问交流,他的研究方向包括可信大模型,模型不确定性,对话系统等,在 ACL, EMNLP, TASLP 等会议期刊作为第一作者发表多篇论文,并长期在知乎写作大模型、机器学习等专栏文章,个人主页为:? 今年初以 DeepSeek-r1 为代表的大模型在推理任务上展现强大的性能,引起广泛的热度。 然而在面对一些无法回答或本身无解的问题时,这些模型竟试图去虚构不存在的信息去推理解答,生成了大量的事实错误、无意义思考过程和虚构答案,也被称为模型「幻觉」 问题,如下图(a)所示,造成严重资源浪费且会误导用户,严重损害了模型的可靠性(Reliability)。
7/17/2025 9:21:11 AM

舍弃自回归,离散扩散语言模型如何演化?NUS综述解构技术图谱与应用前沿

本论文共同第一作者于润芃和李奇是新加坡国立大学 xML 实验室博士生,指导老师为王鑫超,研究方向是多模态大模型与可信深度模型。 本文主要介绍 xML 团队的论文:Discrete Diffusion in Large Language and Multimodal Models: A Survey。 论文链接: 仓库: GPT 引爆大语言模型热潮以来,自回归的大语言模型(LLMs)与多模态模型(MLLMs)已成为智能系统的基石。
7/17/2025 9:16:20 AM
机器之心

两周反转:Anthropic「闪电」夺回被Cursor挖走的核心编程大将

本月初,据 The Information 报道,Anthropic Claude Code 的两位负责人 Boris Cherny 和 Cat Wu 被 AI 编程应用 Cursor 的开发商 Anysphere 挖走。 其中,Boris Cherny 是 Claude Code 项目的开发负责人,可以说是 Claude Code 技术的灵魂人物,此前加入 Anysphere 担任首席架构师和工程主管。 Cat Wu 则是 Claude Code 产品经理,在 Anysphere 的新职务是产品主管。
7/17/2025 9:12:00 AM

小哥硬核手搓AI桌宠!接入GPT-4o,听得懂人话还能互动,方案可复现

大火的AI宠物,自己手搓一个更有性价比? ! 大脑还是GPT-4o的那种,外表长酱紫:这就是国外一个小哥受到了前段时间火遍全网的皮克斯台灯机器人启发,给自己手搓的“小宠物”。
7/17/2025 9:08:41 AM

Kimi K2:开源智能体模型的巅峰之作

译者 | 李睿审校 | 重楼Moonshot最近推出新型开源智能体模型 Kimi K2,该模型总参数高达1万亿个,并拥有320亿个专家混合(MoE)架构。 Kimi K2有两种变体,在多个基准测试中表现出色。 它具有预训练和训练后两种学习方法,还能学习采用工具。
7/17/2025 8:14:22 AM
李睿

如果说MCP是AI智能体的USB口,那A2A就是以太网

译者 | 核子可乐审校 | 重楼几乎万事万物都离不开协议和标准,这也是就技术问题达成沟通一致的前提。 而随着AI智能体的迅猛发展,与之配套的协议出现也只是时间问题。 Anthropic提出的MCP(模型上下文协议)就是其中最知名的方案之一。
7/17/2025 8:04:47 AM
核子可乐

“我没错!”GPT-4o嘴硬翻车,AI在黑天鹅事件面前集体宕机

来自哥伦比亚大学、Vector人工智能研究所以及南洋理工大学的一个联合研究团队发现:人工智能模型在处理意外事件时的推理能力存在严重缺陷。  即便是如GPT-4o和Gemini 1.5 Pro这样的顶尖视觉语言模型(VLM),其表现也远逊于人类,差距最高可达32%。  论文地址:《黑天鹅》的研究指出,当前主流的AI评估方式普遍存在一个根本性问题:大多数基准测试围绕“常规模式”构建,也就是说,它们聚焦于可预测、规律清晰的视觉场景。
7/17/2025 7:19:35 AM
大数据文摘

月之暗面开源 Kimi-K2:万亿参数,超强Agent,全线 SOTA

2023年成立的中国AI初创公司月之暗面,刚刚发布了其最新重量级产品Kimi-K2。 这是一款参数规模高达一万亿的开源大模型,以挑战GPT-4.1和Claude Sonnet 4为目标。 Kimi-K2没有配备专门的“推理模块”,却依然在多个关键领域打破性能壁垒,这一策略让人想起早前Deepseek的发布。
7/17/2025 7:12:45 AM
大数据文摘

AI重塑数据中心的七大核心议题

随着CIO们构建支持AI的企业,公有云与数据中心之间的平衡正重新向本地基础设施倾斜,但云、数据中心和边缘计算的理想组合是什么?以下是七个值得考虑的讨论点。 GenAI和自主式AI的兴起正迫使企业重新思考其基础设施,公有云成本的上升意味着数据回流现象正在发生,数据中心从未消失,但它正成为越来越多企业的关键概念。 以下是关于AI时代数据中心的七个主题和讨论点:2025年的“数据中心”究竟是什么?虽然不想过于哲学化,但在现代企业中,“数据中心”几乎成了一种思维状态,这个术语几乎与基础设施同义:即你的数据在哪里、如何存储和访问。
7/17/2025 7:00:00 AM
Matt Egan

一文读懂开源 AI Agent 工作流构建新范式-Sim Studio

Hello folks,我是 Luga,今天我们来聊一下人工智能应用场景 - 构建高效、灵活的计算架构的开源 AI Agent 工作流引擎 - Sim Studio。 在大模型应用爆发的当下,越来越多团队开始尝试构建属于自己的 AI Agent。 然而从 LLM 接入、任务解析、插件整合到执行流程编排,整个链路不仅复杂,而且难以维护。
7/17/2025 4:00:00 AM
Luga Lee

马斯克推出30美元包月的AI伴侣服务,千亿赛道创新与争议并存

近日,马斯克旗下的人工智能项目又有新动作,AI聊天机器人Grok推出了 30 美元包月的 AI 伴侣服务,这一消息迅速在科技圈和大众群体中引发广泛讨论,争议声此起彼伏。 下载.jpg在此次更新中,付费访问 SuperGrok 的用户可率先体验 AI聊天机器人的新 “数字伴侣” 头像。 用户需点击 Grok 左上角栏目,进入 “设置”,点击启用 “伴侣” .
7/17/2025 3:00:00 AM