AI在线 AI在线

理论

ChatGPT还没学会打电话,谷歌搜索AI已经替你电话约服务,还会谈价砍单!

谷歌搜索要出新花样了! 想象一下,你想给你的宠物狗做一次美容,但是家附近好像没有这样的门店。 你打开搜索,输入「附近的宠物美容师」,并且勾选了「让AI查价格」,然后接下来你就什么都不用做了。
7/17/2025 1:08:56 PM

Transformer终结者!谷歌DeepMind全新MoR架构问世,新一代魔王来了

就在刚刚,KAIST、Mila和谷歌DeepMind团队等放出重磅炸弹——一个名为Mixture-of-Recursions的全新LLM模型架构。 这个崭新的架构,被业内认为有潜力成为Transformer杀手! 它的推理速度提升2倍,训练FLOP减少,KV缓存内存直接减半。
7/17/2025 1:05:35 PM

神作!我用Claude Code一人打造了一款macOS原生App!句句干货,未来的IDE会截然不同:构建上下文+反馈回路

作者 | Indragie Karunaratne编译 | 沈建苗审校 | 云昭出品 | 51CTO技术栈(微信号:blog51cto)Claude Code 出来之后,很多人都在说“一个人 AI 就可以独立写应用了”。 但真正有人用它从头到尾打造一个完整的 macOS 原生 App,还详细记录全过程的,几乎没有。 今天要分享的这篇文章,正好填补了这个空白。
7/17/2025 12:36:49 PM
沈建苗 云召

GenAI项目失败的五大常见原因

根据Gartner的研究,如果CIO误解了技术的成熟度,未能关联业务价值,就可能会遇到问题。 企业看到了GenAI的潜力,但也面临着诸多障碍。 从技术缺陷到规划初期的失误,技术领导者们有诸多原因导致项目滞后。
7/17/2025 11:28:42 AM
Lindsey Wilkinson

1万tokens是检验长文本的新基准,超过后18款大模型集体失智

上下文扩展至1万tokens,LLM集体“失智”! 且“智商”不是均匀下降,而是在一些节点突然断崖式下跌。 比如Claude Sonnet 4,就是在1000tokens后准确率一路下滑,从90%降到60%。
7/17/2025 10:47:33 AM

从聊天记录到数字资产:MIRIX 让记忆可买卖

大家好,我是肆〇柒。 当下,LLM 智能体在各种复杂任务中表现得越来越出色。 然而,记忆这一关键要素却始终制约着 LLM 智能体的进一步发展。
7/17/2025 10:08:30 AM
肆零柒

揭秘大模型的魔法:从Transformer架构开始,一步步揭开它的神秘面纱

大家好,我是写代码的中年人,本章我们正式进入Transformer架构的学习。 从 ChatGPT 到文生图,从语音助手到AI绘本的自动生成,背后几乎都躲着一个强大的架构,它像一台“魔法机器”,能读懂语言、生成内容、甚至推理判断。 但这一切魔法的根基,其实都是数学和工程的艺术结晶。
7/17/2025 9:47:07 AM
写代码的中年人

孙正义宣称要部署10亿个智能体,释放出什么信号?

在科技圈,沉寂颇久的孙正义又扔下了一颗重磅炸弹。 最近,他公开表示,打算在今年于软银集团内部部署 10 亿个 AI 智能体,还要给这些智能体设计专门的操作系统。 此语一出,业界纷纷侧目,孙正义这葫芦里,到底卖的什么药?
7/17/2025 9:39:15 AM
小菲

RAG 中文本分块全攻略,这个项目让效率狂飙

在构建 Retrieval-Augmented Generation(RAG)系统时,文本分块作为关键前置环节,其质量直接影响检索精度与生成内容的相关性。 今天给大家推荐一个自己近期整理的项目 ——Awesome-Chunker,一站式聚合并复现了当下主流的文本分块技术,从经典方法到前沿算法应有尽有,助你在 RAG 开发中少走弯路! 1、项目核心价值 让分块不再是难题在 RAG 任务的探索之路上,相信不少研究者都和我一样,为寻找一个能系统提升分块质量的项目而苦恼。
7/17/2025 9:35:26 AM
Goldma

离职员工首次长文揭秘真实的OpenAI:一半是天才,一半是疯子,7周时间上线code x

本文是OpenAI离职员工Calvin French-Owen在OpenAI工作一年的回忆与反思感悟。 作者从OpenAI的企业文化,技术栈揭秘,以及在OpenAI用7天时间打造编程代理code x 的故事,让我们首次得以窥见OpenAI内部,非常值得一看。 我在OpenAI一年的反思与感悟作者:Calvin French-Owen日期:2025年7月15日三周前,我离开了OpenAI。
7/17/2025 9:25:53 AM

投奔小扎,Jason Wei连发两篇博文公布“屠龙术”:一个公式看透AI,一条心法指引人生

Jason Wei:OpenAI研究科学家,OpenAI思维链研究开创者,《Chain-of-thought prompting elicits reasoning in large language models》论文第一作者,谷歌学术他引17000余次(CoT单篇),高中学历,毕业于全美顶级的科技高中:托马斯·杰弗逊科学技术高中,sat 2390(2400满分),强化学习大神。 在刚刚爆出被小扎挖走,加入meta超级智能实验室后,Jason Wei 连发两篇文章,一篇是关于 AI 发展的核心驱动力公式——“验证者定律”,另一篇则是从强化学习中悟出的人生哲学——“人生要走 On-Policy 路线”,这可能就是jason wei 在OpenAI最后的遗作了吧。 验证者定律说的是:训练人工智能解决一个任务的难易程度与该任务的可验证性成正比。
7/17/2025 9:24:08 AM

面对无解问题大模型竟会崩溃?港中文&华为联合提出首个大模型推理可靠性评估基准

本文作者是香港中文大学博士三年级薛博阳,导师为黄锦辉教授,目前在伦敦大学学院进行访问交流,他的研究方向包括可信大模型,模型不确定性,对话系统等,在 ACL, EMNLP, TASLP 等会议期刊作为第一作者发表多篇论文,并长期在知乎写作大模型、机器学习等专栏文章,个人主页为:? 今年初以 DeepSeek-r1 为代表的大模型在推理任务上展现强大的性能,引起广泛的热度。 然而在面对一些无法回答或本身无解的问题时,这些模型竟试图去虚构不存在的信息去推理解答,生成了大量的事实错误、无意义思考过程和虚构答案,也被称为模型「幻觉」 问题,如下图(a)所示,造成严重资源浪费且会误导用户,严重损害了模型的可靠性(Reliability)。
7/17/2025 9:21:11 AM

舍弃自回归,离散扩散语言模型如何演化?NUS综述解构技术图谱与应用前沿

本论文共同第一作者于润芃和李奇是新加坡国立大学 xML 实验室博士生,指导老师为王鑫超,研究方向是多模态大模型与可信深度模型。 本文主要介绍 xML 团队的论文:Discrete Diffusion in Large Language and Multimodal Models: A Survey。 论文链接: 仓库: GPT 引爆大语言模型热潮以来,自回归的大语言模型(LLMs)与多模态模型(MLLMs)已成为智能系统的基石。
7/17/2025 9:16:20 AM
机器之心

两周反转:Anthropic「闪电」夺回被Cursor挖走的核心编程大将

本月初,据 The Information 报道,Anthropic Claude Code 的两位负责人 Boris Cherny 和 Cat Wu 被 AI 编程应用 Cursor 的开发商 Anysphere 挖走。 其中,Boris Cherny 是 Claude Code 项目的开发负责人,可以说是 Claude Code 技术的灵魂人物,此前加入 Anysphere 担任首席架构师和工程主管。 Cat Wu 则是 Claude Code 产品经理,在 Anysphere 的新职务是产品主管。
7/17/2025 9:12:00 AM

小哥硬核手搓AI桌宠!接入GPT-4o,听得懂人话还能互动,方案可复现

大火的AI宠物,自己手搓一个更有性价比? ! 大脑还是GPT-4o的那种,外表长酱紫:这就是国外一个小哥受到了前段时间火遍全网的皮克斯台灯机器人启发,给自己手搓的“小宠物”。
7/17/2025 9:08:41 AM

Kimi K2:开源智能体模型的巅峰之作

译者 | 李睿审校 | 重楼Moonshot最近推出新型开源智能体模型 Kimi K2,该模型总参数高达1万亿个,并拥有320亿个专家混合(MoE)架构。 Kimi K2有两种变体,在多个基准测试中表现出色。 它具有预训练和训练后两种学习方法,还能学习采用工具。
7/17/2025 8:14:22 AM
李睿

如果说MCP是AI智能体的USB口,那A2A就是以太网

译者 | 核子可乐审校 | 重楼几乎万事万物都离不开协议和标准,这也是就技术问题达成沟通一致的前提。 而随着AI智能体的迅猛发展,与之配套的协议出现也只是时间问题。 Anthropic提出的MCP(模型上下文协议)就是其中最知名的方案之一。
7/17/2025 8:04:47 AM
核子可乐

“我没错!”GPT-4o嘴硬翻车,AI在黑天鹅事件面前集体宕机

来自哥伦比亚大学、Vector人工智能研究所以及南洋理工大学的一个联合研究团队发现:人工智能模型在处理意外事件时的推理能力存在严重缺陷。  即便是如GPT-4o和Gemini 1.5 Pro这样的顶尖视觉语言模型(VLM),其表现也远逊于人类,差距最高可达32%。  论文地址:《黑天鹅》的研究指出,当前主流的AI评估方式普遍存在一个根本性问题:大多数基准测试围绕“常规模式”构建,也就是说,它们聚焦于可预测、规律清晰的视觉场景。
7/17/2025 7:19:35 AM
大数据文摘