AI在线 AI在线

AI

1万tokens是检验长文本的新基准,超过后18款大模型集体失智

1万tokens是检验长文本的新基准,超过后18款大模型集体失智

上下文扩展至1万tokens,LLM集体“失智”! 且“智商”不是均匀下降,而是在一些节点突然断崖式下跌。 比如Claude Sonnet 4,就是在1000tokens后准确率一路下滑,从90%降到60%。
7/17/2025 10:47:33 AM
投奔小扎,Jason Wei连发两篇博文公布“屠龙术”:一个公式看透AI,一条心法指引人生

投奔小扎,Jason Wei连发两篇博文公布“屠龙术”:一个公式看透AI,一条心法指引人生

Jason Wei:OpenAI研究科学家,OpenAI思维链研究开创者,《Chain-of-thought prompting elicits reasoning in large language models》论文第一作者,谷歌学术他引17000余次(CoT单篇),高中学历,毕业于全美顶级的科技高中:托马斯·杰弗逊科学技术高中,sat 2390(2400满分),强化学习大神。 在刚刚爆出被小扎挖走,加入meta超级智能实验室后,Jason Wei 连发两篇文章,一篇是关于 AI 发展的核心驱动力公式——“验证者定律”,另一篇则是从强化学习中悟出的人生哲学——“人生要走 On-Policy 路线”,这可能就是jason wei 在OpenAI最后的遗作了吧。 验证者定律说的是:训练人工智能解决一个任务的难易程度与该任务的可验证性成正比。
7/17/2025 9:24:08 AM
面对无解问题大模型竟会崩溃?港中文&华为联合提出首个大模型推理可靠性评估基准

面对无解问题大模型竟会崩溃?港中文&华为联合提出首个大模型推理可靠性评估基准

本文作者是香港中文大学博士三年级薛博阳,导师为黄锦辉教授,目前在伦敦大学学院进行访问交流,他的研究方向包括可信大模型,模型不确定性,对话系统等,在 ACL, EMNLP, TASLP 等会议期刊作为第一作者发表多篇论文,并长期在知乎写作大模型、机器学习等专栏文章,个人主页为:? 今年初以 DeepSeek-r1 为代表的大模型在推理任务上展现强大的性能,引起广泛的热度。 然而在面对一些无法回答或本身无解的问题时,这些模型竟试图去虚构不存在的信息去推理解答,生成了大量的事实错误、无意义思考过程和虚构答案,也被称为模型「幻觉」 问题,如下图(a)所示,造成严重资源浪费且会误导用户,严重损害了模型的可靠性(Reliability)。
7/17/2025 9:21:11 AM
舍弃自回归,离散扩散语言模型如何演化?NUS综述解构技术图谱与应用前沿

舍弃自回归,离散扩散语言模型如何演化?NUS综述解构技术图谱与应用前沿

本论文共同第一作者于润芃和李奇是新加坡国立大学 xML 实验室博士生,指导老师为王鑫超,研究方向是多模态大模型与可信深度模型。 本文主要介绍 xML 团队的论文:Discrete Diffusion in Large Language and Multimodal Models: A Survey。 论文链接: 仓库: GPT 引爆大语言模型热潮以来,自回归的大语言模型(LLMs)与多模态模型(MLLMs)已成为智能系统的基石。
7/17/2025 9:16:20 AM 机器之心
两周反转:Anthropic「闪电」夺回被Cursor挖走的核心编程大将

两周反转:Anthropic「闪电」夺回被Cursor挖走的核心编程大将

本月初,据 The Information 报道,Anthropic Claude Code 的两位负责人 Boris Cherny 和 Cat Wu 被 AI 编程应用 Cursor 的开发商 Anysphere 挖走。 其中,Boris Cherny 是 Claude Code 项目的开发负责人,可以说是 Claude Code 技术的灵魂人物,此前加入 Anysphere 担任首席架构师和工程主管。 Cat Wu 则是 Claude Code 产品经理,在 Anysphere 的新职务是产品主管。
7/17/2025 9:12:00 AM
小哥硬核手搓AI桌宠!接入GPT-4o,听得懂人话还能互动,方案可复现

小哥硬核手搓AI桌宠!接入GPT-4o,听得懂人话还能互动,方案可复现

大火的AI宠物,自己手搓一个更有性价比? ! 大脑还是GPT-4o的那种,外表长酱紫:这就是国外一个小哥受到了前段时间火遍全网的皮克斯台灯机器人启发,给自己手搓的“小宠物”。
7/17/2025 9:08:41 AM
如果说MCP是AI智能体的USB口,那A2A就是以太网

如果说MCP是AI智能体的USB口,那A2A就是以太网

译者 | 核子可乐审校 | 重楼几乎万事万物都离不开协议和标准,这也是就技术问题达成沟通一致的前提。 而随着AI智能体的迅猛发展,与之配套的协议出现也只是时间问题。 Anthropic提出的MCP(模型上下文协议)就是其中最知名的方案之一。
7/17/2025 8:04:47 AM 核子可乐
ChatGPT Plus 新权益:OpenAI 开放 Record 模式,会议记录的高效 AI 解决方案

ChatGPT Plus 新权益:OpenAI 开放 Record 模式,会议记录的高效 AI 解决方案

AI在线 7 月 17 日消息,科技媒体 9to5Mac 昨日(7 月 16 日)发布博文,报道称 OpenAI 面向 ChatGPT Plus 订阅用户,向其开放了在 macOS 版 ChatGPT 应用中,使用 Record Mode 模式的权限。 AI在线注:OpenAI 于 6 月举办的“ChatGPT for business”更新活动中,面向 Team、Enterprise 和 Edu 用户,推出了 Record Mode 模式,在会议和电话会议中实现 AI 辅助记笔记。 在在 ChatGPT 应用中添加了一个小的“录制”按钮,按下后,它开始录制系统音频。
7/17/2025 7:50:14 AM 故渊
7个月翻一番!AI agent能力飙升,METR报告揭示指数级进化规律

7个月翻一番!AI agent能力飙升,METR报告揭示指数级进化规律

henry 发自 凹非寺. 量子位 | 公众号 QbitAIAgent能力每7个月翻一番! 根据非营利研究机构METR最新发布的报告,这一规律已在9项基准测试中得到了验证。
7/16/2025 4:28:55 PM henry
马斯克的Neuralink梦想成真?意识连续谱理论震惊科学界!

马斯克的Neuralink梦想成真?意识连续谱理论震惊科学界!

马斯克Neuralink野心理论上被证实! Michael Levin探讨了意识与自我组装的关系,强调意识是一个连续谱系。 Levin是美国著名的发育生物学家和合成生物学家,近期,他在采访中深入探讨了意识和自我组织的关系,聚焦于生物和人工系统。
7/16/2025 1:14:13 PM
从麦当劳AI招聘系统漏洞事件看自动化招聘的阴暗面

从麦当劳AI招聘系统漏洞事件看自动化招聘的阴暗面

罪魁祸首是:Olivia,一款来自Paradox.ai的AI聊天机器人,旨在处理求职申请、收集个人信息,甚至进行性格测试。 从表面上看,它是现代效率的典范,但实际上,由于安全漏洞太过基础,这些漏洞简直可以称得上是荒谬可笑,整个系统完全处于不设防状态。 出了什么问题?发现这些漏洞并不需要高超的黑客技术,研究人员Ian Carroll和Sam .
7/16/2025 1:07:47 PM Tony Bradley
OpenAI前员工万字爆料刷屏!Codex发布会前紧急部署、已有63 万PR!工程混乱靠自造轮子;建议创始人去AI大厂当螺丝钉!

OpenAI前员工万字爆料刷屏!Codex发布会前紧急部署、已有63 万PR!工程混乱靠自造轮子;建议创始人去AI大厂当螺丝钉!

编辑 | 伊风出品 | 51CTO技术栈(微信号:blog51cto)OpenAI 前员工的万字离职帖,在海外技术社区刷屏了! 作者 Calvin French-Owen 把「从初创企业CTO到OpenAI 工程师」的 14 个月,写成了一篇既热血又克制的“内部纪录片”:• 7 周极限冲刺,上线 Codex,上线当天凌晨 4 点还在部署;• 一年扩张几千人,代码库秒变“巨型垃圾场”;• 第一天打开开关,流量就涌进来,“从没见过这么离谱的冷启动”为什么刷屏? 就像作者说得那样:外界关于 OpenAI 的传闻太多,真正从“里面”走出来讲真点一手体验的人太少。
7/16/2025 12:57:50 PM
拓元智慧物理空间智能引擎再获行业验证!赋能金牌家居“飞流AI”

拓元智慧物理空间智能引擎再获行业验证!赋能金牌家居“飞流AI”

2025年7月8日,中国(广州)国际建筑装饰博览会现场,金牌家居正式启动新一代家居设计智能体“飞流AI2.1”全民公测。 拓元智慧携手鲲鹭W实验室,依托拓元智慧自研“物理空间智能引擎”,突破传统AI设计瓶颈,实现从空间解析到沉浸式交互设计的全流程物理级精准闭环,引领家居设计迈入“所想即所见、所见即所得”的智能化时代。  图 1“飞流AI”部分界面截图1.技术底座|破解AI“不懂物理”行业痛点传统 AI 设计工具因仅在“数字”空间训练,常出现“尺寸失真”“物理规则违背”等硬伤(如家具比例失调、材质反逻辑)。
7/16/2025 11:03:00 AM 徐咪
AI+主数据:为什么你的数据还在"各自为政"?

AI+主数据:为什么你的数据还在"各自为政"?

周一早上,销售总监急匆匆跑到你办公室:"我们需要分析一下华东区域的客户画像,制定下季度的营销策略。 " 你打开CRM系统,发现客户信息不全。 打开ERP系统,发现交易数据格式乱七八糟。
7/16/2025 10:51:46 AM 大数据AI智能圈
模仿学习新范式,Chain-of-Action:轨迹自回归实现动作推理

模仿学习新范式,Chain-of-Action:轨迹自回归实现动作推理

论文标题:Chain-of-Action: Trajectory Autoregressive Modeling for Robotic Manipulation主页链接:::(Embodied AI)作为人工智能领域的前沿方向,旨在赋予机器人或智能体在物理世界中感知、决策和行动的能力。 近年来,尽管视觉 - 语言 - 动作模型(Vision Language Action, VLA)已经取得了诸多进展,但具身智能领域尚未迎来 「GPT 时刻」。 越来越多的研究人员开始相信,仅仅增加模型规模和数据量似乎不足以创造出通用操作模型,如果我们想要充分释放现有数据的潜力,就需要找到更有效的机器人操作建模方法。
7/16/2025 10:42:32 AM
突发|思维链开山作者Jason Wei被曝加入Meta,机器之心独家证实:Slack没了

突发|思维链开山作者Jason Wei被曝加入Meta,机器之心独家证实:Slack没了

这或许是目前为止,扎克伯格挖走的最强技术人才。 就在刚刚,外媒 Wired 的一位资深 AI 领域记者爆料称,「多个消息源证实,OpenAI 知名研究员 Jason Wei 和另一位研究科学家 Hyung Won Chung 将双双离职,投奔 Meta。 」并且,他们二人的 Slack 账号已经被停用。
7/16/2025 10:39:05 AM
微软打造 AI 新工具:每月辅助审查 60 万条 PR,占比超 90%

微软打造 AI 新工具:每月辅助审查 60 万条 PR,占比超 90%

AI在线 7 月 16 日消息,微软公司于 7 月 14 日发布博文,介绍了内部使用的 AI 智能代码审查助手(暂未命名),已扩展帮助公司每月审查超过 60 万条 Pull Requests(PR)请求,占比超过 90%。 AI在线注:Pull Request (PR),也称为拉取请求,是软件开发中一种合作机制,主要用于将代码更改从一个分支合并到另一个分支,通常用于在代码仓库中进行协作和代码审查。 微软始终在寻找提升开发者生产力和代码质量的方法,其中一项重大创新是 AI 智能代码审查助手,该助手源于内部实验,能帮助工程师更快发现问题,更早完成 PR,并在标准开发流程中强制执行一致的最佳实践。
7/16/2025 10:21:54 AM 故渊
基于闪电注意力机制,创新高效开源大模型

基于闪电注意力机制,创新高效开源大模型

从数学竞赛、编程到自然语言处理,通过大规模的强化学习的模型正不断提升其推理能力。 但传统的Transformer架构由于其注意力机制的二次计算复杂度,在处理长文本和复杂推理任务时面临着效率瓶颈。 尽管有研究提出了多种改进方法,如稀疏注意力、线性注意力等,但这些方法在大规模推理模型中的应用效果尚未得到充分验证,大多数领先的模型仍然依赖于传统的注意力设计。
7/16/2025 10:15:51 AM