AI在线 AI在线

理论

图灵奖得主联手前谷歌CEO,发布全球首份AGI“成绩单”!GPT-5仅获58分,最大缺陷是“金鱼脑”

编辑 | 听雨“什么是 AGI? ”这是所有科技公司都在喊的口号,却也是一个模糊得几乎无法定义的词。 OpenAI 说它要“追求 AGI”;Anthropic 宣称 Claude 是“朝向 AGI 的安全智能体”;谷歌和 Meta 则都声称自己“正在逼近 AGI”。
10/20/2025 3:43:10 PM
听雨

IDC 2025 新出炉 Infra 报告力荐:GMI Cloud 领跑 AI 原生云赛道

近日,全球权威市场研究机构 IDC 发布《AI 原生云/新型云厂商重构 Agentic 基础设施》报告,深度剖析生成式 AI(GenAI)爆发背景下,AI 基础设施市场的变革趋势与核心玩家价值。 报告明确指出,“AI 原生云厂商凭借稳定的供应链、显著的价格优势及专业化能力,已在 AI 基础设施市场站稳脚跟”,并将 GMI Cloud 与 CoreWeave 列为新型 AI 原生云厂商中的重点调研推荐对象,从技术实力、生态资源、产品布局及战略视野四大维度,肯定其在推动企业 GenAI 落地中的核心作用。 IDC 洞察 AI 应用市场焦点:AI 原生云成 GenAI 跨越“PoC 到生产”关键,推理与合规需求凸显IDC 在报告中强调,当前亚太地区企业 GenAI 采用率呈爆发式增长——65%的亚太企业将在 2025 年实现超 50 个 GenAI 场景投产,26%的企业甚至计划部署超 100 个场景。
10/20/2025 3:39:14 PM
云昭

CC成功的秘诀到底是什么?遵循Unix 哲学、核弹级生产力:我用ClaudeCode+Obsidian,造了一个“第二大脑”

编辑 | 听雨出品 | 51CTO技术栈(微信号:blog51cto)AI 工具千千万,但能让人上瘾的,只有 Claude Code。 最近,小编关注到一篇拍案叫绝的文章——作者是 Alephic(一家以 AI 为核心的咨询公司)的联合创始人 Noah Brier。 他坦言:“Claude Code 不只是一个写代码的工具,而是一种全新的操作系统思维。
10/20/2025 2:35:43 PM
听雨

MaskMol:知识引导的分子图像自监督学习框架,破解活性悬崖识别难题

作者丨论文团队编辑丨ScienceAI在药物发现领域,一个长期存在的挑战是活性悬崖(Activity Cliffs)现象,即两个分子结构高度相似但生物活性却存在显著差异,然而,由于传统方法在识别活性悬崖时,会出现表征坍塌的问题,因此仍然难以准确捕捉悬崖分子的细微差别。 近日,湖南大学等团队在《BMC Biology》上发表了一项研究《MaskMol: knowledge-guided molecular image pre-training framework for activity cliffs with pixel masking》,这项研究开发了名为 MaskMol 的知识引导分子图像自监督预训练框架,该框架能通过细粒度知识引导的像素掩码策略进行准确的活性悬崖估计。 活性悬崖与传统模型的局限分子性质预测是药物研发的核心环节,其核心假设是结构相似则性质相似(图 1 左)。
10/20/2025 11:56:00 AM
ScienceAI

高盛:人工智能热潮并非泡沫,才刚刚起步

10 月 19 日消息,尽管市场对人工智能(AI)泡沫的担忧日益加剧,但高盛(Goldman Sachs)认为,这场 AI 繁荣才刚刚拉开序幕。 这家华尔街巨头的分析师指出,当前的投资规模与 AI 所能带来的潜在经济回报相比仍然较小。 高盛分析师在周三发布的一份报告中写道:“生成式 AI 所承诺的巨大经济价值,足以支撑当前对 AI 基础设施的投资。
10/20/2025 9:51:38 AM
远洋

供应链中的代理人工智能应用是物流的未来

联合利华的人工智能系统通过分析天气数据来调整冰淇淋销售预测、优化库存并减少浪费。 人工智能冰箱的数据已使某些地区的零售订单和销售额增长高达 30%。 这些人工智能工具在瑞典等市场将预测准确率提高了 10%,从而能够更灵活地应对不断变化的天气模式。
10/20/2025 9:48:35 AM
晓晓

LLM的“记忆”与“推理”该分家了吗?一种全新的训练范式,彻底厘清思考流程

在医疗诊断中,模型误将“罕见病症状”与“常见病混淆”;在金融分析里,因记错政策条款给出错误投资建议——大语言模型(LLMs)的这些“失误”,本质上源于一个核心症结:记忆知识与逻辑推理的过程被死死绑定在黑箱中。 当模型的思考既需要调用事实性知识,又要进行多步逻辑推导时,两种能力的相互干扰往往导致答案失真或决策失据。 罗格斯大学、俄亥俄州立大学等团队发表于2025 ACL的研究《Disentangling Memory and Reasoning Ability in Large Language Models》,为破解这一难题提供了全新思路。
10/20/2025 9:33:49 AM
Goldma

全球第一!百度0.9B参数大模型碾压传统OCR!

最近有个感觉特别强烈:AI正在从"识别文字"悄然进化成"理解文档"。 当我看到百度飞桨团队刚刚发布的PaddleOCR-VL在全球权威评测中以92.6分位列第一时,第一反应是——这个0.9B的"小家伙",怎么就把那些动辄几十亿参数的巨无霸给比下去了? 说实话,刚开始我也有点半信半疑。
10/20/2025 9:30:34 AM
阿丸笔记

开源对机器人的价值,远超大模型时代的想象丨唐文斌深度对谈抱抱脸创始人

“很多模型在模拟器里完美运行,但一到现实就彻底失灵。 ”在最新一次线上对谈中,Dexmal联合创始人唐文斌与Hugging Face联合创始人Thomas Wolf指出了当前机器人研究的最大痛点。 唐文斌是旷视科技联合创始人兼CTO,原力灵机(Dexmal)CEO、清华大学“姚班”出身、首届“Yao Award”金牌得主。
10/20/2025 9:30:15 AM

OpenAI以为GPT-5搞出了数学大新闻,结果…哈萨比斯都觉得尴尬

太尴尬了。 就在周末,GPT-5又双叒带来了数学方面的新突破,一道难题被宣称解决…然鹅……很快就被发现是OpenAI的“营销过度”,小题大作,根本算不上什么突破。 友商大咖们也都不装了。
10/20/2025 9:22:56 AM

一文看懂使用HuggingFace的完整拼图

无论你开发怎样的AI应用,如何依托成熟的开源技术栈进行应用构建都是一个关键的路径。 本文通过解析从环境配置到服务部署的完整链路,基于HuggingFace的生态系统,结合对话系统、内容生成等典型场景案例,为开发者提供可复用实施参考。 1.
10/20/2025 9:20:06 AM
曹洪伟

「死亡互联网理论」刷屏硅谷!Reddit创始人预警,奥特曼公开发声

当互联网被AI内容淹没,真正由人类创作的内容正在日益缩减。 「如今的互联网,大部分已经死了」,近日Reddit联合创始人Alexis Ohanian一语惊人。 Reddit联合创始人Alexis Ohanian他口中的「互联网死亡」并不是指互联网被关闭了,而是被铺天盖地的AI生成内容所淹没,失去了真实的生命力。
10/20/2025 9:15:00 AM

扎克伯格急了!Meta内部文件曝光:宁用竞品,也要废掉祖传系统

九位数年薪抢人、数百亿美元押注、部署从「小时级」压到「分钟级」。 在Meta,时间就是唯一敌人。 据报道,Meta的「超级智能实验室」(Meta Superintelligence Lab, MSL)正在发起一场深度内部革命,旨在引导团队转向更快的工程工具,全面加速AI的开发进程。
10/20/2025 9:14:00 AM

GPT-5破解世纪难题,竟是上网抄来的!哈萨比斯:太尴尬了

OpenAI团队狂吹了一波GPT-5,结果竟是闹剧一场......事情是这样的。 几天前,OpenAI科学家Sebastien Bubeck激动转发,两位研究员联手GPT-5 Pro,仅用了一个周末,破解了10个「百年悬案」——埃尔德什难题(Erdos problems)紧接着,OpenAI科学副总裁Kevin Weil等人纷纷加入,大肆宣传。 然而,真相很快浮出水面:这十道难题,早就被学界解决,并非由GPT-5独立解决,它只是通过检索网络文献给出了答案。
10/20/2025 9:13:00 AM

浙大推出首个「多图应用题」基准GSM8K-V,全面评估 VLM数学推理能力

「小明买了3个苹果,每个5元,他付了20元,应该找回多少钱? 」这是典型的小学数学应用题。 但在日常生活中,我们更常遇到的是它的视觉版本:看到货架上的苹果标价牌,数出购物篮里的苹果数量,估算总价,再从收银员手中接过找零,快速判断对不对。
10/20/2025 9:12:00 AM

英伟达4段简短提示词,IOI夺金!开源模型也能征服最难编程竞赛

IOI(国际信息学奥林匹克)是全球中学生算法编程竞赛的最高殿堂,每年只有不到10%选手能拿到金牌。 比赛要求选手在两天内各5小时独立解决3道高难度算法题,全程断网、不能借助外部资料,每题最多允许50次提交尝试。 要拿金牌,既要有过硬的算法思维,又得策略得当、在有限提交内调优代码。
10/20/2025 9:10:00 AM

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

在当前多模态AI发展浪潮中,视觉语言模型(Vision Language Models, VLMs)因其能通过「看图 文字交互」处理多样任务而备受关注。 然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。 相比之下,纯视觉模型(pure vision models)在 绝对深度估计(metric depth estimation) 等三维理解任务上,凭借专门设计的网络结构与损失函数,早已达到了超越人类的精度。
10/20/2025 9:09:00 AM

5万美元筛选「超级婴儿」, 智商提升15点?马斯克被曝是客户!

马斯克,这个誓言要将人类文明送上火星的男人,正在地球上进行一场更私密、也更具争议的实验——「优化」自己的孩子。 据《华盛顿邮报》披露,他至少有一名子女使用了胚胎多基因筛查服务。 这项技术,正被硅谷的VC和创业者们包装成通往「超级婴儿」的金色门票,吸引着富豪们斥巨资入场。
10/20/2025 9:08:00 AM