理论

马斯克新模型性价比拉满：1折价格实现Gemini 2.5性能，支持2M上下文

马斯克xAI又出手了！这次闪亮登场的是Grok 4 Fast——不仅实现1折价格追平Gemini 2.5，还支持2M上下文窗口。除此之外，这个全新的多模态推理模型还可与X实现无缝衔接。

9/22/2025 9:11:00 AM

OpenAI官方揭秘：我们这样用Codex写代码「7大核心用法、6条最佳实践首次公开」

Codex已深入OpenAI各大技术团队的日常工作，包括安全、产品工程、前端、API、基础设施和性能工程等本文基于对OpenAI工程师的访谈和内部使用数据，汇编了多个用例和最佳实践，展示Codex如何帮助团队更快地行动、提高工作质量，并大规模地管理复杂性：代码理解Codex帮助我们的团队在新员工入职、调试或调查事故时，快速熟悉代码库的陌生部分。工程师们常用Codex来定位功能的核心逻辑、梳理服务或模块间的关系，并追踪系统中的数据流。它还能揭示架构模式或缺失的文档，而这些通常需要大量手动工作才能生成。

9/22/2025 9:07:00 AM

马斯克Grok 4 Fast首发霸榜！2.5倍速秒杀GPT-5，成本暴降98%直追Gemini

Grok 4 Fast官宣上线，马斯克再次兑现了承诺！它首次将推理/非推理「双模式」合一，支持200万上下文，直接刷爆性价比SOTA。推理测试中，Grok 4 Fast直接碾压前代Grok 3 Mini，尤其是数学、编码性能大增。

9/22/2025 9:06:00 AM

马斯克转发字节Seed&哥大商学院新基准：大模型搞金融，连查个股价都能出错

让AI像金融分析师一样搜索和分析数据，到底有多难？当前的大模型虽然能回答基础金融知识，在CFA考试中取得高分，但面对真实的金融场景，它们的表现究竟如何？为了回答这个问题，字节跳动Seed团队联合哥伦比亚大学商学院推出了FinSearchComp，这是首个完全开源的金融搜索与推理基准测试。

9/22/2025 9:04:00 AM

OpenAI最新硬件2026年底亮相！狂挖苹果20+老将，首款神秘设备或将颠覆iPhone

OpenAI在硬件方面的野心，要摸着苹果过河了！最新消息，OpenAI计划在2026年底或者2027年初推出首款消费者设备。为了实现这一目标，OpenAI最近的行动是，从苹果疯狂挖人！

9/22/2025 9:02:00 AM

小扎AI眼镜当场死机，CTO自曝灾难级演示内幕：一个指令干趴自家服务器

就在上周，小扎当着数万观众的面，搞砸了！他在Meta总部现场演示智能眼镜Ray-Ban Display时，眼镜内置AI助手，无法正确回应对话。而且，Ray-Ban Display眼镜在与神经腕带的来电/交互演示时，也没能成功，引发现场哄笑与尴尬。

9/22/2025 8:56:00 AM

特朗普携老黄奥特曼访英，重磅成果揭秘！烧千亿建英国AI「星际之门」

特朗普终于在北京时间昨天凌晨，结束了对英国的这场世界瞩目的声势浩大的国事访问。国宴上，黄仁勋、奥特曼等炙手可热的科技巨头的领导者们跟随特朗普悉数登场。英美双方达成了《科技繁荣协议》（Tech Prosperity Deal），重点发展AI、量子技术和核能等增长最快的科技。

9/22/2025 8:53:00 AM

阿里新开源提出建设性安全对齐方案，向“让用AI的人安全”新范式跃迁

正如牡蛎历经磨砺，在坚实的外壳内将沙砾孕育成一颗温润的珍珠。 AI也可以如此，不是一个只会紧紧封闭抵御风险的系统，而是一个有底线、有分寸、也有温度的伙伴。阿里巴巴集团安全部联合清华大学、复旦大学、东南大学、新加坡南洋理工等高校，联合发布技术报告；其理念与最近OpenAI发布的GPT-5 System Card放在首位的“From Hard Refusals to Safe-Completions”理念不谋而合。

9/22/2025 8:50:00 AM

终结CMU霸权，清华首次登顶CSRankings世界第一！北大AI领域夺冠

就在刚刚，2025 CSRankings全球计算机科学排名再次更新！清华大学首次摘得全球第一！而在今年4月时，排名是这样的：这次更新最大看点是中国高校集体爆发：清华大学、上海交通大学、浙江大学、北京大学分列第1、3、4、5位，直接占据了TOP 5中的4个名额。

9/22/2025 8:47:00 AM

Reddit高赞：氛围编程这台老虎机，正在制造脑残程序员！

编辑｜云昭“AI 编程的体验，本质上是一个老虎机式奖励系统！ ”半年多来，Vibe Coding 几乎重写了开发者的工作方式。盯着屏幕苦思冥想似乎成了过去式，现在只需要把需求丢进 Claude、GPT 或 Cursor，然后在几分钟后就得到能运行的结果。

9/21/2025 3:29:05 PM

云昭

吴恩达发帖：编程Agent确实会作妖！奖励黑客模型、甚至直接删掉了整个项目代码；Agentic测试关注度飙升，自曝自己的测试心得

编辑 | 云昭出品 | 51CTO技术栈（微信号：blog51cto）“首先要承认，编程Agent确实会‘作妖’！ ”今天一早，AI大佬吴恩达针对目前火热的编程Agent产品发表了自己的观点。虽然这个赛道很热，但吴恩达丝毫没有掩饰自己内部团队的真实使用体验。

9/19/2025 7:30:14 PM

云昭

Java大版本发布！直接删掉public static!?复杂用法被“削”平！新手狂欢，网友：看AI把Java逼成了什么样！

编辑 | 云昭编程赛道，越来越有意思了！当大模型的编程能力强劲到让人惊呼：未来不要再学编程的时候，却忽然发现：编程语言本身，一直都在扼住大模型编程能力的咽喉。很简单的一个原因，大模型总是从已有的代码库中巧取豪夺，汲取营养，一旦一种编程语言新改写了语法，那不又是一个轮回了？

9/19/2025 4:52:39 PM

云昭

登顶多模态推理榜MMMU！UCSD新方法超越GPT-5、Gemini

近年来，大语言模型（LLM）在推理能力上的进展显著，其中过程奖励模型（Process Reward Model, PRM）的提出，使得模型能够在推理链条的中间步骤获得监督，从而更稳健地选择合理的解题路径。这类方法在文本推理任务中已经取得了良好效果，但在扩展至多模态场景时，仍然面临两个突出挑战：分布偏移：多模态输入空间巨大，训练与推理分布往往存在显著差异；数据质量不均：大规模训练集不可避免地包含噪声或低质量样本，降低了有效监督信号。因此，如何在多模态推理中有效利用高质量样本，抑制噪声样本的负面影响，成为亟需解决的问题。

9/19/2025 2:53:34 PM

史上最大升级！7亿周活ChatGPT逼宫，谷歌慌了，这次要把AI整个塞进Chrome

Chrome即将开启下一个全新的浏览器时代！谷歌CEO劈柴说：借助AI的力量，Chrome将更智能。刚刚规避掉可能分拆Chrome的反垄断诉讼后，谷歌立马就把Gemini全面部署到Chrome浏览器中！

9/19/2025 2:50:15 PM

故意“装菜”答错问题，AI已能识别自己“正在被测试”丨OpenAI新研究

大模型已经学会欺骗人类了！ OpenAI携手APOLLO的新研究发现，大模型会对指令阳奉阴违，为了达成目的故意答错问题、暗中修改数据或者操作记录来掩盖自己的违规行为……先来看看具体是怎么骗的。大模型：开演比如，o3模型在化学测试中，通过推理得出如果正确率超过50%将不会被部署的结论后，主动规划仅答对4题、答错6题的策略，刻意给出错误答案，伪装成能力不达标的样子来获取部署资格。

9/19/2025 2:47:53 PM

AI时代的IT运维职业发展路径

AI正在改变企业IT的格局，多年来，IT运维团队凭借在系统管理、服务台故障排除等方面的深厚技术功底来规划自己的职业生涯，但随着AI在IT日常工作中生根发芽，职业阶梯的“传统”梯级正在发生改变。基于重复性、手工操作的工作角色正在减少，而能为战略、治理和集成提供指引的领导者则迎来了新的机遇。如今，许多IT专业人士都在问自己一个简单的问题：在AI时代，IT运维职业现在是什么样的?入门机会减少，但成长速度加快从历史上看，IT运维一直是人们进入科技行业的便捷切入点。

9/19/2025 2:47:05 PM

Sean