AI在线 AI在线

理论

马斯克新模型性价比拉满:1折价格实现Gemini 2.5性能,支持2M上下文

马斯克xAI又出手了! 这次闪亮登场的是Grok 4 Fast——不仅实现1折价格追平Gemini 2.5,还支持2M上下文窗口。 除此之外,这个全新的多模态推理模型还可与X实现无缝衔接。
9/22/2025 9:11:00 AM

OpenAI官方揭秘:我们这样用Codex写代码「7大核心用法、6条最佳实践首次公开」

Codex已深入OpenAI各大技术团队的日常工作,包括安全、产品工程、前端、API、基础设施和性能工程等本文基于对OpenAI工程师的访谈和内部使用数据,汇编了多个用例和最佳实践,展示Codex如何帮助团队更快地行动、提高工作质量,并大规模地管理复杂性:代码理解Codex帮助我们的团队在新员工入职、调试或调查事故时,快速熟悉代码库的陌生部分。 工程师们常用Codex来定位功能的核心逻辑、梳理服务或模块间的关系,并追踪系统中的数据流。 它还能揭示架构模式或缺失的文档,而这些通常需要大量手动工作才能生成。
9/22/2025 9:07:00 AM

马斯克Grok 4 Fast首发霸榜!2.5倍速秒杀GPT-5,成本暴降98%直追Gemini

Grok 4 Fast官宣上线,马斯克再次兑现了承诺! 它首次将推理/非推理「双模式」合一,支持200万上下文,直接刷爆性价比SOTA。 推理测试中,Grok 4 Fast直接碾压前代Grok 3 Mini,尤其是数学、编码性能大增。
9/22/2025 9:06:00 AM

马斯克转发字节Seed&哥大商学院新基准:大模型搞金融,连查个股价都能出错

让AI像金融分析师一样搜索和分析数据,到底有多难? 当前的大模型虽然能回答基础金融知识,在CFA考试中取得高分,但面对真实的金融场景,它们的表现究竟如何? 为了回答这个问题,字节跳动Seed团队联合哥伦比亚大学商学院推出了FinSearchComp,这是首个完全开源的金融搜索与推理基准测试。
9/22/2025 9:04:00 AM

OpenAI最新硬件2026年底亮相!狂挖苹果20+老将,首款神秘设备或将颠覆iPhone

OpenAI在硬件方面的野心,要摸着苹果过河了! 最新消息,OpenAI计划在2026年底或者2027年初推出首款消费者设备。 为了实现这一目标,OpenAI最近的行动是,从苹果疯狂挖人!
9/22/2025 9:02:00 AM

小扎AI眼镜当场死机,CTO自曝灾难级演示内幕:一个指令干趴自家服务器

就在上周,小扎当着数万观众的面,搞砸了! 他在Meta总部现场演示智能眼镜Ray-Ban Display时,眼镜内置AI助手,无法正确回应对话。 而且,Ray-Ban Display眼镜在与神经腕带的来电/交互演示时,也没能成功,引发现场哄笑与尴尬。
9/22/2025 8:56:00 AM

特朗普携老黄奥特曼访英,重磅成果揭秘!烧千亿建英国AI「星际之门」

特朗普终于在北京时间昨天凌晨,结束了对英国的这场世界瞩目的声势浩大的国事访问。 国宴上,黄仁勋、奥特曼等炙手可热的科技巨头的领导者们跟随特朗普悉数登场。 英美双方达成了《科技繁荣协议》(Tech Prosperity Deal),重点发展AI、量子技术和核能等增长最快的科技。
9/22/2025 8:53:00 AM

阿里新开源提出建设性安全对齐方案,向“让用AI的人安全”新范式跃迁

正如牡蛎历经磨砺,在坚实的外壳内将沙砾孕育成一颗温润的珍珠。 AI也可以如此,不是一个只会紧紧封闭抵御风险的系统,而是一个有底线、有分寸、也有温度的伙伴。 阿里巴巴集团安全部联合清华大学、复旦大学、东南大学、新加坡南洋理工等高校,联合发布技术报告;其理念与最近OpenAI发布的GPT-5 System Card放在首位的“From Hard Refusals to Safe-Completions”理念不谋而合。
9/22/2025 8:50:00 AM

终结CMU霸权,清华首次登顶CSRankings世界第一!北大AI领域夺冠

就在刚刚,2025 CSRankings全球计算机科学排名再次更新! 清华大学首次摘得全球第一! 而在今年4月时,排名是这样的:这次更新最大看点是中国高校集体爆发:清华大学、上海交通大学、浙江大学、北京大学分列第1、3、4、5位,直接占据了TOP 5中的4个名额。
9/22/2025 8:47:00 AM

Reddit高赞:氛围编程这台老虎机,正在制造脑残程序员!

编辑 | 云昭“AI 编程的体验,本质上是一个老虎机式奖励系统! ”半年多来,Vibe Coding 几乎重写了开发者的工作方式。 盯着屏幕苦思冥想似乎成了过去式,现在只需要把需求丢进 Claude、GPT 或 Cursor,然后在几分钟后就得到能运行的结果。
9/21/2025 3:29:05 PM
云昭

吴恩达发帖:编程Agent确实会作妖!奖励黑客模型、甚至直接删掉了整个项目代码;Agentic测试关注度飙升,自曝自己的测试心得

编辑  | 云昭出品 | 51CTO技术栈(微信号:blog51cto)“首先要承认,编程Agent确实会‘作妖’! ”今天一早,AI大佬吴恩达针对目前火热的编程Agent产品发表了自己的观点。 虽然这个赛道很热,但吴恩达丝毫没有掩饰自己内部团队的真实使用体验。
9/19/2025 7:30:14 PM
云昭

Java大版本发布!直接删掉public static!?复杂用法被“削”平!新手狂欢,网友:看AI把Java逼成了什么样!

编辑 | 云昭编程赛道,越来越有意思了! 当大模型的编程能力强劲到让人惊呼:未来不要再学编程的时候,却忽然发现:编程语言本身,一直都在扼住大模型编程能力的咽喉。 很简单的一个原因,大模型总是从已有的代码库中巧取豪夺,汲取营养,一旦一种编程语言新改写了语法,那不又是一个轮回了?
9/19/2025 4:52:39 PM
云昭

登顶多模态推理榜MMMU!UCSD新方法超越GPT-5、Gemini

近年来,大语言模型(LLM)在推理能力上的进展显著,其中过程奖励模型(Process Reward Model, PRM)的提出,使得模型能够在推理链条的中间步骤获得监督,从而更稳健地选择合理的解题路径。 这类方法在文本推理任务中已经取得了良好效果,但在扩展至多模态场景 时,仍然面临两个突出挑战:分布偏移:多模态输入空间巨大,训练与推理分布往往存在显著差异;数据质量不均:大规模训练集不可避免地包含噪声或低质量样本,降低了有效监督信号。 因此,如何在多模态推理中有效利用高质量样本,抑制噪声样本的负面影响,成为亟需解决的问题。
9/19/2025 2:53:34 PM

史上最大升级!7亿周活ChatGPT逼宫,谷歌慌了,这次要把AI整个塞进Chrome

Chrome即将开启下一个全新的浏览器时代! 谷歌CEO劈柴说:借助AI的力量,Chrome将更智能。 刚刚规避掉可能分拆Chrome的反垄断诉讼后,谷歌立马就把Gemini全面部署到Chrome浏览器中!
9/19/2025 2:50:15 PM

故意“装菜”答错问题,AI已能识别自己“正在被测试”丨OpenAI新研究

大模型已经学会欺骗人类了! OpenAI携手APOLLO的新研究发现,大模型会对指令阳奉阴违,为了达成目的故意答错问题、暗中修改数据或者操作记录来掩盖自己的违规行为……先来看看具体是怎么骗的。 大模型:开演比如,o3模型在化学测试中,通过推理得出如果正确率超过50%将不会被部署的结论后,主动规划仅答对4题、答错6题的策略,刻意给出错误答案,伪装成能力不达标的样子来获取部署资格。
9/19/2025 2:47:53 PM

AI时代的IT运维职业发展路径

AI正在改变企业IT的格局,多年来,IT运维团队凭借在系统管理、服务台故障排除等方面的深厚技术功底来规划自己的职业生涯,但随着AI在IT日常工作中生根发芽,职业阶梯的“传统”梯级正在发生改变。 基于重复性、手工操作的工作角色正在减少,而能为战略、治理和集成提供指引的领导者则迎来了新的机遇。 如今,许多IT专业人士都在问自己一个简单的问题:在AI时代,IT运维职业现在是什么样的?入门机会减少,但成长速度加快从历史上看,IT运维一直是人们进入科技行业的便捷切入点。
9/19/2025 2:47:05 PM
Sean

躲了科学家几十年的流体不稳定奇点,被DeepMind用AI找到了

流体里藏了几十年的隐形奇点,终于被找到了——AI立大功。 谷歌DeepMind携手布朗大学、纽约大学和斯坦福大学用物理知情神经网络(PINN) 高精度数值优化的组合拳找到了流体方程里的不稳定奇点。 据说,这种奇点非常“挑剔”,初始条件差一点就消失,之前根本找不到,这次被AI发现了。
9/19/2025 2:46:03 PM

新威胁需要新防御!对AI智能体安全的一些思考和建议

AI智能体正在成为连接数字世界和物理世界的关键纽带。 从操控软件 、开发代码到科学发现,它在现代企业数智化发展中有着几乎无限的发展潜力。 随着AI智能体能力和应用的不断增长,如何确保它们安全、可靠地运行是每个企业都必须要面对的严峻挑战。
9/19/2025 2:14:53 PM