AI在线 AI在线

理论

国产SOTA新模型精准get“画(3+6)条命的动物” | 开源

生成图像这件事,会推理的AI才是好AI。 举个例子,以往要是给AI一句这样的Prompt:(3 6)条命的动物。 我们人类肯定一眼就知道是猫咪,但AI的思考过程却是这样的:△虽然生成了猫,但思考过程不对思考的过程还是把“(3 6)”里的数字分开来处理,并没有真正get到其背后“九条命的动物=猫”的本意。
6/20/2025 2:37:59 PM

「运维版Cursor」首发亮相!终结命令行地狱,Agent解放双手

AI智能体的风终于吹到运维了! AI Coding似乎已经成为程序员们的标配,不论是最早的Copilot,Cursor的百亿估值,还是最近Claude Code的话题度,程序员手里的AI智能体越来越多——Windsurf、Codex、Trae、Copilot等等。 而每天和服务器、数据库打交道的运维人员却一直没有被提及,程序员们有自己的Cursor,但是针对运维工程师的「Cursor」却迟迟没有出现。
6/20/2025 2:35:02 PM

31岁程序员搞副业,6个月喜提8000万刀退休金!氛围编程公司被光速收购

Vibe Coding实火! 刚刚,又有一个程序员原地暴富了。 这位名叫Shlomo的小哥,是一位31岁的程序员。
6/20/2025 2:33:08 PM

AI写完85%的代码!字节研发负责人和TRAE合作的首个项目官宣开源

创造一个AI Coding的产品,再用这个产品来做AI Coding是什么体验? 未来的AI开发范式究竟是什么样子的,开发者 AI能够迸发出多大的创造力? 也许字节跳动研发负责人洪定坤可以帮你回答这个问题。
6/20/2025 10:34:24 AM

天工不止造物,也能修bug:Skywork-SWE给代码智能体补上软件工程课

400 多年前,宋应星著成《天工开物》。 这是一部写给匠人、也写给未来的书。 它让人相信:技术不是死物,而是人与世界持续互动的方式。
6/20/2025 10:31:27 AM

揭秘大模型的魔法:从嵌入向量说起

大家好,我是写代码的中年人,上一篇文章我们介绍了词元的概念及如何训练自己的词元,待训练的数据变成词元后,我们发现词元(文本)之间没有任何联系,也就是说它们是离散的数据,所以我们没办法对词元进行计算。 将离散的文本转化为连续的向量表示,即嵌入向量(Embedding Vector)。 嵌入向量是大模型处理自然语言的起点,它将人类语言的符号转化为机器可以理解的数学表示。
6/20/2025 10:18:58 AM
写代码的中年人

扎克伯格天价挖角背后:AI人才争夺战白热化,巨头上演亿元签约拉锯战

2025 年 6 月,CNBC 披露的 Meta 挖人内幕显示,继 143 亿美元投资 Scale AI 锁定华裔天才汪滔后,扎克伯格又将目标对准 OpenAI 联合创始人苏茨克维创办的 Safe Superintelligence_尽管 2300 亿元收购计划失败,却成功招揽其 CEO 丹尼尔・格罗斯与前 GitHub CEO 纳特・弗里德曼,这场没有硝烟的战争正改写 AI 产业的权力格局。 亿元挖角费成标配:扎克伯格的 "钞能力" 攻势Meta的激进策略远超行业预期。 知情人士透露,为说服汪滔加入,Meta 不仅斥资 143 亿美元获得 Scale AI 49% .
6/20/2025 10:05:23 AM

Andrej 结合他在斯坦福、OpenAI 和特斯拉的工作经验,洞察到一个转变正在发生——软件正在再次经历变革。

今天凌晨4点30,微软首席执行官SatyaNadella分享了,微软在量子计算的重大技术突破成果4D拓扑量子纠错码。 与2D相比,4D拓扑量子纠错码在编码效率、纠错能力、逻辑操作都非常出色,并且每个逻辑量子比特只需要极少的物理量子比特,可以一次性检查错误,并将错误率降低1000倍。 同时,这项全新的量子计算成果将应用在微软的Azure Quantum量子计算平台中,加速科研、医疗的研发效率网友表示,这标志着一项重大进展,量子纠错长期以来一直是实现稳定、可扩展量子计算的主要瓶颈。
6/20/2025 9:23:53 AM

Andrej Karpathy最新演讲爆火!人类已进入「说话就能编程」的软件3.0时代

回顾 OpenAI 的早期成员,奥特曼成为 AI 浪潮的掌舵人之一,Ilya Sutskever 致力于探索 AI 安全的理想边界,而 Andrej Karpathy 则走上了一条「建造并分享」的道路。 他痴迷于用代码将 AI 蓝图变为现实,又乐此不疲地把建造过程做成公开课分享给世界。 所以,当他人在构建一家伟大的公司时,Karpathy 同时在构建着 AI 应用与下一代的 AI 建设者。
6/20/2025 9:19:19 AM

何恺明CVPR最新讲座PPT上线:走向端到端生成建模

今年的 CVPR 已经在美国田纳西州纳什维尔顺利闭幕。 除了交流论文、互加好友,很多参会者还参加了个非常有意思的项目 —— 追星。 这个「星」自然是学术明星。
6/20/2025 9:14:00 AM

惊天丑闻!OpenAI档案曝光,奥特曼捏造YC董事长身份,虚伪真面目被揭穿

今天,OpenAI发生了不少大事。 比如就在深夜,他们放出了官方博客第一集,奥特曼亲自出镜,透露了GPT-5发布时间——今年夏天。 果然,五花八门的大模型命名,不仅让用户们极为困扰,连OpenAI团队自己都十分纠结。
6/20/2025 9:12:00 AM

AI写爆款博客火出圈,主笔竟是Claude!

最近,Anthropic给自家AI开了个博客。 这个叫「Claude Explain」的博客页面,内容主要由AI模型Claude生成。 博客包括《用Claude简化复杂代码库》这种硬核主题,旨在秀一把AI的写作能力。
6/20/2025 9:06:00 AM

DPO与GRPO谁更胜一筹?港中文、北大等联合发布首个系统性对比研究

近年来,强化学习 (RL) 在提升大型语言模型 (LLM) 的链式思考 (CoT) 推理能力方面展现出巨大潜力,其中直接偏好优化 (DPO) 和组相对策略优化 (GRPO) 是两大主流算法。 如今,这股 RL 的浪潮也涌向了图像生成领域。 当我们将自回归图像生成也视为一种序列化的 CoT 推理过程时,一个核心问题浮出水面:DPO 和 GRPO 在这个新战场上表现如何?
6/20/2025 9:06:00 AM

推荐大模型来了?OneRec论文解读:端到端训练如何同时吃掉效果与成本

人人都绕不开的推荐系统,如今正被注入新的 AI 动能。 随着 AI 领域掀起一场由大型语言模型(LLM)引领的生成式革命,它们凭借着强大的端到端学习能力、海量数据理解能力以及前所未有的内容生成潜力,开始重塑各领域的传统技术栈。 作为互联网流量的核心引擎,推荐系统面临着级联架构导致的算力碎片化、优化目标割裂等问题,并逐渐制约其创新发展。
6/20/2025 9:03:00 AM

Agent全自动搭建代码运行环境,实时更新解决评测过拟合/数据污染问题|微软

长期以来主流的代码修复评测基准SWE-bench面临数据过时、覆盖面窄、手动维护成本高等问题,严重制约了AI模型真实能力的展现。 微软发布全新代码修复评测基准SWE-bench-Live,不仅引入了来自GitHub最新的Issue,显著提升了对模型评估的实时性与准确性,还实现代码运行环境的全自动化构建与自动更新,打破了传统静态评测基准的局限。 △图1: SWE-bench-Live leaderboard.全自动化环境搭建传统的代码修复评测基准需要人工构建代码运行环境,不仅成本高昂,且更新缓慢,难以跟上软件开发环境的快速变化。
6/20/2025 9:03:00 AM

美团提出首个语音交互GUI智能体,端到端语音训练能力优于传统文本训练

只需要动动嘴就可以驱动GUI代理? 由美团和浙江大学联合推出的GUIRoboTron-Speech——让用户解放双手,直接对计算机“发号施令”。 这是首个能够直接利用语音指令和设备屏幕截图进行端到端(End-to-End)决策的自主GUI智能体,旨在为用户提供更直接、高效且无障碍的交互体验。
6/20/2025 9:00:00 AM

单应计算加速数十倍、计算量减少95%!基于几何的SKS和ACA矩阵分解被提出

本文由东华大学蔡棽副教授、上海交通大学严骏驰教授和中国科学院自动化所申抒含研究员共同指导并撰写,四名学生作者为东华大学视觉与几何感知实验室的吴展豪、郭凌希、王佳纯、张斯禹。 一、论文简介东华大学、上海交通大学、中科院自动化所的研究团队最新提出:两种基于几何的单应矩阵分解,极大地减少了四点求解单应的计算量(相比目前通用的求解稀疏线性方程组方法减少 95% 以上),可在二维码扫描等典型视觉应用中显著减少计算消耗,并有望应用于其他射影几何、计算机视觉和图形学问题中。 论文已被 IEEE T-PAMI 期刊接收。
6/20/2025 8:55:00 AM

AI哪怕答案正确,逻辑链却惨不忍睹,奥数级不等式证明成功率不到50%| 斯坦福&伯克利&MIT

这不是段子,而是正在发生的现象。 大语言模型解决不等式证明问题时,可以给出正确答案,但大多数时候是靠猜。 推理过程经不起推敲,逻辑完全崩溃。
6/20/2025 8:54:00 AM