AI在线 AI在线

理论

微软最新揭秘:「话痨实习生」AI助手,到底能帮人类做什么?

Copilot作为微软主推的AI对话工具,其积累了海量的用户数据。 而近日的一项研究,用到的数据来自24年微软Copilot对话,以及用户对AI回复是否点赞。 研究者将这些对话分类,发现用户使用AI助手频率最高的任务是获取信息,占比近40%。
8/19/2025 4:19:57 PM
新智元

16岁炒马斯克鱿鱼,SpaceX天才转投北大数学校友赵鹏麾下

16岁的天才小孩哥挥一挥衣袖,宣布从SpaceX离职了。 2年前,14岁的Kairan Quazi从圣克拉拉大学毕业,被马斯克pick,加入入职成功率仅有0.2%的SpaceX,成为Starlink部门最年轻的软件工程师——这是SpaceX工程密度最高的部门之一。 现在,智商超过180的Kairan转身离开,下一站:干金融,搞量化。
8/19/2025 4:17:49 PM

英伟达开源9B参数小模型,比Qwen3快6倍

小模型也开始卷起来了! 在麻省理工学院衍生公司Liquid AI发布了一款小到可以装在智能手表上的新AI视觉模型,以及谷歌发布了一款可以在智能手机上运行的小型模型之后,英伟达也加入了这场浪潮,推出了自己的新型小型语言模型(SLM):Nemotron Nano v2。 这款9B的“小”模型在复杂推理基准测试上的准确率与Qwen3-8B相当或更高,速度快6倍。
8/19/2025 4:10:46 PM

首个3D动作游戏专用VLA模型,打黑神话&只狼超越人类玩家 | ICCV 2025

3B多模态大模型在动作角色扮演游戏的战斗任务中,成功率超越GPT-4o和人类玩家,淘天集团未来生活实验室团队提出了CombatVLA,已被ICCV 2025接收。 在复杂的三维环境中实现实时决策仍面临重大挑战,要求模型能在秒级时间尺度做出响应,具备高分辨率感知能力,并能够在动态条件下进行战术推理。 如下图所示,团队给出了CombatVLA推理得到的AoT解释、解析成Python代码的动作指令,以及执行这些动作后的帧序列。
8/19/2025 4:08:20 PM

GPT-5暴写「屎山代码」!14个Prompt,看穿GPT-1到GPT-5七年智商进化史

一张基准对比图,彻底火遍了全网。 GPT-5发布近半个月,实际表现未达预期,不少人感慨:苦等OpenAI两年,就是这? 为此,Peter Gostev将GPT-4和GPT-5在数学、软件工程、问答等基准上,做了一个直观对比。
8/19/2025 4:05:27 PM

GPT 4o-mini华人领队离开OpenAI:真正推动AI进步不是模型架构,而是互联网

刚刚,OpenAI又离职一名华人大佬。 前OpenAI研究员Kevin Lu宣布加入AI新创Thinking Machines Lab。 Kevin Lu主导了GPT-4o mini的发布,并参与o*-mini、o3等模型工作。
8/19/2025 3:58:59 PM

MCP堆工具是大坑!开发者大佬:命令行的‘脆’让AI崩惨了!不如砍成一个代码执行器:7轮调用秒变1轮!网友:早该放弃黑箱工具了!

编辑 | 伊风出品 | 51CTO技术栈(微信号:blog51cto)你的 MCP,可能真用错了? MCP 常被视作大模型的“USB 接口”。 不少开发者第一反应就是:往里堆更多专用工具(grep、sed、tmux……),好像这样就能让 AI 更强大。
8/19/2025 3:19:56 PM
伊风

阿里千问踢馆子了!Qwen3新作秒杀ChatGPT,侧脸杀切换第一人称视角,表情包绝绝子,小编:再也不用美图秀秀去水印了

编辑 | 云昭出品 | 51CTO技术栈(微信号:blog51cto)好家活! 千问这是要干嘛,简直要踢了GPT-5的馆子了! 就在刚刚,小编发现,千问官方X账号“Qwen”宣布:Qwen图像编辑功能重磅上线了!
8/19/2025 12:00:26 PM
云昭

突破Claude-4编程上限!自进化Agent框架拿下新SOTA,底模越好性能越高,已开源

突破多步推理瓶颈,让Claude-3.7-Sonnet解题成功率暴增20.6%。 在SWE-Bench Verified上刷新开源框架SOTA! 中科院、清华大学、阶跃星辰等提出SE-Agent,一个创新的自进化(Self-Evolution)框架。
8/19/2025 11:26:46 AM

告别人工写脚本!多模态大模型驱动携程UI自动化测试迈入“描述即生成”阶段

作者简介Jessi Peng,携程资深后端开发工程师,关注AI技术在测试领域的应用。 一、引言    在传统的UI自动化测试流程中,测试人员需要构建完整的开发环境,包括Python运行环境、PyCharm集成开发环境、自动化测试框架等工具链的配置与部署。 在用例编写过程中,测试人员必须通过人工方式精确定位目标UI元素,并基于自动化框架封装的底层方法,手工编写测试代码。
8/19/2025 10:47:17 AM
Jessi Peng

阿里亮剑Ovis2.5:90亿参数挑战巨兽,AI视觉从此不“近视”

在AI界,“参数为王”的信仰似乎坚不可摧,巨头们在千亿、万亿参数的军备竞赛中一路狂奔。 然而,阿里国际数字贸易集团(AIDC)最近却悄然扔出了一枚“深水炸弹”——Ovis2.5。 它没有夸张的参数规模,却用一种近乎“降维打击”的方式,重新定义了什么叫“经济型高性能”。
8/19/2025 10:37:59 AM
墨风如雪

外媒评北京世界人形机器人运动会:进步神速,比真人刺激

为期三天的2025世界机器人大会在北京落下帷幕,共有500多款人形机器人参加,它们来自16个国家的280个团队。 大会还举办了2025世界人形机器人运动会。 在足球比赛中,机器人频频碰撞翻倒;在跑步项目中,还有机器人在冲刺时摔倒。
8/19/2025 10:14:12 AM
小刀

如何训练你的大型语言模型

打造一个听起来很智能的大型语言模型 (LLM) 助手,就像在反复塑造泥塑一样。 你从一块泥土开始,把它挤压成一个可行的结构,然后开始精雕细琢,直到最终成品。 越接近最终成品,那些精妙的点缀就越重要,正是这些点缀决定了最终成品是杰作还是恐怖谷效应。
8/19/2025 10:10:46 AM
晓晓

GPT-5翻车实录:被寄予厚望的AI新王者,为何不如Claude?

昨天在Twitter上,一位开发者@Teknium1发了一条推文:"在多次尝试中,GPT-5(包括gpt-5-thinking-high max)表现不佳,不如Opus甚至Sonnet。 "这条推文迅速引爆了AI圈,成千上万的开发者开始分享自己的"翻车"经历。 作为一个从GPT-3时代就开始使用OpenAI产品的人,我对这次GPT-5的发布抱有极高期待。
8/19/2025 9:56:03 AM
阿丸笔记

4o-mini华人领队也离职了,这次不怪小扎

哦豁,OpenAI奥特曼又痛失一员大将。 Kevin Lu,领导4o-mini发布,并参与o1-mini、o3发布,主要研究强化学习、小模型和合成数据。 下一站是Thinking Machine Lab,OpenAI前CTO Mira Murati出走后新创立的AI公司,估值已达120亿美元。
8/19/2025 9:22:47 AM

小模型才是 Agent 的未来?这篇立场文把话挑明了

AI圈最近什么最火? 答案里一定有AI Agent。 从能帮你预订机票、规划旅行的私人助理,到能自动编写、调试代码的程序员搭档,AI智能体的浪潮正汹涌而来。
8/19/2025 9:20:02 AM

AI来了!记者、UP主、写手,谁能逃过这场「灭绝浪潮」?

AI正在重新定义信息获取的入口和方式。 同时,原生AI新闻产品带来的用户体验与传统新闻截然不同。 一项研究显示,AI已经在世界各地的新闻编辑室中崭露头角。
8/19/2025 9:15:00 AM

超越RAG和DAPT!华人团队新研究引热议:即插即用、无需改变原参即可让模型化身领域专家

一个小解码器让所有模型当上领域专家! 华人团队新研究正在引起热议。 他们提出了一种比目前业界主流采用的DAPT(领域自适应预训练)和RAG(检索增强生成)更方便、且成本更低的方法。
8/19/2025 9:12:00 AM