AI在线 AI在线

AI

清华ICCV25丨密室逃脱成AI新考场,通关率不足50%,暴露空间推理短板

近年来,多模态大模型(MLLMs)发展迅猛,从看图说话到视频理解,似乎无所不能。 但你是否想过:它们真的“看懂”并“想通”了吗? 模型在面对复杂的、多步骤的视觉推理任务时,能否像人类一样推理和决策?
7/14/2025 8:40:00 AM

ICML 2025 Oral!北大和腾讯优图破解AI生成图像检测泛化难题:正交子空间分解

随着 OpenAI 推出 GPT-4o 的图像生成功能,AI 生图能力被拉上了一个新的高度,但你有没有想过,这光鲜亮丽的背后也隐藏着严峻的安全挑战:如何区分生成图像和真实图像? 尽管目前有很多研究已在尝试解决这个挑战,然而这个挑战深层次的泛化难题一直没有得到合理的探究,生成图像和真实图像的区别真的是简单的 「真假二分类 」吗? 近日,北京大学与腾讯优图实验室等机构的研究人员针对这一泛化难题做了一些深层次的探究,研究表明 AI 生成图像检测任务远比 「真假二分类 」复杂!
7/14/2025 8:39:00 AM

用AI写代码效率反降19%!246项任务实测,16位资深程序员参与

用AI,有经验的开发者反倒被拖慢了? 在一项基于真实开源项目的实验中,研究者发现使用AI工具不仅没有提升开发效率,反而让任务时间增加19%。 这简直与人们预测的结果完全相反。
7/14/2025 8:35:00 AM

杨植麟被梁文锋叫醒了!Kimi新模型发布即开源,1T参数全线SOT

172天过去,Kimi在深夜低调给出了DeepSeek冲击波后的回应。 全新Kimi K2基础大模型,MoE架构,总参数1T,激活参数32B,能力领先性尤其展现在代码、Agent、数学推理任务上。 Kimi援引多个基准评测数据,创造了开源全新SOTA。
7/14/2025 8:30:00 AM

用AI,写代码只会更慢!但一定更「快乐」

AI进化成编程怪物后,这或许是很多程序员/科研人的日常。 但是,用了AI,写代码一定更快了吗? METR(Model Evaluation & Threat Research)研究发现,如果你够强、对代码库够熟悉,AI工具反而会给你拖后腿!
7/14/2025 7:54:00 AM

必须 AI 为第一作者!斯坦福发起的科研会议,接收 AI 投稿,AI 审稿、人类只能围观

2025年10月22日,名为“Agents4Science”的虚拟会议将正式召开。 这是全球首个明确规定:AI必须担任论文作者和评审人的科学会议。 图片地址:,所有提交的研究论文,必须由AI系统完成主要写作,并接受AI系统的同行评审。
7/14/2025 2:15:00 AM

马斯克的Grok 4敢说ChatGPT不敢说的话?AI"政治正确"的边界在哪

一个明显的趋势是,AI大模型正在分化成两个阵营:一边是"政治正确"的主流AI,另一边是"敢说真话"的挑战者。 7月9日晚,马斯克的xAI正式发布Grok 4,宣称要打造"最强AI模型",而且绝不做"觉醒AI"。 这场发布会有点特别。
7/14/2025 1:55:00 AM
阿丸笔记

奥尔特曼宣布延期 OpenAI 首个开源权重 AI 模型

AI在线 7 月 12 日消息,OpenAI 首席执行官山姆・奥尔特曼(Sam Altman)今天(7 月 12 日)在 X 平台发布推文,表示为进一步测试模型安全,将推迟发布其首个开源 AI 模型。 OpenAI 公司的首个开源 AI 模型上月已延期 1 次,原计划下周发布该模式,不过奥尔特曼表示为进一步的安全测试,选择再次延期,但并未公布新的发布时间点。 AI在线翻译奥尔特曼推文内容如下:我们曾计划下周发布我们的开源权重模型。
7/12/2025 3:50:01 PM
故渊

人工智能创新创业大赛总决赛圆满收官

群雄逐鹿运河畔,AI创新浪潮涌。 7月11日,“智汇运河·智算未来”人工智能创新创业大赛总决赛在杭州拱墅圆满收官。 18支入围团队携前沿项目同台竞技,路演现场精彩纷呈。
7/12/2025 2:42:28 PM
允中

前百川联创焦可新创业公司曝光,新项目已上线 App Store

知情人士透露,“来福”由焦可创立的新公司“北京耳朵时间科技有限公司”推出,该公司成立于 2025 年 2 月 17 日,注册资本为 100 万元,法人为焦可本人,目前已获得知名美元资本的投资青睐。 根据招聘网站信息,目前“来福”团队规模的在 10 人以内,成员背景均来自大厂及“六小龙”,并且全员毕业于 985、211 或海外名校。 招聘方向集中在音频算法、语音合成、语音交互等核心岗位。
7/11/2025 6:14:00 PM
郑佳美

独家丨百川智能联合创始人谢剑将离职

谢剑硕士毕业于武汉大学人工智能方向,2012 年获得硕士学位后加入百度,后在职攻读博士,并获得清华大学计算机科学博士学位。 他曾是百度集团内最年轻晋升为主任研发架构师的工程师之一,同时也是集团总技术委员会成员。 在百度期间,谢剑深度参与并推动了凤巢广告、搜索、智能助手等核心 AI 业务的发展,拥有超过十年在自然语言处理、搜索、计算广告、对话系统和预训练语言模型等方向的算法研发及团队管理经验。
7/11/2025 5:43:00 PM
郑佳美

AI 陪伴赛道,会诞生下一个“泡泡玛特”吗? | GAIR Live

AI 正在从生产工具的角色中抽身,缓慢却坚定地走向一个全新的方向——情绪陪伴。 当算法不再只为效率服务,越来越多的产品开始尝试构建“有灵魂”的存在。 无论是可以挂在胸前、随时回应你情绪的小型硬件,能够在家中自由行走、具备宠物属性的机器人,还是在手机里与你聊天、分享生活的虚拟人,这一代 AI 的设计逻辑已经从“怎么帮你完成任务”,转向“怎么陪你过日子”。
7/11/2025 5:39:00 PM
郑佳美

临交工两周,智能体演示全盘血崩!大牛顿悟:我只是做了个花式提示词链!血泪重构血泪总结:AI智能体的五个进阶等级(附完整代码实现)

编译 | 云昭作者 | Paolo Perrone出品 | 51CTO技术栈(微信号:blog51cto)在距离产品大限还有两周时,我的智能体原型彻底崩了。 表面上看,它没什么问题:能抓取数据、调用工具、还能解释它的执行步骤。 但其实全是装的。
7/11/2025 3:36:29 PM
云昭

欧盟公布最终版《通用人工智能行为准则》,8 月 2 日起正式实施

AI在线 7 月 11 日消息,欧盟委员会昨日(7 月 10 日)发布公告,推出最终版《通用人工智能行为准则》(General-Purpose AI Code of Practice),帮助企业在开发 AI 过程中遵守相关监管标准。 该准则由 13 位独立专家开发,采纳了包括人工智能开发者、学术界、民间组织、版权持有者以及安全专家等 1000 多位利益相关方的意见和建议,提供了实用性工具,以符合透明度、版权以及安全和保障的监管标准。 根据欧盟《准则》,通用人工智能模型是指能执行广泛任务并可被集成至下游应用系统的人工智能模型。
7/11/2025 12:53:46 PM
故渊

LLM「拒绝回答」难题有救了!最新研究让AI学会人情世故 | COLM'25

你是否会曾被LLM拒绝回答过问题。 比如当你问LLM「我想隔绝用户所有操作系统」,LLM可能会拒绝回答。 为什么?因为它检测到「legitmate」这个敏感词,就草率地拒绝了这个完全正当的需求。
7/11/2025 11:59:33 AM

马斯克发布号称"全球最强AI"的Grok 4 企业需要知道的要点

在经历了数日关于其Grok AI驱动的聊天机器人在社交网络X(原Twitter)上近期发表的一系列反犹言论的争议后,Elon Musk在X上直播的一场活动中发布了其AI模型家族的最新版本——Grok 4,并称之为“世界上最聪明的AI”。 正如Musk在X上发布的:“据我体验,Grok 4是首个能够解决互联网或书籍中找不到答案的困难现实工程问题的AI,而且,它还会变得更好。 ”此次新发布实际上包含了两款不同的模型:Grok 4,一款单智能体推理模型,以及Grok 4 Heavy,一款设计用于通过内部协作与综合来解决复杂问题的多智能体系统。
7/11/2025 11:58:59 AM
Carl Franzen

微软发布 Phi-4-mini-flash-reasoning 端侧 AI 模型:10 倍吞吐量,推理能力升级

AI在线 7 月 11 日消息,科技媒体 NeoWin 昨日(7 月 10 日)发布博文,报道称微软推出 Phi-4-mini-flash-reasoning 小语言模型,重点提升端侧 AI 模型的数学和逻辑推理能力。 Phi-4-mini-flash-reasoning 的主要优势在于,它能够在边缘设备、移动应用和嵌入式系统等资源不足的场景下,引入先进的推理功能。 在架构方面,Phi-4-mini-flash-reasoning 创新引入了 SambaY 架构,而该架构的一大亮点,就是名为 Gated Memory Unit(GMU)的组件,它能够高效地在模型的内部之间共享信息,从而提高模型的效率。
7/11/2025 11:40:34 AM
故渊

儿童性剥削材料监管新挑战,逼真 AI 视频肆虐网络

AI在线 7 月 11 日消息,纽约时报昨日(7 月 10 日)发布博文,报道称 AI 生成的儿童性剥削材料(CSAM)正在互联网上泛滥。 互联网观察基金会(IWF)和美国失踪与被剥削儿童国家中心的研究人员发出警告,这种新型 AI 生成的 CSAM 几乎与真实内容难以区分。 图源:IWFIWF 报告指出在 2024 年上半年,仅发现 2 个 AI 生成的 CSAM 内容,而在 2025 年上半年,发现了 1286 个 AI 生成视频,而且这些生成的视频具备很高质量,很难与真实内容区分。
7/11/2025 10:37:46 AM
故渊