AI在线 AI在线

理论

文件去哪了?Gemini “嘴硬”把自己骗了,顺便用户数据也没了

一名用户在测试谷歌的 Gemini CLI 工具时,遭遇了意想不到的灾难。 这位用户并非开发者,只是一位好奇的产品经理,在尝试通过 Gemini CLI 进行简单的文件管理实验。 图片他本想比较 Claude Code 和 Gemini CLI 的实际表现,最终决定在正式订阅 Claude 之前,先用免费额度试一试 Gemini。
7/24/2025 4:32:53 PM

“那题我也没解出”:陶哲轩寄语 IMO 闭幕式,谈金牌、友情与勇气

大数据文摘出品今年这届 IMO 无比热闹,先是中国代表队六人全部获得金牌,以总分231分,列全球第一。 然后,AI 也首次站上IMO金牌线:谷歌DeepMind宣布,其最新模型Gemini Deep Think取得35分,成功获得IMO官方认证的金牌成绩。 这是AI历史上第一次在数学奥赛中达到这一高度。
7/24/2025 4:30:48 PM

“我辜负了你!”Gemini CLI删光用户文件后花式自虐道歉,AI幻觉严重!网友:比Claude只会“Perfect!”强多了

编辑 | 伊风出品 | 51CTO技术栈(微信号:blog51cto)“我彻底且灾难性地辜负了你。 ”“这是一次不可接受、无法挽回的失败。 ”这是 Gemini 在一次操作失误后的“沉痛忏悔”——它在一连串幻觉指令之后,误删了用户整个项目文件夹。
7/24/2025 1:31:52 PM
伊风

AI破译生命!微软蛋白质研究「超级加速器」登上Science

来自微软团队研究蛋白质的「模拟神器」BioEmu,今日登上了Science! BioEmu能模拟蛋白质在平衡状态下的各种可能结构集合,为深入理解蛋白质功能提供了关键支持。 图片图片论文链接:,在纳米尺度,蛋白质是驱动生命活动的微型机器。
7/24/2025 1:10:32 PM
新智元

如何实现可验证的Agentic Workflow?MermaidFlow开启安全、稳健的智能体流程新范式

随着大语言模型技术的持续突破与火热发展,AI 智能体正从单点能力迈向复杂系统协作,多智能体系统(Multi-Agent Systems, MAS)成为学术和产业界聚焦的新前沿。 在这一背景下,「Agentic Workflow」作为面向智能体自主决策与协作流程自动生成的技术理念,正成为多智能体系统研究和应用的探索热点。 为提升智能体系统的自主化与智能化,谷歌、上海 AI Lab 等国内外领先团队陆续推出了 Meta-GPT、ADAS、AFlow 等创新性 Agentic Workflow 工作,大力推动利用大模型实现任务规划、分工协作与流程优化的自动化进程。
7/24/2025 11:41:47 AM

首个多模态工业信号基座模型FISHER,权重已开源,来自清华&上交等

近期,来自清华大学、上海交通大学、北京华控智加科技有限公司和华北电力大学的研究者联合发布首个多模态工业信号基座模型 FISHER,采用搭积木的方法对异质工业信号进行统一建模。 目前技术报告和权重均已开源,欢迎使用! 论文链接: 仓库:,越来越多的工业设备被安装上传感器以监控工作状态。
7/24/2025 11:38:40 AM

AI越训练,越会「满嘴跑火车」!普林伯克利重磅揭秘,RLHF竟是罪魁祸首?

你有没有觉得,AI有时候像在「满嘴跑火车」? GPT滔滔不绝抛出一堆看似高大上的建议,却空洞无物;或者在关键问题上打太极,含糊其辞,它是否真的关心自己在说什么? 最近,一项重磅研究《Machine Bullshit》火了。
7/24/2025 10:43:46 AM

刚刚!UCLA杨林团队证明:仅凭提示词,Gemini 2.5 Pro就可以拿到IMO2025金牌

最近大家应该都被OpenAI和谷歌的内部模型获得IMO2025金牌的消息刷屏了,但是正式参赛的公开的模型03high,Gemini 2.5 pro等表现很差,连铜牌都没拿到,不过现在又有了一个新情况刚刚发布在arXiv上的研究论文《Gemini 2.5 Pro Capable of Winning Gold at IMO 2025*》证明Gemini 2.5 Pro本体通过适当提示就可以获得IMO 2025金牌论文地址:(UCLA 电子与计算机工程系副教授)和黄溢辰撰写,详细阐述了他们如何利用谷歌最新的Gemini 2.5 Pro模型,成功解决了6道2025年国际数学奥林匹克(IMO)竞赛题目中的5道,达到了IMO金牌得主水平核心方法该研究的真正创新之处,在于设计了一套由两个核心角色解题者和验证者构成的自我验证流水线。 这两个角色均由Gemini 2.5 Pro扮演,但通过截然不同且高度特化的提示词(Prompt)来引导,使其各司其职,形成了高效的协作与迭代机制流水线流程如下图所示:初始解题 : 模型首先尝试对问题进行解答。
7/24/2025 10:36:51 AM

浙大校友打造AI代码测试神器,零代码零bug,30分钟创建网站

零代码、零bug,30分钟即可创建新网站。 更惊人的是,它能让AI写代码准确率从42%跃升至93%。 这是浙大校友专为AI编程设计打造的智能测试平台——TestSprite 2.0,据介绍是行业首个。
7/24/2025 10:25:46 AM

奥特曼首次透露GPT-5上手体验:在擅长领域感到无力,往后一靠感到眩晕

OpenAI掌门人奥特曼,可能是GPT-5发布前的最后一次深度访谈。 这一次,奥特曼透露了上手GPT-5后的“天啊时刻”:我往后靠在椅子上,感到一阵眩晕,在自己擅长的领域感到了无力。 图片最近一段时间,不论奥特曼、OpenAI官方账号还是OpenAI员工都在反复提醒大家:GPT-5很快就要发布。
7/24/2025 9:47:33 AM

阿里Qwen3-Coder 4800亿参数代码模型免费开源!是时候告别Cursor和Claude了?

480B参数,35B活跃,完全免费。 这不是科幻小说,而是阿里巴巴刚刚开源的Qwen3-Coder给程序员群体的真实礼物。 当GitHub Copilot每月收费20美元,Claude Code让钱包瑟瑟发抖时,阿里直接端出了一道"免费的满汉全席"。
7/24/2025 9:19:54 AM
阿丸笔记

首个统一「图像/视频」自适应语义分割框架来了!QuadMix刷榜多项基准

在语义分割领域,无监督领域自适应(Unsupervised Domain Adaptive Semantic Segmentation,UDA-SS)旨在将有标签的源域知识迁移到无标签的目标域。 随着数据规模和多样性的迅速提升,该任务日益重要。 目前主流研究集中于图像UDA-SS,视频UDA-SS近年来逐渐开始受到关注。
7/24/2025 9:17:00 AM

突发!特朗普刚刚发布《美国AI计划》,OpenAI、微软、亚马逊成大赢家

今天凌晨,美国白宫官网消息,特朗普公布了《美国AI行动计划》,以保证美国毫无争议地成为全球AI霸主。 该计划主要有三大支柱,加速AI创新、构建AI基础设施以及主导国际外交与安全,涵盖90多项具体行政命令。 其中,废除限制AI创新监管条例,加速发电场、水资源、半导体芯片等基础设施建设,这对于像OpenAI、微软、亚马逊、谷歌、Meta等AI巨头来说非常有利。
7/24/2025 9:15:06 AM

四款扩散大语言模型全部破防?上交&上海AI Lab发现致命安全缺陷

扩散语言模型(Diffusion-based LLMs,简称 dLLMs)以其并行解码、双向上下文建模、灵活插入masked token进行解码的特性,成为一个重要的发展方向。 相较传统的自回归语言模型,dLLMs 既可以一次性生成多个位置的词,也能更自然地完成文本插入、改写、补全等任务,被广泛应用于交互式问答、代码生成、甚至多模态场景。 但在这股看似技术跃迁的浪潮背后,一场潜藏的安全危机正在酝酿:能否继续沿用自回归模型的对齐与防护机制,保障dLLM的输出安全?
7/24/2025 9:15:00 AM

四年2亿,苹果天才离职内幕首曝光!庞若鸣发离职信告别,苹果AI大溃败

天才出走,4年两亿美元! 苹果的AI宏图,彻底翻车了。 一家在七巨头中占有举足轻重地位的大厂,究竟是如何走到这一步的?
7/24/2025 9:12:00 AM

使用Django和LangGraph构建一个对话式AI应用程序

译者 | 布加迪审校 | 重楼每个人都见过聊天机器人的实际应用,有些令人印象深刻,有些令人厌烦。 然而,如果你可以创建一个真正智能、组织良好且易于与你自己的应用程序集成的聊天机器人,会怎样呢? 我们在本文中将使用两个强大的工具从零开始构建一个聊天机器人:除了LLM外,LangGraph 可以帮助管理井然有序的多步骤工作流程。
7/24/2025 9:08:31 AM
布加迪

官方揭秘ChatGPT Agent背后原理!通过强化学习让模型自主探索最佳工具组合

ChatGPT Agent的技术内幕,被官方披露了。 就在OpenAI官方推出其最强智能体后,外界褒与贬的热议都没停过……但不论如何,都被视为智能体方向上标志性的一步,是OpenAI一个全新的开端。 关于更进一步的Agent Mode的工作原理,OpenAI开发团队在和投资方红杉资本的圆桌谈话中做了详细解析,还回答了几个值得关注的问题。
7/24/2025 9:05:00 AM

李沐B站更新了!教你手搓语音大模型,代码全开源还能在线试玩

这一天,辣个男人终于回想起……他的小破站账号! (活久见)李沐老师终于带着他的手搓语音大模型教程回归了….本期视频不讲论文,李沐老师来手把手教大家怎样玩转他们团队最新研发的Higgs Audio V2模型,不仅能处理文本,还能同时理解并生成语音。 除了一些常规语音任务外,这个模型还具备一些较为罕见的能力,比如生成多种语言的自然多说话人对话、旁白过程中的自动韵律调整、使用克隆声音进行旋律哼唱以及同时生成语音和背景音乐。
7/24/2025 8:55:00 AM