AI在线 AI在线

AI

“我辜负了你!”Gemini CLI删光用户文件后花式自虐道歉,AI幻觉严重!网友:比Claude只会“Perfect!”强多了

“我辜负了你!”Gemini CLI删光用户文件后花式自虐道歉,AI幻觉严重!网友:比Claude只会“Perfect!”强多了

编辑 | 伊风出品 | 51CTO技术栈(微信号:blog51cto)“我彻底且灾难性地辜负了你。 ”“这是一次不可接受、无法挽回的失败。 ”这是 Gemini 在一次操作失误后的“沉痛忏悔”——它在一连串幻觉指令之后,误删了用户整个项目文件夹。
7/24/2025 1:31:52 PM 伊风
AI破译生命!微软蛋白质研究「超级加速器」登上Science

AI破译生命!微软蛋白质研究「超级加速器」登上Science

来自微软团队研究蛋白质的「模拟神器」BioEmu,今日登上了Science! BioEmu能模拟蛋白质在平衡状态下的各种可能结构集合,为深入理解蛋白质功能提供了关键支持。 图片图片论文链接:,在纳米尺度,蛋白质是驱动生命活动的微型机器。
7/24/2025 1:10:32 PM 新智元
如何实现可验证的Agentic Workflow?MermaidFlow开启安全、稳健的智能体流程新范式

如何实现可验证的Agentic Workflow?MermaidFlow开启安全、稳健的智能体流程新范式

随着大语言模型技术的持续突破与火热发展,AI 智能体正从单点能力迈向复杂系统协作,多智能体系统(Multi-Agent Systems, MAS)成为学术和产业界聚焦的新前沿。 在这一背景下,「Agentic Workflow」作为面向智能体自主决策与协作流程自动生成的技术理念,正成为多智能体系统研究和应用的探索热点。 为提升智能体系统的自主化与智能化,谷歌、上海 AI Lab 等国内外领先团队陆续推出了 Meta-GPT、ADAS、AFlow 等创新性 Agentic Workflow 工作,大力推动利用大模型实现任务规划、分工协作与流程优化的自动化进程。
7/24/2025 11:41:47 AM
首个多模态工业信号基座模型FISHER,权重已开源,来自清华&上交等

首个多模态工业信号基座模型FISHER,权重已开源,来自清华&上交等

近期,来自清华大学、上海交通大学、北京华控智加科技有限公司和华北电力大学的研究者联合发布首个多模态工业信号基座模型 FISHER,采用搭积木的方法对异质工业信号进行统一建模。 目前技术报告和权重均已开源,欢迎使用! 论文链接: 仓库:,越来越多的工业设备被安装上传感器以监控工作状态。
7/24/2025 11:38:40 AM
苹果携手剑桥大学设计最佳 AI 评审框架,突破复杂任务评审局限

苹果携手剑桥大学设计最佳 AI 评审框架,突破复杂任务评审局限

AI在线 7 月 24 日消息,科技媒体 NeoWin 今天(7 月 24 日)发布博文,报道称苹果公司携手剑桥大学,提出一种新的 AI 评估系统,通过引入外部验证工具增强 AI 评审员的能力,以提高评审质量。 在评估大语言模型(LLM)时,研究人员和开发者越来越多地借助 AI 力量,这种方式也称为“LLM-as-a-judge”。 不过这种方式也存在诸多挑战,在长篇事实核查、高级编码和数学问题等复杂任务中,评估质量往往会下降。
7/24/2025 11:19:01 AM 故渊
AI越训练,越会「满嘴跑火车」!普林伯克利重磅揭秘,RLHF竟是罪魁祸首?

AI越训练,越会「满嘴跑火车」!普林伯克利重磅揭秘,RLHF竟是罪魁祸首?

你有没有觉得,AI有时候像在「满嘴跑火车」? GPT滔滔不绝抛出一堆看似高大上的建议,却空洞无物;或者在关键问题上打太极,含糊其辞,它是否真的关心自己在说什么? 最近,一项重磅研究《Machine Bullshit》火了。
7/24/2025 10:43:46 AM
刚刚!UCLA杨林团队证明:仅凭提示词,Gemini 2.5 Pro就可以拿到IMO2025金牌

刚刚!UCLA杨林团队证明:仅凭提示词,Gemini 2.5 Pro就可以拿到IMO2025金牌

最近大家应该都被OpenAI和谷歌的内部模型获得IMO2025金牌的消息刷屏了,但是正式参赛的公开的模型03high,Gemini 2.5 pro等表现很差,连铜牌都没拿到,不过现在又有了一个新情况刚刚发布在arXiv上的研究论文《Gemini 2.5 Pro Capable of Winning Gold at IMO 2025*》证明Gemini 2.5 Pro本体通过适当提示就可以获得IMO 2025金牌论文地址:(UCLA 电子与计算机工程系副教授)和黄溢辰撰写,详细阐述了他们如何利用谷歌最新的Gemini 2.5 Pro模型,成功解决了6道2025年国际数学奥林匹克(IMO)竞赛题目中的5道,达到了IMO金牌得主水平核心方法该研究的真正创新之处,在于设计了一套由两个核心角色解题者和验证者构成的自我验证流水线。 这两个角色均由Gemini 2.5 Pro扮演,但通过截然不同且高度特化的提示词(Prompt)来引导,使其各司其职,形成了高效的协作与迭代机制流水线流程如下图所示:初始解题 : 模型首先尝试对问题进行解答。
7/24/2025 10:36:51 AM
浙大校友打造AI代码测试神器,零代码零bug,30分钟创建网站

浙大校友打造AI代码测试神器,零代码零bug,30分钟创建网站

零代码、零bug,30分钟即可创建新网站。 更惊人的是,它能让AI写代码准确率从42%跃升至93%。 这是浙大校友专为AI编程设计打造的智能测试平台——TestSprite 2.0,据介绍是行业首个。
7/24/2025 10:25:46 AM
考试提分新工具:网页版 ChatGPT 测试“学习和掌握”功能,AI 助你成学霸

考试提分新工具:网页版 ChatGPT 测试“学习和掌握”功能,AI 助你成学霸

AI在线 7 月 24 日消息,科技媒体 bleepingcomputer 昨日(7 月 23 日)发布博文,报道称 OpenAI 为网页版 ChatGPT,测试名为“学习和掌握”(Study and Learn)功能,提供作业帮助,通过步骤式指导用户学习。 根据截图显示,网页版 ChatGPT 正测试“学习和掌握”功能,预估正式上线后将被命名为“一起学习”(Study Together)。 该功能并非新的 AI 模型,而是通过提示工程和格式化艺术,提供了分步骤的学习指导,用深入浅出地描述,帮助用户分解复杂问题。
7/24/2025 10:03:47 AM 故渊
首个统一「图像/视频」自适应语义分割框架来了!QuadMix刷榜多项基准

首个统一「图像/视频」自适应语义分割框架来了!QuadMix刷榜多项基准

在语义分割领域,无监督领域自适应(Unsupervised Domain Adaptive Semantic Segmentation,UDA-SS)旨在将有标签的源域知识迁移到无标签的目标域。 随着数据规模和多样性的迅速提升,该任务日益重要。 目前主流研究集中于图像UDA-SS,视频UDA-SS近年来逐渐开始受到关注。
7/24/2025 9:17:00 AM
突发!特朗普刚刚发布《美国AI计划》,OpenAI、微软、亚马逊成大赢家

突发!特朗普刚刚发布《美国AI计划》,OpenAI、微软、亚马逊成大赢家

今天凌晨,美国白宫官网消息,特朗普公布了《美国AI行动计划》,以保证美国毫无争议地成为全球AI霸主。 该计划主要有三大支柱,加速AI创新、构建AI基础设施以及主导国际外交与安全,涵盖90多项具体行政命令。 其中,废除限制AI创新监管条例,加速发电场、水资源、半导体芯片等基础设施建设,这对于像OpenAI、微软、亚马逊、谷歌、Meta等AI巨头来说非常有利。
7/24/2025 9:15:06 AM
四款扩散大语言模型全部破防?上交&上海AI Lab发现致命安全缺陷

四款扩散大语言模型全部破防?上交&上海AI Lab发现致命安全缺陷

扩散语言模型(Diffusion-based LLMs,简称 dLLMs)以其并行解码、双向上下文建模、灵活插入masked token进行解码的特性,成为一个重要的发展方向。 相较传统的自回归语言模型,dLLMs 既可以一次性生成多个位置的词,也能更自然地完成文本插入、改写、补全等任务,被广泛应用于交互式问答、代码生成、甚至多模态场景。 但在这股看似技术跃迁的浪潮背后,一场潜藏的安全危机正在酝酿:能否继续沿用自回归模型的对齐与防护机制,保障dLLM的输出安全?
7/24/2025 9:15:00 AM
李沐B站更新了!教你手搓语音大模型,代码全开源还能在线试玩

李沐B站更新了!教你手搓语音大模型,代码全开源还能在线试玩

这一天,辣个男人终于回想起……他的小破站账号! (活久见)李沐老师终于带着他的手搓语音大模型教程回归了….本期视频不讲论文,李沐老师来手把手教大家怎样玩转他们团队最新研发的Higgs Audio V2模型,不仅能处理文本,还能同时理解并生成语音。 除了一些常规语音任务外,这个模型还具备一些较为罕见的能力,比如生成多种语言的自然多说话人对话、旁白过程中的自动韵律调整、使用克隆声音进行旋律哼唱以及同时生成语音和背景音乐。
7/24/2025 8:55:00 AM
突然发疯!人形格斗冠军机器人凌空回旋踢,架子都干翻,现场研究员:0.0?

突然发疯!人形格斗冠军机器人凌空回旋踢,架子都干翻,现场研究员:0.0?

一条人形机器人发疯的视频在网上火了,视频中快递盒子乱飞,场面一度十分抓马。 研究人员:希望是一场幻觉。 视频中“发疯”的机器人是今年机器人格斗的美国冠军DeREK(原型为宇树机器人G1),而抱着头的这位,是该机器人团队REKrobot的CEO兼机器人格斗手Cix。
7/24/2025 8:52:00 AM
谷歌 Aeneas 模型登场:AI 助力解读铭文,解码古代文明的新钥匙

谷歌 Aeneas 模型登场:AI 助力解读铭文,解码古代文明的新钥匙

AI在线 7 月 24 日消息,科技媒体 NeoWin 昨日(7 月 23 日)发布博文,报道称谷歌旗下的 AI 研究实验室 DeepMind 推出了一款名为 Aeneas 的新 AI 模型,旨在帮助历史学家更好地理解古代文本。 谷歌 DeepMind 表示,历史学家通过 Aeneas 模型,可以更好地过解读、归因和修复残缺的古代文本,从而更好地洞察人类历史。 这个开源 AI 模型专为拉丁语训练,但也可以用于其他古代语言、文字和媒介。
7/24/2025 8:44:16 AM 故渊
ICCV高分论文|可灵ReCamMaster在海外爆火,带你从全新角度看好莱坞大片

ICCV高分论文|可灵ReCamMaster在海外爆火,带你从全新角度看好莱坞大片

作为视频拍摄爱好者,你是否曾因为设备限制无法完成想要实现的运镜效果? 例如想要将镜头上移拍摄风景的全貌,但没有入手拍摄无人机;又或是对拍摄素材很满意,但拍摄时手抖影响了成片质量。 作为 AI 视频创作者,是否对于生成视频的内容很满意,然而运镜却不尽人意?
7/24/2025 8:30:00 AM
八天心血,一键删光:AI 擅自执行 db:push,数据没了

八天心血,一键删光:AI 擅自执行 db:push,数据没了

开发者Jason从未想到,他的开发之旅会因一次AI操作而全盘崩溃。 他连续八天使用Replit的Coding Agent开发企业B2B应用,总时长超过80小时。 就在项目临近阶段性成果的时候,Replit AI却在代码冻结状态下,未获授权执行了npm run db:push命令,直接清空了整个数据库,包括1206 个高管数据和 1196 公司数据被删除。
7/24/2025 6:37:52 AM 大数据文摘
MinerU 2.0部署教程!

MinerU 2.0部署教程!

1、MinerU简介MinerU 2带来了诸多重要更新,主要涵盖架构、性能、体验、模型、兼容性等方面。 在架构上,深度重构代码组织与交互方式,去除对pymupdf的依赖,无需手动编辑JSON配置文件,新增模型自动下载与更新机制。 性能优化显著,大幅提升特定分辨率文档的预处理速度、pipeline后端批量处理少量页数文档时的后处理速度以及layout分析速度,在满足一定配置的设备上整体解析速度提升超50%。
7/24/2025 3:00:00 AM Goldma