AI在线 AI在线

理论

刚刚!UCLA杨林团队证明:仅凭提示词,Gemini 2.5 Pro就可以拿到IMO2025金牌

最近大家应该都被OpenAI和谷歌的内部模型获得IMO2025金牌的消息刷屏了,但是正式参赛的公开的模型03high,Gemini 2.5 pro等表现很差,连铜牌都没拿到,不过现在又有了一个新情况刚刚发布在arXiv上的研究论文《Gemini 2.5 Pro Capable of Winning Gold at IMO 2025*》证明Gemini 2.5 Pro本体通过适当提示就可以获得IMO 2025金牌论文地址:(UCLA 电子与计算机工程系副教授)和黄溢辰撰写,详细阐述了他们如何利用谷歌最新的Gemini 2.5 Pro模型,成功解决了6道2025年国际数学奥林匹克(IMO)竞赛题目中的5道,达到了IMO金牌得主水平核心方法该研究的真正创新之处,在于设计了一套由两个核心角色解题者和验证者构成的自我验证流水线。 这两个角色均由Gemini 2.5 Pro扮演,但通过截然不同且高度特化的提示词(Prompt)来引导,使其各司其职,形成了高效的协作与迭代机制流水线流程如下图所示:初始解题 : 模型首先尝试对问题进行解答。
7/24/2025 10:36:51 AM

浙大校友打造AI代码测试神器,零代码零bug,30分钟创建网站

零代码、零bug,30分钟即可创建新网站。 更惊人的是,它能让AI写代码准确率从42%跃升至93%。 这是浙大校友专为AI编程设计打造的智能测试平台——TestSprite 2.0,据介绍是行业首个。
7/24/2025 10:25:46 AM

奥特曼首次透露GPT-5上手体验:在擅长领域感到无力,往后一靠感到眩晕

OpenAI掌门人奥特曼,可能是GPT-5发布前的最后一次深度访谈。 这一次,奥特曼透露了上手GPT-5后的“天啊时刻”:我往后靠在椅子上,感到一阵眩晕,在自己擅长的领域感到了无力。 图片最近一段时间,不论奥特曼、OpenAI官方账号还是OpenAI员工都在反复提醒大家:GPT-5很快就要发布。
7/24/2025 9:47:33 AM

阿里Qwen3-Coder 4800亿参数代码模型免费开源!是时候告别Cursor和Claude了?

480B参数,35B活跃,完全免费。 这不是科幻小说,而是阿里巴巴刚刚开源的Qwen3-Coder给程序员群体的真实礼物。 当GitHub Copilot每月收费20美元,Claude Code让钱包瑟瑟发抖时,阿里直接端出了一道"免费的满汉全席"。
7/24/2025 9:19:54 AM
阿丸笔记

首个统一「图像/视频」自适应语义分割框架来了!QuadMix刷榜多项基准

在语义分割领域,无监督领域自适应(Unsupervised Domain Adaptive Semantic Segmentation,UDA-SS)旨在将有标签的源域知识迁移到无标签的目标域。 随着数据规模和多样性的迅速提升,该任务日益重要。 目前主流研究集中于图像UDA-SS,视频UDA-SS近年来逐渐开始受到关注。
7/24/2025 9:17:00 AM

突发!特朗普刚刚发布《美国AI计划》,OpenAI、微软、亚马逊成大赢家

今天凌晨,美国白宫官网消息,特朗普公布了《美国AI行动计划》,以保证美国毫无争议地成为全球AI霸主。 该计划主要有三大支柱,加速AI创新、构建AI基础设施以及主导国际外交与安全,涵盖90多项具体行政命令。 其中,废除限制AI创新监管条例,加速发电场、水资源、半导体芯片等基础设施建设,这对于像OpenAI、微软、亚马逊、谷歌、Meta等AI巨头来说非常有利。
7/24/2025 9:15:06 AM

四款扩散大语言模型全部破防?上交&上海AI Lab发现致命安全缺陷

扩散语言模型(Diffusion-based LLMs,简称 dLLMs)以其并行解码、双向上下文建模、灵活插入masked token进行解码的特性,成为一个重要的发展方向。 相较传统的自回归语言模型,dLLMs 既可以一次性生成多个位置的词,也能更自然地完成文本插入、改写、补全等任务,被广泛应用于交互式问答、代码生成、甚至多模态场景。 但在这股看似技术跃迁的浪潮背后,一场潜藏的安全危机正在酝酿:能否继续沿用自回归模型的对齐与防护机制,保障dLLM的输出安全?
7/24/2025 9:15:00 AM

四年2亿,苹果天才离职内幕首曝光!庞若鸣发离职信告别,苹果AI大溃败

天才出走,4年两亿美元! 苹果的AI宏图,彻底翻车了。 一家在七巨头中占有举足轻重地位的大厂,究竟是如何走到这一步的?
7/24/2025 9:12:00 AM

使用Django和LangGraph构建一个对话式AI应用程序

译者 | 布加迪审校 | 重楼每个人都见过聊天机器人的实际应用,有些令人印象深刻,有些令人厌烦。 然而,如果你可以创建一个真正智能、组织良好且易于与你自己的应用程序集成的聊天机器人,会怎样呢? 我们在本文中将使用两个强大的工具从零开始构建一个聊天机器人:除了LLM外,LangGraph 可以帮助管理井然有序的多步骤工作流程。
7/24/2025 9:08:31 AM
布加迪

官方揭秘ChatGPT Agent背后原理!通过强化学习让模型自主探索最佳工具组合

ChatGPT Agent的技术内幕,被官方披露了。 就在OpenAI官方推出其最强智能体后,外界褒与贬的热议都没停过……但不论如何,都被视为智能体方向上标志性的一步,是OpenAI一个全新的开端。 关于更进一步的Agent Mode的工作原理,OpenAI开发团队在和投资方红杉资本的圆桌谈话中做了详细解析,还回答了几个值得关注的问题。
7/24/2025 9:05:00 AM

李沐B站更新了!教你手搓语音大模型,代码全开源还能在线试玩

这一天,辣个男人终于回想起……他的小破站账号! (活久见)李沐老师终于带着他的手搓语音大模型教程回归了….本期视频不讲论文,李沐老师来手把手教大家怎样玩转他们团队最新研发的Higgs Audio V2模型,不仅能处理文本,还能同时理解并生成语音。 除了一些常规语音任务外,这个模型还具备一些较为罕见的能力,比如生成多种语言的自然多说话人对话、旁白过程中的自动韵律调整、使用克隆声音进行旋律哼唱以及同时生成语音和背景音乐。
7/24/2025 8:55:00 AM

突然发疯!人形格斗冠军机器人凌空回旋踢,架子都干翻,现场研究员:0.0?

一条人形机器人发疯的视频在网上火了,视频中快递盒子乱飞,场面一度十分抓马。 研究人员:希望是一场幻觉。 视频中“发疯”的机器人是今年机器人格斗的美国冠军DeREK(原型为宇树机器人G1),而抱着头的这位,是该机器人团队REKrobot的CEO兼机器人格斗手Cix。
7/24/2025 8:52:00 AM

ICCV高分论文|可灵ReCamMaster在海外爆火,带你从全新角度看好莱坞大片

作为视频拍摄爱好者,你是否曾因为设备限制无法完成想要实现的运镜效果? 例如想要将镜头上移拍摄风景的全貌,但没有入手拍摄无人机;又或是对拍摄素材很满意,但拍摄时手抖影响了成片质量。 作为 AI 视频创作者,是否对于生成视频的内容很满意,然而运镜却不尽人意?
7/24/2025 8:30:00 AM

采用LangGraph集成多个MCP服务器的应用

现代人工智能应用程序通常需要对不同的语言模型和专门的服务器进行复杂的编排,每个服务器在更大的工作流中处理特定的任务。 然而,这种分布式方法引入了一个关键的挑战: 保持上下文的连续性。 当会话或任务在不同的模型或服务器之间转换时,上下文信息很容易丢失。
7/24/2025 8:13:36 AM
曹洪伟

如何从零开始构建Zepto的多语言查询解析系统?

译者 | 李睿审校 | 重楼本文介绍如何从零开始构建Zepto的多语言查询解析系统,该系统利用LLM与RAG技术处理拼写错误及方言查询问题。 通过复制从模糊查询到修正输出的端到端流程,可以解释这一技术在提升搜索质量与多语言查询处理中的核心作用。 你用过Zepto在网上订购杂货吗?
7/24/2025 7:42:08 AM
李睿

八天心血,一键删光:AI 擅自执行 db:push,数据没了

开发者Jason从未想到,他的开发之旅会因一次AI操作而全盘崩溃。 他连续八天使用Replit的Coding Agent开发企业B2B应用,总时长超过80小时。 就在项目临近阶段性成果的时候,Replit AI却在代码冻结状态下,未获授权执行了npm run db:push命令,直接清空了整个数据库,包括1206 个高管数据和 1196 公司数据被删除。
7/24/2025 6:37:52 AM
大数据文摘

告别机械切割:语义分块如何让文本理解更智能?基于sentence-transformers

传统的文本分块机制就像用尺子切割布料 —— 不管布料的花纹如何,只按固定长度下刀。 这种 "一刀切" 的方式常常导致语义割裂:明明是一个完整的论点,却被硬生生拆成两半;本该分开的两个主题,反而被塞进同一个块里。 而语义分块的核心思路是:让意思相近的内容 "抱团"。
7/24/2025 4:00:00 AM
Goldma

MinerU 2.0部署教程!

1、MinerU简介MinerU 2带来了诸多重要更新,主要涵盖架构、性能、体验、模型、兼容性等方面。 在架构上,深度重构代码组织与交互方式,去除对pymupdf的依赖,无需手动编辑JSON配置文件,新增模型自动下载与更新机制。 性能优化显著,大幅提升特定分辨率文档的预处理速度、pipeline后端批量处理少量页数文档时的后处理速度以及layout分析速度,在满足一定配置的设备上整体解析速度提升超50%。
7/24/2025 3:00:00 AM
Goldma