AI在线 AI在线

理论

55万人围观!这款代理意外燃爆了!产品感知力爆表!一张截图复刻苹果官网,一句话生成真运行App,Figma导入调整细节,要变天了

出品 | 51CTO技术栈(微信号:blog51cto)今天凌晨,一款Agent工具意外出圈了。 一位热衷 AI 摄影导演的 X 博主 @EHuanglu 分享了他试用一个名叫 HeroUI 的 AI 工具的经历,并放出了自己近日来生成的 6 个精美 App 或网站,精美程度堪比苹果、迪奥。 “我只用文字 prompt,就在几分钟内创建了一个完整的项目管理应用。
5/28/2025 5:55:16 PM
云昭

地瓜机器人完成1亿美元A轮融资,加速构建具身智能生态版图

2025 年 5 月 28 日,在独立运营一周年之际,地平线机器人-W旗下地瓜机器人宣布完成 1 亿美元 A 轮融资。 本轮融资获得海内外众多投资机构青睐,由高瓴资本、五源资本、线性资本、和暄资本、九合创投、Vertex Growth、砺思资本、敦鸿资产、沸点资本、梅花创投、黄浦江资本等投资机构共同参投,为地瓜机器人加速构建具身智能生态版图注入强劲动力。 自成立以来,地瓜机器人始终承载着「成为机器人时代的 Wintel 」的品牌初心,致力构建软硬一体、端云协同的全链路开发基础设施,让更智能的机器人开发更简单,并在商业生态上实现了从消费级机器人市场的规模化落地,新兴智能机器人的多元品类孵化,到与众多具身智能头部企业协同创新的全面跨越,全力推动机器人智能进化与规模化落地。
5/28/2025 1:25:14 PM

MiniMax开源首个视觉RL统一框架,闫俊杰领衔!推理感知两手抓,性能横扫MEGA-Bench

仅需一个强化学习(RL)框架,就能实现视觉任务大统一? 现有RL对推理和感知任务只能二选一,但“大模型六小强”之一MiniMax表示:我全都要! 最新开源V-Triune(视觉三重统一强化学习系统)框架,使VLM首次能够在单个后训练流程中,联合学习和掌握视觉推理和感知任务。
5/28/2025 11:55:56 AM

多模态模型具备“物理推理能力”了吗?新基准揭示:表现最好的GPT-o4 mini也远不及人类!

表现最好的GPT-o4 mini,物理推理能力也远不及人类! 就在最近,来自香港大学、密歇根大学等机构的研究人员补齐了现有评估体系中的一处关键空白——评估多模态模型是否具备“物理推理能力”。 物理推理,即模型在面对真实或拟真的物理情境时,能否综合利用视觉信息、物理常识、数学建模进行判断和预测,被认为是通向具身智能的关键能力。
5/28/2025 11:55:28 AM

全靠Claude4!30年FAANG老工程师:AI帮我解决了四年老bug

AI 就像一头野驴,跑起来就不停。 人类花了几百万年才走上食物链顶端,而大模型只用了不到十年时间,已经能把你和刘亦菲 P 进一张自拍了。 奥!
5/28/2025 11:49:52 AM

强化学习解决长上下文推理问题:通义推出QwenLong-L1-32B

近期的推理大模型(LRMs)通过强化学习(RL)展现出强大的推理能力,但这些改进主要体现在短上下文推理任务中。 相比之下,如何通过强化学习扩展 LRMs 以有效处理和推理长上下文输入,仍然是一个尚未解决的关键挑战。 来自阿里巴巴通义实验室的团队首先形式化定义长上下文推理强化学习范式,并识别出其中的两个核心挑战:次优的训练效率与不稳定的优化过程。
5/28/2025 11:46:52 AM

开源模型竟被用于窃取下游微调数据?清华团队揭秘开源微调范式新型隐藏安全风险

本文作者分别来自清华大学 CoAI 小组和墨尔本大学。 第一作者张哲昕为清华大学直博三年级学生,研究方向为大模型安全,主要合作者为孙玉豪,来自墨尔本大学,主要指导教师为清华大学王宏宁副教授与黄民烈教授。 基于开源模型继续在下游任务上使用私有下游数据进行微调,得到在下游任务表现更好的专有模型,已经成为了一类标准范式。
5/28/2025 11:46:18 AM

全球顶尖AI做物理,被人类按地摩擦?不懂推理大翻车,本科生碾压

大模型,真的懂物理推理吗? 就在刚刚,港大、密歇根大学、多伦多大学等机构的研究者用3000道物理题,给全球顶尖大模型来了一场大拷问。 结果,这些顶尖AI,毫无例外全部翻车了!
5/28/2025 11:44:24 AM

多模态大模型不会画辅助线?最新评估得分:o3仅25.8%,远低于人类82.3%

多模态时代应如何评估模型的视觉输出能力? 来自清华大学、腾讯混元、斯坦福大学、卡耐基梅隆大学等顶尖机构的研究团队联合发布了RBench-V:一款针对大模型的视觉推理能力的新型基准测试。 过去的评估基准主要集中于评估多模态输入和纯文本推理过程。
5/28/2025 11:43:48 AM

GPA只有3.3,顶会一作两篇,成功杀进TOP 20 AI博士?小哥曝光关键秘诀

两篇顶会一作,在亚洲攻读硕士学位,2026年春季毕业。 这位网友表示,自己计划申请2026年秋季开学的博士项目。 他的条件是:本科GPA在3.2-3.3左右,不算很高,但有一些研究经验。
5/28/2025 11:43:06 AM

单卡即可微调大模型!内存占用仅1/8,性能依然拉满 | ICML 2025

诸如Qwen,GPT,DeepSeek R1等基础大模型已成为现代深度学习的基石。 然而,在应用于具体下游任务时,它们庞大的参数规模使得额外微调成本较高。 为了解决这一问题,近期的研究聚焦于低秩适应 (LoRA) 方法,通过保持基座模型参数冻结,仅对新增的小型轻量级适配器进行微调,从而降低微调成本。
5/28/2025 11:42:14 AM

AI为何读不懂钟表?模拟时钟暴露的认知短板与AI进化隐忧​

译者 | 朱先忠审校 | 重楼中国和西班牙研究人员发表的一篇新论文发现,即使是像GPT-4.1这样的先进多模态人工智能模型,也难以从模拟时钟图像中识别时间。 时钟中细微的视觉变化都可能导致严重的解读错误,而微调也只对熟悉的示例有效。 这一结果引发了人们对这些模型在现实世界任务中处理不熟悉图像时的可靠性的担忧。
5/28/2025 10:31:13 AM
朱先忠

o4-mini暴击六大数学天团,攻破陶哲轩难题!4.5h激战人类阵地失守

八支「数学家天团」和o4-mini-medium同台竞技,谁会最终胜出? 最近,Epoch AI团队举办了一场竞赛,专门考察AI数学能力的进展。 这场比赛邀请了约40位数学精英,分成8组,每组由学科专家和优秀本科生组成。
5/28/2025 10:30:41 AM

微软CEO吹爆「智能体」:AI不仅要“杀死”SaaS,操作系统也会“格式化”重来

微软CEO最新采访,分享给大家。 一个冷知识:微软作为IT巨头,虽然拥有OpenAI模型优先使用权,但到现在为止没有自己的拿得出手的模型,我们可以感受一下一个没有自研模型的大厂是如何思考未来满是AI的世界,微软如何通过AI来重塑产品和应用,如何挣钱。 这是微软CEO萨蒂亚·纳德拉(Satya Nadella)在Build 2025 大会后深度访谈,回应了备受争议的“SaaS已死”论,更抛出了“零成本智能”和“无代码操作系统”的颠覆性愿景。
5/28/2025 10:27:08 AM

我们真的能信任人工智能的链式思考推理吗?

译者 | 涂承烨审校 | 重楼随着人工智能(AI)在医疗和自动驾驶等领域的广泛应用,我们对其信任程度的问题变得愈发关键。 一种名为链式思考(CoT)的推理方法备受关注。 它帮助人工智能将复杂问题分解为步骤,展示其如何得出最终答案。
5/28/2025 10:10:20 AM
涂承烨

ETT:打破原生多模态学习视觉瓶颈,重塑视觉tokenizer优化范式

本文由北京智源研究院多模态大模型研究中心(团队负责人王鑫龙,团队代表作 EMU 系列、EVA 系列、Painter & SegGPT)、中科院自动化所和大连理工大学联合完成。  在多模态学习蓬勃发展的当下,视觉 tokenizer 作为连接视觉信息与下游任务的关键桥梁,其性能优劣直接决定了多模态模型的表现。 然而,传统的视觉 tokenization 方法存在一个致命缺陷:视觉 tokenizer 的优化与下游任务的训练是相互割裂的。
5/28/2025 9:17:00 AM

One RL to See Them All?一个强化学习统一视觉-语言任务!

强化学习 (RL) 显著提升了视觉-语言模型 (VLM) 的推理能力。 然而,RL 在推理任务之外的应用,尤其是在目标检测和目标定位等感知密集型任务中的应用,仍有待深入探索。 近日,国内初创公司 MiniMax 提出了 V-Triune,一个视觉三重统一强化学习系统,它能使 VLM 在单一的训练流程中同时学习视觉推理和感知任务。
5/28/2025 9:15:00 AM

大厂程序员:AI正在将我们变成高速流水线工人,受不了了

万万没想到,大厂程序员真要成流水线工人了。 这不是谁危言耸听,而是亚马逊不少程序员最近的亲身感受——很早开始,亚马逊官方就鼓励大伙儿在工作中用AI。 结果发展到今天,“鼓励”更像是一种变相强迫:高层认为AI能提效,所以不少团队人员直接砍半,项目ddl却大大提前。
5/28/2025 9:13:00 AM