AI在线 AI在线

理论

端到端GUI智能体首次实现“犯错-反思-修正”闭环,模拟人类认知全过程

端到端多模态GUI智能体有了“自我反思”能力! 南洋理工大学MMLab团队提出框架GUI-Reflection。 随着多模态大模型的发展,端到端GUI智能体在手机、电脑等设备上的自动化任务中展示出巨大潜力。
6/12/2025 8:58:00 AM

MSRA清北推出强化预训练!取代传统自监督,14B模型媲美32B

“预测下一个token”——这个支撑LLM的核心训练机制,正在被强化学习颠覆。 微软亚洲研究院(MSRA)联合清华大学、北京大学提出全新预训练范式RPT(强化预训练),首次将强化学习深度融入预训练阶段,让模型在预测每个token前都能先“动脑推理”,并根据推理正确性获得奖励。 传统预训练依赖海量文本进行自监督学习,模型通过简单预测下一个token建立语言能力,作者将之比喻为一块蛋糕胚,而RL只是作为上面点缀的一颗樱桃。
6/12/2025 8:46:00 AM

简易实用项目攻略:如何创建集文档问答、摘要、转录、翻译与提取于一身的AI门户

译者 | 核子可乐审校 | 重楼如今AI虽已全面普及,但多数职场人士仍难以统一运用各类互不相关的工具:一会需要使用聊天机器人、一会需要将文本复制到摘要器内,再加上会议转录和翻译,将本应顺畅的工作流程拆分得零散琐碎。 所以问题来了:为什么不能把各项AI功能集中起来? 为此我决定构建单一Web门户,供用户随时上传文档、提问、获取摘要、转录会议内容、翻译文件,甚至从PDF中提取表格等。
6/12/2025 8:24:57 AM
核子可乐

保护由AI代理创建的软件:下一个安全范式

译者 | 晶颜审校 | 重楼代理式人工智能(Agentic AI)具备自主编写与部署代码的能力,由此衍生出新的安全风险,因而需要人工监督与强有力的保障机制。 自2022年底ChatGPT及生成式人工智能(GenAI)成为主流以来,其影响力的持续攀升对软件开发行业产生了直接影响。 生成式人工智能工具编写可执行代码的能力被视作显著优势之一,且此后人工智能一直在持续迭代优化。
6/12/2025 8:15:24 AM
晶颜

RPA的未来与智能体紧密相关

RPA正加速走向一个十字路口,IT领导者和专家们对该技术的未来展开了越来越多的辩论。 一些IT领导者认为,更强大、更自主的智能体最终将取代这项已有二十年历史的AI前体技术,而另一些人则预测,智能体和RPA将携手合作,实现更高水平的自动化。 RPA仍在制造业、医疗保健和金融等多个行业广泛使用,随着企业开始部署智能体和其他下一代AI工具,未来几年RPA可能会被重新审视,但如果供应商和IT领导者能够通过连接RPA和智能体来创造新的业务流程自动化方式,这项技术可能不会走向末路。
6/12/2025 8:08:00 AM
Grant Gross

三家银行利用AI实现盈利增长的实战经验

银行业迅速认识到了GenAI的商业潜力,同时也意识到盲目采用可能带来的风险,该行业最大的机构擅长管理风险,在将试点项目推向生产环境时采取了谨慎而坚定的态度。 跟踪北美、欧洲和亚洲50家最大银行的Evident Insights公司表示,过去一年里,GenAI的采用势头有所增强,该公司情报部门副总裁Colin Gilbert周二在行业分析师公司举办的虚拟圆桌会议上表示,截至上周,这50家银行共宣布了266个AI应用案例,高于2月份的167个。 “绝大多数,即约75%的应用案例仍然是面向内部或员工的,”他说,并补充道,GenAI和传统预测性AI应用案例的分布大致为五五开。
6/12/2025 7:10:00 AM
Matt Ashare

一文读懂LLM基于JSON Schema的结构化输出

什么是基于JSON Schema的结构化输出大语言模型通常会生成无特定结构的自由格式文本,在能够有效使用之前需要进行大量的后期处理。 这种不可预测性会导致错误、浪费时间并增加成本。 OpenAI推出基于JSON Schema的结构化输出以解决这一问题。
6/12/2025 2:30:00 AM
AI大模型应用开发

我在2025年尝试了12个AI代理框架-哪款更适合你?

AI代理的热潮真实存在。 但构建一个AI代理? 那完全是另一回事。
6/12/2025 1:45:00 AM
AI研究生

智能体开发实战 | 基于Dify自定义工作流工具构建游戏智能体

前言Dify是一款开源的大语言模型应用开发平台,旨在降低AI应用的开发门槛,帮助开发者和企业快速构建、部署及管理生成式AI应用。 Dify允许用户在画布上构建和测试功能强大的AI工作流。 工作流通过将复杂任务分解为更小的步骤(节点),有效降低了系统的复杂度。
6/12/2025 1:30:00 AM
AI大模型应用开发

Test-Time Scaling:挖掘大型语言模型推理潜能

大家好,我是肆〇柒。 今天,我们来聊一个在人工智能领域备受瞩目的新兴技术方向 ——Test-Time Scaling(TTS)。 之所以要给大家介绍这篇关于 Test-time scaling 的综述,是因为其具备极为重要的现实落地意义与学习价值。
6/12/2025 1:00:00 AM
肆零柒

刚刚!OpenAI 上线 o3-pro,性能碾压 Gemini 与 Claude,重新定义“模型”

OpenAI发布了它自称“迄今为止最强大”的模型:o3-pro。   ——这是此前发布的推理模型 o3 的“加强版”。 图片o3-pro属于“推理模型”,它可以一步步拆解问题、逻辑严密地得出结论。
6/11/2025 2:48:11 PM

谁说强化学习只能是蛋糕上的樱桃,说不定,它也可以是整个蛋糕呢?

谁说强化学习只能是蛋糕上的樱桃,说不定,它也可以是整个蛋糕呢? 在 2016 年的一次演讲中,Yann LeCun 曾将强化学习比喻成蛋糕上的樱桃。 他提到,「如果把智能比作一块蛋糕,那么无监督学习就是蛋糕的主体,监督学习就是蛋糕上的糖霜,而强化学习则是糖霜上的樱桃。
6/11/2025 2:45:57 PM

10%训练数据超越100%表现,机器人学习领域迎来重要突破

第一作者陈昌和是美国密歇根大学的研究生,师从 Nima Fazeli 教授,研究方向包括基础模型、机器人学习与具身人工智能,专注于机器人操控、物理交互与控制优化。 第二作者徐晓豪是美国密歇根大学机器人学院博士生,研究涵盖3D 感知、视觉语言模型驱动的多模态异常检测及鲁棒三维重建。 共同第一作者 Quantao Yang 是瑞典皇家理工学院博士后,师从 Olov Andersson 教授,研究聚焦于利用视觉语言模型与大型语言模型提升自主系统在动态环境中的感知与导航能力。
6/11/2025 2:45:26 PM

小红书开源首个 AI 文本大模型:11.2T 精炼语料吊打海量数据,证明“大模型≠大数据”

近日,在中文开源大模型愈发稀缺的背景下,小红书旗下 hi lab 公布了中等规模的 MoE 模型 dots.llm1,以 1420 亿总参数、每次仅激活 140 亿参数的设计,达成与 Qwen2.5-72B 相近的性能,吸引了社区的关注。 图片据悉,dots.llm1 是一个 Mixture of Experts(MoE)结构的语言模型。 尽管总参数规模达 142B,但在每次推理中只激活 14B,有效控制了计算开销。
6/11/2025 2:44:48 PM

Mistral的首个强推理模型:拥抱开源,推理速度快10倍

大模型强推理赛道,又迎来一位重量级玩家。 本周二,欧洲人工智能公司 Mistral AI 发布了 Magistral,这是一个全新的大语言模型(LLM)系列,展现了强大的推理能力。 它能够进行不断反思,并解决更复杂的任务。
6/11/2025 2:39:50 PM

硅谷AI圈变天!OpenAI弃微软转投谷歌,LeCun被边缘小扎组队血战复仇

一夜醒来,硅谷变天了! OpenAI抛弃微软,竟转头和谷歌合作,达成了前所未有的云服务协议。 可以说,这笔交易,直接一举重塑了AI竞争格局。
6/11/2025 2:36:16 PM

新“SOTA”推理模型避战Qwen和R1?欧版OpenAI被喷麻了

“欧洲的OpenAI”Mistral AI终于发布了首款推理模型——Magistral。 然而再一次遭到网友质疑:怎么又不跟最新版Qwen和DeepSeek R1 0528对比? (此前该公司发布Ministral 3B/8B时,声称“始终优于同行”,却没有对比Qwen2.5)图片图片在该模型发布的前几个小时,Mistral AI的CEO Arthur Mensch在接受炉边访谈时声称即将发布的Magistral能够与其他所有竞争对手相抗衡。
6/11/2025 2:28:34 PM

智能体自己出现问题自己找!首次提出“自动化失败归因”课题 | ICML2025 Spotlight

近年来,LLM Multi-Agent系统引起广泛关注。 它们各显神通,协同作战解决复杂难题。 然而,一顿操作猛如虎,最终结果却“惨不忍睹”,一整个任务失败。
6/11/2025 1:44:44 PM