AI在线 AI在线

AAAI 2026 Oral

AAAI 2026 Oral|InfiGUI-G1模型来了,刷新GUI Grounding SOTA

AAAI 2026 Oral|InfiGUI-G1模型来了,刷新GUI Grounding SOTA

随着多模态大语言模型(MLLM)的飞速发展,能够像人类一样通过视觉输入操作图形用户界面(GUI)的智能体(Agent)正逐渐成为现实。 然而,在通往通用计算机控制的道路上,如何让模型精准地将自然语言指令对应到屏幕上的具体元素 —— 即 GUI Grounding 任务,依然是一大难题。 现有的方法,特别是基于验证奖励的强化学习(RLVR),虽然在提升 “指得准”(空间对齐)方面表现出色,却往往在 “指得对”(语义对齐)上遭遇瓶颈。
1/5/2026 2:33:00 PM 机器之心
AAAI 2026 Oral | 给多流数据配「私教+外援」,漂移来了也不慌

AAAI 2026 Oral | 给多流数据配「私教+外援」,漂移来了也不慌

本文作者为:En Yu, Jie Lu, Kun Wang, Xiaoyu Yang, Guangquan Zhang。 所有作者均来自于悉尼科技大学(UTS)澳大利亚人工智能研究院(AAII)。 在智慧城市、社交媒体、工业物联网等真实开放动态环境中,数据往往以多流(Multistream)形式并发产生。
1/2/2026 12:40:00 AM 机器之心
AAAI 2026 Oral | 拒绝「一刀切」!AdaMCoT:让大模型学会「看题下菜碟」,动态选择最佳思考语言

AAAI 2026 Oral | 拒绝「一刀切」!AdaMCoT:让大模型学会「看题下菜碟」,动态选择最佳思考语言

多语言大模型(MLLM)在面对多语言任务时,往往面临一个选择难题:是用原来的语言直接回答,还是翻译成高资源语言去推理? 实际上,不同的语言在模型内部承载着不同的「特长」。 比如英语可能逻辑性强,适合科学推理;而中文或印尼语在处理特定文化背景或押韵任务时,可能比英语更具优势。
12/14/2025 12:11:00 AM 机器之心