AI
让多模态大模型「想明白再画」!港大等开源GoT-R1:强化学习解锁视觉生成推理新范式
当前,多模态大模型在根据复杂文本提示生成高保真、语义一致的图像方面取得了显著进展,但在处理包含精确空间关系、多对象属性及复杂组合的指令时,仍面临挑战。 针对此,来自香港大学 MMLab、香港中文大学 MMLab 和商汤科技的研究团队,继其先前发布的 Generation Chain-of-Thought (GoT) 框架之后,现推出重要进展 ——GoT-R1。 该新框架通过引入强化学习,显著增强了多模态大模型在视觉生成任务中的语义 - 空间推理能力,使其能够超越预定义模板,自主探索和学习更优的推理策略。
6/26/2025 9:13:22 AM
8B模型可以超过GPT-4o!并行KV Cache压缩支持的128K长度外推方法ParallelComp
作者熊璟,香港大学一年级博士生,师从黄毅教授和孔令鹏教授。 已在 ICLR、ICML、NeurIPS、ACL、EMNLP、TMLR等顶级会议/期刊发表论文,研究方向为高效大语言模型推理与自动定理证明。 担任NAACL、EMNLP、ACL、ICML、ICLR、NeurIPS、COLING等会议审稿人。
6/26/2025 9:09:31 AM
首个面向科学任务、真实交互、自动评估的多模态智能体评测环境,ScienceBoard来了
第一作者孙秋实是香港大学计算与数据科学学院博士生,硕士毕业于新加坡国立大学数据科学系。 主要研究方向为 Computer-using agents 和 Code intelligence,在 NLP 和 ML 顶会 ACL,EMNLP,ICLR,COLM 等发表多篇论文。 本文的 OS-Copilot 团队此前已发布了 OS-Atlas、OS-Genesis 和 SeeClick 等同系列电脑智能体研究成果,被广泛应用于学术界与产业实践中。
6/26/2025 9:01:14 AM
刚刚,何恺明官宣入职谷歌DeepMind!
AI圈炸了! CV大牛何恺明正式官宣入职谷歌。 已更新的个人主页上,明确写着:兼职谷歌DeepMind杰出科学家。
6/26/2025 9:00:37 AM
新智元
北大CogSci 2025(Oral)| 人类创造力的核心机制,AI已经开始掌握了
“AI永远无法取代人类”证据-1! 北大团队最新论文揭示:人类引以为傲的创造力,如今AI也开始掌握了。 甚至,研究人员还提出了一种系统性框架,首次从认知科学的角度,对AI模型的组合创造力(Combinational Creativity)进行了量化评估与优化。
6/26/2025 8:56:00 AM
ICML 2025 Oral | 从「浅对齐」到「深思熟虑」,清华牵头搭起大模型安全的下一级阶梯
本工作共同第一作者包括:张亦弛,清华大学计算机系三年级博士生,师从朱军教授,研究方向是多模态大模型和大模型安全,在CVPR、NeurIPS、ICML等顶会发表多篇论文,曾主导开发了首个多模态大模型可信度全面评测基准MultiTrust;张思源,清华大学计算机系一年级硕士生,导师是苏航副研究员,研究方向是大模型安全与对齐算法。 本文通讯作者是清华大学人工智能学院董胤蓬助理教授和计算机系朱军教授。 其他合作者来自北航、瑞莱智慧、阿里安全、百川智能等单位。
6/26/2025 8:42:00 AM
美参议员:若 AI 能让生产效率飙升,应推行每周 4 天工作制
美国参议员伯尼・桑德斯提出,科技公司应将AI带来的生产力提升转化为劳动者更多的休息时间,而非仅为企业创造利润。他建议将每周工作时间缩短至32小时,并举例英国和微软日本等公司的成功实践。#AI与劳动权益# #四天工作制#
6/26/2025 8:39:09 AM
远洋
美法官裁定 Meta 用受版权保护书籍训练 AI 属合理使用,13 名作家起诉遭驳回
美国联邦法官裁定Meta使用受版权保护书籍训练AI属合理使用,13名作家起诉遭驳回。法官认为Meta的行为具有转换性,未损害作者市场。类似案件Anthropic也胜诉,但法官强调裁决范围有限。#AI版权争议# #Meta诉讼案#
6/26/2025 8:26:41 AM
远洋
出门问问发布Agentic AI软硬结合产品TicNote 内置Shadow AI技术
6月25日,出门问问(02438.HK)在TicNote新品发布会上,正式推出了其新一代Agentic AI软硬件结合的产品——TicNote。 这款产品通过内置的「Shadow AI」技术,为用户打造了一个“有记忆的AI记录 主动洞察 主动分析 陪伴创作”的智能体验,成为用户的随身AI思考伙伴。 TicNote适用于多种场景,包括会议、电话沟通、商务会议、学术讲座、医生问诊、课堂学习以及采访沟通等。
6/26/2025 8:00:37 AM
AI在线
CIO引领AI生产力变革的行动指南
AI生产力繁荣的时代已经到来,它发展迅速,让未做好准备的人措手不及,改变工作的机会巨大,同时责任也重大。 企业技术正在经历一场历史性的重置,AI不再是一个未来的承诺,它正在重塑我们今天的工作方式,对于CIO而言,这意味着要从运营管理者转变为转型推动者。 根据最近麦肯锡的研究,到2030年,GenAI通过提高生产力,每年可为全球经济增加高达4.4万亿美元的价值。
6/26/2025 7:20:00 AM
Ashwin
提示词工程、RAG之后,LangChain:上下文工程开始火了!
AI 时代,你可能听说过提示词工程、RAG、记忆等术语。 但是很少有人提及上下文工程(context engineering)。 其实,这一术语并不新鲜,近两年很多智能体构建者一直在关注这个事情。
6/26/2025 7:00:00 AM
机器之心
CIO们摒弃“广撒网”策略,开始以更战略性的方式推进AI试点项目
在过去的两年里,许多企业已经启动了数十个AI概念验证项目,但这些项目的失败率很高,投资回报率也令人失望,然而,现在出现了一种新趋势,即对AI实验的“散弹枪”式方法进行重大重新评估。 一些IT观察人士现在注意到,许多企业正在减少他们启动的AI概念验证项目数量,一些IT领导者转而使用商业AI工具,而更多人则专注于有限数量的战略性和有针对性的用例。 在经历了一个广泛实验的时代之后,当时公司正在探索AI的潜力,现在许多公司已经将注意力集中在少数几个用例上,AArete公司(一家IT和管理咨询公司)的AI、数字化和技术解决方案董事总经理Bhrugu Pange说道。
6/26/2025 7:00:00 AM
Grant Gross
人形机器人首次打通视觉感知与运动断层,UC伯克利华人博士让宇树G1现场演示
不用提前熟悉环境,一声令下,就能让宇树机器人坐在椅子上、桌子上、箱子上! 还能直接解锁 “跨过箱子”、“敲门” 等任务~这是来自UC伯克利、卡内基梅隆大学等团队的最新研究成果LeVERB框架——基于模拟数据训练实现零样本部署,让人形机器人通过感知新环境,理解语言指令就能直接完成全身动作。 传统人形机器人要么 “能看懂指令却动不了”(缺乏全身控制能力),要么 “只能机械执行动作却读不懂环境”(依赖人工预设动作库)。
6/25/2025 4:09:40 PM
提升对话质量,代码显示 Claude AI 即将引入记忆功能
AI初创公司Anthropic计划为Claude添加记忆功能,以挑战具有先进记忆功能的ChatGPT。这项功能将使Claude能够记住过去的事件并在新的对话中引用,以提升结果质量。
6/25/2025 2:34:19 PM
故渊
OpenAI突袭AI办公,微软谷歌恐遭大洗牌!密谋一年曝光,Office帝国危了
OpenAI未来想要做的,便是吞掉微软、谷歌的市场。 Information独家爆料称,OpenAI内部已筹划一年,计划在ChatGPT中植入「文档协作」与「即时通讯」功能。 图片OpenAI这一步棋,直接向「金主爸爸」微软发起正面挑战,同时也将开辟与谷歌竞争的新战线。
6/25/2025 1:46:16 PM
新智元
周鸿祎:AI 再强大也无法取代人类的三大能力
在近日发布的一段视频中,周鸿祎就人工智能(AI)的未来进行了深入探讨,表达了他对 AI 与人类关系的看法。 他指出,尽管许多人担心 AI 会取代自己的工作,但从目前的情况来看,AI 并不能完全取代人类。 周鸿祎强调,即使 AI 技术不断进步,它们仍然需要人类的管理与指导。
6/25/2025 12:00:44 PM
AI在线
万字干货:小红书 hi lab 团队关于奖励模型的一些探索
奖励模型(Reward Models,RM)在确保大语言模型(LLMs)遵循人类偏好方面发挥着关键作用。 这类模型通过学习人类的偏好判断,为语言模型的训练提供重要的引导信号。 奖励模型很多科学问题都充满挑战,小红书 hi lab团队过去一段时间对下列几个问题和关键挑战进行了一些探索:奖励模型应该如何评估?
6/25/2025 9:53:59 AM
强化学习新发现:无需数学样本,仅游戏训练AI推理大增
第一作者谢云飞是莱斯大学博士生,导师为通讯作者魏晨教授,研究方向包括多模态生成与理解。 Project Leader 肖俊飞是约翰斯・霍普金斯大学博士生,导师为 Bloomberg Distinguished Professor Alan Yuille。 第二作者马崟淞是约翰斯・霍普金斯大学博士生。
6/25/2025 9:28:38 AM
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
谷歌
AI绘画
大模型
机器人
数据
Midjourney
开源
AI新词
Meta
微软
智能
用户
GPT
学习
技术
智能体
马斯克
Gemini
图像
Anthropic
英伟达
AI创作
训练
LLM
论文
代码
算法
AI for Science
Agent
苹果
芯片
Claude
腾讯
Stable Diffusion
蛋白质
开发者
生成式
神经网络
xAI
机器学习
3D
RAG
人形机器人
AI视频
研究
具身智能
大语言模型
生成
百度
Sora
GPU
工具
华为
计算
字节跳动
AI设计
大型语言模型
AGI
搜索
视频生成
场景
深度学习
生成式AI
架构
DeepMind
亚马逊
特斯拉
编程
AI模型
视觉
Transformer
预测
MCP