AI在线 AI在线

模型

AI秒懂短视频,快手大模型Keye-VL理解力爆表!技术细节全开源

如果有人突然问你:「这张图片中有几颗草莓」? 你会如何快速回复? 面对五彩缤纷的果盘,我们往往需要反复端详,放大图片再逐一清点,耗费不少时间才能得到答案。
6/26/2025 3:05:45 PM

继AlphaFold之后,DeepMind再放“大招”:AlphaGenome直击疾病根源

谷歌今天一口气放出两个王炸,一个对标Claude Code 和 Cursor的开源编程神器Gemini CLI,另一个就是AlphaGenome,专门用来精准预测基因变异。 谷歌DeepMind宣布推出一款名为AlphaGenome的全新人工智能(AI)模型。 该模型旨在更深入、更准确地理解基因组,通过预测DNA序列的微小变化如何影响复杂的基因调控过程,为疾病研究、基因治疗和基础生命科学开辟了新的可能性。
6/26/2025 10:08:34 AM

谷歌AI Agent刚开源!多任务智能体+MCP+谷歌搜索,狂揽9000颗星

今天凌晨,谷歌在官网开源了AI Agent框架Gemini CLI,直接将Gemini大模型融入到终端中。 Gemini CLI最大亮点之一就是可以直接调用,谷歌最新发布的视频模型 Veo和图像模型Imagen,同时集成了MCP、谷歌搜索、自定义自动化等众多实用功能。 开源地址:,用Gemini CLI自动制作一个短视频,展示一只姜猫在澳大利亚的冒险故事。
6/26/2025 10:07:11 AM

让多模态大模型「想明白再画」!港大等开源GoT-R1:强化学习解锁视觉生成推理新范式

当前,多模态大模型在根据复杂文本提示生成高保真、语义一致的图像方面取得了显著进展,但在处理包含精确空间关系、多对象属性及复杂组合的指令时,仍面临挑战。 针对此,来自香港大学 MMLab、香港中文大学 MMLab 和商汤科技的研究团队,继其先前发布的 Generation Chain-of-Thought (GoT) 框架之后,现推出重要进展 ——GoT-R1。 该新框架通过引入强化学习,显著增强了多模态大模型在视觉生成任务中的语义 - 空间推理能力,使其能够超越预定义模板,自主探索和学习更优的推理策略。
6/26/2025 9:13:22 AM

8B模型可以超过GPT-4o!并行KV Cache压缩支持的128K长度外推方法ParallelComp

作者熊璟,香港大学一年级博士生,师从黄毅教授和孔令鹏教授。 已在 ICLR、ICML、NeurIPS、ACL、EMNLP、TMLR等顶级会议/期刊发表论文,研究方向为高效大语言模型推理与自动定理证明。 担任NAACL、EMNLP、ACL、ICML、ICLR、NeurIPS、COLING等会议审稿人。
6/26/2025 9:09:31 AM

何恺明新身份:谷歌DeepMind杰出科学家

刚刚,有网友爆料,自己在公司收到了「欢迎何恺明加入」的邮件,何恺明疑似加入谷歌。 在搜索何恺明个人主页后,我们可以确认,他确实加入了谷歌,不过是以兼职的形式,职位是谷歌 DeepMind 杰出科学家 (Distinguished Scientist)。 个人主页:,目前还搜不到详细信息。
6/26/2025 8:56:59 AM

北大CogSci 2025(Oral)| 人类创造力的核心机制,AI已经开始掌握了

“AI永远无法取代人类”证据-1! 北大团队最新论文揭示:人类引以为傲的创造力,如今AI也开始掌握了。 甚至,研究人员还提出了一种系统性框架,首次从认知科学的角度,对AI模型的组合创造力(Combinational Creativity)进行了量化评估与优化。
6/26/2025 8:56:00 AM

ICML 2025 Oral | 从「浅对齐」到「深思熟虑」,清华牵头搭起大模型安全的下一级阶梯

本工作共同第一作者包括:张亦弛,清华大学计算机系三年级博士生,师从朱军教授,研究方向是多模态大模型和大模型安全,在CVPR、NeurIPS、ICML等顶会发表多篇论文,曾主导开发了首个多模态大模型可信度全面评测基准MultiTrust;张思源,清华大学计算机系一年级硕士生,导师是苏航副研究员,研究方向是大模型安全与对齐算法。 本文通讯作者是清华大学人工智能学院董胤蓬助理教授和计算机系朱军教授。 其他合作者来自北航、瑞莱智慧、阿里安全、百川智能等单位。
6/26/2025 8:42:00 AM

重磅!淘天联合爱橙开源强化学习训练框架ROLL,高效支持十亿到千亿参数大模型训练

过去几年,随着基于人类偏好的强化学习(Reinforcement Learning from Human Feedback,RLHF)的兴起,强化学习(Reinforcement Learning,RL)已成为大语言模型(Large Language Model,LLM)后训练阶段的关键技术。 RL 不仅显著提升了模型的对齐能力,也拓展了其在推理增强、智能体交互等场景下的应用边界。 围绕这一核心范式,研究社区不断演化出多种优化策略和算法变体,如 Agentic RL、RLAIF、GRPO、REINFORCE 等。
6/25/2025 1:44:09 PM

Windows最新搭载微软自研模型Mu,一句话搞定所有系统配置

还在为复杂的Windows设置头疼? 微软来重新定义设置界面交互了。 全新发布的设备端小语言模型Mu,让Windows 11的设置也拥有了自己的AI Agent。
6/25/2025 1:42:54 PM

ToMAP:赋予大模型「读心术」,打造更聪明的AI说服者

本文第一作者为韩沛煊,本科毕业于清华大学计算机系,现为伊利诺伊大学香槟分校(UIUC)计算与数据科学学院一年级博士生,接受 Jiaxuan You 教授指导。 其主要研究方向为:大语言模型的安全性及其在复杂场景中的推理。 说服,是影响他人信念、态度甚至行为的过程,广泛存在于人类社会之中。
6/25/2025 9:19:44 AM

Cache Me If You Can:陈丹琦团队如何「抓住」关键缓存,解放LLM内存?

普林斯顿大学计算机科学系助理教授陈丹琦团队又有了新论文了。 近期,诸如「长思维链」等技术的兴起,带来了需要模型生成数万个 token 的全新工作负载。 大多数语言模型都基于 Transformer 架构,其在进行自回归解码(即逐字生成文本)时,需要将所有先前 token 的注意力状态存储在一个名为 KV 缓存的内存区域中。
6/25/2025 9:15:38 AM

谷歌发布本地具身智能模型!全程无联网执行精细操作,从人形机器人到工业机器人全覆盖

机器人终于有了自己的“离线大脑”。 Google DeepMind团队首个可以完全在机器人本地运行的视觉-语言-动作(VLA)模型Gemini Robotics On-Device发布。 这个模型不仅能离线运行,还保持了相当强悍的操作能力,能遵循指令完成各种需要精细操作的任务。
6/25/2025 9:04:59 AM

ICML 2025 | 生成式视角重塑监督学习!标签不只是答案,更是学习指南

生成式视角可以对监督学习重新思考乃至重新定义! 想象你在教一个学生解数学题——你会直接让他交卷对答案,还是会让他参考完整答案来理解解题思路? 如今,一种全新的监督学习范式正受到关注:标签不应只是用于对照回答的标准答案,更可能成为学习过程中的辅助参考。
6/25/2025 8:59:49 AM

7B小模型超越DeepSeek-R1:模仿人类教师,弱模型也能教出强推理LLM | Transformer作者团队

Thinking模式当道,教师模型也该学会“启发式”教学了——由Transformer作者之一Llion Jones创立的明星AI公司Sakana AI,带着他们的新方法来了! 这个方法要求教师模型像优秀的人类教师一样,根据已知解决方案输出清晰的逐步解释,而不再是从头开始自己解决。 用Sanaka AI的新方法训练出的7B小模型,在传授推理技能方面,比671B的DeepSeek-R1还要有效。
6/25/2025 8:54:03 AM

合成数据>人工数据,绝对性能暴涨超10个点!仅需任务定义,高效微调大模型

尽管如GPT-4和Gemini等基础模型已在通用语言理解方面设立了新的行业标杆 ,但它们在需要深度领域知识的专业领域中,其表现常常不尽如人意。 当面临数学、医学、法律及金融等专门任务时,这些模型时常表现不佳,因为这些领域高度依赖特定的专业知识。 传统上,为了让这些模型适应特定领域,最直接的方法是使用大规模的人类标注数据进行微调。
6/25/2025 8:53:00 AM

谷歌 DeepMind 机器人 AI 模型实现本地化运行:可完成系鞋带等高难度任务

项目负责人 Carolina Parada 表示:“该系统借鉴 Gemini 多模态世界理解能力,如同 Gemini 生成文本 / 代码 / 图像那样生成机器人动作”。
6/24/2025 11:54:10 PM
问舟

任务太难,连ChatGPT都弃了!最强AI神器一键拆解,首测来袭

想转型AI做产品经理,却不知如何入手? 想搞副业月入一万,但脑子里只有零散想法? 想知道AI时代该学什么专业最有前景?
6/24/2025 1:54:22 PM