模型

谷歌AlphaGenome横空出世！40亿年生命代码一键破解，或再夺诺奖

基因组，宛如生命的蓝图，藏在我们每一个细胞之中。这套完整的DNA指令集，主导着生命体从外观功能到生长繁殖的几乎每一个方面，甚至是对疾病抵御的能力。 2003年，人类基因组测序完成，让人类首次窥见了DNA的全貌。

6/27/2025 8:56:51 AM

人民大学&字节Seed：利用μP实现Diffusion Transformers高效扩展

本文由中国人民大学高瓴人工智能学院李崇轩团队和字节跳动Seed团队共同完成。第一作者郑晨宇是中国人民大学高瓴人工智能学院二年级博士生，主要研究方向为基础模型的优化、泛化和可扩展性理论，导师为李崇轩副教授，论文为其在字节跳动Seed实习期间完成。第二作者张新雨是字节跳动研究员，主要研究方向为视觉生成模型。

6/27/2025 8:50:40 AM

北大发布学术搜索评测ScholarSearch：难倒一众DeepResearch的“开卷考试”

LLMs能当科研助手了？北大出考题，结果显示：现有模型都不能胜任。北京大学DS-Lab发布ScholarSearch，这是首个专门用于评估大语言模型在学术研究中复杂信息检索能力的数据集，包含223道高难度的学术检索题目及其答案。

6/27/2025 8:47:12 AM

Nature报道：谷歌新模型1秒读懂DNA变异！首次统一基因组全任务，性能碾压现有模型

谷歌DeepMind Alpha家族又双叒登上Nature报道，这次瞄准的是DNA变异。现在只需1秒，就能精确定位基因组序列变异。据Nature最新报道，谷歌DeepMind团队目前推出了突破性生物模型AlphaGenome。

6/27/2025 8:45:31 AM

推理越多，幻觉越重？多模态推理模型的「幻觉悖论」

在多模态大模型的飞速发展中，R1 系列多模态推理模型凭借显式的长链推理机制，在复杂任务中屡屡突破传统「快思考」范式的性能瓶颈。然而，研究发现，随着推理链条的加长，这类模型的视觉感知能力却呈现出明显下滑的趋势，逐渐转而依赖语言先验进行「脑补」，生成内容也越来越容易脱离图像本身，甚至出现凭空捏造的幻觉现象。这一「推理增强—感知削弱」的悖论，凸显了当前多模态推理模型在推理能力与感知准确性之间面临的平衡挑战。

6/27/2025 8:40:00 AM

全模态RAG突破文本局限，港大构建跨模态一体化系统

突破传统检索增强生成（RAG）技术的单一文本局限，实现对文档中文字、图表、表格、公式等复杂内容的统一智能理解。香港大学黄超教授团队开源多模态智能处理系统RAG-Anything，将碎片化的信息孤岛转化为结构化的知识网络，为智能多模态文档分析开辟了全新技术路径。 RAG-Anything 是专门针对复杂多模态文档设计的新一代RAG系统，致力于破解现代信息处理中的多模态理解难题。

6/26/2025 3:11:41 PM

AI“读书”合法了：美法院最新裁定，无需作者同意，已购书籍可用于训练AI

无需原作者同意，AI可以用已出版书籍作训练数据了。就在最新判决的诉讼中，美国法院裁决：允许Claude背后公司Anthropic在未经作者许可的情况下，使用合法购买的已出版书籍训练AI。法院参考了美国版权法中的“合理使用”（Fair Use）原则，认为AI训练属于“转化性使用”（Transformative Use），即对原作品的新用途未取代原作市场，且有利于技术创新和公共利益。

6/26/2025 3:09:07 PM

刚刚，OpenAI苏黎世办公室被Meta一锅端，三名ViT作者被挖走

刚刚，华尔街日报发布了一份独家报道，称去年底刚刚组建的 OpenAI 苏黎世办公室基本被 Meta 一锅端走了。具体来说，Meta CEO 马克・扎克伯格挖走了 Lucas Beyer、Alexander Kolesnikov 和 Xiaohua Zhai（翟晓华）三位研究者。这三人一直以来都是密切的合作伙伴，共同参与了 ViT 等重要研究。

6/26/2025 3:07:54 PM

具身世界模型新突破，地平线 & 极佳提出几何一致视频世界模型增强机器人策略学习

近年来，随着人工智能从感知智能向决策智能演进，世界模型（World Models）逐渐成为机器人领域的重要研究方向。世界模型旨在让智能体对环境进行建模并预测未来状态，从而实现更高效的规划与决策。与此同时，具身数据也迎来了爆发式关注。

6/26/2025 3:06:47 PM

AI秒懂短视频，快手大模型Keye-VL理解力爆表！技术细节全开源

如果有人突然问你：「这张图片中有几颗草莓」？你会如何快速回复？面对五彩缤纷的果盘，我们往往需要反复端详，放大图片再逐一清点，耗费不少时间才能得到答案。

6/26/2025 3:05:45 PM

继AlphaFold之后，DeepMind再放“大招”：AlphaGenome直击疾病根源

谷歌今天一口气放出两个王炸，一个对标Claude Code 和 Cursor的开源编程神器Gemini CLI，另一个就是AlphaGenome，专门用来精准预测基因变异。谷歌DeepMind宣布推出一款名为AlphaGenome的全新人工智能（AI）模型。该模型旨在更深入、更准确地理解基因组，通过预测DNA序列的微小变化如何影响复杂的基因调控过程，为疾病研究、基因治疗和基础生命科学开辟了新的可能性。

6/26/2025 10:08:34 AM

谷歌AI Agent刚开源！多任务智能体+MCP+谷歌搜索，狂揽9000颗星

今天凌晨，谷歌在官网开源了AI Agent框架Gemini CLI，直接将Gemini大模型融入到终端中。 Gemini CLI最大亮点之一就是可以直接调用，谷歌最新发布的视频模型 Veo和图像模型Imagen，同时集成了MCP、谷歌搜索、自定义自动化等众多实用功能。开源地址：，用Gemini CLI自动制作一个短视频，展示一只姜猫在澳大利亚的冒险故事。

6/26/2025 10:07:11 AM

让多模态大模型「想明白再画」！港大等开源GoT-R1：强化学习解锁视觉生成推理新范式

当前，多模态大模型在根据复杂文本提示生成高保真、语义一致的图像方面取得了显著进展，但在处理包含精确空间关系、多对象属性及复杂组合的指令时，仍面临挑战。针对此，来自香港大学 MMLab、香港中文大学 MMLab 和商汤科技的研究团队，继其先前发布的 Generation Chain-of-Thought (GoT) 框架之后，现推出重要进展 ——GoT-R1。该新框架通过引入强化学习，显著增强了多模态大模型在视觉生成任务中的语义 - 空间推理能力，使其能够超越预定义模板，自主探索和学习更优的推理策略。

6/26/2025 9:13:22 AM

8B模型可以超过GPT-4o！并行KV Cache压缩支持的128K长度外推方法ParallelComp

作者熊璟，香港大学一年级博士生，师从黄毅教授和孔令鹏教授。已在 ICLR、ICML、NeurIPS、ACL、EMNLP、TMLR等顶级会议/期刊发表论文，研究方向为高效大语言模型推理与自动定理证明。担任NAACL、EMNLP、ACL、ICML、ICLR、NeurIPS、COLING等会议审稿人。

6/26/2025 9:09:31 AM

何恺明新身份：谷歌DeepMind杰出科学家

刚刚，有网友爆料，自己在公司收到了「欢迎何恺明加入」的邮件，何恺明疑似加入谷歌。在搜索何恺明个人主页后，我们可以确认，他确实加入了谷歌，不过是以兼职的形式，职位是谷歌 DeepMind 杰出科学家 (Distinguished Scientist)。个人主页：，目前还搜不到详细信息。

6/26/2025 8:56:59 AM

北大CogSci 2025（Oral）| 人类创造力的核心机制，AI已经开始掌握了

“AI永远无法取代人类”证据-1！北大团队最新论文揭示：人类引以为傲的创造力，如今AI也开始掌握了。甚至，研究人员还提出了一种系统性框架，首次从认知科学的角度，对AI模型的组合创造力（Combinational Creativity）进行了量化评估与优化。

6/26/2025 8:56:00 AM

ICML 2025 Oral | 从「浅对齐」到「深思熟虑」，清华牵头搭起大模型安全的下一级阶梯

本工作共同第一作者包括：张亦弛，清华大学计算机系三年级博士生，师从朱军教授，研究方向是多模态大模型和大模型安全，在CVPR、NeurIPS、ICML等顶会发表多篇论文，曾主导开发了首个多模态大模型可信度全面评测基准MultiTrust；张思源，清华大学计算机系一年级硕士生，导师是苏航副研究员，研究方向是大模型安全与对齐算法。本文通讯作者是清华大学人工智能学院董胤蓬助理教授和计算机系朱军教授。其他合作者来自北航、瑞莱智慧、阿里安全、百川智能等单位。

6/26/2025 8:42:00 AM

重磅！淘天联合爱橙开源强化学习训练框架ROLL，高效支持十亿到千亿参数大模型训练

过去几年，随着基于人类偏好的强化学习（Reinforcement Learning from Human Feedback，RLHF）的兴起，强化学习（Reinforcement Learning，RL）已成为大语言模型（Large Language Model，LLM）后训练阶段的关键技术。 RL 不仅显著提升了模型的对齐能力，也拓展了其在推理增强、智能体交互等场景下的应用边界。围绕这一核心范式，研究社区不断演化出多种优化策略和算法变体，如 Agentic RL、RLAIF、GRPO、REINFORCE 等。

6/25/2025 1:44:09 PM

资讯热榜

GGUF 是什么？一文看懂大模型里最火的模型格式 AI应用新纪元：2025中国AI应用排行榜榜单揭晓丨2025年1月单张4090跑到30fps，范浩强团队让VLA实时跑起来了一张合影就能泄露全家信息？央视紧急预警：“读心AI”正让社交晒图变成隐私炸弹可灵、即梦、海螺、Vidu哪家强？4大AI视频神器深度测评 Sora、可灵、即梦哪家强？AI视频软件深度测评！免费！让图片放大不失真的位图转矢量图神器 Tmttool 阿里云通义模型首次大规模赋能双11，单日翻译调用量突破14亿次

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT DeepSeek 谷歌 AI绘画大模型机器人数据 Midjourney 开源 AI新词 Meta 微软智能用户 GPT 学习技术智能体马斯克 Gemini Anthropic 图像英伟达 AI创作训练 LLM 论文代码算法 AI for Science Agent 苹果 Claude 芯片腾讯 Stable Diffusion 蛋白质开发者 xAI 生成式神经网络机器学习 3D RAG 具身智能 AI视频人形机器人研究大语言模型百度生成 GPU Sora 工具华为计算字节跳动 AI设计大型语言模型 AGI 搜索视频生成场景生成式AI 深度学习 DeepMind 架构 AI模型亚马逊特斯拉 Transformer 编程视觉 MCP 预测