资讯列表

分类

标签

EasyCache：无需训练的视频扩散模型推理加速——极简高效的视频生成提速方案

EasyCache：无需训练的视频扩散模型推理加速——极简高效的视频生成提速方案

论文作者团队简介：本文第一作者周鑫，共同第一作者梁定康，均为华中科技大学博士生，导师为白翔教授。合作者包括华中科技大学陈楷锦、冯天瑞、林鸿凯，旷视科技陈习武、丁宜康、谭飞杨和香港大学赵恒爽助理教授。在HunyuanVideo上，EasyCache在复杂场景下保持与原视频的一致外观，同时显著加速1.

7/14/2025 8:51:00 AM

无Tokenizer时代真要来了？Mamba作者再发颠覆性论文，挑战Transformer

无Tokenizer时代真要来了？Mamba作者再发颠覆性论文，挑战Transformer

我们终于摆脱 tokenization 了吗？答案是：可能性无限大。最近，Mamba 作者之一 Albert Gu 又发新研究，他参与的一篇论文《 Dynamic Chunking for End-to-End Hierarchical Sequence Modeling 》提出了一个分层网络 H-Net，其用模型内部的动态分块过程取代 tokenization，从而自动发现和操作有意义的数据单元。

7/14/2025 8:50:00 AM

第一作者必须是AI！首个面向AI作者的学术会议来了，斯坦福发起

第一作者必须是AI！首个面向AI作者的学术会议来了，斯坦福发起

在 AI 已深度介入科研流程的今天，从提出假设到生成图表、撰写论文，它正逐步参与乃至重塑整个科学研究的方式。但讽刺的是，尽管我们在 CVPR、NeurIPS、ICLR、ICML 甚至 ACL 等顶会中看到 AI 无处不在，却几乎没有任何一个会议或期刊承认 AI 的「作者身份」——AI 被广泛使用，却从未被名正言顺地署名。这一局面，终于被打破了。

7/14/2025 8:47:00 AM

模拟大脑功能分化！北大与港中文发布Fast-in-Slow VLA，让“快行动”和“慢推理”统一协作

模拟大脑功能分化！北大与港中文发布Fast-in-Slow VLA，让“快行动”和“慢推理”统一协作

作者简介：由来自北京大学、香港中文大学、北京智源研究院、智平方的老师同学联合研究，作者包括博士生陈浩、刘家铭、顾晨阳、刘卓洋，通讯作者为北京大学仉尚航。北京大学 HMI 实验室长期致力于具身智能和多模态学习领域的研究，欢迎关注。快执行与慢思考：在机器人操控领域，实现高频响应与复杂推理的统一，一直是一个重大技术挑战。

7/14/2025 8:47:00 AM

氛围编程后，Karpathy又双叒有新「脑洞」！PDF将死，未来99%是AI氛围阅读

氛围编程后，Karpathy又双叒有新「脑洞」！PDF将死，未来99%是AI氛围阅读

Karpathy大神这次继Vibe Coding氛围编程后，又想造全新概念了！大神说他早就抱怨了很多次，未来99%的「Attention」（注意力）即将被AI，而非人类关注。但是现在99.9%的互联网内容还是「写给人看的」，不论是网页、视频还是科研PDF论文。

7/14/2025 8:44:00 AM

ICCV2025 | 多视图生成新范式-利用自回归模型探索多视图生成

ICCV2025 | 多视图生成新范式-利用自回归模型探索多视图生成

本文第一作者包括北京大学博士生胡珈魁与清华大学硕士生杨羽霄；通讯作者为北京大学助理教授卢闫晔与（前）百度视觉技术部刘家伦。本文介绍并开发了一种自回归生成多视图图像的方法 MVAR 。其目的是确保在生成当前视图的过程中，模型能够从所有先前的视图中提取有效的引导信息，从而增强多视图的一致性。

7/14/2025 8:42:00 AM

清华ICCV25丨密室逃脱成AI新考场，通关率不足50%，暴露空间推理短板

清华ICCV25丨密室逃脱成AI新考场，通关率不足50%，暴露空间推理短板

近年来，多模态大模型（MLLMs）发展迅猛，从看图说话到视频理解，似乎无所不能。但你是否想过：它们真的“看懂”并“想通”了吗？模型在面对复杂的、多步骤的视觉推理任务时，能否像人类一样推理和决策？

7/14/2025 8:40:00 AM

ICML 2025 Oral！北大和腾讯优图破解AI生成图像检测泛化难题：正交子空间分解

ICML 2025 Oral！北大和腾讯优图破解AI生成图像检测泛化难题：正交子空间分解

随着 OpenAI 推出 GPT-4o 的图像生成功能，AI 生图能力被拉上了一个新的高度，但你有没有想过，这光鲜亮丽的背后也隐藏着严峻的安全挑战：如何区分生成图像和真实图像？尽管目前有很多研究已在尝试解决这个挑战，然而这个挑战深层次的泛化难题一直没有得到合理的探究，生成图像和真实图像的区别真的是简单的「真假二分类」吗？近日，北京大学与腾讯优图实验室等机构的研究人员针对这一泛化难题做了一些深层次的探究，研究表明 AI 生成图像检测任务远比「真假二分类」复杂！

7/14/2025 8:39:00 AM

用AI写代码效率反降19%！246项任务实测，16位资深程序员参与

用AI写代码效率反降19%！246项任务实测，16位资深程序员参与

用AI，有经验的开发者反倒被拖慢了？在一项基于真实开源项目的实验中，研究者发现使用AI工具不仅没有提升开发效率，反而让任务时间增加19%。这简直与人们预测的结果完全相反。

7/14/2025 8:35:00 AM

杨植麟被梁文锋叫醒了！Kimi新模型发布即开源，1T参数全线SOT

杨植麟被梁文锋叫醒了！Kimi新模型发布即开源，1T参数全线SOT

172天过去，Kimi在深夜低调给出了DeepSeek冲击波后的回应。全新Kimi K2基础大模型，MoE架构，总参数1T，激活参数32B，能力领先性尤其展现在代码、Agent、数学推理任务上。 Kimi援引多个基准评测数据，创造了开源全新SOTA。

7/14/2025 8:30:00 AM

“代降论文 AI 率”乱象曝光：学生花费不菲却维权无门

“代降论文 AI 率”乱象曝光：学生花费不菲却维权无门

AI在线 7 月 14 日消息，据法治日报报道，许多高校今年首次将“AI 生成内容检测”纳入毕业论文审查环节。多所高校发布通知，要求人文社科类论文 AI 生成内容占比不超过 20%，理工医科类不超过 15%。报道称，为了将 AI 率降至学校要求的安全范围，不少学生投入大量时间精力反复修改论文。

7/14/2025 8:13:35 AM 浩渺

用AI，写代码只会更慢！但一定更「快乐」

用AI，写代码只会更慢！但一定更「快乐」

AI进化成编程怪物后，这或许是很多程序员/科研人的日常。但是，用了AI，写代码一定更快了吗？ METR（Model Evaluation & Threat Research）研究发现，如果你够强、对代码库够熟悉，AI工具反而会给你拖后腿！

7/14/2025 7:54:00 AM

软件集成的演变：MCP如何在传统API之外重塑AI开发

软件集成的演变：MCP如何在传统API之外重塑AI开发

译者 | 晶颜审校 | 重楼作为软件工程师，我们耗费数年时间钻研API集成技艺，攻克了表述性状态传递（REST）端点难题，调试了身份验证流程，并构建了无数适配器以实现不同系统间的互联互通。然而，随着人工智能从实验性技术转变为生产必备要素，我们正见证软件系统通信方式的根本性变革。传统API VS.

7/14/2025 7:43:01 AM 晶颜

关于智能体和RPA 企业决策者需要了解的事项

关于智能体和RPA 企业决策者需要了解的事项

在当今关于业务自动化的讨论中，经常出现的两个术语是“智能体”和“机器人流程自动化(RPA)”。它们经常被一起提及，因为两者都旨在简化传统上由人类处理的重复性、基于规则的任务。然而，尽管它们在自动化和使用“机器人”方面有一些共同点，但它们代表了解决不同类型问题的截然不同方法。

7/14/2025 7:06:00 AM Bernard Marr

Claude团队大揭秘！如何调动多智能体搞深度搜索

Claude团队大揭秘！如何调动多智能体搞深度搜索

如何用多智能体的方法构建深度搜索？现在，Claude团队把自家最新的心得，对外分享了。在这篇文章中，它详细展示了如何构建一个有效的多智能体研究系统，这是一个架构，其中主代理（The Lead Agent）会生成和协调子代理（Subagents)，以并行方式探索复杂查询，内容涵盖系统架构、提示工程以及评估方法等。

7/14/2025 3:22:00 AM

必须 AI 为第一作者！斯坦福发起的科研会议，接收 AI 投稿，AI 审稿、人类只能围观

必须 AI 为第一作者！斯坦福发起的科研会议，接收 AI 投稿，AI 审稿、人类只能围观

2025年10月22日，名为“Agents4Science”的虚拟会议将正式召开。这是全球首个明确规定：AI必须担任论文作者和评审人的科学会议。图片地址：，所有提交的研究论文，必须由AI系统完成主要写作，并接受AI系统的同行评审。

7/14/2025 2:15:00 AM

GPT-5来了，用AI解决编程中最难的七大问题

GPT-5来了，用AI解决编程中最难的七大问题

GPT-5来了，用AI解决编程中最难的7大问题尽管各种传闻不断，OpenAI确认将在2025年7月中旬发布GPT-5。它比GPT-4更快、更智能、能力更强。如果你像我一样靠写代码为生，了解它的改变绝对值得。

7/14/2025 1:55:00 AM 前端小智

马斯克的Grok 4敢说ChatGPT不敢说的话？AI"政治正确"的边界在哪

马斯克的Grok 4敢说ChatGPT不敢说的话？AI"政治正确"的边界在哪

一个明显的趋势是，AI大模型正在分化成两个阵营：一边是"政治正确"的主流AI，另一边是"敢说真话"的挑战者。 7月9日晚，马斯克的xAI正式发布Grok 4，宣称要打造"最强AI模型"，而且绝不做"觉醒AI"。这场发布会有点特别。

7/14/2025 1:55:00 AM 阿丸笔记

资讯热榜

AI应用新纪元：2025中国AI应用排行榜榜单揭晓丨2025年1月免费！让图片放大不失真的位图转矢量图神器 Tmttool 6秒视频10秒生成！全新AI视频神器 Grok Imagine 深度体验+元提示词分享最火、最全的Agent记忆综述，NUS、人大、复旦、北大等联合出品后悔没早发现！教你用谷歌Gemini生成精美PPT（附提示词） GGUF 是什么？一文看懂大模型里最火的模型格式 Sora、可灵、即梦哪家强？AI视频软件深度测评！ Mac也能跑Qwen3，一文看懂本地部署qwen 3配置要求

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI新词 AI绘画大模型机器人数据 Midjourney 开源 Meta 微软智能用户 GPT 学习英伟达 Gemini 智能体技术马斯克 Anthropic 图像 AI创作训练 LLM 论文 AI for Science 代码腾讯苹果算法 Agent Claude 芯片具身智能 Stable Diffusion xAI 蛋白质人形机器人开发者生成式神经网络机器学习 AI视频 3D 字节跳动大语言模型 RAG Sora 百度研究 GPU 生成华为工具 AGI 计算生成式AI AI设计大型语言模型搜索亚马逊 AI模型视频生成特斯拉 DeepMind 场景 Copilot 深度学习 Transformer 架构 MCP 编程视觉