AI
EasyCache:无需训练的视频扩散模型推理加速——极简高效的视频生成提速方案
论文作者团队简介:本文第一作者周鑫,共同第一作者梁定康,均为华中科技大学博士生,导师为白翔教授。 合作者包括华中科技大学陈楷锦、冯天瑞、林鸿凯,旷视科技陈习武、丁宜康、谭飞杨和香港大学赵恒爽助理教授。 在HunyuanVideo上,EasyCache在复杂场景下保持与原视频的一致外观,同时显著加速1.
无Tokenizer时代真要来了?Mamba作者再发颠覆性论文,挑战Transformer
我们终于摆脱 tokenization 了吗? 答案是:可能性无限大。 最近,Mamba 作者之一 Albert Gu 又发新研究,他参与的一篇论文《 Dynamic Chunking for End-to-End Hierarchical Sequence Modeling 》提出了一个分层网络 H-Net,其用模型内部的动态分块过程取代 tokenization,从而自动发现和操作有意义的数据单元。
第一作者必须是AI!首个面向AI作者的学术会议来了,斯坦福发起
在 AI 已深度介入科研流程的今天,从提出假设到生成图表、撰写论文,它正逐步参与乃至重塑整个科学研究的方式。 但讽刺的是,尽管我们在 CVPR、NeurIPS、ICLR、ICML 甚至 ACL 等顶会中看到 AI 无处不在,却几乎没有任何一个会议或期刊承认 AI 的「作者身份」——AI 被广泛使用,却从未被名正言顺地署名。 这一局面,终于被打破了。
模拟大脑功能分化!北大与港中文发布Fast-in-Slow VLA,让“快行动”和“慢推理”统一协作
作者简介:由来自北京大学、香港中文大学、北京智源研究院、智平方的老师同学联合研究,作者包括博士生陈浩、刘家铭、顾晨阳、刘卓洋,通讯作者为北京大学仉尚航。 北京大学 HMI 实验室长期致力于具身智能和多模态学习领域的研究,欢迎关注。 快执行与慢思考:在机器人操控领域,实现高频响应与复杂推理的统一,一直是一个重大技术挑战。
氛围编程后,Karpathy又双叒有新「脑洞」!PDF将死,未来99%是AI氛围阅读
Karpathy大神这次继Vibe Coding氛围编程后,又想造全新概念了! 大神说他早就抱怨了很多次,未来99%的「Attention」(注意力)即将被AI,而非人类关注。 但是现在99.9%的互联网内容还是「写给人看的」,不论是网页、视频还是科研PDF论文。
清华ICCV25丨密室逃脱成AI新考场,通关率不足50%,暴露空间推理短板
近年来,多模态大模型(MLLMs)发展迅猛,从看图说话到视频理解,似乎无所不能。 但你是否想过:它们真的“看懂”并“想通”了吗? 模型在面对复杂的、多步骤的视觉推理任务时,能否像人类一样推理和决策?
ICML 2025 Oral!北大和腾讯优图破解AI生成图像检测泛化难题:正交子空间分解
随着 OpenAI 推出 GPT-4o 的图像生成功能,AI 生图能力被拉上了一个新的高度,但你有没有想过,这光鲜亮丽的背后也隐藏着严峻的安全挑战:如何区分生成图像和真实图像? 尽管目前有很多研究已在尝试解决这个挑战,然而这个挑战深层次的泛化难题一直没有得到合理的探究,生成图像和真实图像的区别真的是简单的 「真假二分类 」吗? 近日,北京大学与腾讯优图实验室等机构的研究人员针对这一泛化难题做了一些深层次的探究,研究表明 AI 生成图像检测任务远比 「真假二分类 」复杂!
用AI写代码效率反降19%!246项任务实测,16位资深程序员参与
用AI,有经验的开发者反倒被拖慢了? 在一项基于真实开源项目的实验中,研究者发现使用AI工具不仅没有提升开发效率,反而让任务时间增加19%。 这简直与人们预测的结果完全相反。
杨植麟被梁文锋叫醒了!Kimi新模型发布即开源,1T参数全线SOT
172天过去,Kimi在深夜低调给出了DeepSeek冲击波后的回应。 全新Kimi K2基础大模型,MoE架构,总参数1T,激活参数32B,能力领先性尤其展现在代码、Agent、数学推理任务上。 Kimi援引多个基准评测数据,创造了开源全新SOTA。
用AI,写代码只会更慢!但一定更「快乐」
AI进化成编程怪物后,这或许是很多程序员/科研人的日常。 但是,用了AI,写代码一定更快了吗? METR(Model Evaluation & Threat Research)研究发现,如果你够强、对代码库够熟悉,AI工具反而会给你拖后腿!
必须 AI 为第一作者!斯坦福发起的科研会议,接收 AI 投稿,AI 审稿、人类只能围观
2025年10月22日,名为“Agents4Science”的虚拟会议将正式召开。 这是全球首个明确规定:AI必须担任论文作者和评审人的科学会议。 图片地址:,所有提交的研究论文,必须由AI系统完成主要写作,并接受AI系统的同行评审。
马斯克的Grok 4敢说ChatGPT不敢说的话?AI"政治正确"的边界在哪
一个明显的趋势是,AI大模型正在分化成两个阵营:一边是"政治正确"的主流AI,另一边是"敢说真话"的挑战者。 7月9日晚,马斯克的xAI正式发布Grok 4,宣称要打造"最强AI模型",而且绝不做"觉醒AI"。 这场发布会有点特别。
奥尔特曼宣布延期 OpenAI 首个开源权重 AI 模型
AI在线 7 月 12 日消息,OpenAI 首席执行官山姆・奥尔特曼(Sam Altman)今天(7 月 12 日)在 X 平台发布推文,表示为进一步测试模型安全,将推迟发布其首个开源 AI 模型。 OpenAI 公司的首个开源 AI 模型上月已延期 1 次,原计划下周发布该模式,不过奥尔特曼表示为进一步的安全测试,选择再次延期,但并未公布新的发布时间点。 AI在线翻译奥尔特曼推文内容如下:我们曾计划下周发布我们的开源权重模型。
人工智能创新创业大赛总决赛圆满收官
群雄逐鹿运河畔,AI创新浪潮涌。 7月11日,“智汇运河·智算未来”人工智能创新创业大赛总决赛在杭州拱墅圆满收官。 18支入围团队携前沿项目同台竞技,路演现场精彩纷呈。
前百川联创焦可新创业公司曝光,新项目已上线 App Store
知情人士透露,“来福”由焦可创立的新公司“北京耳朵时间科技有限公司”推出,该公司成立于 2025 年 2 月 17 日,注册资本为 100 万元,法人为焦可本人,目前已获得知名美元资本的投资青睐。 根据招聘网站信息,目前“来福”团队规模的在 10 人以内,成员背景均来自大厂及“六小龙”,并且全员毕业于 985、211 或海外名校。 招聘方向集中在音频算法、语音合成、语音交互等核心岗位。
独家丨百川智能联合创始人谢剑将离职
谢剑硕士毕业于武汉大学人工智能方向,2012 年获得硕士学位后加入百度,后在职攻读博士,并获得清华大学计算机科学博士学位。 他曾是百度集团内最年轻晋升为主任研发架构师的工程师之一,同时也是集团总技术委员会成员。 在百度期间,谢剑深度参与并推动了凤巢广告、搜索、智能助手等核心 AI 业务的发展,拥有超过十年在自然语言处理、搜索、计算广告、对话系统和预训练语言模型等方向的算法研发及团队管理经验。
AI 陪伴赛道,会诞生下一个“泡泡玛特”吗? | GAIR Live
AI 正在从生产工具的角色中抽身,缓慢却坚定地走向一个全新的方向——情绪陪伴。 当算法不再只为效率服务,越来越多的产品开始尝试构建“有灵魂”的存在。 无论是可以挂在胸前、随时回应你情绪的小型硬件,能够在家中自由行走、具备宠物属性的机器人,还是在手机里与你聊天、分享生活的虚拟人,这一代 AI 的设计逻辑已经从“怎么帮你完成任务”,转向“怎么陪你过日子”。
临交工两周,智能体演示全盘血崩!大牛顿悟:我只是做了个花式提示词链!血泪重构血泪总结:AI智能体的五个进阶等级(附完整代码实现)
编译 | 云昭作者 | Paolo Perrone出品 | 51CTO技术栈(微信号:blog51cto)在距离产品大限还有两周时,我的智能体原型彻底崩了。 表面上看,它没什么问题:能抓取数据、调用工具、还能解释它的执行步骤。 但其实全是装的。
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
谷歌
DeepSeek
AI绘画
大模型
AI新词
机器人
数据
Midjourney
开源
Meta
微软
智能
用户
GPT
学习
智能体
技术
Gemini
英伟达
马斯克
Anthropic
图像
AI创作
训练
LLM
论文
代码
AI for Science
苹果
算法
腾讯
Agent
Claude
芯片
Stable Diffusion
具身智能
xAI
蛋白质
开发者
人形机器人
生成式
神经网络
机器学习
AI视频
3D
RAG
大语言模型
字节跳动
Sora
百度
研究
GPU
生成
工具
华为
AGI
计算
大型语言模型
AI设计
生成式AI
搜索
视频生成
亚马逊
AI模型
DeepMind
特斯拉
场景
深度学习
Transformer
架构
Copilot
MCP
编程
视觉