理论

CVPR2025｜MCA-Ctrl：多方协同注意力控制助力AIGC时代图像精准定制化

CVPR2025｜MCA-Ctrl：多方协同注意力控制助力AIGC时代图像精准定制化

本文由中国科学院计算技术研究所研究团队完成，第一作者为硕士生杨晗，通讯作者为副研究员安竹林，助理研究员杨传广。论文标题：Multi-party Collaborative Attention Control for Image Customization论文地址：：，生成式人工智能（Generative AI）技术的突破性进展，特别是文本到图像 T2I 生成模型的快速发展，已经使 AI 系统能够根据用户输入的文本提示（prompt）生成高度逼真的图像。从早期的 DALL・E 到 Stable Diffusion、Midjourney 等模型，这一领域的技术迭代呈现出加速发展的态势。

5/12/2025 2:16:52 PM

生成式人工智能驱动的数据工程:现代数据工程师至少应掌握哪些技能

生成式人工智能驱动的数据工程:现代数据工程师至少应掌握哪些技能

生成式人工智能 (GenAI) 已从最初的好奇发展成为数据工程工作流程中的日常工具：我们现在只需一个精心设计的指令，就能起草架构、生成模式、启动基础设施模板，甚至生成隐私保护数据。本文将我的经验与当前的行业实践相结合，提炼成一份循序渐进的参考指南，供想成为数据工程师或处于职业生涯中期的人士参考。为什么它今天如此重要？

5/12/2025 9:31:58 AM 晓晓

CVPR 2025 Highlight | 清华提出一键式视频扩散模型VideoScene，从视频到 3D 的桥梁，一步到位！

CVPR 2025 Highlight | 清华提出一键式视频扩散模型VideoScene，从视频到 3D 的桥梁，一步到位！

清华大学的研究团队首次提出了一种一步式视频扩散技术 VideoScene，专注于 3D 场景视频生成。它利用了 3D-aware leap flow distillation 策略，通过跳跃式跨越冗余降噪步骤，极大地加速了推理过程，同时结合动态降噪策略，实现了对 3D 先验信息的充分利用，从而在保证高质量的同时大幅提升生成效率。实验证明VideoScene可弥合从视频到 3D 的差距。

5/12/2025 9:31:44 AM

ICLR2025 | 同济提出无需训练的肖像动画框架FaceShot，让表情包、动漫人物、玩具等“开口说话”

ICLR2025 | 同济提出无需训练的肖像动画框架FaceShot，让表情包、动漫人物、玩具等“开口说话”

今天和大家分享同济大学的最新研究FaceShot: 一举打破肖像动画模型“驱动真人”的局限，FaceShot 的动画效果可应用于各个领域的角色，包括 3D 动漫、表情符号、2D 动漫、玩具、动物等等。每个角色都能流畅地跟随行车视频的面部动作，同时保留其原始身份，从而产生出色的动画效果。 FaceShot 的可视化结果。

5/12/2025 9:28:00 AM AIGC Studio

17000字Claude 系统提示启示：Karpathy 揭秘LLM 学习缺失“第三范式” AI寒武纪 2025年05月11日 19:29

17000字Claude 系统提示启示：Karpathy 揭秘LLM 学习缺失“第三范式” AI寒武纪 2025年05月11日 19:29

来自Andrej Karpathy的最新洞察，以及一份意外曝光的Claude系统提示词引发的思考Andrej Karpathy提出一个观点：我们当前的LLM学习范式中，至少缺失了一个重要环节。他将其暂称为“系统提示词学习”（System Prompt Learning）他认为：预训练（Pretraining）是为了让LLM掌握海量知识微调（SL/RL）则是为了塑造其习惯性行为这两者都涉及模型参数的改变。但Karpathy指出，很多人类学习更像是“系统提示词”的调整：遇到问题、想出办法，然后用明确的语言“记住”下次如何应对。

5/12/2025 9:13:00 AM

AI逼疯七巨头，马斯克们深陷中年危机！

AI逼疯七巨头，马斯克们深陷中年危机！

中年危机来势汹汹，就连昔日风光无限的科技巨头们也逃不过。前一秒，你还是那个颠覆传统行业的年轻人；下一秒，就可能像马斯克说的那样，「盯着深渊，嚼着玻璃，眼睁睁地看着颠覆浪潮逼近家门口」。号称美股「科技七巨头」的几家大型公司，似乎都已陷入了这种境地。

5/12/2025 9:06:00 AM

Copilot上大分，仅数天，陶哲轩的估计验证工具卷到2.0！刚刚又发数学形式化证明视频

Copilot上大分，仅数天，陶哲轩的估计验证工具卷到2.0！刚刚又发数学形式化证明视频

本周二，我们报道了菲尔兹奖得主陶哲轩的一个开源项目 —— 在大模型的协助下编写了一个概念验证软件工具，来验证涉及任意正参数的给定估计是否成立（在常数因子范围内）。在项目中，他开发了一个用于自动（或半自动）证明分析中估计值的框架。估计值是 X≲Y（在渐近记法中表示 X=O (Y)）或 X≪Y（在渐近符号中表示 X=o (Y)）形式的不等式。

5/12/2025 9:05:00 AM

谷歌发76页智能体白皮书！你的「AI替身」已上线

谷歌发76页智能体白皮书！你的「AI替身」已上线

近日，谷歌发表了76页的AI智能体白皮书！智能体通过感知环境，并利用工具策略性地采取行动，实现特定目标。其核心原理，是将推理能力、逻辑思维以及获取外部信息的能力融合，完成一些基础模型难以实现的任务，做出更复杂的决策。

5/12/2025 9:04:00 AM

九年实现爱因斯坦级AGI？OpenAI科学家Dan Roberts谈强化学习扩展的未来

九年实现爱因斯坦级AGI？OpenAI科学家Dan Roberts谈强化学习扩展的未来

近日，在红杉资本主办的 AI Ascent 上，OpenAI 研究科学家 Dan Roberts 做了主题为「接下来的未来 / 扩展强化学习」的演讲，其上传到 YouTube 的版本更是采用了一个更吸引人的标题：「9 年实现 AGI？ OpenAI 的 Dan Roberts 推测将如何模拟爱因斯坦。」在这场演讲中，Dan Roberts 介绍了预训练和强化学习的 Scaling Law，并预测强化学习将在未来的 AI 模型构建中发挥越来越大的作用，而随着强化学习继续扩展，我们最终将造出有能力发现新科学的模型。

5/12/2025 9:02:00 AM

机器人的「物理图灵测试」，英伟达Jim Fan 17分钟演讲揭秘具身Scaling Law

机器人的「物理图灵测试」，英伟达Jim Fan 17分钟演讲揭秘具身Scaling Law

Jim Fan，英伟达机器人部门主管和杰出科学家、GEAR 实验室联合领导人、OpenAI 的首位实习生，最近在红杉资本主办的 AI Ascent 上做了一场 17 分钟的演讲，介绍了「解决通用机器人问题的第一性原理」，包括训练机器人 AI 的数据策略、Scaling Law 以及基于物理 API 的美好未来。其中尤其提到了「物理图灵测试」，大意是说对于一个真实的物理场景和一个指令，会有人类或机器人根据该指令对这个场景进行相应的处理，然后看其他人能否分辨这个场景是人类处理的还是机器人处理的。很显然，Jim Fan 以及英伟达正在朝着让机器人和 AI 通过这个物理图灵测试而努力。

5/12/2025 9:02:00 AM

字节Seed首次开源代码模型，拿下同规模多个SOTA，提出用小模型管理数据范式

字节Seed首次开源代码模型，拿下同规模多个SOTA，提出用小模型管理数据范式

字节Seed首次开源代码模型！ Seed-Coder，8B规模，超越Qwen3，拿下多个SOTA。它证明“只需极少人工参与，LLM就能自行管理代码训练数据”。

5/12/2025 9:00:00 AM

突发！OpenAI正与微软洽谈新融资，筹备IPO

突发！OpenAI正与微软洽谈新融资，筹备IPO

昨晚，金融时报消息，OpenAI和微软正在重新洽谈数十亿美元的合作条款。这场谈判旨在让OpenAI能够进行未来的首次公开IPO募股，同时保护微软对前沿AI的访问权限。微软作为OpenAI最大的支持者，是其重组从非营利转向营利的关键阻碍。

5/12/2025 8:59:26 AM

开源全能图像模型媲美GPT-4o！理解生成编辑同时搞定，解决扩散模型误差累计问题

开源全能图像模型媲美GPT-4o！理解生成编辑同时搞定，解决扩散模型误差累计问题

OpenAI GPT-4o发布强大图片生成能力后，业界对大模型生图能力的探索向全模态方向倾斜，训练全模态模型成研发重点。开源的MLLMs和扩散模型已经过大规模预训练，其从零开始训练统一任务，不如取长补短，将MLLMs的语言建模能力，与扩散模型的像素级图像建模能力，进行有机的结合。基于这个思路，ModelScope团队提出可同时完成图像理解、生成和编辑的统一模型Nexus-Gen，在图像质量和编辑能力上达GPT-4o同等水平，并将成果全方位开源，望引发开发者讨论，促进All-to-All模型领域发展。

5/12/2025 8:50:00 AM

一个「always」站在大模型技术C位的传奇男子

一个「always」站在大模型技术C位的传奇男子

怎么老是你？？？

5/12/2025 8:40:00 AM

Qwen上新AI前端工程师！一句话搞定HTML/CSS/JS，新手秒变React大神

Qwen上新AI前端工程师！一句话搞定HTML/CSS/JS，新手秒变React大神

Qwen上新“AI前端工程师”Web Dev，一句话开发网页应用。三大件HTML，CSS，JavaScript一个工具全包了，定睛一看用的还是React框架。几秒钟生成个人网站，布局美观还带特效，接下来改改内容上传GitHub Pages就完事了。

5/12/2025 8:35:00 AM

即使最好的保障措施也无法阻止大语言模型被愚弄

即使最好的保障措施也无法阻止大语言模型被愚弄

在采访中，诺丁汉大学副教授Michael Pound分享了他对与大型语言模型(LLM)相关的网络安全风险的见解。他讨论了CISO和安全团队在LLM使用方面存在的理解或准备上的最大差距，以及在将LLMs集成到业务运营中时保护敏感数据所需的预防措施。你认为在LLM使用方面，CISO和安全团队在理解或准备上存在的最大差距是什么?许多安全专业人员——相当合理地——对LLM背后的机器学习原理并不精通。

5/12/2025 8:00:00 AM Mirko Zorz

打造蓬勃发展、支持AI的企业文化的七个步骤

打造蓬勃发展、支持AI的企业文化的七个步骤

几十年前，管理大师彼得·德鲁克曾提出这样一个观点：“文化会吃掉战略当早餐。 ” 也就是说，如果没有一个反应迅速、具有前瞻性的企业文化，即使是最精心策划的商业战略也会失败。换句话说，正如人们推动世界运转，也推动企业发展一样，推动AI发展的也必将是人。

5/12/2025 7:15:00 AM Joe

RASA：LLM系统中实现智能体记忆的认知框架(含代码)

RASA：LLM系统中实现智能体记忆的认知框架(含代码)

大语言模型（LLMs）和智能体不断进化，已不再局限于简单的响应和输出，而是在推理与行动能力上持续成熟。随着智能体架构的进步，记忆、回忆和知识应用的方式，在系统设计和可信度方面变得愈发关键且复杂。 RASA（Role-Aligned Software Architecture，角色对齐软件架构）作为一个创新性的认知框架，为构建具备强大记忆能力、能够灵活适应各种场景的智能体提供了全新的思路和方法。

5/12/2025 2:50:00 AM 大模型之路

资讯热榜

免费！让图片放大不失真的位图转矢量图神器 Tmttool AI应用新纪元：2025中国AI应用排行榜榜单揭晓丨2025年1月 6秒视频10秒生成！全新AI视频神器 Grok Imagine 深度体验+元提示词分享最火、最全的Agent记忆综述，NUS、人大、复旦、北大等联合出品后悔没早发现！教你用谷歌Gemini生成精美PPT（附提示词） GGUF 是什么？一文看懂大模型里最火的模型格式 Sora、可灵、即梦哪家强？AI视频软件深度测评！ OmniParser V2 在 Windows 系统上的详细安装与运行指南

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI新词 AI绘画大模型机器人数据 Midjourney 开源 Meta 微软智能用户 GPT 学习英伟达 Gemini 智能体技术马斯克 Anthropic 图像 AI创作训练 LLM 论文 AI for Science 代码腾讯苹果算法 Agent Claude 芯片具身智能 Stable Diffusion xAI 蛋白质人形机器人开发者生成式神经网络机器学习 AI视频 3D 字节跳动大语言模型 RAG Sora 百度研究 GPU 生成华为工具 AGI 计算生成式AI AI设计大型语言模型搜索亚马逊 AI模型视频生成特斯拉 DeepMind 场景 Copilot 深度学习 Transformer 架构 MCP 编程视觉