AI在线 AI在线

理论

CVPR2025|MCA-Ctrl:多方协同注意力控制助力AIGC时代图像精准定制化

CVPR2025|MCA-Ctrl:多方协同注意力控制助力AIGC时代图像精准定制化

本文由中国科学院计算技术研究所研究团队完成,第一作者为硕士生杨晗,通讯作者为副研究员安竹林,助理研究员杨传广。 论文标题:Multi-party Collaborative Attention Control for Image Customization论文地址::,生成式人工智能(Generative AI)技术的突破性进展,特别是文本到图像 T2I 生成模型的快速发展,已经使 AI 系统能够根据用户输入的文本提示(prompt)生成高度逼真的图像。 从早期的 DALL・E 到 Stable Diffusion、Midjourney 等模型,这一领域的技术迭代呈现出加速发展的态势。
5/12/2025 2:16:52 PM
生成式人工智能驱动的数据工程:现代数据工程师至少应掌握哪些技能

生成式人工智能驱动的数据工程:现代数据工程师至少应掌握哪些技能

生成式人工智能 (GenAI) 已从最初的好奇发展成为数据工程工作流程中的日常工具:我们现在只需一个精心设计的指令,就能起草架构、生成模式、启动基础设施模板,甚至生成隐私保护数据。 本文将我的经验与当前的行业实践相结合,提炼成一份循序渐进的参考指南,供想成为数据工程师或处于职业生涯中期的人士参考。 为什么它今天如此重要?
5/12/2025 9:31:58 AM 晓晓
CVPR 2025 Highlight | 清华提出一键式视频扩散模型VideoScene,从视频到 3D 的桥梁,一步到位!

CVPR 2025 Highlight | 清华提出一键式视频扩散模型VideoScene,从视频到 3D 的桥梁,一步到位!

清华大学的研究团队首次提出了一种一步式视频扩散技术 VideoScene,专注于 3D 场景视频生成。 它利用了 3D-aware leap flow distillation 策略,通过跳跃式跨越冗余降噪步骤,极大地加速了推理过程,同时结合动态降噪策略,实现了对 3D 先验信息的充分利用,从而在保证高质量的同时大幅提升生成效率。 实验证明VideoScene可弥合从视频到 3D 的差距。
5/12/2025 9:31:44 AM
ICLR2025 | 同济提出无需训练的肖像动画框架FaceShot,让表情包、动漫人物、玩具等“开口说话”

ICLR2025 | 同济提出无需训练的肖像动画框架FaceShot,让表情包、动漫人物、玩具等“开口说话”

今天和大家分享同济大学的最新研究FaceShot: 一举打破肖像动画模型“驱动真人”的局限,FaceShot 的动画效果可应用于各个领域的角色,包括 3D 动漫、表情符号、2D 动漫、玩具、动物等等。 每个角色都能流畅地跟随行车视频的面部动作,同时保留其原始身份,从而产生出色的动画效果。 FaceShot 的可视化结果。
5/12/2025 9:28:00 AM AIGC Studio
17000字Claude 系统提示启示:Karpathy 揭秘LLM 学习缺失“第三范式” AI寒武纪   2025年05月11日 19:29

17000字Claude 系统提示启示:Karpathy 揭秘LLM 学习缺失“第三范式” AI寒武纪 2025年05月11日 19:29

来自Andrej Karpathy的最新洞察,以及一份意外曝光的Claude系统提示词引发的思考Andrej Karpathy提出一个观点:我们当前的LLM学习范式中,至少缺失了一个重要环节。 他将其暂称为“系统提示词学习”(System Prompt Learning)他认为:预训练(Pretraining) 是为了让LLM掌握海量知识微调(SL/RL) 则是为了塑造其习惯性行为这两者都涉及模型参数的改变。 但Karpathy指出,很多人类学习更像是“系统提示词”的调整:遇到问题、想出办法,然后用明确的语言“记住”下次如何应对。
5/12/2025 9:13:00 AM
AI逼疯七巨头,马斯克们深陷中年危机!

AI逼疯七巨头,马斯克们深陷中年危机!

中年危机来势汹汹,就连昔日风光无限的科技巨头们也逃不过。 前一秒,你还是那个颠覆传统行业的年轻人;下一秒,就可能像马斯克说的那样,「盯着深渊,嚼着玻璃,眼睁睁地看着颠覆浪潮逼近家门口」。 号称美股「科技七巨头」的几家大型公司,似乎都已陷入了这种境地。
5/12/2025 9:06:00 AM
Copilot上大分,仅数天,陶哲轩的估计验证工具卷到2.0!刚刚又发数学形式化证明视频

Copilot上大分,仅数天,陶哲轩的估计验证工具卷到2.0!刚刚又发数学形式化证明视频

本周二,我们报道了菲尔兹奖得主陶哲轩的一个开源项目 —— 在大模型的协助下编写了一个概念验证软件工具,来验证涉及任意正参数的给定估计是否成立(在常数因子范围内)。 在项目中,他开发了一个用于自动(或半自动)证明分析中估计值的框架。 估计值是 X≲Y(在渐近记法中表示 X=O (Y))或 X≪Y(在渐近符号中表示 X=o (Y))形式的不等式。
5/12/2025 9:05:00 AM
谷歌发76页智能体白皮书!你的「AI替身」已上线

谷歌发76页智能体白皮书!你的「AI替身」已上线

近日,谷歌发表了76页的AI智能体白皮书! 智能体通过感知环境,并利用工具策略性地采取行动,实现特定目标。 其核心原理,是将推理能力、逻辑思维以及获取外部信息的能力融合,完成一些基础模型难以实现的任务,做出更复杂的决策。
5/12/2025 9:04:00 AM
九年实现爱因斯坦级AGI?OpenAI科学家Dan Roberts谈强化学习扩展的未来

九年实现爱因斯坦级AGI?OpenAI科学家Dan Roberts谈强化学习扩展的未来

近日,在红杉资本主办的 AI Ascent 上,OpenAI 研究科学家 Dan Roberts 做了主题为「接下来的未来 / 扩展强化学习」的演讲,其上传到 YouTube 的版本更是采用了一个更吸引人的标题:「9 年实现 AGI? OpenAI 的 Dan Roberts 推测将如何模拟爱因斯坦。 」在这场演讲中,Dan Roberts 介绍了预训练和强化学习的 Scaling Law,并预测强化学习将在未来的 AI 模型构建中发挥越来越大的作用,而随着强化学习继续扩展,我们最终将造出有能力发现新科学的模型。
5/12/2025 9:02:00 AM
机器人的「物理图灵测试」,英伟达Jim Fan 17分钟演讲揭秘具身Scaling Law

机器人的「物理图灵测试」,英伟达Jim Fan 17分钟演讲揭秘具身Scaling Law

Jim Fan,英伟达机器人部门主管和杰出科学家、GEAR 实验室联合领导人、OpenAI 的首位实习生,最近在红杉资本主办的 AI Ascent 上做了一场 17 分钟的演讲,介绍了「解决通用机器人问题的第一性原理」,包括训练机器人 AI 的数据策略、Scaling Law 以及基于物理 API 的美好未来。 其中尤其提到了「物理图灵测试」,大意是说对于一个真实的物理场景和一个指令,会有人类或机器人根据该指令对这个场景进行相应的处理,然后看其他人能否分辨这个场景是人类处理的还是机器人处理的。 很显然,Jim Fan 以及英伟达正在朝着让机器人和 AI 通过这个物理图灵测试而努力。
5/12/2025 9:02:00 AM
字节Seed首次开源代码模型,拿下同规模多个SOTA,提出用小模型管理数据范式

字节Seed首次开源代码模型,拿下同规模多个SOTA,提出用小模型管理数据范式

字节Seed首次开源代码模型! Seed-Coder,8B规模,超越Qwen3,拿下多个SOTA。 它证明“只需极少人工参与,LLM就能自行管理代码训练数据”。
5/12/2025 9:00:00 AM
突发!OpenAI正与微软洽谈新融资,筹备IPO

突发!OpenAI正与微软洽谈新融资,筹备IPO

昨晚,金融时报消息,OpenAI和微软正在重新洽谈数十亿美元的合作条款。 这场谈判旨在让OpenAI能够进行未来的首次公开IPO募股,同时保护微软对前沿AI的访问权限。 微软作为OpenAI最大的支持者,是其重组从非营利转向营利的关键阻碍。
5/12/2025 8:59:26 AM
开源全能图像模型媲美GPT-4o!理解生成编辑同时搞定,解决扩散模型误差累计问题

开源全能图像模型媲美GPT-4o!理解生成编辑同时搞定,解决扩散模型误差累计问题

OpenAI GPT-4o发布强大图片生成能力后,业界对大模型生图能力的探索向全模态方向倾斜,训练全模态模型成研发重点。 开源的MLLMs和扩散模型已经过大规模预训练,其从零开始训练统一任务,不如取长补短,将MLLMs的语言建模能力,与扩散模型的像素级图像建模能力,进行有机的结合。 基于这个思路,ModelScope团队提出可同时完成图像理解、生成和编辑的统一模型Nexus-Gen,在图像质量和编辑能力上达GPT-4o同等水平,并将成果全方位开源,望引发开发者讨论,促进All-to-All模型领域发展。
5/12/2025 8:50:00 AM
一个「always」站在大模型技术C位的传奇男子

一个「always」站在大模型技术C位的传奇男子

怎么老是你? ? ?
5/12/2025 8:40:00 AM
Qwen上新AI前端工程师!一句话搞定HTML/CSS/JS,新手秒变React大神

Qwen上新AI前端工程师!一句话搞定HTML/CSS/JS,新手秒变React大神

Qwen上新“AI前端工程师”Web Dev,一句话开发网页应用。 三大件HTML,CSS,JavaScript一个工具全包了,定睛一看用的还是React框架。 几秒钟生成个人网站,布局美观还带特效,接下来改改内容上传GitHub Pages就完事了。
5/12/2025 8:35:00 AM
即使最好的保障措施也无法阻止大语言模型被愚弄

即使最好的保障措施也无法阻止大语言模型被愚弄

在采访中,诺丁汉大学副教授Michael Pound分享了他对与大型语言模型(LLM)相关的网络安全风险的见解。 他讨论了CISO和安全团队在LLM使用方面存在的理解或准备上的最大差距,以及在将LLMs集成到业务运营中时保护敏感数据所需的预防措施。 你认为在LLM使用方面,CISO和安全团队在理解或准备上存在的最大差距是什么?许多安全专业人员——相当合理地——对LLM背后的机器学习原理并不精通。
5/12/2025 8:00:00 AM Mirko Zorz
打造蓬勃发展、支持AI的企业文化的七个步骤

打造蓬勃发展、支持AI的企业文化的七个步骤

几十年前,管理大师彼得·德鲁克曾提出这样一个观点:“文化会吃掉战略当早餐。 ” 也就是说,如果没有一个反应迅速、具有前瞻性的企业文化,即使是最精心策划的商业战略也会失败。 换句话说,正如人们推动世界运转,也推动企业发展一样,推动AI发展的也必将是人。
5/12/2025 7:15:00 AM Joe
RASA:LLM系统中实现智能体记忆的认知框架(含代码)

RASA:LLM系统中实现智能体记忆的认知框架(含代码)

大语言模型(LLMs)和智能体不断进化,已不再局限于简单的响应和输出,而是在推理与行动能力上持续成熟。 随着智能体架构的进步,记忆、回忆和知识应用的方式,在系统设计和可信度方面变得愈发关键且复杂。 RASA(Role-Aligned Software Architecture,角色对齐软件架构)作为一个创新性的认知框架,为构建具备强大记忆能力、能够灵活适应各种场景的智能体提供了全新的思路和方法。
5/12/2025 2:50:00 AM 大模型之路