理论
CVPR 2025 Highlight | 清华提出一键式视频扩散模型VideoScene,从视频到 3D 的桥梁,一步到位!
清华大学的研究团队首次提出了一种一步式视频扩散技术 VideoScene,专注于 3D 场景视频生成。 它利用了 3D-aware leap flow distillation 策略,通过跳跃式跨越冗余降噪步骤,极大地加速了推理过程,同时结合动态降噪策略,实现了对 3D 先验信息的充分利用,从而在保证高质量的同时大幅提升生成效率。 实验证明VideoScene可弥合从视频到 3D 的差距。
5/12/2025 9:31:44 AM
ICLR2025 | 同济提出无需训练的肖像动画框架FaceShot,让表情包、动漫人物、玩具等“开口说话”
今天和大家分享同济大学的最新研究FaceShot: 一举打破肖像动画模型“驱动真人”的局限,FaceShot 的动画效果可应用于各个领域的角色,包括 3D 动漫、表情符号、2D 动漫、玩具、动物等等。 每个角色都能流畅地跟随行车视频的面部动作,同时保留其原始身份,从而产生出色的动画效果。 FaceShot 的可视化结果。
5/12/2025 9:28:00 AM
AIGC Studio
17000字Claude 系统提示启示:Karpathy 揭秘LLM 学习缺失“第三范式” AI寒武纪 2025年05月11日 19:29
来自Andrej Karpathy的最新洞察,以及一份意外曝光的Claude系统提示词引发的思考Andrej Karpathy提出一个观点:我们当前的LLM学习范式中,至少缺失了一个重要环节。 他将其暂称为“系统提示词学习”(System Prompt Learning)他认为:预训练(Pretraining) 是为了让LLM掌握海量知识微调(SL/RL) 则是为了塑造其习惯性行为这两者都涉及模型参数的改变。 但Karpathy指出,很多人类学习更像是“系统提示词”的调整:遇到问题、想出办法,然后用明确的语言“记住”下次如何应对。
5/12/2025 9:13:00 AM
AI逼疯七巨头,马斯克们深陷中年危机!
中年危机来势汹汹,就连昔日风光无限的科技巨头们也逃不过。 前一秒,你还是那个颠覆传统行业的年轻人;下一秒,就可能像马斯克说的那样,「盯着深渊,嚼着玻璃,眼睁睁地看着颠覆浪潮逼近家门口」。 号称美股「科技七巨头」的几家大型公司,似乎都已陷入了这种境地。
5/12/2025 9:06:00 AM
Copilot上大分,仅数天,陶哲轩的估计验证工具卷到2.0!刚刚又发数学形式化证明视频
本周二,我们报道了菲尔兹奖得主陶哲轩的一个开源项目 —— 在大模型的协助下编写了一个概念验证软件工具,来验证涉及任意正参数的给定估计是否成立(在常数因子范围内)。 在项目中,他开发了一个用于自动(或半自动)证明分析中估计值的框架。 估计值是 X≲Y(在渐近记法中表示 X=O (Y))或 X≪Y(在渐近符号中表示 X=o (Y))形式的不等式。
5/12/2025 9:05:00 AM
谷歌发76页智能体白皮书!你的「AI替身」已上线
近日,谷歌发表了76页的AI智能体白皮书! 智能体通过感知环境,并利用工具策略性地采取行动,实现特定目标。 其核心原理,是将推理能力、逻辑思维以及获取外部信息的能力融合,完成一些基础模型难以实现的任务,做出更复杂的决策。
5/12/2025 9:04:00 AM
九年实现爱因斯坦级AGI?OpenAI科学家Dan Roberts谈强化学习扩展的未来
近日,在红杉资本主办的 AI Ascent 上,OpenAI 研究科学家 Dan Roberts 做了主题为「接下来的未来 / 扩展强化学习」的演讲,其上传到 YouTube 的版本更是采用了一个更吸引人的标题:「9 年实现 AGI? OpenAI 的 Dan Roberts 推测将如何模拟爱因斯坦。 」在这场演讲中,Dan Roberts 介绍了预训练和强化学习的 Scaling Law,并预测强化学习将在未来的 AI 模型构建中发挥越来越大的作用,而随着强化学习继续扩展,我们最终将造出有能力发现新科学的模型。
5/12/2025 9:02:00 AM
机器人的「物理图灵测试」,英伟达Jim Fan 17分钟演讲揭秘具身Scaling Law
Jim Fan,英伟达机器人部门主管和杰出科学家、GEAR 实验室联合领导人、OpenAI 的首位实习生,最近在红杉资本主办的 AI Ascent 上做了一场 17 分钟的演讲,介绍了「解决通用机器人问题的第一性原理」,包括训练机器人 AI 的数据策略、Scaling Law 以及基于物理 API 的美好未来。 其中尤其提到了「物理图灵测试」,大意是说对于一个真实的物理场景和一个指令,会有人类或机器人根据该指令对这个场景进行相应的处理,然后看其他人能否分辨这个场景是人类处理的还是机器人处理的。 很显然,Jim Fan 以及英伟达正在朝着让机器人和 AI 通过这个物理图灵测试而努力。
5/12/2025 9:02:00 AM
字节Seed首次开源代码模型,拿下同规模多个SOTA,提出用小模型管理数据范式
字节Seed首次开源代码模型! Seed-Coder,8B规模,超越Qwen3,拿下多个SOTA。 它证明“只需极少人工参与,LLM就能自行管理代码训练数据”。
5/12/2025 9:00:00 AM
突发!OpenAI正与微软洽谈新融资,筹备IPO
昨晚,金融时报消息,OpenAI和微软正在重新洽谈数十亿美元的合作条款。 这场谈判旨在让OpenAI能够进行未来的首次公开IPO募股,同时保护微软对前沿AI的访问权限。 微软作为OpenAI最大的支持者,是其重组从非营利转向营利的关键阻碍。
5/12/2025 8:59:26 AM
开源全能图像模型媲美GPT-4o!理解生成编辑同时搞定,解决扩散模型误差累计问题
OpenAI GPT-4o发布强大图片生成能力后,业界对大模型生图能力的探索向全模态方向倾斜,训练全模态模型成研发重点。 开源的MLLMs和扩散模型已经过大规模预训练,其从零开始训练统一任务,不如取长补短,将MLLMs的语言建模能力,与扩散模型的像素级图像建模能力,进行有机的结合。 基于这个思路,ModelScope团队提出可同时完成图像理解、生成和编辑的统一模型Nexus-Gen,在图像质量和编辑能力上达GPT-4o同等水平,并将成果全方位开源,望引发开发者讨论,促进All-to-All模型领域发展。
5/12/2025 8:50:00 AM
Qwen上新AI前端工程师!一句话搞定HTML/CSS/JS,新手秒变React大神
Qwen上新“AI前端工程师”Web Dev,一句话开发网页应用。 三大件HTML,CSS,JavaScript一个工具全包了,定睛一看用的还是React框架。 几秒钟生成个人网站,布局美观还带特效,接下来改改内容上传GitHub Pages就完事了。
5/12/2025 8:35:00 AM
即使最好的保障措施也无法阻止大语言模型被愚弄
在采访中,诺丁汉大学副教授Michael Pound分享了他对与大型语言模型(LLM)相关的网络安全风险的见解。 他讨论了CISO和安全团队在LLM使用方面存在的理解或准备上的最大差距,以及在将LLMs集成到业务运营中时保护敏感数据所需的预防措施。 你认为在LLM使用方面,CISO和安全团队在理解或准备上存在的最大差距是什么?许多安全专业人员——相当合理地——对LLM背后的机器学习原理并不精通。
5/12/2025 8:00:00 AM
Mirko Zorz
打造蓬勃发展、支持AI的企业文化的七个步骤
几十年前,管理大师彼得·德鲁克曾提出这样一个观点:“文化会吃掉战略当早餐。 ” 也就是说,如果没有一个反应迅速、具有前瞻性的企业文化,即使是最精心策划的商业战略也会失败。 换句话说,正如人们推动世界运转,也推动企业发展一样,推动AI发展的也必将是人。
5/12/2025 7:15:00 AM
Joe
RASA:LLM系统中实现智能体记忆的认知框架(含代码)
大语言模型(LLMs)和智能体不断进化,已不再局限于简单的响应和输出,而是在推理与行动能力上持续成熟。 随着智能体架构的进步,记忆、回忆和知识应用的方式,在系统设计和可信度方面变得愈发关键且复杂。 RASA(Role-Aligned Software Architecture,角色对齐软件架构)作为一个创新性的认知框架,为构建具备强大记忆能力、能够灵活适应各种场景的智能体提供了全新的思路和方法。
5/12/2025 2:50:00 AM
大模型之路
大模型时代:AI 网关的智能连接与场景对接
1.背景随着 AI 技术快速发展,业务对 AI 能力的渴求日益增长。 当 AI 服务面对处理大规模请求和高并发流量时,AI 网关从中扮演着至关重要的角色。 AI 服务通常涉及大量的计算任务和设备资源占用,此时需要一个 AI 网关负责协调这些请求来确保系统的稳定性与高效性。
5/12/2025 2:20:00 AM
通用工程
哈佛新论文揭示 Transformer 模型与人脑“同步纠结”全过程!AI也会犹豫、反悔?
近日,来自哈佛大学、布朗大学以及图宾根大学研究者们,共同发表了一项关于Transformer模型与人类认知处理相关性的研究论文:——《Linking forward-pass dynamics in Transformers and real-time human processing》意译过来就是:Transformer模型的“思考过程”与人类大脑实时认知的奇妙相似图片换句话说,它想搞清楚一个“老问题”:AI模型的内部处理过程,和人类大脑的实时认知,有多少相似? 过去我们研究AI和人类的相似性,最常见的做法是什么? “看结果”:让AI做题,看它答对多少,概率分布和人的选择对不对得上。
5/12/2025 2:10:00 AM
文摘菌
资讯热榜
DeepRare 重磅发布:全球首个可循证智能体诊断系统,直击医学Last Exam难题
AI时代设计师如何突围?D20峰会揭示未来设计师生存法则
李沐B站更新了!教你手搓语音大模型,代码全开源还能在线试玩
考试提分新工具:网页版 ChatGPT 测试“学习和掌握”功能,AI 助你成学霸
我测试了100+案例,教你零基础复刻外网刷屏的 AI 视频(附提示词模板)
MinerU 2.0部署教程!
终结Coding?ShellAgent三句话造出马斯克同款「AI女友」!
阿里云通义千问 Qwen3-Coder 宣布开源:480B 参数、原生支持 256K 上下文,可与 Claude Sonnet4 媲美
标签云
人工智能
AI
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
谷歌
机器人
数据
大模型
Midjourney
开源
智能
用户
Meta
微软
GPT
学习
技术
图像
Gemini
AI创作
马斯克
论文
英伟达
Anthropic
智能体
代码
算法
Stable Diffusion
训练
芯片
开发者
蛋白质
腾讯
生成式
苹果
LLM
神经网络
AI新词
Claude
3D
研究
生成
机器学习
AI for Science
xAI
计算
人形机器人
Agent
Sora
AI视频
GPU
百度
AI设计
华为
搜索
大语言模型
工具
场景
字节跳动
具身智能
RAG
大型语言模型
预测
深度学习
伟达
视觉
Transformer
神器推荐
AGI
亚马逊
视频生成
Copilot
DeepMind
模态
架构
LLaMA