资讯列表
ICLR2025 | 同济提出无需训练的肖像动画框架FaceShot,让表情包、动漫人物、玩具等“开口说话”
今天和大家分享同济大学的最新研究FaceShot: 一举打破肖像动画模型“驱动真人”的局限,FaceShot 的动画效果可应用于各个领域的角色,包括 3D 动漫、表情符号、2D 动漫、玩具、动物等等。 每个角色都能流畅地跟随行车视频的面部动作,同时保留其原始身份,从而产生出色的动画效果。 FaceShot 的可视化结果。
5/12/2025 9:28:00 AM
AIGC Studio
17000字Claude 系统提示启示:Karpathy 揭秘LLM 学习缺失“第三范式” AI寒武纪 2025年05月11日 19:29
来自Andrej Karpathy的最新洞察,以及一份意外曝光的Claude系统提示词引发的思考Andrej Karpathy提出一个观点:我们当前的LLM学习范式中,至少缺失了一个重要环节。 他将其暂称为“系统提示词学习”(System Prompt Learning)他认为:预训练(Pretraining) 是为了让LLM掌握海量知识微调(SL/RL) 则是为了塑造其习惯性行为这两者都涉及模型参数的改变。 但Karpathy指出,很多人类学习更像是“系统提示词”的调整:遇到问题、想出办法,然后用明确的语言“记住”下次如何应对。
5/12/2025 9:13:00 AM
AI逼疯七巨头,马斯克们深陷中年危机!
中年危机来势汹汹,就连昔日风光无限的科技巨头们也逃不过。 前一秒,你还是那个颠覆传统行业的年轻人;下一秒,就可能像马斯克说的那样,「盯着深渊,嚼着玻璃,眼睁睁地看着颠覆浪潮逼近家门口」。 号称美股「科技七巨头」的几家大型公司,似乎都已陷入了这种境地。
5/12/2025 9:06:00 AM
Copilot上大分,仅数天,陶哲轩的估计验证工具卷到2.0!刚刚又发数学形式化证明视频
本周二,我们报道了菲尔兹奖得主陶哲轩的一个开源项目 —— 在大模型的协助下编写了一个概念验证软件工具,来验证涉及任意正参数的给定估计是否成立(在常数因子范围内)。 在项目中,他开发了一个用于自动(或半自动)证明分析中估计值的框架。 估计值是 X≲Y(在渐近记法中表示 X=O (Y))或 X≪Y(在渐近符号中表示 X=o (Y))形式的不等式。
5/12/2025 9:05:00 AM
谷歌发76页智能体白皮书!你的「AI替身」已上线
近日,谷歌发表了76页的AI智能体白皮书! 智能体通过感知环境,并利用工具策略性地采取行动,实现特定目标。 其核心原理,是将推理能力、逻辑思维以及获取外部信息的能力融合,完成一些基础模型难以实现的任务,做出更复杂的决策。
5/12/2025 9:04:00 AM
九年实现爱因斯坦级AGI?OpenAI科学家Dan Roberts谈强化学习扩展的未来
近日,在红杉资本主办的 AI Ascent 上,OpenAI 研究科学家 Dan Roberts 做了主题为「接下来的未来 / 扩展强化学习」的演讲,其上传到 YouTube 的版本更是采用了一个更吸引人的标题:「9 年实现 AGI? OpenAI 的 Dan Roberts 推测将如何模拟爱因斯坦。 」在这场演讲中,Dan Roberts 介绍了预训练和强化学习的 Scaling Law,并预测强化学习将在未来的 AI 模型构建中发挥越来越大的作用,而随着强化学习继续扩展,我们最终将造出有能力发现新科学的模型。
5/12/2025 9:02:00 AM
机器人的「物理图灵测试」,英伟达Jim Fan 17分钟演讲揭秘具身Scaling Law
Jim Fan,英伟达机器人部门主管和杰出科学家、GEAR 实验室联合领导人、OpenAI 的首位实习生,最近在红杉资本主办的 AI Ascent 上做了一场 17 分钟的演讲,介绍了「解决通用机器人问题的第一性原理」,包括训练机器人 AI 的数据策略、Scaling Law 以及基于物理 API 的美好未来。 其中尤其提到了「物理图灵测试」,大意是说对于一个真实的物理场景和一个指令,会有人类或机器人根据该指令对这个场景进行相应的处理,然后看其他人能否分辨这个场景是人类处理的还是机器人处理的。 很显然,Jim Fan 以及英伟达正在朝着让机器人和 AI 通过这个物理图灵测试而努力。
5/12/2025 9:02:00 AM
亚马逊推出 “火神” 机器人,仓库工人的新机遇与挑战
最近,亚马逊在这一领域展示了其最新成果:一种新型 “能感知” 的 “火神” 机器人,正在取代部分仓库工人的工作。 亚马逊首席执行官安迪・雅西在社交媒体上表示,这款 “火神” 机器人通过处理符合人体工程学的任务,能够提高工作安全性,并为员工提供了提升技能的机会。 根据亚马逊的博客文章,火神机器人可以协助人类从仓库的高处和低处获取物品,这样一来,工人们就不必再频繁攀爬梯子或弯腰劳作。
5/12/2025 9:01:02 AM
AI在线
Anthropic推出Claude API网页搜索功能,挑战谷歌搜索
近日,知名 AI 公司 Anthropic 在本月8日宣布,为其 Claude API 引入网页搜索功能,这一举动无疑为以谷歌为首的传统搜索引擎带来了新的挑战。 随着 Claude AI 能够访问最新的网络信息,开发者们可以利用这一功能构建更智能、更具实时性的应用程序,满足用户对最新信息的需求。 通过启用网络搜索工具,开发者在向 Claude 发送请求时,可以获取到现实世界中的最新数据。
5/12/2025 9:01:02 AM
AI在线
马斯克透露 Grok 3.5 尚需优化,预计下周发布
近日,埃隆・马斯克在社交平台 X 上回答了一位网友的提问,谈及他最新的人工智能项目 ——Grok3.5。 该网友询问了 Grok3.5、GPT-03Pro 以及即将发布的游戏 GTA6哪个会先上线。 对此,马斯克坦言:“Grok3.5仍然有些粗糙,预计还需要一周左右的时间进行打磨。
5/12/2025 9:01:02 AM
AI在线
首个智能文档处理基准发布:Gemini领跑但短板待补,多模态AI面临现实挑战
5月11日,智能文档处理领域迎来重大进展——首个针对视觉-语言模型的统一基准测试"IDP Leaderboard"正式推出。 该基准通过16个数据集、9229份文档,全面评估了当前主流模型在OCR、关键信息提取、视觉问答、表格提取、分类和长文档处理六大核心任务上的表现,为行业发展提供了可量化参考。 测试结果显示,Gemini2.5Flash在综合实力上力压群雄,但却在OCR和分类任务中出现意外"滑铁卢",表现甚至不如上一代的Gemini2.0Flash,分别下降了1.84%和0.05%。
5/12/2025 9:01:02 AM
AI在线
快手推出 AI 作图工具 Poify,聚焦电商市场
近日,快手正式推出其新型 AI 作图工具 Poify,旨在为电商领域提供更加高效和经济的图像处理解决方案。 与现有的可灵 AI 相比,Poify 在功能上更加专注于 AI 作图,尤其是在电商相关的应用上。 Poify 的核心功能包括文生图和图生图,同时特别针对电商需求推出了一系列创新的 AI 作图能力。
5/12/2025 9:01:02 AM
AI在线
Claude AI API 引入全新的网页搜索功能
在人工智能领域备受瞩目的公司 Anthropic宣布为其 Claude AI API 引入全新的网页搜索功能。 这一创新标志着 Claude AI 能够实时访问网络信息,从而提升其回答问题的准确性,并为传统搜索引擎如谷歌带来了新的竞争压力。 开发者现在可以在发送请求时启用 Claude 的网页搜索工具。
5/12/2025 9:01:02 AM
AI在线
2025 年度十大 IP 揭晓,DeepSeek App等作品入选
由中国版权协会与中国文化娱乐行业协会指导的 “2025 世界 IP 经济发展大会暨全球 IP 授权博览会” 在广州成功举行。 本次博览会吸引了众多专家和业内人士的关注,最终评选出了 2025 年度十大 IP 和多个细分领域的 TOP10 名单。 此次评选共计有 2368 个参赛 IP 参与角逐,经过专家评审和网络投票的双重筛选,最终确定了十个优秀作品。
5/12/2025 9:01:02 AM
AI在线
字节Seed首次开源代码模型,拿下同规模多个SOTA,提出用小模型管理数据范式
字节Seed首次开源代码模型! Seed-Coder,8B规模,超越Qwen3,拿下多个SOTA。 它证明“只需极少人工参与,LLM就能自行管理代码训练数据”。
5/12/2025 9:00:00 AM
突发!OpenAI正与微软洽谈新融资,筹备IPO
昨晚,金融时报消息,OpenAI和微软正在重新洽谈数十亿美元的合作条款。 这场谈判旨在让OpenAI能够进行未来的首次公开IPO募股,同时保护微软对前沿AI的访问权限。 微软作为OpenAI最大的支持者,是其重组从非营利转向营利的关键阻碍。
5/12/2025 8:59:26 AM
开源全能图像模型媲美GPT-4o!理解生成编辑同时搞定,解决扩散模型误差累计问题
OpenAI GPT-4o发布强大图片生成能力后,业界对大模型生图能力的探索向全模态方向倾斜,训练全模态模型成研发重点。 开源的MLLMs和扩散模型已经过大规模预训练,其从零开始训练统一任务,不如取长补短,将MLLMs的语言建模能力,与扩散模型的像素级图像建模能力,进行有机的结合。 基于这个思路,ModelScope团队提出可同时完成图像理解、生成和编辑的统一模型Nexus-Gen,在图像质量和编辑能力上达GPT-4o同等水平,并将成果全方位开源,望引发开发者讨论,促进All-to-All模型领域发展。
5/12/2025 8:50:00 AM