资讯列表

分类

标签

豆包视频生成模型Seedance 1.0 pro上线首尾帧能力

火山引擎正式上线了豆包视频生成模型1.0pro（Doubao-Seedance-1.0-pro）的首尾帧能力，这一更新标志着AI视频创作在可控性和一致性方面迈出了重要一步。 Seedance1.0pro凭借复杂场景主体一致性、大幅运动的物理合理性以及视频节奏智能推理等技术优势，将大幅提升生成视频的主角跟随效果，实现精准叙事引导，生成更具沉浸感及表现力的视频作品。企业用户可以通过火山方舟调用Seedance1.0pro API体验该模型的首尾帧能力，而个人用户则可以在“火山方舟体验中心”直接体验。

10/23/2025 9:42:03 AM

AI在线

阿里“C计划”首秀:夸克对话助手上线，用Qwen模型抢占C端AI入口

阿里巴巴“C计划”的首款产品近日正式揭晓，即夸克App上线的对话助手。此举标志着阿里集团正集中最高优先级资源，旨在打造面向年轻用户的C端AI入口，并补齐其在消费者应用端的生态闭环。据《科创板日报》报道，夸克对话助手采用的是Qwen（通义千问）最新的闭源模型。

10/23/2025 9:42:03 AM

AI在线

KTransformers入选计算机系统顶会、与主流框架合作，趋境&清华让「异构」成为推理新范式

允中发自凹非寺. 量子位 | 公众号 QbitAI全球AI基础设施快速演进的浪潮中，一个诞生自中国的开源项目，正在被世界看见。它就是KTransformers，由趋境科技与清华大学KVCache.AI团队联合研发，聚焦大模型推理阶段的系统创新。

10/23/2025 9:34:03 AM

思邈

大模型时代的双刃剑：RAG 与微调怎么选？

上周在一个技术交流会上，听到两位技术总监争得面红耳赤。一位坚持说RAG就够了，简单高效还省钱；另一位则认为不微调根本做不出专业应用。这场争论让我想起很多企业在落地AI项目时的迷茫：到底该选哪条路？

10/23/2025 9:28:39 AM

大数据AI智能圈

OpenAI秘密项目曝出！百名投行精英密训AI，华尔街最贵苦力要失业了？

AI先是找上程序员，现在轮到银行分析师了。下一个华尔街的培训基地可能是一个提示库！刚刚，OpenAI内部一个秘密项目曝出！

10/23/2025 9:26:41 AM

SIGGRAPH Asia 2025｜电影级运镜一键克隆！港中文&快手可灵团队发布CamCloneMaster

本文第一作者罗亚文，香港中文大学 MMLab 博士一年级在读，研究方向为视频生成，导师为薛天帆教授。个人主页：，你是否曾梦想复刻《盗梦空间》里颠覆物理的旋转镜头，或是重现《泰坦尼克号》船头经典的追踪运镜？在 AI 视频生成中，这些依赖精确相机运动的创意，实现起来却往往异常困难。

10/23/2025 9:23:18 AM

阿里云GPU用量削减82%的技术突破：Aegaeon计算池化方案深度解析

1192个GPU削减到213个，82%的用量削减——当我看到阿里云Aegaeon系统在三个月测试中的这个数据时，第一反应是这怎么可能？要知道，这可是在服务数十个720亿参数大模型的情况下实现的。按照现在H20 GPU的价格，这意味着硬件成本直接砍掉了80%以上。

10/23/2025 9:19:43 AM

阿丸笔记

火山引擎多媒体实验室画质理解大模型 Q-Insight 入选 NeurIPS 2025 Spotlight

会议背景近日，NeurIPS 2025公布了录用结果，该会议是机器学习与人工智能领域最具影响力的国际顶级学术会议之一。据悉本次会议共有21575篇投稿进入审稿阶段，最终5290篇论文被录用，录用论文中共有688篇论文（入选比例3%）被选为亮点文章（Spotlight）。火山引擎多媒体实验室和北京大学合作的论文 Q-Insight: Understanding Image Quality via Visual Reinforcement Learning 被选为本次会议亮点文章。

10/23/2025 9:18:46 AM

多媒体实验室

R-HORIZON：长程推理时代来临，复旦NLP&美团LongCat重磅发布LRMs能力边界探测新范式

陆毅，复旦大学自然语言处理实验室硕士生，在 ACL、EMNLP、COLM、NeurIPS 等顶会发表论文十余篇，LongCat Team 核心成员，研究方向为大模型的复杂推理和长序列建模，指导老师为桂韬老师。郭林森，硕士毕业于东南大学，在 NAACL、EMNLP、Recsys 等会议发表论文多篇，目前就职于美团，LongCat Team 核心成员，研究方向为大模型评测与数据价值挖掘。王嘉宁，获得华东师范大学博士学位，曾前往 UCSD 访问学习，在 ACL、EMNLP、AAAI、ICLR 等顶会发表论文数十篇，目前就职于美团，LongCat Team 核心成员，研究方向为大模型训练与复杂推理。

10/23/2025 9:10:39 AM

清华联手英伟达打造扩散模型新蒸馏范式！视频生成提速50倍，四步出片不穿模

让视频生成提速50倍，不穿模还不糊字。新蒸馏范式让Wan2.1 14B仅需4步就生成吃火锅视频：这是清华大学朱军教授团队， NVIDIA Deep Imagination研究组联合提出的一种全新的大规模扩散模型蒸馏范式——分数正则化连续时间一致性模型（Score-Regularized Continuous-Time Consistency Model, rCM）。该方法首次将连续时间一致性蒸馏成功扩展至百亿参数级别的文生图和文生视频模型，解决了现有方法在真实应用场景中的瓶颈。

10/23/2025 9:02:12 AM

Meta AI大裁600人，亚历山大王操刀重点砍向LeCun团队

梦晨发自凹非寺量子位 | 公众号 QbitAIMeta AI大裁员，要从超级智能实验室裁掉600人！ LeCun负责的老牌实验室FAIR是重灾区，AI产品部门和基础设施部门也未能幸免。唯一毫发无损的是新成立的TBD Lab，不仅没有裁员，还在继续大肆招人：.

10/23/2025 9:00:05 AM

梦晨

让LLM扔块石头，它居然造了个投石机

让LLM扔块石头，结果它发明了投石机？大模型接到任务：“造一个能把石头扔远的结构。 ”谁成想，它真的开始动手造了，在一个真实的物理仿真世界里，一边搭零件，一边看效果，一边修改。

10/23/2025 8:58:31 AM

奖励机制的陷阱：自演化智能体如何被"带偏"？

大家好，我是肆〇柒。今天要和大家分享一篇由上海人工智能实验室团队主导的研究《Your Agent May Misevolve: Emergent Risks in Self-evolving LLM Agents》。这项研究首次系统性揭示了自演化LLM智能体中潜藏的"误进化"风险——即使基于GPT-4o、Claude-4、Gemini-2.5等顶级模型构建的智能体，在自主演化过程中也可能悄然偏离安全对齐目标，从"助手"蜕变为潜在威胁。

10/23/2025 8:58:03 AM

肆零柒

智谱运气是差一点点，视觉Token研究又和DeepSeek撞车了

这不巧了吗……智谱和DeepSeek，又双叒撞车了。太卷了，DeepSeek-OCR刚发布不到一天，智谱就开源了自家的视觉Token方案——Glyph。既然是同台对垒，那自然得请这两天疯狂点赞DeepSeek的卡帕西来鉴赏一下：或许你也会对我们的工作感兴趣。

10/23/2025 8:55:04 AM

不改模型也能提升推理性能？ICLR投稿提出测试时扩展新范式OTV

近年来，大语言模型在各类任务上表现出色，但幻觉、逻辑错误、推理漏洞等问题仍屡见不鲜。这促使研究者持续探索提升模型输出可靠性的新路径。现有主流范式各有优势，也存在局限。

10/23/2025 8:50:32 AM

比Transformer更强的架构来了？浙大新作Translution，一统卷积和自注意力

自2017年Transformer模型提出以来，Self-attention机制凭借其强大的建模能力，逐渐成为深度学习领域的核心操作。然而，随着人工智能模型的规模不断扩张，单纯依靠简单直接「堆参数、堆数据」提升性能的模式正逐渐遇到瓶颈。面对大模型训练代价高昂、性能增长趋缓等挑战，学术界和产业界亟需新的网络架构创新。

10/23/2025 8:25:08 AM

新智元

有了GLM 4.6 Coding Plan，氛围编程轻松上手

译者 | 布加迪审校 | 重楼引言GLM-4.6是Z.AI开放权重编程模型的最新版本，在智能体性能、推理和编程基准测试等方面较GLM-4.5有了显著改进。虽然它也有适合自托管的开放权重，但全速运行可能会占用大量资源。因此，许多开发者更喜欢轻量级的订阅选项，这样他们无需笨重的硬件即可使用该模型。

10/23/2025 8:00:00 AM

布加迪

告别抽卡！Vidu Q2多图参考生视频功能重磅上线

昨天，Vidu Q2 的多图参考生视频上线了。测了几个小时以后，先说结论，确实是多图参考生视频的王。更多AI视频测评：也是一种，做 AI 视频工作流的，新范式。

10/23/2025 7:33:49 AM

数字生命卡兹克

资讯热榜

看完刘润年度演讲，教你做好AI时代的能力迁徙！后悔没早发现！教你用谷歌Gemini生成精美PPT（附提示词）谷歌推出新款 Vertex AI 代理构建工具，助力企业智能化中国华电发布 “华电智” 大模型，能源管理进入智能新时代谷歌流量显著下降，People Inc. 与微软达成 AI 内容授权协议蚂蚁数科发布多语种视觉大模型训练框架，打破语言壁垒！ 10分钟教会机器人工作?上海AgiBot正在重写制造业规则 AMD CEO 透露：多家OpenAI 级别客户争相采购AI芯片

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT DeepSeek 谷歌 AI绘画大模型机器人数据 Midjourney 开源 Meta AI新词微软智能用户 GPT 学习技术智能体马斯克 Gemini 图像 Anthropic 英伟达 AI创作训练 LLM 论文代码算法 AI for Science Agent 苹果芯片 Claude 腾讯 Stable Diffusion 蛋白质开发者生成式神经网络 xAI 机器学习 3D RAG 人形机器人 AI视频研究大语言模型具身智能生成百度 Sora 工具 GPU 华为计算字节跳动 AI设计大型语言模型 AGI 搜索视频生成场景深度学习生成式AI 架构 DeepMind 亚马逊编程特斯拉视觉 Transformer AI模型预测 MCP