AI在线 AI在线

AI

一块4090搞定实时视频生成!Adobe黑科技来了

近年来,视频合成技术已经取得了显著突破。 其中,基于双向注意力机制的扩散 Transformer(DiT)可以生成具有复杂时序动态的逼真内容,但其非因果性设计导致无法满足实时流媒体等场景需求。 相比之下,另一类自回归(AR)模型虽然具有天然时序因果性优势,却因依赖有损向量量化技术而难以达到顶尖画质。
6/11/2025 9:12:00 AM

SOTA级视频编辑新方法:无需训练一句话编辑视频,背景保持100%

传统的视频编辑工作流,正在被AI彻底重塑。 AI的视频编辑方法总是存在一些问题:例如视频运动不连贯、编辑后的视频产生意外变化等……经过分析,这些问题的产生最终大都指向同一原因——反演-编辑范式。 因此,西湖大学AGILab提出了一种全新的无需反演和训练的视频编辑新方法:FlowDirector。
6/11/2025 9:10:00 AM

北大伯克利联手“拷问”大模型:最强Agent也才40分!新基准专治“不听话”的AI分析师

给大模型当老师,让它一步步按你的想法做数据分析,有多难? 结果是,连Claude-3.7和Gemini-2.5 Pro这样的顶尖选手,都开始“不听话”了。 在一个全新的测试基准中,它们面对多轮、不断演进的指令,最终的任务成功率最高仅有40%。
6/11/2025 9:08:00 AM

让AI自己设计芯片!中国科学院发布「启蒙」,芯片全流程自动设计

芯片设计向来是科技界的「皇冠明珠」,传统设计流程需要顶尖专家团队耗时数月甚至数年攻坚,极具挑战性。 芯片设计包含多个关键步骤,硬件设计方面包括逻辑设计、电路设计、物理设计等,基础软件方面包括操作系统内核设计、编译工具链设计、高性能库设计等。 中国科学院计算技术研究所处理器芯片全国重点实验室,联合中国科学院软件研究所,基于大模型等AI技术,推出处理器芯片和相关基础软件全自动设计系统——「启蒙」。
6/11/2025 9:07:00 AM

英伟达港大联手革新视觉注意力机制!GSPN高分辨率生成加速超84倍

视觉注意力机制,又有新突破,来自香港大学和英伟达。 Transformer的自注意力在NLP和计算机视觉领域表现出色——它能捕捉远距离依赖,构建深度上下文。 然而,面对高分辨率图像时,传统自注意力有两个大难题:计算量巨大:O(N²) 的复杂度让处理长上下文变得非常耗时。
6/11/2025 9:06:00 AM

20人团队提前实现DeepSeek构想,AI算力变天?直击大模型算力成本痛点

如果有一种芯片,天生只为大模型而生,能否突破当前AI的算力瓶颈? 要知道,如今的芯片算力,强依赖于制程、工艺等非芯片设计因素。 这是因为,传统通用型的GPGPU计算架构在应对日益庞大的模型和复杂计算时,其硬件固有的局限性日益凸显。
6/11/2025 9:06:00 AM

MCP 很好,但它不是万灵药!真正的技术进步,往往始于祛魅之后的清醒认知

当下AI领域最炙手可热的概念,莫过于MCP。 MCP 指的是Model Context Protocol(模型上下文协议)。 令人意外的是,一个协议系统的热度,甚至盖过了OpenAI发布的最新模型,成为行业讨论的焦点。
6/11/2025 9:00:00 AM
腾讯技术工程

视频生成1.3B碾压14B、图像生成直逼GPT-4o!港科&快手开源测试时扩展新范式

论文第一作者为何浩然,香港科技大学二年级博士,他的研究方向包括强化学习、生成流模型(GFlowNets)以及具身智能,通讯作者为香港科技大学电子与计算机工程系、计算机科学与工程系助理教授潘玲。 测试时扩展(Test-Time Scaling)极大提升了大语言模型的性能,涌现出了如 OpenAI o 系列模型和 DeepSeek R1 等众多爆款。 那么,什么是视觉领域的 test-time scaling?
6/11/2025 9:00:00 AM

不是视频模型“学习”慢,而是LLM走捷径|18万引大牛Sergey Levine

这是UC伯克利大学计算机副教授Sergey Levine最新提出的灵魂一问。 他同时是Google Brain的研究员,参与了Google知名机器人大模型PALM-E、RT1和RT2等项目。 Sergey Levine在谷歌学术的被引用次数高达18万次。
6/11/2025 8:59:21 AM

英伟达黄仁勋盛赞 AI 行业变革速度惊人:过去 10 年进步了 100 万倍

除了更强的 GPU,英伟达、xAI、微软等也在打造远超过去一代的AI系统。
6/11/2025 8:50:17 AM
清源

大模型是「躲在洞穴里」观察世界? 强化学习大佬「吹哨」提醒LLM致命缺点

「我一直很困惑,语言模型怎么能从下一个 token 预测中学到这么多,而视频模型从下一帧预测中学到的却那么少? 难道是因为大模型(LLM)其实是伪装的大脑扫描仪? 」近日,加州大学伯克利分校副教授、强化学习大牛 Sergey Levine 发出了一记灵魂拷问。
6/11/2025 8:45:00 AM

谷歌推出的AI Overview和AI Mode对内容创作者来说意味着什么?

译者 | 李睿审校 | 重楼谷歌推出了AI Overview和AI Mode这两项新功能,通过人工智能生成摘要和对话式聊天机器人响应用户查询,以减少用户点击其他网站的需求,而这对于依赖谷歌自然流量的网站构成生存威胁。 内容创作者需要调整策略应对AI Overview和AI Mode带来的冲击,例如优化人工智能概览内容、建立直接流量等。 谷歌搜索(Google Search)日前推出了两项新的人工智能功能,改变了其响应用户查询的方式。
6/11/2025 8:28:34 AM
李睿

苹果 AI 模型更新:设备端模型追平谷歌 / 阿里,服务器端模型不敌 OpenAI 一年前的 GPT-4o

苹果宣布更新AI模型,但性能表现不及竞争对手。其设备端模型与谷歌、阿里相当,服务器模型落后OpenAI一年。图像分析能力也不突出,用户更倾向Meta的Llama 4 Scout。苹果AI研究部门在竞争中落后,个性化Siri升级延迟。#苹果AI##人工智能#
6/11/2025 8:15:10 AM
远洋

你必须领先掌握的九项AI技能(否则将被淘汰)

下一波AI浪潮不仅仅属于技术宅。 想象一下,仅仅一年后,AI带来最大财富的人不再只是程序员、营销人员或销售高手。 真正的赢家,是那些掌握了几项关键AI技能的普通人。
6/11/2025 8:10:45 AM
前端小智

IT领导者阻碍AI成功的五大障碍

AI,尤其是GenAI,正迅速成为提高整个企业生产力的有效解决方案,但成功的几个常见障碍仍然存在。 IT领导者越早识别并克服这些问题,他们的企业就能越快地从基于AI的系统中获得更多价值。 以下是企业在实现AI价值过程中需要克服的一些更具挑战性的障碍,以及IT领导者可以采取的应对措施。
6/11/2025 7:00:00 AM
Bob Violino

构建AI Agent的最优学习路线总结:MCP、CrewAI和Streamlit

如何通过 MCP(Model Context Protocol) 创建一个结合网络搜索、AI 代理和图像生成的现代研究助手引言:AI 驱动的研究未来已来想象一下,您拥有一个个人研究助手,可以即时搜索网络、分析信息、生成全面的总结,甚至创建相关图像——所有这些都通过一个美观的 Web 界面完成。 如果这个助手还能由尖端的 AI 代理驱动,与外部工具和 API 无缝协作,会怎样? 欢迎体验 MCP-Powered Study Assistant —— 一款结合现代 AI 技术的革命性应用:• 🤖 CrewAI 代理,用于智能研究和写作• 📡 Model Context Protocol (MCP),实现无缝工具集成• 🌐 Streamlit,提供直观的 Web 界面• 🔍 通过 Brave Search API 实现实时网络搜索• 🎨 通过 Segmind API 进行 AI 图像生成这不仅仅是另一个 ChatGPT 包装器——它是一个完整的研究生态系统,展示了 AI 驱动应用的未来。
6/11/2025 3:22:00 AM
AI研究生

Chrome内置AI多模态提示功能详解与实战

距离我上次撰写关于Chrome内置AI功能的博客已经过去了几周,随着本周Google IO大会的召开,涌现了许多新公告和更新。 您可以在Chrome开发者博客上找到近期变化的详细说明:"AI API现已进入稳定版和原始试用阶段,并推出新的早期预览计划API"。 最让我期待的一项功能终于发布了——多模态提示。
6/11/2025 2:13:00 AM
前端小石匠

Java 代码居然能玩转 AI?这个神器把机器学习干懵了

兄弟们,是不是每次刷到 AI 相关的文章,看到满屏的 Python 代码就犯嘀咕:咱 Java 程序员在 AI 领域就只能当看客吗? 今天咱就来聊聊这个能让 Java 玩转 AI 的神器 ——Deeplearning4j(简称 DL4J),让咱们手里的 Java 代码也能在 AI 圈儿支棱起来! 一、当 Java 遇上 AI:一场迟到的双向奔赴说起机器学习框架,Python 阵营的 TensorFlow、PyTorch 那是相当风光,仿佛 AI 领域就是 Python 的天下。
6/11/2025 1:10:00 AM
儒猿团队