AI在线 AI在线

资讯列表

SOTA级视频编辑新方法:无需训练一句话编辑视频,背景保持100%

传统的视频编辑工作流,正在被AI彻底重塑。 AI的视频编辑方法总是存在一些问题:例如视频运动不连贯、编辑后的视频产生意外变化等……经过分析,这些问题的产生最终大都指向同一原因——反演-编辑范式。 因此,西湖大学AGILab提出了一种全新的无需反演和训练的视频编辑新方法:FlowDirector。
6/11/2025 9:10:00 AM

北大伯克利联手“拷问”大模型:最强Agent也才40分!新基准专治“不听话”的AI分析师

给大模型当老师,让它一步步按你的想法做数据分析,有多难? 结果是,连Claude-3.7和Gemini-2.5 Pro这样的顶尖选手,都开始“不听话”了。 在一个全新的测试基准中,它们面对多轮、不断演进的指令,最终的任务成功率最高仅有40%。
6/11/2025 9:08:00 AM

让AI自己设计芯片!中国科学院发布「启蒙」,芯片全流程自动设计

芯片设计向来是科技界的「皇冠明珠」,传统设计流程需要顶尖专家团队耗时数月甚至数年攻坚,极具挑战性。 芯片设计包含多个关键步骤,硬件设计方面包括逻辑设计、电路设计、物理设计等,基础软件方面包括操作系统内核设计、编译工具链设计、高性能库设计等。 中国科学院计算技术研究所处理器芯片全国重点实验室,联合中国科学院软件研究所,基于大模型等AI技术,推出处理器芯片和相关基础软件全自动设计系统——「启蒙」。
6/11/2025 9:07:00 AM

20人团队提前实现DeepSeek构想,AI算力变天?直击大模型算力成本痛点

如果有一种芯片,天生只为大模型而生,能否突破当前AI的算力瓶颈? 要知道,如今的芯片算力,强依赖于制程、工艺等非芯片设计因素。 这是因为,传统通用型的GPGPU计算架构在应对日益庞大的模型和复杂计算时,其硬件固有的局限性日益凸显。
6/11/2025 9:06:00 AM

英伟达港大联手革新视觉注意力机制!GSPN高分辨率生成加速超84倍

视觉注意力机制,又有新突破,来自香港大学和英伟达。 Transformer的自注意力在NLP和计算机视觉领域表现出色——它能捕捉远距离依赖,构建深度上下文。 然而,面对高分辨率图像时,传统自注意力有两个大难题:计算量巨大:O(N²) 的复杂度让处理长上下文变得非常耗时。
6/11/2025 9:06:00 AM

0.5B以小搏大拿下端侧模型新SOTA:4090可跑,长文本处理5倍常规加速丨清华&面壁开源

端侧性价比之王,清华大学和面壁智能团队开源新模型——MiniCPM 4,提供8B、0.5B两种参数规模,仅使用同级别开源模型22%的训练开销,就达到了同级别最优性能。 MiniCPM4-8B是开源首个开源的原生稀疏模型,5%的极高稀疏度加持,让长文本、深思考在端侧真正跑起来。 在MMLU、CEval、MATH500、HumanEval等基准测试中,以仅22%的训练开销,性能比肩 Qwen-3-8B,超越Gemma-3-12B。
6/11/2025 9:03:29 AM

视频生成1.3B碾压14B、图像生成直逼GPT-4o!港科&快手开源测试时扩展新范式

论文第一作者为何浩然,香港科技大学二年级博士,他的研究方向包括强化学习、生成流模型(GFlowNets)以及具身智能,通讯作者为香港科技大学电子与计算机工程系、计算机科学与工程系助理教授潘玲。 测试时扩展(Test-Time Scaling)极大提升了大语言模型的性能,涌现出了如 OpenAI o 系列模型和 DeepSeek R1 等众多爆款。 那么,什么是视觉领域的 test-time scaling?
6/11/2025 9:00:00 AM

MCP 很好,但它不是万灵药!真正的技术进步,往往始于祛魅之后的清醒认知

当下AI领域最炙手可热的概念,莫过于MCP。 MCP 指的是Model Context Protocol(模型上下文协议)。 令人意外的是,一个协议系统的热度,甚至盖过了OpenAI发布的最新模型,成为行业讨论的焦点。
6/11/2025 9:00:00 AM
腾讯技术工程

不是视频模型“学习”慢,而是LLM走捷径|18万引大牛Sergey Levine

这是UC伯克利大学计算机副教授Sergey Levine最新提出的灵魂一问。 他同时是Google Brain的研究员,参与了Google知名机器人大模型PALM-E、RT1和RT2等项目。 Sergey Levine在谷歌学术的被引用次数高达18万次。
6/11/2025 8:59:21 AM

美国政府正打造自有 AI 平台,剑指 7 月 4 日“独立日”上线

据外媒404 Media 10日披露,根据 GitHub 上的代码和 AI.gov 网站的早期版本,美国政府正推进一个名为“AI.gov”的平台和 API 服务,旨在通过 AI 推动政府创新。
6/11/2025 8:58:22 AM
清源

刚刚,OpenAI最强推理模型o3-pro诞生!碾压Gemini 2.5 Pro击穿底价

毫无一丝防备,o3-pro就这样低调登场了! 昨夜,OpenAI连放大招,先把o3价格暴降80%,又官宣上线史上最强推理模型——o3-pro。 图片比起o3,o3-pro可要强太多了。
6/11/2025 8:56:54 AM
新智元

OpenAI新模型,被曝秘密训练中!万字硬核长文直指o4核心秘密

OpenAI的o4,已经在训练了? 就在最近,SemiAnalysis发表了一篇硬核长文博客,爆料了不少大模型圈的内幕消息。 其中,一些最核心的亮点,先一睹为快:OpenAI正在训练一个规模介于GPT-4.1和GPT-4.5之间的新模型下一代推理模型o4将基于GPT-4.1展开RL训练强化学习改变了实验室结构,甚至是大厂未来研究的侧重方向和优先级定义奖励函数难上加难,往往AI钻空子之后,漏洞才能被发现不牺牲LLM任何性能,不用合并权重,RL另一条路——数据混合与预训练不同,RL可持续更新Scaling模型能力,DeepSeek-R1是典例高质量数据是Scaling强化学习的护城河训练小模型,蒸馏效果要比RL更好新一轮预训练已开始首先,让我们看看其中最硬的内容——关于OpenAI的全新模型。
6/11/2025 8:54:52 AM

英伟达黄仁勋盛赞 AI 行业变革速度惊人:过去 10 年进步了 100 万倍

除了更强的 GPU,英伟达、xAI、微软等也在打造远超过去一代的AI系统。
6/11/2025 8:50:17 AM
清源

大模型是「躲在洞穴里」观察世界? 强化学习大佬「吹哨」提醒LLM致命缺点

「我一直很困惑,语言模型怎么能从下一个 token 预测中学到这么多,而视频模型从下一帧预测中学到的却那么少? 难道是因为大模型(LLM)其实是伪装的大脑扫描仪? 」近日,加州大学伯克利分校副教授、强化学习大牛 Sergey Levine 发出了一记灵魂拷问。
6/11/2025 8:45:00 AM

从 LangChain 到企业级应用:RAG 中 Fixed-Size Chunking 的最佳实践揭秘

众所周知,在构建 RAG(Retrieval-Augmented Generation,检索增强生成)系统的过程中,文档切块策略往往决定了模型检索质量的上限。 切得好,信息命中更精准,生成回答更有上下文逻辑;切得差,模型则容易“答非所问”。 在众多策略中,Fixed-Size Chunking(固定切块)可谓最简单直接,却也是最常被忽视的一种。
6/11/2025 8:40:00 AM
Luga Lee

信息化,数字化,智能化是三种不同的概念吗?

信息化转型什么是信息化转型企业信息化实质上是将企业的生产过程、物料移动、事务处理、现金流动、客户交互等业务过程数字化,通过各种信息系统网络加工生成新的信息资源,提供给各层次的人们洞悉、观察各类动态业务中的一切信息,以作出有利于生产要素组合优化的决策,使企业资源合理配置,以使企业能适应瞬息万变的市场经济竞争环境,求得最大的经济效益。 信息化转型目的企业间的竞争应当包括产品竞争、价格竞争、品种竞争、服务竞争、市场竞争和信誉竞争等诸多方面。 随着我们一边完成工业化进程,一边步入信息时代,这种种竞争的方面也都不可避免地被打上了信息化的烙印。
6/11/2025 8:38:08 AM
一个数据人的自留地

告别中心云:构建分布式联邦AI的三大技术支柱​

译者 | 朱先忠审校 | 重楼传统云计算依赖集中式数据训练模型,但边缘计算的普及催生了新范式——去中心化机器学习。 其核心代表——联邦学习正在颠覆传统流程。 本文将对联邦学习概念及其三个关键技术展开讨论。
6/11/2025 8:32:44 AM
朱先忠

谷歌推出的AI Overview和AI Mode对内容创作者来说意味着什么?

译者 | 李睿审校 | 重楼谷歌推出了AI Overview和AI Mode这两项新功能,通过人工智能生成摘要和对话式聊天机器人响应用户查询,以减少用户点击其他网站的需求,而这对于依赖谷歌自然流量的网站构成生存威胁。 内容创作者需要调整策略应对AI Overview和AI Mode带来的冲击,例如优化人工智能概览内容、建立直接流量等。 谷歌搜索(Google Search)日前推出了两项新的人工智能功能,改变了其响应用户查询的方式。
6/11/2025 8:28:34 AM
李睿