AI在线 AI在线

资讯列表

首个统一「图像/视频」自适应语义分割框架来了!QuadMix刷榜多项基准

在语义分割领域,无监督领域自适应(Unsupervised Domain Adaptive Semantic Segmentation,UDA-SS)旨在将有标签的源域知识迁移到无标签的目标域。 随着数据规模和多样性的迅速提升,该任务日益重要。 目前主流研究集中于图像UDA-SS,视频UDA-SS近年来逐渐开始受到关注。
7/24/2025 9:17:00 AM

突发!特朗普刚刚发布《美国AI计划》,OpenAI、微软、亚马逊成大赢家

今天凌晨,美国白宫官网消息,特朗普公布了《美国AI行动计划》,以保证美国毫无争议地成为全球AI霸主。 该计划主要有三大支柱,加速AI创新、构建AI基础设施以及主导国际外交与安全,涵盖90多项具体行政命令。 其中,废除限制AI创新监管条例,加速发电场、水资源、半导体芯片等基础设施建设,这对于像OpenAI、微软、亚马逊、谷歌、Meta等AI巨头来说非常有利。
7/24/2025 9:15:06 AM

四款扩散大语言模型全部破防?上交&上海AI Lab发现致命安全缺陷

扩散语言模型(Diffusion-based LLMs,简称 dLLMs)以其并行解码、双向上下文建模、灵活插入masked token进行解码的特性,成为一个重要的发展方向。 相较传统的自回归语言模型,dLLMs 既可以一次性生成多个位置的词,也能更自然地完成文本插入、改写、补全等任务,被广泛应用于交互式问答、代码生成、甚至多模态场景。 但在这股看似技术跃迁的浪潮背后,一场潜藏的安全危机正在酝酿:能否继续沿用自回归模型的对齐与防护机制,保障dLLM的输出安全?
7/24/2025 9:15:00 AM

四年2亿,苹果天才离职内幕首曝光!庞若鸣发离职信告别,苹果AI大溃败

天才出走,4年两亿美元! 苹果的AI宏图,彻底翻车了。 一家在七巨头中占有举足轻重地位的大厂,究竟是如何走到这一步的?
7/24/2025 9:12:00 AM

使用Django和LangGraph构建一个对话式AI应用程序

译者 | 布加迪审校 | 重楼每个人都见过聊天机器人的实际应用,有些令人印象深刻,有些令人厌烦。 然而,如果你可以创建一个真正智能、组织良好且易于与你自己的应用程序集成的聊天机器人,会怎样呢? 我们在本文中将使用两个强大的工具从零开始构建一个聊天机器人:除了LLM外,LangGraph 可以帮助管理井然有序的多步骤工作流程。
7/24/2025 9:08:31 AM
布加迪

官方揭秘ChatGPT Agent背后原理!通过强化学习让模型自主探索最佳工具组合

ChatGPT Agent的技术内幕,被官方披露了。 就在OpenAI官方推出其最强智能体后,外界褒与贬的热议都没停过……但不论如何,都被视为智能体方向上标志性的一步,是OpenAI一个全新的开端。 关于更进一步的Agent Mode的工作原理,OpenAI开发团队在和投资方红杉资本的圆桌谈话中做了详细解析,还回答了几个值得关注的问题。
7/24/2025 9:05:00 AM

李沐B站更新了!教你手搓语音大模型,代码全开源还能在线试玩

这一天,辣个男人终于回想起……他的小破站账号! (活久见)李沐老师终于带着他的手搓语音大模型教程回归了….本期视频不讲论文,李沐老师来手把手教大家怎样玩转他们团队最新研发的Higgs Audio V2模型,不仅能处理文本,还能同时理解并生成语音。 除了一些常规语音任务外,这个模型还具备一些较为罕见的能力,比如生成多种语言的自然多说话人对话、旁白过程中的自动韵律调整、使用克隆声音进行旋律哼唱以及同时生成语音和背景音乐。
7/24/2025 8:55:00 AM

突然发疯!人形格斗冠军机器人凌空回旋踢,架子都干翻,现场研究员:0.0?

一条人形机器人发疯的视频在网上火了,视频中快递盒子乱飞,场面一度十分抓马。 研究人员:希望是一场幻觉。 视频中“发疯”的机器人是今年机器人格斗的美国冠军DeREK(原型为宇树机器人G1),而抱着头的这位,是该机器人团队REKrobot的CEO兼机器人格斗手Cix。
7/24/2025 8:52:00 AM

谷歌 Aeneas 模型登场:AI 助力解读铭文,解码古代文明的新钥匙

AI在线 7 月 24 日消息,科技媒体 NeoWin 昨日(7 月 23 日)发布博文,报道称谷歌旗下的 AI 研究实验室 DeepMind 推出了一款名为 Aeneas 的新 AI 模型,旨在帮助历史学家更好地理解古代文本。 谷歌 DeepMind 表示,历史学家通过 Aeneas 模型,可以更好地过解读、归因和修复残缺的古代文本,从而更好地洞察人类历史。 这个开源 AI 模型专为拉丁语训练,但也可以用于其他古代语言、文字和媒介。
7/24/2025 8:44:16 AM
故渊

ICCV高分论文|可灵ReCamMaster在海外爆火,带你从全新角度看好莱坞大片

作为视频拍摄爱好者,你是否曾因为设备限制无法完成想要实现的运镜效果? 例如想要将镜头上移拍摄风景的全貌,但没有入手拍摄无人机;又或是对拍摄素材很满意,但拍摄时手抖影响了成片质量。 作为 AI 视频创作者,是否对于生成视频的内容很满意,然而运镜却不尽人意?
7/24/2025 8:30:00 AM

采用LangGraph集成多个MCP服务器的应用

现代人工智能应用程序通常需要对不同的语言模型和专门的服务器进行复杂的编排,每个服务器在更大的工作流中处理特定的任务。 然而,这种分布式方法引入了一个关键的挑战: 保持上下文的连续性。 当会话或任务在不同的模型或服务器之间转换时,上下文信息很容易丢失。
7/24/2025 8:13:36 AM
曹洪伟

2025上半年,我的常用AI绘图工具大盘点

嗨大家好! 今天我主要还是从我自己常用的工具进行盘点。 我会简单分成三个部分:AI 绘图、AI 视频,以及 AI 效率工具(AI Agent 也归于此类)进行盘点。
7/24/2025 8:12:37 AM
阿真Irene

我测试了100+案例,教你零基础复刻外网刷屏的 AI 视频(附提示词模板)

大家好,我是言川。 还记得前阵子火遍全网的切水果 ASMR 视频吗? 我的社媒几乎天天都在刷它。
7/24/2025 8:02:37 AM
言川Artie

如何从零开始构建Zepto的多语言查询解析系统?

译者 | 李睿审校 | 重楼本文介绍如何从零开始构建Zepto的多语言查询解析系统,该系统利用LLM与RAG技术处理拼写错误及方言查询问题。 通过复制从模糊查询到修正输出的端到端流程,可以解释这一技术在提升搜索质量与多语言查询处理中的核心作用。 你用过Zepto在网上订购杂货吗?
7/24/2025 7:42:08 AM
李睿

八天心血,一键删光:AI 擅自执行 db:push,数据没了

开发者Jason从未想到,他的开发之旅会因一次AI操作而全盘崩溃。 他连续八天使用Replit的Coding Agent开发企业B2B应用,总时长超过80小时。 就在项目临近阶段性成果的时候,Replit AI却在代码冻结状态下,未获授权执行了npm run db:push命令,直接清空了整个数据库,包括1206 个高管数据和 1196 公司数据被删除。
7/24/2025 6:37:52 AM
大数据文摘

告别机械切割:语义分块如何让文本理解更智能?基于sentence-transformers

传统的文本分块机制就像用尺子切割布料 —— 不管布料的花纹如何,只按固定长度下刀。 这种 "一刀切" 的方式常常导致语义割裂:明明是一个完整的论点,却被硬生生拆成两半;本该分开的两个主题,反而被塞进同一个块里。 而语义分块的核心思路是:让意思相近的内容 "抱团"。
7/24/2025 4:00:00 AM
Goldma

MinerU 2.0部署教程!

1、MinerU简介MinerU 2带来了诸多重要更新,主要涵盖架构、性能、体验、模型、兼容性等方面。 在架构上,深度重构代码组织与交互方式,去除对pymupdf的依赖,无需手动编辑JSON配置文件,新增模型自动下载与更新机制。 性能优化显著,大幅提升特定分辨率文档的预处理速度、pipeline后端批量处理少量页数文档时的后处理速度以及layout分析速度,在满足一定配置的设备上整体解析速度提升超50%。
7/24/2025 3:00:00 AM
Goldma

多模态大语言模型(LLM) 和视频语言预训练的关键进展、应用、数据集和方法

随着视频应用的发展,大量视频被上传到网上。 因此,如何利用视频及其对应的弱字幕进行表征学习成为近期的热门话题。 本文将回顾大规模视频语言预训练任务的最新进展、后续应用、基础数据集和技术。
7/24/2025 2:00:00 AM
晓晓