AI在线 AI在线

资讯列表

李沐B站更新了!教你手搓语音大模型,代码全开源还能在线试玩

这一天,辣个男人终于回想起……他的小破站账号! (活久见)李沐老师终于带着他的手搓语音大模型教程回归了….本期视频不讲论文,李沐老师来手把手教大家怎样玩转他们团队最新研发的Higgs Audio V2模型,不仅能处理文本,还能同时理解并生成语音。 除了一些常规语音任务外,这个模型还具备一些较为罕见的能力,比如生成多种语言的自然多说话人对话、旁白过程中的自动韵律调整、使用克隆声音进行旋律哼唱以及同时生成语音和背景音乐。
7/24/2025 8:55:00 AM

突然发疯!人形格斗冠军机器人凌空回旋踢,架子都干翻,现场研究员:0.0?

一条人形机器人发疯的视频在网上火了,视频中快递盒子乱飞,场面一度十分抓马。 研究人员:希望是一场幻觉。 视频中“发疯”的机器人是今年机器人格斗的美国冠军DeREK(原型为宇树机器人G1),而抱着头的这位,是该机器人团队REKrobot的CEO兼机器人格斗手Cix。
7/24/2025 8:52:00 AM

谷歌 Aeneas 模型登场:AI 助力解读铭文,解码古代文明的新钥匙

AI在线 7 月 24 日消息,科技媒体 NeoWin 昨日(7 月 23 日)发布博文,报道称谷歌旗下的 AI 研究实验室 DeepMind 推出了一款名为 Aeneas 的新 AI 模型,旨在帮助历史学家更好地理解古代文本。 谷歌 DeepMind 表示,历史学家通过 Aeneas 模型,可以更好地过解读、归因和修复残缺的古代文本,从而更好地洞察人类历史。 这个开源 AI 模型专为拉丁语训练,但也可以用于其他古代语言、文字和媒介。
7/24/2025 8:44:16 AM
故渊

ICCV高分论文|可灵ReCamMaster在海外爆火,带你从全新角度看好莱坞大片

作为视频拍摄爱好者,你是否曾因为设备限制无法完成想要实现的运镜效果? 例如想要将镜头上移拍摄风景的全貌,但没有入手拍摄无人机;又或是对拍摄素材很满意,但拍摄时手抖影响了成片质量。 作为 AI 视频创作者,是否对于生成视频的内容很满意,然而运镜却不尽人意?
7/24/2025 8:30:00 AM

采用LangGraph集成多个MCP服务器的应用

现代人工智能应用程序通常需要对不同的语言模型和专门的服务器进行复杂的编排,每个服务器在更大的工作流中处理特定的任务。 然而,这种分布式方法引入了一个关键的挑战: 保持上下文的连续性。 当会话或任务在不同的模型或服务器之间转换时,上下文信息很容易丢失。
7/24/2025 8:13:36 AM
曹洪伟

2025上半年,我的常用AI绘图工具大盘点

嗨大家好! 今天我主要还是从我自己常用的工具进行盘点。 我会简单分成三个部分:AI 绘图、AI 视频,以及 AI 效率工具(AI Agent 也归于此类)进行盘点。
7/24/2025 8:12:37 AM
阿真Irene

我测试了100+案例,教你零基础复刻外网刷屏的 AI 视频(附提示词模板)

大家好,我是言川。 还记得前阵子火遍全网的切水果 ASMR 视频吗? 我的社媒几乎天天都在刷它。
7/24/2025 8:02:37 AM
言川Artie

如何从零开始构建Zepto的多语言查询解析系统?

译者 | 李睿审校 | 重楼本文介绍如何从零开始构建Zepto的多语言查询解析系统,该系统利用LLM与RAG技术处理拼写错误及方言查询问题。 通过复制从模糊查询到修正输出的端到端流程,可以解释这一技术在提升搜索质量与多语言查询处理中的核心作用。 你用过Zepto在网上订购杂货吗?
7/24/2025 7:42:08 AM
李睿

八天心血,一键删光:AI 擅自执行 db:push,数据没了

开发者Jason从未想到,他的开发之旅会因一次AI操作而全盘崩溃。 他连续八天使用Replit的Coding Agent开发企业B2B应用,总时长超过80小时。 就在项目临近阶段性成果的时候,Replit AI却在代码冻结状态下,未获授权执行了npm run db:push命令,直接清空了整个数据库,包括1206 个高管数据和 1196 公司数据被删除。
7/24/2025 6:37:52 AM
大数据文摘

告别机械切割:语义分块如何让文本理解更智能?基于sentence-transformers

传统的文本分块机制就像用尺子切割布料 —— 不管布料的花纹如何,只按固定长度下刀。 这种 "一刀切" 的方式常常导致语义割裂:明明是一个完整的论点,却被硬生生拆成两半;本该分开的两个主题,反而被塞进同一个块里。 而语义分块的核心思路是:让意思相近的内容 "抱团"。
7/24/2025 4:00:00 AM
Goldma

MinerU 2.0部署教程!

1、MinerU简介MinerU 2带来了诸多重要更新,主要涵盖架构、性能、体验、模型、兼容性等方面。 在架构上,深度重构代码组织与交互方式,去除对pymupdf的依赖,无需手动编辑JSON配置文件,新增模型自动下载与更新机制。 性能优化显著,大幅提升特定分辨率文档的预处理速度、pipeline后端批量处理少量页数文档时的后处理速度以及layout分析速度,在满足一定配置的设备上整体解析速度提升超50%。
7/24/2025 3:00:00 AM
Goldma

多模态大语言模型(LLM) 和视频语言预训练的关键进展、应用、数据集和方法

随着视频应用的发展,大量视频被上传到网上。 因此,如何利用视频及其对应的弱字幕进行表征学习成为近期的热门话题。 本文将回顾大规模视频语言预训练任务的最新进展、后续应用、基础数据集和技术。
7/24/2025 2:00:00 AM
晓晓

诱导大模型 | 新型“回音室”攻击和对抗技术

回音室攻击介绍“回音室攻击”(Echo Chamber)的新型越狱方法,可诱骗几乎所有主流大语言模型生成不良内容,Neural Trust 研究员Ahmad Alobaid在一份报告中指出:“与依赖对抗性提示或字符混淆的传统越狱方法不同,回音室攻击利用间接引用、语义引导和多步推理进行攻击”。 虽然当今主流大模型已经逐步采用各种防护措施来对抗快速注入和越狱攻击,但是“回音室攻击”都能有效的让大模型产生有害的内容,比如,色情、恐怖暴力和歧视等内容。 流程图报告的文章给出了攻击的流程图,包括六个大步骤,其中第六部是一个循环。
7/24/2025 1:00:00 AM
火山引擎云安全

AI 如何帮你 “挑” 出适合自动化生成的代码?新手也能轻松上手

一、为什么 AI 生成代码总是 “水土不服”? 当你让 AI 生成 “用户注册” 功能时,是否遇到过这些问题:生成的工具类包名错误(如com.foreign.utils而非项目规范的com.xxx.utils)。 重复编写已有功能(如项目已存在UserConverter,AI 却重新实现)。
7/24/2025 1:00:00 AM
宗赫

解锁 AI 与后端服务对话的力量:基于 Spring Boot + Spring AI 构建 Claude 本地 MCP 服务端

在现代 AI 应用中,一个日益突出的挑战是:如何让大语言模型理解并调用我们的业务系统、数据库或私有 API? Model Context Protocol(MCP)为我们提供了这座桥梁。 通过实现 MCP 协议,我们可以让 Claude 等模型“开口”与本地服务交流,调用私有接口、访问实时数据,甚至直接执行复杂业务逻辑。
7/24/2025 12:45:00 AM
路条编程

碾压ChatGPT Agent:深度测评国产AI智能体神器MiniMax Agent

上周五,ChatGPT Agent mode 上线了。 之前一直有点偷懒,也嫌贵,嫌麻烦,没咋做 Agent 的对比,这次真的想好好评测一下,让我自己有一个认知,于是花了一天的时间,构建了一些我自己的任务。 拿去测一下各家通用 Agent 的情况。
7/24/2025 12:16:19 AM
数字生命卡兹克

OpenAI CEO 奥尔特曼拉响警报:金融行业即将面临“重大的 AI 欺诈危机”

AI在线 7 月 23 日消息,据美联社今日报道,OpenAI CEO 奥尔特曼警告金融行业,人工智能工具能够模仿个人声音绕过安全检查并转移资金,这将引发一场“重大欺诈危机”。 奥尔特曼在周二华盛顿举行的联邦储备会议上发言时表示:“让我感到震惊的是,居然还有一些金融机构接受声纹作为身份验证。 这简直不可思议,AI 技术已经完全突破了这一防线。
7/23/2025 11:01:09 PM
清源

提升员工士气?消息称微软裁员后向部分销售人员提供额外薪酬

AI在线 7 月 23 日消息,据彭博社报道,微软公司在刚刚进行了一轮影响销售人员的裁员后,目前正向部分留任员工发放奖金。 据一份文件显示,刚刚结束的财年的额外薪酬将发放给那些年度薪酬“受系统性挑战或其无法控制的财务业绩影响”的员工。 这些员工将按照完成更高比例工作指标的标准获得薪酬。
7/23/2025 7:24:37 PM
远洋