资讯列表
Soul App开源播客语音合成模型,可流畅自然多轮语音对话,支持川粤豫等多方言与副语言风格
Soul App AI团队(Soul AI Lab)正式开源播客语音合成模型SoulX-Podcast。 该模型是一款专为多人、多轮对话场景打造的语音生成模型,支持中、英、川、粤等多语种/方言与副语言风格,能稳定输出超60分钟、自然流畅、角色切换准确、韵律起伏丰富的多轮语音对话。 除了播客场景以外,SoulX-Podcast在通用语音合成或克隆场景下也表现出色,带来更真实、更生动的语音体验。
10/29/2025 4:35:27 PM
量子位的朋友们
OpenAI终于快要上市了,也直面了这23个灵魂拷问
OpenAI昨天晚上9点,公布了一个消息。 这个事,影响还蛮大的,基本代表着,OpenAI在开始准备上市了。 图片然后,奥特曼也非常临时的宣布了重组的消息,以及,北京时间凌晨1点半,开始直播。
10/29/2025 4:29:27 PM
数字生命卡兹克
史上最惨一代?AI延长人类寿命,下一代活到200岁不是梦!
OpenAI、谷歌、微软、Meta、Anthropic等耳熟能详的科技大厂,高喊AGI将至。 人类可能正在站在命运的分水岭:AI或许即将自我进化,带来智能爆炸与生命延长,也可能制造出人类无法理解的「黑箱语言」。 内容创业者Matt Wolfe长期以来一直关注人工智能,并曾有幸对多位重量级人物进行专访,包括DeepMind的创始人 诺奖得主Demis Hassabis、微软CEO纳德拉以及谷歌CEO劈柴等。
10/29/2025 4:27:33 PM
MetaAI解锁Transformer潜意识,仅额外3%计算开销,性能提升最高55%
Meta FAIR部门的研究员François Fleuret发布了一篇名为《The Free Transformer》的论文,提出了一种对现有解码器Transformer模型的精妙扩展。 这项技术的核心,是让模型在生成每个字之前,能先在内部形成一个类似计划或草稿的隐性决策,而不是像过去那样,只能边写边想。 实验证明,这种先计划,后执行的模式,在编程、数学和推理等任务上带来了显著的性能提升。
10/29/2025 4:20:57 PM
AI「上班流」首次完整曝光!不点鼠标,只写代码,PPT也当函数调
AI可以写代码、做PPT、生成图片,甚至梳理财务表格,早就屡见不鲜。 但人们关注的,往往只是结果:代码能不能运行? 图片有没有AI痕迹?
10/29/2025 4:16:58 PM
新智元
中科院新突破:Auto-RAG开启Agentic RAG落地新篇章
中科院智能信息处理重点实验室发表的Auto-RAG(Autonomous Retrieval-Augmented Generation) 技术,作为Agentic RAG(智能体驱动检索增强)趋势下的产出,打破传统RAG的「检索→生成」线性瓶颈,通过大语言模型(LLM)的自主决策能力,实现「检索规划→信息提取→答案推断」的闭环推理,让机器像人类侦探般动态收集线索、修正方向,无需人工预设规则。 这项技术的核心价值在于:将RAG从「被动执行工具」升级为「主动认知智能体」,不仅解决传统方法的效率低、幻觉多等问题,更在开放域问答、多跳推理等任务中展现出碾压级性能。 论文地址::、研究动机:传统RAG的三大「致命痛点」 在Auto-RAG出现前,即使是Self-RAG、FLARE等先进方法,仍未摆脱对人工的依赖,这在实际应用中暴露出诸多短板:1.
10/29/2025 4:16:49 PM
Goldma
清华姚班团队,开源具身智能视觉语言动作(VLA)模型工具箱,打造行业通用技术底座
一群来自清华姚班、前旷视科技的核心人物,决定为具身智能领域建立一套通用准则,叫Dexbotic。 Dexbotic是基于PyTorch的视觉语言动作(Vision-Language-Action,VLA)模型工具箱。 目的是为具身智能领域的专业人士提供一站式VLA研究服务,由一家叫原力灵机(Dexmal)的具身智能公司开发。
10/29/2025 4:11:39 PM
美团杀入视频生成模型赛道,LongCat-Video 136亿参数媲美顶尖模型,效率提升10倍
又是美团! 美团最近在AI领域的开源动作,真是令人刮目相看。 刚刚,美团LongCat团队发布了LongCat-Video的基础视频生成模型,它拥有136亿的参数量,能在数分钟内生成720p、30帧每秒的高质量视频,并且在文本转视频、图像转视频和长视频续写等多个任务上都表现出色。
10/29/2025 4:10:41 PM
天下苦VAE久矣:阿里高德提出像素空间生成模型训练范式, 彻底告别VAE依赖
近年来,基于扩散模型的图像生成技术发展迅猛,催生了Stable Diffusion、Midjourney等一系列强大的文生图应用。 然而,当前主流的训练范式普遍依赖一个核心组件——变分自编码器(VAE),这也带来了长久以来困扰研究者们的几个问题:训练复杂性:VAE旨在将高维图像压缩至低维隐空间,并能从中重建图像。 但其训练过程需要在压缩率和重建质量之间取得精妙平衡,本身就极具挑战。
10/29/2025 4:06:10 PM
刚刚,最佳VLA模型GigaBrain-0开源:世界模型驱动10倍数据,真机碾压SOTA
近日,在湖北武汉东湖高新区,极佳视界与湖北人形机器人创新中心完成战略合作签约,并联合发布端到端VLA「具身基础模型」GigaBrain-0。 这是国内首个利用「世界模型」生成数据实现真机泛化的视觉-语言-动作(VLA)基础模型,旨在通过世界模型为中心,无论在数据侧还是模型侧,彻底改变通用机器人大脑的开发方式。 GigaBrain-0拥有当前最先进的VLA模型架构,同时支持图像、点云、文本、本体状态的输入,输出结构化的任务规划和运动规划,并在大规模的数据上完成预训练,可以实现更精准的移动导航和长序列的复杂操作。
10/29/2025 4:04:51 PM
吴恩达关注的Ling-1T背后,蚂蚁Ling 2.0技术报告解密万亿模型开源配方
AI 导师吴恩达在其最新一期的 The Batch Newsletter 中,将目光投向了来自蚂蚁集团的最新开源模型 Ling-1T。 吴恩达 The Batch Newsletter 首页截图他敏锐地指出:Ling-1T 作为一个非推理(non-reasoning)模型,其性能却直逼业界顶尖的闭源模型,这背后隐藏着一个关键的技术转向。 Ling-1T(最右列)与几款具有代表性的旗舰模型的比较,包括大参数量的开源模型(DeepSeek-V3.1-Terminus、Kimi-K2-Instruct-0905)与闭源 API(GPT-5-main、Gemini-2.5-Pro)。
10/29/2025 3:59:00 PM
机器之心
近500页史上最全扩散模型修炼宝典,宋飏等人一书覆盖三大主流视角
关于扩散模型的一切,宋飏等人写成了 460 多页的书。 扩散模型(Diffusion Models) ,几乎重塑了整个生成式 AI 的版图。 从图像到音频,从视频到 3D 世界。
10/29/2025 3:50:00 PM
机器之心
用「传心术」替代「对话」,清华大学联合无问芯穹、港中文等机构提出Cache-to-Cache模型通信新范式
随着大语言模型的快速进步,为了适应越来越多样的工作场景,模型越来越多在指定场景进行针对性训练,例如代码、数学计算、视觉理解、边缘计算等。 而在面对复杂任务与特定场景时,通过多智能体进行探索、决策、信息交换,可以实现相比单智能体更好的综合表现。 在多智能体系统中,现有的智能体多以 Text to Text(T2T)方式进行交流,即通过生成交流文本进行智能体之间的信息传递,而这种方式则会带来信息丢失(多维语义被压缩到一维文字)、语义模糊 [3][4]、巨大延迟(逐个 token 生成)三大问题。
10/29/2025 3:43:00 PM
机器之心
ICCV25 Highlight|格灵深瞳RICE模型狂刷榜单,让AI「看懂」图片的每个细节
最近,格灵深瞳公司灵感团队自研的视觉模型基座RICE(MVT v1.5)再次惊艳全场,刷榜多项视觉任务。 RICE 作为 MVT 系列的新模型,继续延续前作 Unicom(MVT v1.0)和 MLCD(MVT v1.1)的视觉预训练理念,秉持着 margin 表征代表语义的核心观点,在顶级学术会议 ICCV25 上获得 Highlight 荣誉。 代码地址::: 系列作为灵感团队自研的视觉基座预训练方法,从 1.0 开始,就聚焦于如何让视觉模型利用海量的数据集进行更加准确的视觉语义表征。
10/29/2025 3:35:00 PM
机器之心
前字节剪映 AI 产品负责人廖谦创业,推出营销多模态 Agent
据智能涌现消息,前字节跳动剪映 AI 产品负责人廖谦宣布创立新公司 “极致上下文”,专注于打造一款营销多模态 Agent。 这一消息引发了业界的广泛关注,因为廖谦在 AIGC(人工智能生成内容)领域积累了丰富的经验,并且在短时间内成功完成数百万美元的首轮融资。 廖谦在其职业生涯中,曾在腾讯和字节跳动等知名企业担任要职。
10/29/2025 3:06:55 PM
AI在线
抖音副总裁李亮:AI 技术助力谣言治理,构建可信平台环境
近日,央视社会与法频道发布了一则视频,讨论了人工智能(AI)在假新闻制造中的作用。 对此,抖音集团副总裁李亮发表了看法。 他指出,AI 和算法同样是工具,虽然 AI 使得谣言的制造变得更加容易,但抖音也在利用 AI 技术来治理谣言。
10/29/2025 3:06:47 PM
AI在线
NVIDIA 推出革命性 AI 数据中心设计 助力高效能计算
在 2025 年 GTC 大会上,NVIDIA 发布了名为 “Omniverse DSX Blueprint” 的创新设计方案,专门为吉瓦级(10 亿瓦)AI 数据中心量身定制。 这一设计方案也被 NVIDIA 称为 “AI 工厂”,标志着在人工智能基础设施方面的又一重大进展。 “Omniverse DSX Blueprint” 旨在满足不断增长的 AI 计算需求,从 1 亿瓦到 10 亿瓦的不同规模,能够高效训练和运行大型 AI 模型。
10/29/2025 3:06:46 PM
AI在线
10.98万起:极狐全新阿尔法T5上市,全球首发搭载8775舱驾一体辅助驾驶
10 月 28 日,“长续航智慧中型 SUV” 极狐全新阿尔法 T5 正式上市,新车包含纯电和增程两种动力形式,共推出 7 个版型,限时优惠价格 10.98 万元 —15.48 万元。 随同新车上市,北汽元境智能技术架构也一并发布,全新阿尔法 T5 成为首款搭载元境智行辅助驾驶的车型,新 T5“左揽元境智行,右享神擎增程”,重塑 SUV 价值标杆。 据了解,即日起下订新 T5,用户还可以享受价值 3 万元限时专属权益,尤为 “王炸” 的是,极狐新 T5 重磅承诺 “三电终身质保、电池自燃烧一赔一、8 年或 15 万公里内电池衰减低于 70% 只换不修”,三重承诺同时给到,行业内只此一家。
10/29/2025 2:43:00 PM
新闻助手