开源
清华&巨人网络首创MoE多方言TTS框架,数据代码方法全开源
无论是中文的粤语、闽南话、吴语,还是欧洲的荷兰比尔茨语方言、法国奥克语,亦或是非洲和南美的地方语言,方言都承载着独特的音系与文化记忆,是人类语言多样性的重要组成部分。 然而,许多方言正在快速消失,语音技术如果不能覆盖这些语言,势必加剧数字鸿沟与文化失声。 在当今大模型引领的语音合成时代,通用 TTS 系统已展现出令人惊叹的能力,但方言 TTS 依然是相关从业者难以触及的「灰色地带」。
10/15/2025 2:10:47 PM
抖音&LV-NUS开源多模态新模,以小博大刷新SOTA,8B推理比肩GPT-4o
SAIL-VL2团队 投稿. 量子位 | 公众号 QbitAI2B模型在多个基准位列4B参数以下开源第一。 抖音SAIL团队与LV-NUS Lab联合推出的多模态大模型SAIL-VL2。
10/14/2025 11:17:20 AM
西风
首个开源实现100%可复现的稳定RL训练框架来了!2次结果完全重合
开源框架实现100%可复现的稳定RL训练! 下图是基于Qwen3-8B进行的重复实验。 两次运行,一条曲线,实现了结果的完美重合,为需要高精度复现的实验场景提供了可靠保障。
9/27/2025 11:30:07 AM
衡宇
刚刚,LeCun团队开源首款代码世界模型!能像程序员一样思考的LLM来了
就在今天,Meta官宣发布了一款名为代码世界模型(Code World Model, CWM)的LLM,探索如何使用世界模型改进AI代码生成性能。 Yann LeCun也亲自下场转发撑场子了。 CWM究竟有哪些创新点?
9/25/2025 1:27:39 PM
通义DeepResearch开源发布:首个匹敌OpenAI的全栈Web Agent
大家好,我是肆〇柒。 在AI飞速发展的今天,AI Agent正经历从简单对话机器人向自主智能体的重大转变。 就在上周,通义实验室(Tongyi Lab)开源了最新的研究成果——通义DeepResearch,并随开源发布了六篇论文,被社区戏称为“腹泻式发论文”。
9/25/2025 10:25:29 AM
肆零柒
Qwen开源版Banana来了!原生支持ControlNet
Qwen版Banana来了! 刚刚,Qwen推出了新图像编辑模型——Qwen-Image-Edit-2509。 不仅支持多图融合,提供“人物 人物”,“人物 商品”,“人物 场景” 等多种玩法,还增强了人物、商品、文字等单图一致性。
9/24/2025 8:57:13 AM
超越规模神话:WebSailor-V2 的数据-环境协同之道
大家好,我是肆〇柒。 本文要和大家分享的是来自阿里通义实验室(Tongyi Lab, Alibaba Group)的一项重磅研究成果——WebSailor-V2。 这项工作不仅刷新了开源Web智能体的性能上限,更关键的是,它揭示了一个被长期忽视的真相:决定Agent能力边界的,或许不是模型参数,而是数据质量与训练生态系统的构建方式。
9/23/2025 9:42:58 AM
肆零柒
阿里通义深夜炸场:全球首个端到端全模态 AI 模型 Qwen3-Omni 发布开源,文本、图像、音视频全统一
9 月 23 日消息,又是熟悉的深夜,阿里云今日发布并开源了全新的 Qwen3-Omni、Qwen3-TTS,以及对标谷歌 Nano Banana 图像编辑工具的 Qwen-Image-Edit-2509。 Qwen3-Omni 是业界首个原生端到端全模态 AI 模型,能够处理文本、图像、音频和视频多种类型的输入,并可通过文本与自然语音实时流式输出结果,解决了长期以来多模态模型需要在不同能力之间进行权衡取舍的难题。 Qwen3-Omni 是原生端到端的多语言全模态基础模型,其核心特性主要包括:跨模态最先进表现:通过早期以文本为核心的预训练和混合多模态训练,模型具备原生多模态能力。
9/23/2025 9:33:10 AM
问舟
阿里新开源提出建设性安全对齐方案,向“让用AI的人安全”新范式跃迁
正如牡蛎历经磨砺,在坚实的外壳内将沙砾孕育成一颗温润的珍珠。 AI也可以如此,不是一个只会紧紧封闭抵御风险的系统,而是一个有底线、有分寸、也有温度的伙伴。 阿里巴巴集团安全部联合清华大学、复旦大学、东南大学、新加坡南洋理工等高校,联合发布技术报告;其理念与最近OpenAI发布的GPT-5 System Card放在首位的“From Hard Refusals to Safe-Completions”理念不谋而合。
9/22/2025 8:50:00 AM
阿里王牌Agent横扫SOTA,全栈开源力压OpenAI!博士级难题一键搞定
阿里又双叒叕上大分了! 就在昨天,阿里旗下首个深度研究Agent模型——通义DeepResearch正式开源。 在多项权威基准上,通义DeepResearch狂飙SOTA,仅依靠30B参数(激活3B)就能大杀四方!
9/18/2025 12:39:10 PM
通义DeepResearch震撼发布!性能比肩OpenAI,模型、框架、方案完全开源
通义 DeepResearch 重磅发布,让 AI 从 “能聊天” 跃迁到 “会做研究”。 在多项权威 Deep Research benchmark 上取得 SOTA,综合能力对标并跑赢海外旗舰模型,同时实现模型、框架、方案全面开源,把深度研究的生产力真正带到每个人手里。 相比于海外的旗舰模型昂贵和限制的调用,通义 DeepResearch 团队做到了完全开源!
9/18/2025 9:56:47 AM
终结数据荒!智源开源首个Deep Research数据合成框架InfoSeek
近日,北京智源人工智能研究院(简称「智源研究院」)发布开源数据集InfoSeek,成为首个面向深度研究(Deep Research)场景的大规模开源数据集。 在这一工作中,智源研究团队揭示了深度研究问题与层级约束满足问题(Hierarchical Constraint Satisfaction Problem)之间的数学等价关系,并由此提出了基于「扩散-回溯」过程的数据合成方法,实现了深度研究训练数据的大规模自动扩增。 利用上述方法,研究团队总计合成了包含5万条训练样本的数据集InfoSeek,并据此训练出参数规模仅3B的智能体模型。
9/17/2025 2:47:51 PM
腾讯混元开源AI绘画新框架:24维度对齐人类意图,让AI读懂复杂指令
AI绘画总“画不对”,让创作者一再崩溃。 如今,腾讯混元团队开源的PromptEnhancer框架,为这一难题提供了解决方案。 无需修改任何预训练T2I模型的权重,仅通过 “思维链(CoT)提示重写” 这一简单思路,就能让AI绘画的文本-图像对齐精度大幅提升。
9/17/2025 9:43:26 AM
国产王炸!上海AI Lab开源Lumina-DiMOO,开创多模态理解与生成新范式
上海人工智能实验室,上海创新研究院,上海交大,南京大学,悉尼大学,港中大,清华,共同推出了被誉为新一代多模态生成与理解统一模型的Lumina-DiMOO。 “An Omni Diffusion Large Language Model for Multi-Modal Generation and Understanding”,翻译过来就是“面向多模态生成与理解的全方位扩散大语言模型”。 关键词:“全方位”。
9/16/2025 10:28:57 AM
全新开源模型复现o3视觉推理,无需大量训练即可实现深度思考
OpenAI o3的多轮视觉推理,有开源平替版了。 并且,与先前局限于1-2轮对话的视觉语言模型(VLM)不同,它在训练限制轮数只有6轮的情况下,测试阶段能将思考轮数扩展到数十轮。 图片这个模型叫Mini-o3,它无需消耗大量训练周期资源,通过恰当的数据、初始化方法和强化学习微调,即可实现长周期视觉搜索能力。
9/15/2025 2:42:55 PM
昔日王者TensorFlow,已死
噫吁嚱! 那个昔日叱咤风云的开源框架——TensorFlow,已然是行将就木了。 如此断言并非空穴来风,而是根据一份冷静的数据洞察所得出的结论。
9/15/2025 9:10:09 AM
全新MoE架构!阿里开源Qwen3-Next,训练成本直降九成
大语言模型(LLM),正在进入 Next Level。 周五凌晨,阿里通义团队正式发布、开源了下一代基础模型架构 Qwen3-Next。 总参数 80B 的模型仅激活 3B ,性能就可媲美千问 3 旗舰版 235B 模型,也超越了 Gemini-2.5-Flash-Thinking,实现了模型计算效率的重大突破。
9/12/2025 10:02:21 AM
Kimi开源又放大招!20秒更新万亿参数的中间件来了
Kimi开源又双叒放大招了! 一个中间件,就能让Kimi K2的万亿模型参数进入“秒更时代”。 图片不仅支持一次性把更新完的权重从一个节点同时发送给所有节点,还能实现点对点动态更新。
9/11/2025 1:33:52 PM
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
谷歌
AI绘画
大模型
机器人
数据
Midjourney
开源
AI新词
Meta
微软
智能
用户
GPT
学习
技术
智能体
马斯克
Gemini
图像
Anthropic
英伟达
AI创作
训练
LLM
论文
代码
算法
AI for Science
Agent
苹果
芯片
Claude
腾讯
Stable Diffusion
蛋白质
开发者
生成式
神经网络
xAI
机器学习
3D
RAG
人形机器人
AI视频
研究
大语言模型
具身智能
生成
百度
Sora
工具
GPU
华为
计算
字节跳动
AI设计
大型语言模型
AGI
搜索
视频生成
场景
生成式AI
深度学习
架构
DeepMind
亚马逊
编程
特斯拉
视觉
Transformer
AI模型
预测
MCP