AI在线 AI在线

开源

Kimi-Audio开源横扫全场景,1300万+小时数据炼成语音世界“大一统”

昨天,kim发布了一款“万能型”音频大模型— Kimi-Audio,支持语音识别(ASR)、音频问答(AQA)、音频字幕(AAC)、语音情感识别(SER)、声音事件/场景分类(SEC/ASC)、文本到语音(TTS)、语音转换(VC)和端到端语音对话。 换句话说,它可以听、可以说、可以理解、可以对话,支持实时语音会话,多轮交流。 图片一套架构,横扫音频全场景,开源可用。
4/28/2025 2:10:22 PM

一文了解人工智能代理的开源堆栈

我记得一个周末,我坐下来,确信自己终于可以构建一个像样的研究助理代理原型了。 没什么特别的——只是能读取 PDF 文件、提取关键信息,或许还能回答一些后续问题而已。 应该很简单,对吧?
4/28/2025 9:53:40 AM
晓晓

Dify从0到1构建AI应用?这个开源神器让开发者直呼“真香”!

导语:当AI开发进入“效率时代”,你还在重复造轮子吗? 在大模型落地的黄金时代,企业和开发者面临着“甜蜜的烦恼”:如何快速将LLM能力转化为可用的AI应用? 从模型对接、工作流设计到RAG开发、Agent构建,每一步都可能陷入繁琐的技术细节。
4/27/2025 10:06:52 AM
前端组件开发

英伟达AI奥赛夺冠,1.5B数学碾压DeepSeek-R1!代码全系开源,陶哲轩点赞

AI数学奥赛第一名「答卷」终于公布! NVIDIA公布并开源了他们的冠军模型OpenMath-Nemotron系列! 论文地址:、软件工程师Chan Kha Vu,则盛赞道:这些模型太不可思议了!
4/27/2025 8:54:00 AM
新智元

秒杀同行!Kimi开源全新音频基础模型,横扫十多项基准测试,总体性能第一

kimi 又发布了新的开源项目 —— 一个全新的通用音频基础模型 Kimi-Audio,支持语音识别、音频理解、音频转文本、语音对话等多种任务,在十多个音频基准测试中实现了最先进的 (SOTA) 性能。 结果显示,Kimi-Audio 总体性能排名第一,几乎没有明显短板。 例如在 LibriSpeech ASR 测试上,Kimi-Audio 的 WER 仅 1.28%,显著优于其他模型。
4/27/2025 8:50:00 AM
机器之心

英伟达开源「描述一切」模型,拿下7个基准SOTA

图像描述(image captioning)生成一直是计算机视觉和自然语言处理领域面临的长期挑战,因为它涉及理解和用自然语言描述视觉内容。 虽然近期的视觉语言模型 (VLM) 在图像级描述生成方面取得了令人瞩目的成果,但如何为图像中的特定区域生成详细准确的描述仍然是一个悬而未决的问题。 这一挑战在视频领域尤为突出,因为模型必须额外捕捉动态视觉内容,例如人类动作、物体运动以及人与物体的交互。
4/27/2025 8:30:00 AM
机器之心

可媲美GPT-4o的开源图像生成框架来了!腾讯联手InstantX解决角色一致性难题

GPT-4o带火的漫画风角色生成,现在有了开源版啦! 腾讯混元携手InstantX团队合作打破次元壁,开源定制化角色生成插件——InstantCharacter。 以往针对角色驱动的图像生成方法,都存在一定的缺陷。
4/24/2025 9:35:00 AM

仅用3周时间,就打造出Manus开源平替!贡献源代码,免费用

可以对标 Manus 的智能体 Suna 来了! (有没有发现它是 manus 倒过来写)这款智能体由 Kortix AI 团队打造,开源并且完全免费。 具体而言,Suna 是一个完全开源的 AI 助手,旨在帮助用户轻松完成现实世界中的各种任务。
4/23/2025 5:22:59 PM
机器之心

微软发布全球首个1-bit大模型:内存缩至0.4 GB,参数只有0和±1,性能追平全精度

微软的BitNet b1.58 2B4T 的技术报告悄然上线。 其实在开源社区里,关于极致低比特量化的大模型早就有各种传闻,这次微软研究院终于亮出底牌。 ——全球首个原生1-bit、规模高达20亿参数的开源大模型。
4/23/2025 12:11:40 PM
文摘菌

清华特奖得主团队视频生成AI一夜刷屏!100%开源+61页技术报告,还能无限扩展生成,网友:游戏规则改变者

整整61页的技术报告中还详细介绍了创新的注意力改进和推理基础设施设计,给人一种视频版DeepSeek的感觉。 图片Magi-1将视频生成卷到了新高度,大片级品质直接锁住大家的眼球,请看VCR:其主打能力,一是无限长度扩展,实现跨时间的无缝连贯叙事:图片二是能将生成时长控制精确到每一“秒”:图片另外,Magi-1对物理规律也有更深度的理解,Physics-IQ基准测试56.02%,大幅领先一众顶流。 现在看这张图,Sora的时代是真的过去了。
4/22/2025 3:29:05 PM

全球首个无限时长视频生成!新扩散模型引爆万亿市场,电影级理解,全面开源

不是5秒,不是10秒,更不只是1分钟。 AI视频生成,正式迎来无限时长的时代! 来,话不多说,直接来看一部AI版《罗马假日》:而就是这么一部小短剧片段,它的“起点”,仅仅就是一张照片和一句Prompt:身着优雅西装的欧美男子与一位美女漫步在罗马街头,分享各自的生活趣事,眼神中满是欣赏;夕阳西下,余晖洒在两人脸上,彼此深情对视。
4/22/2025 9:17:00 AM
量子位

微软开源“原生1bit”三进制LLM:2B参数,0.4GB内存/单CPU就能跑,性能与同规模全精度开源模型相当

微软以小搏大,发布首个开源2B参数规模“原生1bit”LLM——BitNet b1.58 2B4T,单CPU就能跑,性能与同规模全精度开源模型相当。 它采用三进制{-1, 0, 1}存储权重,相较于传统的16位浮点数可大幅降低显存需求。 只需0.4GB内存即可运行。
4/21/2025 6:43:31 PM
量子位

DeepSeek-R1「内心世界」首次曝光!AI显微镜破解R1大脑,发现神秘推理机制

推理模型的内心世界是怎么想的? 推理模型与普通LLM之间有没有本质的区别? 一直以来,AI内部的运作机理就像个「黑箱子」。
4/21/2025 8:42:00 AM
新智元

仅需0.4GB,参数只有0和±1!微软开源首个原生1 bit模型,CPU轻松跑

大模型轻量化终于又有好玩的了。 就在最近,微软亚研院开源了第一款参数量达到20亿,并且还是原生1bit精度的LLM——BitNet b1.58 2B4T。 论文地址:,其实都在模型名字里了:1.
4/21/2025 8:30:00 AM
新智元

DeepSeek推理引擎开源新路径,助力vLLM生态再升级

最近,DeepSeek 宣布了一项重要决定:将其自研的推理引擎进行开源,但并不会直接向公众开放完整的代码库。 相反,他们选择与现有的开源项目 vLLM 合作,致力于分享核心的优化成果。 这一举动旨在解决开源社区中普遍存在的代码库分歧、基础设施依赖及维护资源有限等难题。
4/16/2025 2:01:15 PM
AI在线

AI涌现人类情感!希腊「乐之神」Orpheus开源,单卡可跑语音流式推理

大语言模型(LLM)还能涌现什么能力? 这次开源模型Orpheus,直接让LLM涌现人类情感! 对此,Canopy Labs的开源开发者Elias表示Orpheus就像人类一样,已经拥有共情能力,能从文本中产生潜在的线索,比如叹息、欢笑和嗤笑。
4/16/2025 9:46:46 AM
新智元

刚刚,智谱一口气开源6款模型,200 tokens/秒解锁商用速度之最 | 免费

就在刚刚,智谱一口气上线并开源了三大类最新的GLM模型:沉思模型GLM-Z1-Rumination推理模型GLM-Z1-Air基座模型GLM-4-Air-0414若是以模型大小(9B和32B)来划分,更是可以细分为六款。 首先是两个9B大小的模型:GLM-4-9B-0414:主攻对话,序列长度介于32K到128K之间GLM-Z1-9B-0414:主攻推理,序列长度介于32K到128K之间还有四个32B大小的模型,它们分别是:GLM-4-32B-Base-0414:基座模型,序列长度介于32K到128K之间GLM-4-32B-0414:主攻对话,序列长度介于32K到128K之间GLM-Z1-32B-0414:主攻推理,序列长度介于32K到128K之间GLM-Z1-32B-Rumination-0414:主攻推理,序列长度为128K而随着一系列模型的开源,智谱也解锁了一项行业之最——推理模型GLM-Z1-32B-0414做到了性能与DeepSeek-R1等顶尖模型相媲美的同时,实测推理速度可达200 tokens/秒。 如此速度,已然是目前国内商业模型中速度最快,而且它的高性价比版本价格也仅为DeepSeek-R1的1/30。
4/15/2025 12:16:17 PM

奥特曼:ChatGPT不是AGI!OpenAI最强开源模型直击DeepSeek

近了,近了! 全网多个流出的代码截图显示,满血版o3、o4-mini,以及o4-mini high,有极大概率在下周发布。 不仅如此,在OpenRouter平台上,一款神秘模型Optimus Alpha(ELO得分1387)直接霸榜,据称就是o4-mini。
4/14/2025 9:17:00 AM
新智元