AI在线 AI在线

模型

英伟达新开源模型 Llama-Nemotron 震撼发布,推理性能超越 DeepSeek-R1

近日,英伟达正式推出了其最新开源模型系列 ——Llama-Nemotron,该系列模型不仅在推能力上超越了 DeepSeek-R1,更是在内存效率和吞吐量上实现了显著提升。 根据最新发布的技术报告,Llama-Nemotron 的训练过程与众不同,采用了合成数据监督微调与强化学习的方法,以全方位提升模型的推理能力。 Llama-Nemotron 系列模型包括 LN-Nano8B、LN-Super49B 和 LN-Ultra253B。
5/7/2025 10:01:04 AM
AI在线

AI再破2000年前「上古卷轴」!古希腊著作原文首次重见天日

AI再建一功! 火山灰掩埋的古代智慧,正在被AI一点点复活。 2025年5月6日,维苏威挑战赛(Vesuvius Challenge)迎来历史性突破——研究人员首次非侵入性地读取了仍然卷着的编号为PHerc.
5/7/2025 9:14:00 AM

ICML 2025 | 注意力机制中的极大值:破解大语言模型上下文理解的关键

大型语言模型(LLMs)在上下文知识理解方面取得了令人瞩目的成功。 近日,一项来自 ICML 2025 的新研究《Massive Values in Self-Attention Modules are the Key to Contextual Knowledge Understanding》揭示了大型语言模型中一个重要现象:在注意力机制的查询 (Q) 和键 (K) 表示中存在非常集中的极大值,而在值 (V) 表示中却没有这种模式。 这一现象在使用旋转位置编码 (RoPE) 的现代 Transformer 模型中普遍存在,对我们理解 LLM 内部工作机制具有重要意义。
5/7/2025 9:12:00 AM

GPT-4o图像生成的「核燃料」找到了!万字长文拆解潜在变量,网友:原来AI在另一个维度作画

上个月, GPT-4o 的图像生成功能爆火,掀起了以吉卜力风为代表的广泛讨论,生成式 AI 的热潮再次席卷网络。 而在这股浪潮背后,潜在空间(Latent Space)作为生成模型的核心驱动力,点燃了图像与视频创作的无限想象。 知名研究者 Andrej Karpathy 最近转发了一篇来自 Google DeepMind 研究科学家 Sander Dielman 的博客文章,探讨了生成模型(如图像、音频和视频生成模型)如何通过利用潜在空间来提高生成效率和质量。
5/7/2025 9:06:00 AM

360开源升级自研7B参数模型360Zhinao3-7B 各项能力全面提升

360集团宣布开源升级了自研的7B参数模型360Zhinao3-7B,并已上线Github开源社区,可供免费商用。 这一模型不仅在数学和科学领域表现出色,更在通用能力上展现了强大的潜力,尤其在端侧应用上具有显著优势。 在本次升级中,360Zhinao3-7B模型仅通过增量训练700B的高质量token,就取得了显著的效果提升,这相比前代模型360Zhinao2-7B的10.1T token成本大幅降低,且不会增加模型的推理成本。
5/7/2025 9:00:53 AM
AI在线

H-MBA层次化MamBa模型如何突破自动驾驶视频理解瓶颈?这三大创新亮点揭示答案!

一眼概览:H-MBA (Hierarchical MamBa Adaptation) 提出了一个创新的多模态视频理解框架,通过结合高低时域分辨率,显著提升了自动驾驶场景中的视频理解和风险物体检测性能。 核心问题:现有的多模态大语言模型(MLLMs)在处理自动驾驶中复杂的时空动态视频时,性能有限。 特别是在捕捉背景变化、车辆和行人运动等方面,现有方法难以做到准确的时空理解。
5/7/2025 8:49:17 AM
萍哥学AI

实时口语聊天大模型 LLaMA-Omni 2 来了,能让你的 AI 聊天体验起飞!

最近 AI 圈可是热闹非凡,今天咱们就来聊聊其中的 “狠角色”——LLaMA-Omni2。 这是一系列超厉害的语音语言模型(SpeechLMs),参数规模从0.5B 到14B 不等,专门为实现高质量实时语音交互而生,在 Hugging Face 上一经发布,就引起了广泛关注。 语音交互发展历程回顾:从 “卡顿” 到 “丝滑”语音交互在人机交互领域的地位愈发重要,它就像是为我们打开了一扇便捷的大门,极大地提升了交互效率和用户体验。
5/6/2025 6:00:52 PM
AI在线

阿里通义Qwen3语言模型上线 ,开源实力再升级!

在全球人工智能领域,Qwen 系列大型语言模型迎来了新成员 ——Qwen3的发布。 今日,通义宣布将 Qwen3开源,带来了令人振奋的技术革新。 此次发布的旗舰模型 Qwen3-235B-A22B 以其2350亿个参数的规模在多个基准测试中展现出强大的竞争力,超越了 DeepSeek-R1、o1、o3-mini、Grok-3及 Gemini-2.5-Pro 等顶级模型。
5/6/2025 6:00:51 PM
AI在线

月之暗面 Kimi 长思考模型 API 正式发布

月之暗面科技有限公司宣布正式发布其最新的长思考模型API——kimi-thinking-preview。 这一模型具备多模态推理能力和通用推理能力,擅长深度推理,能够帮助用户解决复杂的代码问题、数学难题和工作中的挑战。 kimi-thinking-preview模型是目前最新的k系列思考模型,用户可以通过简单的API调用轻松使用。
5/6/2025 6:00:51 PM
AI在线

音乐界的sd?ACE-Step音乐生成模型发布,20秒打造4分钟完整歌曲

ACE-Step,一款由ACE Studio与StepFun联合开发的音乐生成“基础模型”,于近日正式亮相,被誉为“音乐界的Stable Diffusion”。 该模型以其惊人的生成速度和多样化功能引发行业热议,支持19种语言,可在短短20秒内生成一首长达4分钟的完整音乐作品,效率比主流模型快15倍以上。 核心功能亮点:从歌词到完整歌曲一气呵成ACE-Step以其强大的生成能力重新定义了AI音乐创作。
5/6/2025 5:00:41 PM
AI在线

大模型集体“挂科”!全新中文网页检索测试:GPT-4o准确率仅6.2%

你以为大模型已经能轻松“上网冲浪”了? 新基准测试集BrowseComp-ZH直接打脸主流AI。 BrowseComp-ZH是一项由港科大(广州)、北大、浙大、阿里、字节跳动、NIO等机构联合发布的新基准测试集,让20多个中外主流大模型集体“挂科”:GPT-4o在测试中准确率仅6.2%;多数国产/国际模型准确率跌破10%;即便是目前表现最好的OpenAI DeepResearch,也仅得42.9%。
5/6/2025 3:32:23 PM

AI无师自通,搞定所有家务!π0.5突破泛化极限,UC伯克利系出品

近年来,机器人取得了显著进展,能表演杂技、跳舞、听从指令,甚至完成叠衣服、擦桌子等复杂任务。 但机器人面临的最大挑战并非灵活性,而是泛化能力——在新环境中正确完成任务的能力。 想象一个你家中的清洁机器人:每个家庭布局不同,物品摆放各异,机器人必须在多个层面上实现泛化。
5/6/2025 3:31:55 PM
新智元

VDC+VBench双榜第一!强化学习打磨的国产视频大模型,超越Sora、Pika

随着 Deepseek 等强推理模型的成功,强化学习在大语言模型训练中越来越重要,但在视频生成领域缺少探索。 复旦大学等机构将强化学习引入到视频生成领域,经过强化学习优化的视频生成模型,生成效果更加自然流畅,更加合理。 并且分别在 VDC(Video Detailed Captioning)[1] 和 VBench [2] 两大国际权威榜单中斩获第一。
5/6/2025 3:28:14 PM
机器之心

微软Phi-4模型震撼发布:轻量化性能炸裂

嘿,各位AI圈的同仁们! 最近AI界热议的话题可不少,但微软悄悄放出的这个“小”家伙,绝对值得咱们重点关注。 微软这次没有追逐那种动辄千亿参数的“巨无霸”,反其道而行之,推出了参数规模相对小巧的Phi-4系列推理模型。
5/6/2025 1:42:16 PM
墨风如雪

“请”和“谢谢”真有用?研究表明礼貌用语或能提升 AI 模型响应质量

与人工智能进行互动时,使用礼貌用语,例如“请”和“谢谢”,或许真的能带来更好的结果。 谷歌 DeepMind 的高级研究员 Murray Shanahan 近日表示,以礼貌的方式与语言模型交流,实际上可能提升其响应的质量。 图源备注:图片由AI生成,图片授权服务商MidjourneyShanahan 解释说,清晰且友好的措辞,特别是包含“请”和“谢谢”这样的礼貌性词语,可能会对模型的输出产生积极影响。
5/6/2025 10:01:20 AM
AI在线

​英伟达全新开源自动语音识别模型 Parakeet-TDT-0.6B-V2,语音转录能力再提升

近日,英伟达在 Hugging Face 平台上推出了其最新的自动语音识别(ASR)模型 ——Parakeet-TDT-0.6B-V2。 这一新模型不仅在性能上有显著提升,还将开源理念与商业应用相结合,吸引了广泛关注。  超强转录能力Parakeet-TDT-0.6B-V2的最大亮点在于其出色的转录效率。
5/6/2025 10:01:12 AM
AI在线

315 行代码构建编程助手,Go大佬揭开智能体的「神秘面纱」

知名 Go 大佬 Thorsten Ball 最近用 315 行代码构建了一个编程智能体,并表示「它运行得非常好」且「没有护城河」(指它并非难以复制)。 Thorsten Ball 在编程领域以其对系统编程和编程语言的深入研究而闻名,尤其擅长解释器、编译器和虚拟机等主题。 他撰写的《用 Go 语言自制编译器》和《用 Go 语言自制解释器》则被视为编译原理领域的「入门平替」。
5/6/2025 9:15:00 AM
机器之心

DeepSeek开源的文件系统,是如何提升大模型效率的?

在 AI 领域里,大模型通常具有百亿甚至数千亿参数,训练和推理过程对计算资源、存储系统和数据访问效率提出了极高要求。 2 月 28 日,DeepSeek 开源了一种高性能分布式文件系统 3FS,官方表示其目的是解决人工智能训练和推理工作负载的挑战。 作为一种并行文件系统,3FS 可以在 180 节点集群中实现 6.6 TiB/s 的聚合读取吞吐量,对于提高 DeepSeek V3、R1 大模型的训练数据预处理、数据集加载、检查点保存/重新加载、嵌入向量搜索和 KVCache 查找等工作的效率有重要帮助。
5/6/2025 9:03:00 AM
机器之心