模型
英伟达新开源模型 Llama-Nemotron 震撼发布,推理性能超越 DeepSeek-R1
近日,英伟达正式推出了其最新开源模型系列 ——Llama-Nemotron,该系列模型不仅在推能力上超越了 DeepSeek-R1,更是在内存效率和吞吐量上实现了显著提升。 根据最新发布的技术报告,Llama-Nemotron 的训练过程与众不同,采用了合成数据监督微调与强化学习的方法,以全方位提升模型的推理能力。 Llama-Nemotron 系列模型包括 LN-Nano8B、LN-Super49B 和 LN-Ultra253B。
5/7/2025 10:01:04 AM
AI在线
AI再破2000年前「上古卷轴」!古希腊著作原文首次重见天日
AI再建一功! 火山灰掩埋的古代智慧,正在被AI一点点复活。 2025年5月6日,维苏威挑战赛(Vesuvius Challenge)迎来历史性突破——研究人员首次非侵入性地读取了仍然卷着的编号为PHerc.
5/7/2025 9:14:00 AM
ICML 2025 | 注意力机制中的极大值:破解大语言模型上下文理解的关键
大型语言模型(LLMs)在上下文知识理解方面取得了令人瞩目的成功。 近日,一项来自 ICML 2025 的新研究《Massive Values in Self-Attention Modules are the Key to Contextual Knowledge Understanding》揭示了大型语言模型中一个重要现象:在注意力机制的查询 (Q) 和键 (K) 表示中存在非常集中的极大值,而在值 (V) 表示中却没有这种模式。 这一现象在使用旋转位置编码 (RoPE) 的现代 Transformer 模型中普遍存在,对我们理解 LLM 内部工作机制具有重要意义。
5/7/2025 9:12:00 AM
GPT-4o图像生成的「核燃料」找到了!万字长文拆解潜在变量,网友:原来AI在另一个维度作画
上个月, GPT-4o 的图像生成功能爆火,掀起了以吉卜力风为代表的广泛讨论,生成式 AI 的热潮再次席卷网络。 而在这股浪潮背后,潜在空间(Latent Space)作为生成模型的核心驱动力,点燃了图像与视频创作的无限想象。 知名研究者 Andrej Karpathy 最近转发了一篇来自 Google DeepMind 研究科学家 Sander Dielman 的博客文章,探讨了生成模型(如图像、音频和视频生成模型)如何通过利用潜在空间来提高生成效率和质量。
5/7/2025 9:06:00 AM
360开源升级自研7B参数模型360Zhinao3-7B 各项能力全面提升
360集团宣布开源升级了自研的7B参数模型360Zhinao3-7B,并已上线Github开源社区,可供免费商用。 这一模型不仅在数学和科学领域表现出色,更在通用能力上展现了强大的潜力,尤其在端侧应用上具有显著优势。 在本次升级中,360Zhinao3-7B模型仅通过增量训练700B的高质量token,就取得了显著的效果提升,这相比前代模型360Zhinao2-7B的10.1T token成本大幅降低,且不会增加模型的推理成本。
5/7/2025 9:00:53 AM
AI在线
H-MBA层次化MamBa模型如何突破自动驾驶视频理解瓶颈?这三大创新亮点揭示答案!
一眼概览:H-MBA (Hierarchical MamBa Adaptation) 提出了一个创新的多模态视频理解框架,通过结合高低时域分辨率,显著提升了自动驾驶场景中的视频理解和风险物体检测性能。 核心问题:现有的多模态大语言模型(MLLMs)在处理自动驾驶中复杂的时空动态视频时,性能有限。 特别是在捕捉背景变化、车辆和行人运动等方面,现有方法难以做到准确的时空理解。
5/7/2025 8:49:17 AM
萍哥学AI
实时口语聊天大模型 LLaMA-Omni 2 来了,能让你的 AI 聊天体验起飞!
最近 AI 圈可是热闹非凡,今天咱们就来聊聊其中的 “狠角色”——LLaMA-Omni2。 这是一系列超厉害的语音语言模型(SpeechLMs),参数规模从0.5B 到14B 不等,专门为实现高质量实时语音交互而生,在 Hugging Face 上一经发布,就引起了广泛关注。 语音交互发展历程回顾:从 “卡顿” 到 “丝滑”语音交互在人机交互领域的地位愈发重要,它就像是为我们打开了一扇便捷的大门,极大地提升了交互效率和用户体验。
5/6/2025 6:00:52 PM
AI在线
阿里通义Qwen3语言模型上线 ,开源实力再升级!
在全球人工智能领域,Qwen 系列大型语言模型迎来了新成员 ——Qwen3的发布。 今日,通义宣布将 Qwen3开源,带来了令人振奋的技术革新。 此次发布的旗舰模型 Qwen3-235B-A22B 以其2350亿个参数的规模在多个基准测试中展现出强大的竞争力,超越了 DeepSeek-R1、o1、o3-mini、Grok-3及 Gemini-2.5-Pro 等顶级模型。
5/6/2025 6:00:51 PM
AI在线
月之暗面 Kimi 长思考模型 API 正式发布
月之暗面科技有限公司宣布正式发布其最新的长思考模型API——kimi-thinking-preview。 这一模型具备多模态推理能力和通用推理能力,擅长深度推理,能够帮助用户解决复杂的代码问题、数学难题和工作中的挑战。 kimi-thinking-preview模型是目前最新的k系列思考模型,用户可以通过简单的API调用轻松使用。
5/6/2025 6:00:51 PM
AI在线
音乐界的sd?ACE-Step音乐生成模型发布,20秒打造4分钟完整歌曲
ACE-Step,一款由ACE Studio与StepFun联合开发的音乐生成“基础模型”,于近日正式亮相,被誉为“音乐界的Stable Diffusion”。 该模型以其惊人的生成速度和多样化功能引发行业热议,支持19种语言,可在短短20秒内生成一首长达4分钟的完整音乐作品,效率比主流模型快15倍以上。 核心功能亮点:从歌词到完整歌曲一气呵成ACE-Step以其强大的生成能力重新定义了AI音乐创作。
5/6/2025 5:00:41 PM
AI在线
大模型集体“挂科”!全新中文网页检索测试:GPT-4o准确率仅6.2%
你以为大模型已经能轻松“上网冲浪”了? 新基准测试集BrowseComp-ZH直接打脸主流AI。 BrowseComp-ZH是一项由港科大(广州)、北大、浙大、阿里、字节跳动、NIO等机构联合发布的新基准测试集,让20多个中外主流大模型集体“挂科”:GPT-4o在测试中准确率仅6.2%;多数国产/国际模型准确率跌破10%;即便是目前表现最好的OpenAI DeepResearch,也仅得42.9%。
5/6/2025 3:32:23 PM
AI无师自通,搞定所有家务!π0.5突破泛化极限,UC伯克利系出品
近年来,机器人取得了显著进展,能表演杂技、跳舞、听从指令,甚至完成叠衣服、擦桌子等复杂任务。 但机器人面临的最大挑战并非灵活性,而是泛化能力——在新环境中正确完成任务的能力。 想象一个你家中的清洁机器人:每个家庭布局不同,物品摆放各异,机器人必须在多个层面上实现泛化。
5/6/2025 3:31:55 PM
新智元
VDC+VBench双榜第一!强化学习打磨的国产视频大模型,超越Sora、Pika
随着 Deepseek 等强推理模型的成功,强化学习在大语言模型训练中越来越重要,但在视频生成领域缺少探索。 复旦大学等机构将强化学习引入到视频生成领域,经过强化学习优化的视频生成模型,生成效果更加自然流畅,更加合理。 并且分别在 VDC(Video Detailed Captioning)[1] 和 VBench [2] 两大国际权威榜单中斩获第一。
5/6/2025 3:28:14 PM
机器之心
微软Phi-4模型震撼发布:轻量化性能炸裂
嘿,各位AI圈的同仁们! 最近AI界热议的话题可不少,但微软悄悄放出的这个“小”家伙,绝对值得咱们重点关注。 微软这次没有追逐那种动辄千亿参数的“巨无霸”,反其道而行之,推出了参数规模相对小巧的Phi-4系列推理模型。
5/6/2025 1:42:16 PM
墨风如雪
“请”和“谢谢”真有用?研究表明礼貌用语或能提升 AI 模型响应质量
与人工智能进行互动时,使用礼貌用语,例如“请”和“谢谢”,或许真的能带来更好的结果。 谷歌 DeepMind 的高级研究员 Murray Shanahan 近日表示,以礼貌的方式与语言模型交流,实际上可能提升其响应的质量。 图源备注:图片由AI生成,图片授权服务商MidjourneyShanahan 解释说,清晰且友好的措辞,特别是包含“请”和“谢谢”这样的礼貌性词语,可能会对模型的输出产生积极影响。
5/6/2025 10:01:20 AM
AI在线
英伟达全新开源自动语音识别模型 Parakeet-TDT-0.6B-V2,语音转录能力再提升
近日,英伟达在 Hugging Face 平台上推出了其最新的自动语音识别(ASR)模型 ——Parakeet-TDT-0.6B-V2。 这一新模型不仅在性能上有显著提升,还将开源理念与商业应用相结合,吸引了广泛关注。 超强转录能力Parakeet-TDT-0.6B-V2的最大亮点在于其出色的转录效率。
5/6/2025 10:01:12 AM
AI在线
315 行代码构建编程助手,Go大佬揭开智能体的「神秘面纱」
知名 Go 大佬 Thorsten Ball 最近用 315 行代码构建了一个编程智能体,并表示「它运行得非常好」且「没有护城河」(指它并非难以复制)。 Thorsten Ball 在编程领域以其对系统编程和编程语言的深入研究而闻名,尤其擅长解释器、编译器和虚拟机等主题。 他撰写的《用 Go 语言自制编译器》和《用 Go 语言自制解释器》则被视为编译原理领域的「入门平替」。
5/6/2025 9:15:00 AM
机器之心
DeepSeek开源的文件系统,是如何提升大模型效率的?
在 AI 领域里,大模型通常具有百亿甚至数千亿参数,训练和推理过程对计算资源、存储系统和数据访问效率提出了极高要求。 2 月 28 日,DeepSeek 开源了一种高性能分布式文件系统 3FS,官方表示其目的是解决人工智能训练和推理工作负载的挑战。 作为一种并行文件系统,3FS 可以在 180 节点集群中实现 6.6 TiB/s 的聚合读取吞吐量,对于提高 DeepSeek V3、R1 大模型的训练数据预处理、数据集加载、检查点保存/重新加载、嵌入向量搜索和 KVCache 查找等工作的效率有重要帮助。
5/6/2025 9:03:00 AM
机器之心
资讯热榜
苹果发布全新Xcode 26开发者工具:内置ChatGPT先进AI功能
Microsoft Releases 700 Real AI Cases to Explore New Intelligent Work Models
微软发布 700 个真实 AI 案例,探索智能化工作新模式
豆包App“一句话P图”功能全新升级 基于SeedEdit 3.0实现全面优化
DeepSeek前高管秘密创业,新AI Agent项目已获顶级VC押注
Li Hang, head of ByteDance AI Lab, resigns; Seed team enters adjustment period
苹果向开发者开放本地AI能力,推出全新Foundation Models框架
支持MCP!开源智能体开发框架 Rowboat:打造你的智能助手只需几分钟
标签云
人工智能
AI
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
谷歌
数据
机器人
大模型
Midjourney
用户
智能
开源
微软
GPT
Meta
学习
图像
技术
AI创作
Gemini
论文
马斯克
Stable Diffusion
算法
英伟达
代码
Anthropic
芯片
开发者
生成式
蛋白质
腾讯
神经网络
训练
3D
研究
生成
智能体
苹果
计算
机器学习
Sora
Claude
AI设计
AI for Science
GPU
AI视频
人形机器人
搜索
华为
百度
场景
大语言模型
xAI
预测
伟达
深度学习
LLM
字节跳动
Transformer
Agent
模态
具身智能
神器推荐
工具
文本
视觉
LLaMA
算力
Copilot
驾驶
大型语言模型
API
RAG
应用
架构