MoE架构

英伟达与 Mistral AI 合作推出全新开放模型家族

英伟达与 Mistral AI 合作推出全新开放模型家族

近日，英伟达宣布与大型语言模型开发商 Mistral AI 达成合作，旨在加速开发和部署一系列新的开放源模型。根据双方的合作协议，英伟达将利用其强大的平台来支持 Mistral 最新推出的模型家族 ——Mistral 3。 Mistral 3 系列被描述为开放源、多语言和多模态的，且针对英伟达的超级计算和边缘平台进行了优化。

12/9/2025 11:36:28 AM AI在线

406B参数空降！腾讯混元2.0开启内测，推理性能自称“国内第一梯队”

406B参数空降！腾讯混元2.0开启内测，推理性能自称“国内第一梯队”

12月5日，腾讯正式发布新一代自研大模型——混元2.0（Tencent HY2.0），包括Think(推理增强版)与Instruct(指令遵循版)两个版本，总参数406B、激活32B，支持256K上下文窗口，官方宣称数学、科学、代码等复杂推理任务“稳居国内第一梯队”。模型已同步上线腾讯云API，并在元宝、ima等原生应用中灰度放量。

12/8/2025 10:57:14 AM AI在线

国产“数学金牌”横空出世：DeepSeek-Math-V2 开源文件已上传，性能对标 GPT-4o

国产“数学金牌”横空出世：DeepSeek-Math-V2 开源文件已上传，性能对标 GPT-4o

11月27日，DeepSeek 团队在 Hugging Face 扔出236B 参数巨兽——DeepSeek-Math-V2，采用 MoE 架构，活跃参数仅21B，上下文一口气拉到128K token。官方同步放出 Apache2.0权重，商业限制为零，当天就冲爆服务器带宽。数学战绩一览（零样本 CoT）:- MATH 基准75.7%，与 GPT-4o（76.6%）几乎肩并肩;- AIME20244/30题，多于 Gemini1.5Pro、Claude-3-Opus;- Math Odyssey53.7%，同样跻身第一梯队。

11/30/2025 2:13:47 PM AI在线

Kimi K2 高速版 AI 模型再提速，输出速度达每秒 100 Tokens

Kimi K2 高速版 AI 模型再提速，输出速度达每秒 100 Tokens

近日，月之暗面发布了有关 Kimi K2 高速版 AI 模型的最新消息。经过工程师们的努力，Kimi K2 turbo-preview 模型的输出速度得到了显著提升，目前稳定输出速度已达到每秒 60 Tokens，最高可达每秒 100 Tokens。这一进步标志着该模型在处理数据时的效率大幅提高，用户在应用时能够体验到更为流畅的服务。

8/22/2025 6:21:26 PM AI在线

免费！DeepSeek R1T Chimera 正式上线 OpenRouter 平台

免费！DeepSeek R1T Chimera 正式上线 OpenRouter 平台

由TNG Technology Consulting 研发的 DeepSeek R1T Chimera 模型已正式上线 OpenRouter 平台，为全球开发者提供高效、强大的推理能力。这一全新开源模型结合了 DeepSeek R1的卓越推理能力和 V3-0324的高效性能，标志着开源 AI 技术在性能与效率平衡上的又一重大突破。以下为 AIbase 整理的最新资讯，带您深入了解这一激动人心的进展。

4/28/2025 11:00:52 AM AI在线

字节发布豆包1.5深度思考模型：多模态深度思考、延迟低

字节发布豆包1.5深度思考模型：多模态深度思考、延迟低

在4月17日的火山引擎 AI 创新巡展杭州站上，字节跳动旗下的火山引擎总裁谭待正式发布了最新的豆包1.5・深度思考模型。此次发布会吸引了众多行业人士的关注，谭待在会上分享了该模型在多个领域的优异表现。据悉，豆包1.5模型在数学、编程、科学推理等专业领域，以及创意写作等任务中，都展现出了卓越的能力。

4/17/2025 12:01:15 PM AI在线

资讯热榜

免费！让图片放大不失真的位图转矢量图神器 Tmttool AI应用新纪元：2025中国AI应用排行榜榜单揭晓丨2025年1月 6秒视频10秒生成！全新AI视频神器 Grok Imagine 深度体验+元提示词分享最火、最全的Agent记忆综述，NUS、人大、复旦、北大等联合出品后悔没早发现！教你用谷歌Gemini生成精美PPT（附提示词） GGUF 是什么？一文看懂大模型里最火的模型格式 Sora、可灵、即梦哪家强？AI视频软件深度测评！ Mac也能跑Qwen3，一文看懂本地部署qwen 3配置要求

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI新词 AI绘画大模型机器人数据 Midjourney 开源 Meta 微软智能用户 GPT 学习英伟达 Gemini 智能体技术马斯克 Anthropic 图像 AI创作训练 LLM 论文 AI for Science 代码腾讯苹果算法 Agent Claude 芯片具身智能 Stable Diffusion xAI 蛋白质人形机器人开发者生成式神经网络机器学习 AI视频 3D 字节跳动大语言模型 RAG Sora 百度研究 GPU 生成华为工具 AGI 计算生成式AI AI设计大型语言模型搜索亚马逊 AI模型视频生成特斯拉 DeepMind 场景 Copilot 深度学习 Transformer 架构 MCP 编程视觉