MoE架构
英伟达与 Mistral AI 合作推出全新开放模型家族
近日,英伟达宣布与大型语言模型开发商 Mistral AI 达成合作,旨在加速开发和部署一系列新的开放源模型。 根据双方的合作协议,英伟达将利用其强大的平台来支持 Mistral 最新推出的模型家族 ——Mistral 3。 Mistral 3 系列被描述为开放源、多语言和多模态的,且针对英伟达的超级计算和边缘平台进行了优化。
12/9/2025 11:36:28 AM
AI在线
406B参数空降!腾讯混元2.0开启内测,推理性能自称“国内第一梯队”
12月5日,腾讯正式发布新一代自研大模型——混元2.0(Tencent HY2.0),包括Think(推理增强版)与Instruct(指令遵循版)两个版本,总参数406B、激活32B,支持256K上下文窗口,官方宣称数学、科学、代码等复杂推理任务“稳居国内第一梯队”。 模型已同步上线腾讯云API,并在元宝、ima等原生应用中灰度放量。
12/8/2025 10:57:14 AM
AI在线
国产“数学金牌”横空出世:DeepSeek-Math-V2 开源文件已上传,性能对标 GPT-4o
11月27日,DeepSeek 团队在 Hugging Face 扔出236B 参数巨兽——DeepSeek-Math-V2,采用 MoE 架构,活跃参数仅21B,上下文一口气拉到128K token。 官方同步放出 Apache2.0权重,商业限制为零,当天就冲爆服务器带宽。 数学战绩一览(零样本 CoT):- MATH 基准75.7%,与 GPT-4o(76.6%)几乎肩并肩;- AIME20244/30题,多于 Gemini1.5Pro、Claude-3-Opus;- Math Odyssey53.7%,同样跻身第一梯队 。
11/30/2025 2:13:47 PM
AI在线
Kimi K2 高速版 AI 模型再提速,输出速度达每秒 100 Tokens
近日,月之暗面发布了有关 Kimi K2 高速版 AI 模型的最新消息。 经过工程师们的努力,Kimi K2 turbo-preview 模型的输出速度得到了显著提升,目前稳定输出速度已达到每秒 60 Tokens,最高可达每秒 100 Tokens。 这一进步标志着该模型在处理数据时的效率大幅提高,用户在应用时能够体验到更为流畅的服务。
8/22/2025 6:21:26 PM
AI在线
免费!DeepSeek R1T Chimera 正式上线 OpenRouter 平台
由TNG Technology Consulting 研发的 DeepSeek R1T Chimera 模型已正式上线 OpenRouter 平台,为全球开发者提供高效、强大的推理能力。 这一全新开源模型结合了 DeepSeek R1的卓越推理能力和 V3-0324的高效性能,标志着开源 AI 技术在性能与效率平衡上的又一重大突破。 以下为 AIbase 整理的最新资讯,带您深入了解这一激动人心的进展。
4/28/2025 11:00:52 AM
AI在线
字节发布豆包1.5深度思考模型:多模态深度思考、延迟低
在4月17日的火山引擎 AI 创新巡展杭州站上,字节跳动旗下的火山引擎总裁谭待正式发布了最新的豆包1.5・深度思考模型。 此次发布会吸引了众多行业人士的关注,谭待在会上分享了该模型在多个领域的优异表现。 据悉,豆包1.5模型在数学、编程、科学推理等专业领域,以及创意写作等任务中,都展现出了卓越的能力。
4/17/2025 12:01:15 PM
AI在线
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
谷歌
DeepSeek
AI绘画
大模型
机器人
数据
AI新词
Midjourney
开源
Meta
微软
智能
用户
GPT
学习
智能体
技术
Gemini
马斯克
英伟达
Anthropic
图像
AI创作
训练
LLM
论文
代码
算法
苹果
AI for Science
Agent
Claude
腾讯
芯片
Stable Diffusion
蛋白质
具身智能
开发者
xAI
生成式
神经网络
机器学习
人形机器人
3D
AI视频
RAG
大语言模型
Sora
研究
百度
生成
GPU
工具
华为
字节跳动
计算
AGI
大型语言模型
AI设计
搜索
生成式AI
视频生成
DeepMind
AI模型
特斯拉
场景
深度学习
亚马逊
架构
Transformer
MCP
Copilot
编程
视觉