AI在线 AI在线

DeepSeek-R

赶在Deepseek-r2之前,阿里发布全球最强开源模型Qwen3,4张H20即可部署满血版

最近几天,开源大模型是异常活跃。 从前几天有爆料deepseek-r2即将发布的消息:图片到昨天Qwen3短暂发布又撤回:图片再到今天Qwen3正式发布。 感觉就像一场军备竞赛,阿里这次终于抢在了deepseek-r2发布之前发布了Qwen3!
4/30/2025 1:10:00 AM
DD

阿里重磅发布Qwen3最佳开源LLM,击败 DeepSeek-R1,Llama4

一、Qwen 系列模型发展脉络回溯Qwen 系列模型是阿里云自主研发的成果,其诞生顺应了人工智能领域对强大语言处理能力不断追求的趋势。 自初代模型推出以来,便以高效的架构设计和扎实的预训练基础,在自然语言处理(NLP)任务中初显身手。 随着技术的迭代,Qwen 模型持续进化,参数规模不断扩大,训练数据日益丰富多样,在语言理解、生成等基础能力上稳步提升。
4/29/2025 10:39:46 AM
大模型之路

深夜突袭,阿里Qwen3登顶全球开源王座!暴击DeepSeek-R1,2小时狂揽17k星

就在今天凌晨,备受全球期待的阿里新一代通义千问模型Qwen3开源! 一经问世,它立刻登顶全球最强开源模型王座。 它的参数量仅为DeepSeek-R1的1/3,但成本大幅下降,性能全面超越R1、OpenAI-o1等全球顶尖模型。
4/29/2025 8:14:14 AM
新智元

击败DeepSeek-R1!豆包新推理模型仅用前者参数量1/3!还将开源两个基准,瞄准通用推理能力!

刚刚,字节旗下的豆包团队发布了他们最新的推理模型Seed-Thinking-v1.5! 亮点很突出:200B参数击败DeepSeek R1(671B),不到后者参数量的三分之一! 与其他最新的超大杯推理模型相比,Seed-Thinking-v1.5 是一个相对小型的专家混合(MoE)模型——激活参数为 20B,总参数规模为 200B。
4/11/2025 2:54:44 PM

更新版DeepSeek-V3官方报告出炉!模型参数685B!数学、代码性能击败GPT-4.5

出品 | 51CTO技术栈(微信号:blog51cto)刚刚,DeepSeek放出了更新模型的官方报告,并发推文:🚀 DeepSeek-V3-0324 现已推出! 🔹推理能力大幅提升🔹更强的前端开发技能🔹更智能的工具使用能力✅对于非复杂推理任务,我们建议使用 V3 — 只需关闭“DeepThink”🔌 API 使用保持不变📜模型现在根据 MIT 许可证发布,就像 DeepSeek-R1 一样! 报告细节已经可以在HF上进行查看:💫模型参数:685B✨更新版V3的几项改进:1.推理能力基准测试表现显著提升: 2.前端 Web 开发- 提高代码的可执行性 - 生成更美观的网页和游戏前端 3.中文写作能力 风格和内容质量提升 - 符合 R1 写作风格 - 中长篇写作质量更优 4.功能增强 - 多轮交互改写能力提升 - 翻译质量和书信写作优化 5.中文搜索能力- 报告分析请求的输出更加详细 6.函数调用改进- 函数调用准确率提升,修复了 V3 版本中的相关问题 在推文下,海外网友纷纷在评论区“催更”DeepSeek-R2!相信不久的将来,DeepSeek就会给我们想要的惊喜吧!
3/26/2025 7:14:33 AM

服务器总是繁忙?DeepSeek-R1本地部署图文版教程来啦

最近一段时间,国产大模型DeepSeek-R1在市场上迅速崛起,成为了众多用户的新宠。 然而,伴随其热度与用户量的急剧攀升,由此导致服务器繁忙的状况频繁出现。 为了摆脱服务器繁忙的困扰,本地部署DeepSeek-R1成为了一个绝佳的解决方案,这不仅减少了对网络连接的依赖,还能增强数据安全性。
2/17/2025 10:33:19 AM
Yu

AI成本革命:DeepSeek-R1与OpenAI的颠覆性突破重构企业智能新范式

AI领域的发展日新月异,如果你跟不上步伐,就会落后。 近期的两项进展正在重塑开发者和企业的格局:DeepSeek发布R1模型,以及OpenAI推出新的DeepResearch产品,它们共同重新定义了强大推理模型的成本和可及性,这一点已被广泛报道,然而,较少被讨论的是,它们将如何推动公司采用蒸馏、有监督微调(SFT)、强化学习(RL)和检索增强生成(RAG)等技术,来构建更智能、更专业的AI应用。 在DeepSeek惊人成就的初步兴奋感逐渐平息后,开发者和企业决策者需要考虑这对他们意味着什么。
2/7/2025 3:52:20 PM
Matt Marshall
  • 1