DeepSeek-V
DeepSeek-V3:硬件与模型的完美统协,奏响 AI 高效新乐章
大家好,我是肆〇柒。 DeepSeek-V3 曾经一度备受全球瞩目,从 V3 发布至今,这一开源模型已经在众多企业场景中成功落地。 然而,在落地过程中,由于其复杂的工程细节,相信许多团队也遇到了不少挑战。
5/28/2025 1:20:00 AM
肆零柒
DeepSeek-V3新论文:软硬协同,砸碎“算力神话”!
当AI大模型越来越“吃”硬件,把内存、算力、带宽逼到极限,追赶者们,或者说整个行业,除了干等硬件升级,还能怎么办? ChatGPT横空出世,大模型竞赛白热化。 英伟达的GPU成了硬通货,算力就是一切。
5/21/2025 2:01:22 PM
更新版DeepSeek-V3官方报告出炉!模型参数685B!数学、代码性能击败GPT-4.5
出品 | 51CTO技术栈(微信号:blog51cto)刚刚,DeepSeek放出了更新模型的官方报告,并发推文:🚀 DeepSeek-V3-0324 现已推出! 🔹推理能力大幅提升🔹更强的前端开发技能🔹更智能的工具使用能力✅对于非复杂推理任务,我们建议使用 V3 — 只需关闭“DeepThink”🔌 API 使用保持不变📜模型现在根据 MIT 许可证发布,就像 DeepSeek-R1 一样! 报告细节已经可以在HF上进行查看:💫模型参数:685B✨更新版V3的几项改进:1.推理能力基准测试表现显著提升: 2.前端 Web 开发- 提高代码的可执行性 - 生成更美观的网页和游戏前端 3.中文写作能力 风格和内容质量提升 - 符合 R1 写作风格 - 中长篇写作质量更优 4.功能增强 - 多轮交互改写能力提升 - 翻译质量和书信写作优化 5.中文搜索能力- 报告分析请求的输出更加详细 6.函数调用改进- 函数调用准确率提升,修复了 V3 版本中的相关问题 在推文下,海外网友纷纷在评论区“催更”DeepSeek-R2!相信不久的将来,DeepSeek就会给我们想要的惊喜吧!
3/26/2025 7:14:33 AM
DeepSeek-R1详细解读!
DeepSeek-R1爆火,今天来详细看下。 论文地址::::现有LLMs在推理任务上的改进主要依赖监督微调(SFT)和后训练(Post-Training)方法,但这些方法需要大量人工标注数据且成本高昂。 OpenAI的o1系列模型虽通过扩展推理链(Chain-of-Thought, CoT)提升了性能,但其测试时扩展仍存在挑战。
2/19/2025 8:00:00 AM
GoldMa
- 1
资讯热榜
DeepRare 重磅发布:全球首个可循证智能体诊断系统,直击医学Last Exam难题
AI时代设计师如何突围?D20峰会揭示未来设计师生存法则
李沐B站更新了!教你手搓语音大模型,代码全开源还能在线试玩
考试提分新工具:网页版 ChatGPT 测试“学习和掌握”功能,AI 助你成学霸
我测试了100+案例,教你零基础复刻外网刷屏的 AI 视频(附提示词模板)
阿里云通义千问 Qwen3-Coder 宣布开源:480B 参数、原生支持 256K 上下文,可与 Claude Sonnet4 媲美
终结Coding?ShellAgent三句话造出马斯克同款「AI女友」!
MinerU 2.0部署教程!
标签云
人工智能
AI
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
谷歌
机器人
数据
大模型
Midjourney
开源
智能
用户
Meta
微软
GPT
学习
技术
图像
Gemini
AI创作
马斯克
论文
英伟达
Anthropic
智能体
代码
算法
Stable Diffusion
训练
芯片
开发者
蛋白质
腾讯
生成式
苹果
LLM
神经网络
AI新词
Claude
3D
研究
生成
机器学习
AI for Science
xAI
计算
人形机器人
Agent
Sora
AI视频
GPU
百度
AI设计
华为
搜索
大语言模型
工具
场景
字节跳动
RAG
大型语言模型
具身智能
预测
深度学习
伟达
视觉
Transformer
神器推荐
AGI
亚马逊
视频生成
Copilot
DeepMind
模态
架构
LLaMA