DeepSeek
国产 GPU 助力,摩尔线程实现对 DeepSeek 蒸馏模型推理服务部署
DeepSeek 开源模型(如 V3、R1 系列)在多语言理解与复杂推理任务中展现了卓越性能。摩尔线程智能科技(北京)有限责任公司今日发文宣布,摩尔线程实现了对 DeepSeek 蒸馏模型推理服务部署。
2/4/2025 11:38:52 AM
归泷(实习)
DeepSeek 登陆阿里云,支持云上一键部署 V3、R1 模型
阿里云计算有限公司昨日发文官宣,阿里云 PAI Model Gallery 支持云上一键部署 DeepSeek-V3、DeepSeek-R1。
2/4/2025 8:37:12 AM
归泷(实习)
DeepSeek告诉我:程序员在AI时代不必焦虑
一、AI焦虑的本质:程序员为何担心被取代? 凌晨2点,程序员小王对着屏幕发呆。 GitHub Copilot刚帮他自动补全了代码,但看着一行行自动生成的函数,他突然感到后背发凉:“如果AI连代码都能写,我的价值在哪里?
2/3/2025 10:07:43 PM
方才coding
DeepSeek 威胁下,OpenAI 称考虑开源旧 AI 模型
OpenAI CEO 山姆・阿尔特曼在当地时间上周五(1 月 31 日)举行的 Reddit“Ask Me Anything”活动中表示, OpenAI 需要“弄清楚另一种开源战略”。
2/3/2025 5:10:00 PM
汪淼
Gitee AI 联合沐曦首发全套 DeepSeek R1 千问蒸馏模型,全免费体验
Gitee AI 昨日宣布上线 DeepSeek-R1-Distill-Qwen-1.5B、DeepSeek-R1-Distill-Qwen-7B、DeepSeek-R1-Distill-Qwen-14B、DeepSeek-R1-Distill-Qwen-32B 四个较小尺寸的 DeepSeek 模型。
2/3/2025 4:45:56 PM
汪淼
新研究揭示 DeepSeek / o3 弱点:频繁切换思路放弃正确方向,最短答案往往就是对的
最新研究揭示:在遇到高难度问题时,推理大模型可能像“三心二意的学生”一样频繁切换解题思路,却因缺乏深入探索而失败 —— 这种现象被研究者称为 Underthinking(欠思考)。
2/3/2025 2:30:16 PM
远洋
中国红客联盟:与目前网络上传播的所谓“红客联盟工具包”毫无关联
中国红客联盟今就 DeepSeek 事件再次发布声明,称该事件系互联网企业博主为营销宣传,以及某国内小企业借中国红客联盟之名进行的计划性营销牟利行为。
2/3/2025 1:52:01 PM
归泷(实习)
日本经济产业省:目前还很难预测 DeepSeek 对电力需求的潜在影响
据路透社报道,日本经济产业省(METI)通过电子邮件回应了关于数据中心扩张可能增加电力需求的讨论。该部门表示,尽管数据中心的扩展确实可能推高电力需求,但随着类似 DeepSeek 等新技术的出现,未来电力需求的变化仍难以准确预测。
2/3/2025 1:28:25 PM
远洋
秘塔 AI 接入满血版 DeepSeek R1 推理模型
上海秘塔网络科技有限公司昨日发文官宣,在秘塔 AI 中对 R1 满血版进行集成,并结合了秘塔数十亿的全网数据以及数千万的学术文献。目前版本已上线网页端,App 端将在后续版本上线。
2/3/2025 10:08:32 AM
归泷(实习)
DeepSeek 实现任务调度分片算法 , 灵性十足,远超预期 !
这几天,中国人工智能公司 DeepSeek 火了,不仅在美区下载榜上超越了 ChatGPT ,还引发多个美国科技股的股价暴跌。 美国总统特朗普称 DeepSeek 的出现“给美国相关产业敲响了警钟”。 于是,怀着极强的好奇心,我尝试让 DeepSeek V3 模型帮我完成任务调度系统分片功能,流程见下文。
2/3/2025 10:00:00 AM
勇哥
中国红客联盟:未收到任何来自 DeepSeek 求助请求,也从未与其有过任何形式合作或关联
中国红客联盟昨日发布关于 DeepSeek 事件的官方声明,称未曾收到任何来自 DeepSeek 的求助请求,也从未与其有过任何形式的合作或关联。
2/3/2025 7:45:22 AM
归泷(实习)
DeepSeek R1 简易指南:架构、本地部署和硬件要求
DeepSeek 团队近期发布的DeepSeek-R1技术论文展示了其在增强大语言模型推理能力方面的创新实践。 该研究突破性地采用强化学习(Reinforcement Learning)作为核心训练范式,在不依赖大规模监督微调的前提下显著提升了模型的复杂问题求解能力。 技术架构深度解析模型体系:DeepSeek-R1系列包含两大核心成员:DeepSeek-R1-Zero参数规模:6710亿(MoE架构,每个token激活370亿参数)训练特点:完全基于强化学习的端到端训练核心优势:展现出自我验证、长链推理等涌现能力典型表现:AIME 2024基准测试71%准确率DeepSeek-R1参数规模:与Zero版保持相同体量训练创新:多阶段混合训练策略核心改进:监督微调冷启动 强化学习优化性能提升:AIME 2024准确率提升至79.8%训练方法论对比强化学习与主要依赖监督学习的传统模型不同,DeepSeek-R1广泛使用了RL。
2/3/2025 6:00:00 AM
dev
DeepSeek 火爆了,主打高性能低价格!
大家好,我是君哥。 春节这几天,DeepSeek 可以说是火爆了,铺天盖地都是 DeepSeek 的报道。 今天,我们一起学习一下 DeepSeek。
2/3/2025 12:00:15 AM
朱晋君
硅谷掀桌!DeepSeek遭OpenAI和Anthropic围剿,美国网友都看不下去了
顶级“礼遇”。 一觉醒来,OpenAI和Claude母公司都对DeepSeek出手了。 据《金融时报》消息,OpenAI表示已经发现证据,证明DeepSeek利用他们的模型进行训练,这涉嫌侵犯知识产权。
2/3/2025 12:00:10 AM
完整的671B MoE DeepSeek R1怎么塞进本地化部署?详尽教程大放送!
AIxiv专栏是AI在线发布学术、技术内容的栏目。 过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。 如果您有优秀的工作想要分享,欢迎投稿或者联系报道。
2/2/2025 11:51:00 PM
机器之心
微软、英伟达带头接入Deepseek OpenAI紧急寻求400亿美元新融资
近日,微软、英伟达和亚马逊 AWS 等行业领军企业纷纷接入 Deepseek 的模型托管服务。 这一消息不仅让人对 Deepseek 的前景充满期待,同时也昭示着 AI 行业将迎来新的变革。 与此同时,OpenAI 也在积极筹集新一轮资金,寻求高达400亿美元的融资。
2/2/2025 10:49:00 AM
AI在线
DeepSeek-R1 大模型登陆腾讯云,宣称“一键部署、3 分钟调用”
深圳市腾讯计算机系统有限公司今日发文宣布,DeepSeek-R1 大模型支持一键部署至腾讯云「HAI」上,开发者仅需 3 分钟就能接入调用。
2/2/2025 10:25:54 AM
归泷(实习)
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
谷歌
DeepSeek
AI绘画
大模型
机器人
数据
AI新词
Midjourney
开源
Meta
微软
智能
用户
GPT
学习
技术
智能体
Gemini
马斯克
Anthropic
英伟达
图像
AI创作
训练
LLM
论文
代码
算法
苹果
AI for Science
Agent
Claude
腾讯
芯片
Stable Diffusion
蛋白质
具身智能
开发者
xAI
生成式
神经网络
机器学习
人形机器人
3D
AI视频
RAG
大语言模型
Sora
研究
百度
生成
GPU
工具
华为
字节跳动
计算
AGI
大型语言模型
AI设计
搜索
生成式AI
视频生成
DeepMind
特斯拉
场景
AI模型
深度学习
亚马逊
架构
Transformer
MCP
编程
Copilot
视觉