DeepSeek
CoT推理大溃败?哈佛华人揭秘:LLM一思考,立刻就「失智」
DeepSeek-R1火了,推理模型火了,思维链(Chain-of-Thought,CoT)火了! 模型很聪明,问题是:它还听你的话吗? 思维链很好,但代价呢?
5/21/2025 9:02:20 AM
华为 + DeepSeek 推理性能创新高,技术报告公布
华为不仅已经将昇腾在超大规模 MoE 模型推理部署的技术报告分享了出来,在一个月时间内,还会把实现这些核心技术的相关代码也都会陆续开源出来。
5/19/2025 1:22:36 PM
汪淼
北大DeepSeek论文或预定ACL Best Paper!梁文锋署名
重磅惊喜! 北大与DeepSeek合作,并由梁文锋亲自提交到arXiv的论文,将有望斩获ACL 2025最佳论文(ACL Best Paper)。 图片论文地址:,总投稿数高达8000多篇,创历史之最,而ACL 2024总投稿数仅为4407,几乎翻倍!
5/19/2025 9:12:16 AM
新智元
微软纳德拉应对 AI 新挑战,DeepSeek 崛起引发战略调整
R1的处理成本仅为OpenAI的3.6%,且开源免费,威胁微软对OpenAI的巨额投资。纳德拉迅速组织团队评估并应对,最终选择拥抱竞争,将R1整合进微软云服务Azure。这一事件揭示了纳德拉对AI商品化的独特思考,以及微软在AI战略上的灵活调整。
5/16/2025 12:18:23 PM
故渊
DeepSeek-V3 发布新论文,揭示低成本大模型训练的奥秘
近日,DeepSeek 团队发布了关于其最新模型 DeepSeek-V3的一篇技术论文,重点讨论了在大规模人工智能模型训练中遇到的 “扩展挑战” 以及与硬件架构相关的思考。 这篇长达14页的论文不仅总结了 DeepSeek 在开发 V3过程中的经验与教训,还为未来的硬件设计提供了深刻的见解。 值得注意的是,DeepSeek 的 CEO 梁文锋也参与了论文的撰写。
5/16/2025 9:00:55 AM
AI在线
英伟达发布新 RL 范式:受 DeepSeek-R1 启发,重塑 AI 模型外部工具能力
英伟达联合推出 Nemotron-Research-Tool-N1 系列模型,受 DeepSeek-R1 启发,采用新型强化学习(RL)范式,强化模型推理能力。
5/14/2025 2:03:30 PM
故渊
Poe:DeepSeek使用率下降50%,快手崛起、OpenAI暴涨
今天凌晨,全球著名大模型整合应用平台Poe发布了,2025年春季AI模型使用趋势报告。 结果显示,DeepSeek R1的使用率从2月中旬的峰值7%下降到了4月底的3%,整体使用率下降超过50%;OpenAI由于在GPT-4o推出新的文生图功能后,例如,吉卜力风格、仿真自拍等类型图片,实现病毒式增长使用率暴涨。 下面「AIGC开放社区」将从文本、视频、推理、图像和音频5大领域为大家解读这份报告。
5/14/2025 9:16:39 AM
绝!三招教你私有化部署 DeepSeek
在数字化转型的进程中,企业不仅需要高效、智能的工具来提升运营效率,还需确保数据安全与满足隐私保护要求。 DeepSeek 私有化部署正是为解决这一需求而生的,它通过将 DeepSeek 智能助手从公共云端迁移至企业内部服务器,为企业提供了一种安全、可控且高度定制化的解决方案。 这种部署方 式不仅能够满足企业对敏感数据的保护需求,还能根据具体业务场景进行灵活 调整,从而为企业数字化转型提供强有力的支持。
5/14/2025 2:00:00 AM
DeepSeek回应“崩了”:部分功能已恢复正常
今日,DeepSeek突发状况引发网友广泛关注与热议,迅速成为网络焦点。 大量网友反馈,在使用DeepSeek时遭遇严重问题。 不少人表示,点进DeepSeek后页面疯狂转圈,根本无法正常使用。
5/13/2025 8:00:42 PM
AI在线
(更新:对话功能恢复正常)DeepSeek 出现服务问题,登录失败、无法对话
据IT之家小伙伴反馈,DeepSeek 今日下午出现服务问题,主要影响网页端对话。#deepseek崩了##deepseek#
5/13/2025 6:09:37 PM
汪淼
DeepSeek公开致谢腾讯技术团队 助力DeepSeek通信框架提速100%
DeepSeek近日发文公开致谢腾讯技术团队,称其对DeepSeek开源通信框架DeepEP的优化是一项“huge speedup”级别的代码贡献。 此次优化聚焦于在多种网络环境下提升通信性能。 经测试,优化后的DeepEP在RoCE网络环境下性能提升高达100%,在IB(InfiniBand)网络环境下提升约30%,显著增强了通信效率,为AI大模型训练提供了更稳定、高效的底层支撑。
5/8/2025 10:00:55 AM
AI在线
低价大模型 DeepSeek 实用指南
火爆全网的国产大模型 DeepSeek,其 API 价格仅为同类模型的几十分之一。 图片DeepSeek 网页端与 API 应用场景DeepSeek 网页端界面简洁直观,但 API 使用需要一定技巧。 本文将从对话、知识库、AI 翻译、AI 编程及 Python 调用等多个场景,分篇评测 DeepSeek API 的实际应用。
5/8/2025 8:10:25 AM
红绿灯灯灯灯
DeepSeek 致谢腾讯技术团队,DeepEP 开源通信框架性能显著提升
经测试,优化后的通信框架性能在 RoCE 网络环境提升 100%,IB 网络环境提升 30%,为企业开展 AI 大模型训练提供更高效的解决方案。
5/7/2025 7:55:10 PM
汪淼
腾讯元宝宣布文生图功能升级:混元和 DeepSeek 都已支持生图
腾讯元宝宣布文生图功能升级,结合混元和DeepSeek技术,用户只需一句话指令即可生成高质量图像。新功能已在元宝全端上线,支持复杂场景和艺术风格生成。#腾讯元宝# #AI生图#
5/7/2025 4:34:04 PM
远洋
DeepSeek开源的文件系统,是如何提升大模型效率的?
在 AI 领域里,大模型通常具有百亿甚至数千亿参数,训练和推理过程对计算资源、存储系统和数据访问效率提出了极高要求。 2 月 28 日,DeepSeek 开源了一种高性能分布式文件系统 3FS,官方表示其目的是解决人工智能训练和推理工作负载的挑战。 作为一种并行文件系统,3FS 可以在 180 节点集群中实现 6.6 TiB/s 的聚合读取吞吐量,对于提高 DeepSeek V3、R1 大模型的训练数据预处理、数据集加载、检查点保存/重新加载、嵌入向量搜索和 KVCache 查找等工作的效率有重要帮助。
5/6/2025 9:03:00 AM
机器之心
DeepSeek还没登场,Qwen3 已经抢先引爆AI开源圈
AI 社区原本期盼 DeepSeek 发布重磅新品,却意外迎来了另一款令人瞩目的中国开源模型:Qwen3 正式登场。 此次发布的旗舰型号为 Qwen3-235B-A22B。 其中,235B 代表总参数量;而 A22B 指的是该模型采用了“专家混合”(Mixture of Experts,简称 MoE)架构,实际在每次查询中激活的参数量仅约为 220亿(22B)。
5/6/2025 12:35:33 AM
前端小智
深夜突袭,DeepSeek-Prover-V2加冕数学王者!671B数学推理逆天狂飙
就在刚刚,DeepSeek-Prover-V2正式发布。 此次DeepSeek-Prover-V2提供了两种模型尺寸:7B和671B参数。 DeepSeek-Prover-V2-671B:在DeepSeek-V3-Base基础上训练,推理性能最强。
5/1/2025 10:33:59 AM
新智元
数学推理新标杆!DeepSeek-Prover-V2 实现数学证明的飞跃
在人工智能领域,最近一项重磅技术发布引发广泛关注 ——DeepSeek-Prover-V2。 这一模型不仅在推理性能上取得了显著提升,还被誉为通向人工通用智能(AGI)的关键一步。 DeepSeek-Prover-V2在推理能力和训练效率上都进行了革命性的创新,给数学推理研究带来了新的希望。
5/1/2025 10:00:51 AM
AI在线
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
谷歌
机器人
数据
大模型
Midjourney
开源
智能
Meta
用户
微软
GPT
学习
技术
图像
Gemini
马斯克
智能体
AI创作
Anthropic
英伟达
论文
AI新词
代码
训练
算法
Stable Diffusion
LLM
芯片
蛋白质
腾讯
开发者
Claude
苹果
生成式
AI for Science
Agent
神经网络
3D
机器学习
研究
xAI
生成
人形机器人
AI视频
计算
百度
Sora
GPU
华为
AI设计
工具
RAG
大语言模型
搜索
字节跳动
具身智能
大型语言模型
场景
深度学习
预测
视频生成
伟达
视觉
Transformer
AGI
架构
亚马逊
神器推荐
Copilot
特斯拉
应用
DeepMind