AI在线 AI在线

DeepSeek

CoT推理大溃败?哈佛华人揭秘:LLM一思考,立刻就「失智」

DeepSeek-R1火了,推理模型火了,思维链(Chain-of-Thought,CoT)火了! 模型很聪明,问题是:它还听你的话吗? 思维链很好,但代价呢?
5/21/2025 9:02:20 AM

华为 + DeepSeek 推理性能创新高,技术报告公布

华为不仅已经将昇腾在超大规模 MoE 模型推理部署的技术报告分享了出来,在一个月时间内,还会把实现这些核心技术的相关代码也都会陆续开源出来。
5/19/2025 1:22:36 PM
汪淼

北大DeepSeek论文或预定ACL Best Paper!梁文锋署名

重磅惊喜! 北大与DeepSeek合作,并由梁文锋亲自提交到arXiv的论文,将有望斩获ACL 2025最佳论文(ACL Best Paper)。 图片论文地址:,总投稿数高达8000多篇,创历史之最,而ACL 2024总投稿数仅为4407,几乎翻倍!
5/19/2025 9:12:16 AM
新智元

微软纳德拉应对 AI 新挑战,DeepSeek 崛起引发战略调整

R1的处理成本仅为OpenAI的3.6%,且开源免费,威胁微软对OpenAI的巨额投资。纳德拉迅速组织团队评估并应对,最终选择拥抱竞争,将R1整合进微软云服务Azure。这一事件揭示了纳德拉对AI商品化的独特思考,以及微软在AI战略上的灵活调整。
5/16/2025 12:18:23 PM
故渊

DeepSeek-V3 发布新论文,揭示低成本大模型训练的奥秘

近日,DeepSeek 团队发布了关于其最新模型 DeepSeek-V3的一篇技术论文,重点讨论了在大规模人工智能模型训练中遇到的 “扩展挑战” 以及与硬件架构相关的思考。 这篇长达14页的论文不仅总结了 DeepSeek 在开发 V3过程中的经验与教训,还为未来的硬件设计提供了深刻的见解。 值得注意的是,DeepSeek 的 CEO 梁文锋也参与了论文的撰写。
5/16/2025 9:00:55 AM
AI在线

英伟达发布新 RL 范式:受 DeepSeek-R1 启发,重塑 AI 模型外部工具能力

英伟达联合推出 Nemotron-Research-Tool-N1 系列模型,受 DeepSeek-R1 启发,采用新型强化学习(RL)范式,强化模型推理能力。
5/14/2025 2:03:30 PM
故渊

Poe:DeepSeek使用率下降50%,快手崛起、OpenAI暴涨

今天凌晨,全球著名大模型整合应用平台Poe发布了,2025年春季AI模型使用趋势报告。 结果显示,DeepSeek R1的使用率从2月中旬的峰值7%下降到了4月底的3%,整体使用率下降超过50%;OpenAI由于在GPT-4o推出新的文生图功能后,例如,吉卜力风格、仿真自拍等类型图片,实现病毒式增长使用率暴涨。 下面「AIGC开放社区」将从文本、视频、推理、图像和音频5大领域为大家解读这份报告。
5/14/2025 9:16:39 AM

绝!三招教你私有化部署 DeepSeek

在数字化转型的进程中,企业不仅需要高效、智能的工具来提升运营效率,还需确保数据安全与满足隐私保护要求。 DeepSeek 私有化部署正是为解决这一需求而生的,它通过将 DeepSeek 智能助手从公共云端迁移至企业内部服务器,为企业提供了一种安全、可控且高度定制化的解决方案。 这种部署方 式不仅能够满足企业对敏感数据的保护需求,还能根据具体业务场景进行灵活 调整,从而为企业数字化转型提供强有力的支持。
5/14/2025 2:00:00 AM

DeepSeek回应“崩了”:部分功能已恢复正常

今日,DeepSeek突发状况引发网友广泛关注与热议,迅速成为网络焦点。 大量网友反馈,在使用DeepSeek时遭遇严重问题。 不少人表示,点进DeepSeek后页面疯狂转圈,根本无法正常使用。
5/13/2025 8:00:42 PM
AI在线

(更新:对话功能恢复正常)DeepSeek 出现服务问题,登录失败、无法对话

据IT之家小伙伴反馈,DeepSeek 今日下午出现服务问题,主要影响网页端对话。#deepseek崩了##deepseek#
5/13/2025 6:09:37 PM
汪淼

DeepSeek公开致谢腾讯技术团队 助力DeepSeek通信框架提速100%

DeepSeek近日发文公开致谢腾讯技术团队,称其对DeepSeek开源通信框架DeepEP的优化是一项“huge speedup”级别的代码贡献。 此次优化聚焦于在多种网络环境下提升通信性能。 经测试,优化后的DeepEP在RoCE网络环境下性能提升高达100%,在IB(InfiniBand)网络环境下提升约30%,显著增强了通信效率,为AI大模型训练提供了更稳定、高效的底层支撑。
5/8/2025 10:00:55 AM
AI在线

低价大模型 DeepSeek 实用指南

火爆全网的国产大模型 DeepSeek,其 API 价格仅为同类模型的几十分之一。 图片DeepSeek 网页端与 API 应用场景DeepSeek 网页端界面简洁直观,但 API 使用需要一定技巧。 本文将从对话、知识库、AI 翻译、AI 编程及 Python 调用等多个场景,分篇评测 DeepSeek API 的实际应用。
5/8/2025 8:10:25 AM
红绿灯灯灯灯

DeepSeek 致谢腾讯技术团队,DeepEP 开源通信框架性能显著提升

经测试,优化后的通信框架性能在 RoCE 网络环境提升 100%,IB 网络环境提升 30%,为企业开展 AI 大模型训练提供更高效的解决方案。
5/7/2025 7:55:10 PM
汪淼

腾讯元宝宣布文生图功能升级:混元和 DeepSeek 都已支持生图

腾讯元宝宣布文生图功能升级,结合混元和DeepSeek技术,用户只需一句话指令即可生成高质量图像。新功能已在元宝全端上线,支持复杂场景和艺术风格生成。#腾讯元宝# #AI生图#
5/7/2025 4:34:04 PM
远洋

DeepSeek开源的文件系统,是如何提升大模型效率的?

在 AI 领域里,大模型通常具有百亿甚至数千亿参数,训练和推理过程对计算资源、存储系统和数据访问效率提出了极高要求。 2 月 28 日,DeepSeek 开源了一种高性能分布式文件系统 3FS,官方表示其目的是解决人工智能训练和推理工作负载的挑战。 作为一种并行文件系统,3FS 可以在 180 节点集群中实现 6.6 TiB/s 的聚合读取吞吐量,对于提高 DeepSeek V3、R1 大模型的训练数据预处理、数据集加载、检查点保存/重新加载、嵌入向量搜索和 KVCache 查找等工作的效率有重要帮助。
5/6/2025 9:03:00 AM
机器之心

DeepSeek还没登场,Qwen3 已经抢先引爆AI开源圈

AI 社区原本期盼 DeepSeek 发布重磅新品,却意外迎来了另一款令人瞩目的中国开源模型:Qwen3 正式登场。 此次发布的旗舰型号为 Qwen3-235B-A22B。 其中,235B 代表总参数量;而 A22B 指的是该模型采用了“专家混合”(Mixture of Experts,简称 MoE)架构,实际在每次查询中激活的参数量仅约为 220亿(22B)。
5/6/2025 12:35:33 AM
前端小智

深夜突袭,DeepSeek-Prover-V2加冕数学王者!671B数学推理逆天狂飙

就在刚刚,DeepSeek-Prover-V2正式发布。 此次DeepSeek-Prover-V2提供了两种模型尺寸:7B和671B参数。 DeepSeek-Prover-V2-671B:在DeepSeek-V3-Base基础上训练,推理性能最强。
5/1/2025 10:33:59 AM
新智元

数学推理新标杆!DeepSeek-Prover-V2 实现数学证明的飞跃

在人工智能领域,最近一项重磅技术发布引发广泛关注 ——DeepSeek-Prover-V2。 这一模型不仅在推理性能上取得了显著提升,还被誉为通向人工通用智能(AGI)的关键一步。 DeepSeek-Prover-V2在推理能力和训练效率上都进行了革命性的创新,给数学推理研究带来了新的希望。
5/1/2025 10:00:51 AM
AI在线