DeepSeek
DeepSeek R1也会大脑过载?过度思考后性能下降,少琢磨让计算成本直降43%
原来,大型推理模型(Large Reasoning Model,LRM)像人一样,在「用脑过度」也会崩溃,进而行动能力下降。 近日,加州大学伯克利分校、UIUC、ETH Zurich、CMU 等机构的研究者观察到了这一现象,他们分析了 LRM 在执行智能体任务过程中存在的推理 - 行动困境,并着重强调了过度思考的危险。 论文标题:The Danger of Overthinking: Examining the Reasoning-Action Dilemma in Agentic Tasks论文链接:「单机模式」下,这些模型在实时互动的环境中仍是「思想上的巨人,行动中的矮子」。
3/2/2025 2:07:00 PM
机器之心
腾讯元宝电脑版正式发布,支持Windows和macOS系统
腾讯AI助手"腾讯元宝"近日正式推出电脑版应用,同时支持Windows和macOS两大主流操作系统,进一步拓展其在桌面端的服务能力。 此次发布的电脑版专为工作和学习场景打造,旨在帮助用户减轻工作负担、提升效率。 电脑版保留了移动端和网页版的核心功能,用户可以体验到相同的智能对话能力,既可通过DeepSeek-R1满血版和推理模型混元T1进行深度思考,也能借助DeepSeek-V3和腾讯混元Turbo S快速获取答案,满足不同场景需求。
3/2/2025 10:34:00 AM
AI在线
DeepSeek揭秘:AI推理系统背后的545%惊人利润率
DeepSeek在知乎开设官方账号,发布了《DeepSeek-V3/R1推理系统概览》技术文章,首次详细披露其模型推理系统的优化细节和成本利润率信息,标志着备受关注的"DeepSeek开源周"正式结束。 文章介绍了DeepSeek-V3/R1推理系统的两大优化目标:"更大的吞吐,更低的延迟"。 为实现这些目标,DeepSeek采用了大规模跨节点专家并行(EP)技术,尽管这增加了系统复杂性。
3/2/2025 10:26:00 AM
AI在线
摩尔线程支持 DeepSeek 开源周“全家桶”
摩尔线程宣布全面支持DeepSeek开源周的五大项目,包括FlashMLA、DeepEP、DeepGEMM、DualPipe和Fire-Flyer 文件系统(3FS)。#摩尔线程##DeepSeek开源周##DeepSeek#
3/2/2025 9:12:24 AM
归泷(实习)
DeepSeek一天能赚多少钱?官方突然揭秘V3/R1推理系统,成本全透明
DeepSeek 官方:如果所有 tokens 全部按照 DeepSeek R1 的定价计算,理论上一天的总收入为 $562,027,成本利润率 545%。 但实际上没有这么多收入,因为 V3 的定价更低,同时收费服务只占了一部分,另外夜间还会有折扣。 太突然了!
3/1/2025 9:10:00 PM
机器之心
官方详解 DeepSeek-V3 / R1 推理系统:优化目标是更大吞吐、更低延迟
DeepSeek 官方今日在知乎发布《DeepSeek-V3 / R1 推理系统概览》一文,详细介绍如何使用大规模跨节点专家并行(Expert Parallelism / EP)来增大 batch size、如何隐藏传输的耗时、如何进行负载均衡。
3/1/2025 12:56:50 PM
清源
“腾讯元宝电脑版”正式发布:混元大模型 / DeepSeek 双模切换,支持 AI 搜索、总结、写作等核心能力
腾讯元宝电脑版正式上线,支持Windows和macOS系统,集成了混元大模型和DeepSeek大模型,提供AI搜索、总结、写作等核心功能。此外,还能解析多种格式文档,并融入腾讯文档、电脑管家等生态产品,提升工作效率。#腾讯元宝##AI助手#
3/1/2025 12:39:46 PM
漾仔
DeepSeek 反思潮:AGI 既被重新审视,又被持续低估
2 月很有意思。 一、DeepSeek 反思潮在 DeepSeek 的集体反思潮中,无论是大厂内部的“AGI 创业团队”、还是 AGI 的明星创业公司,都进行了战略调整。 很显然,DeepSeek 的暴击让整个行业都进行了一次深刻的反思,值得注意的几个变化是:首先,大模型创业公司重新将技术突破提升到一个新的高度、超越产品更新成为公司战略发展的优先级。
2/28/2025 11:45:00 PM
陈彩娴
清华 + 北大两部 DeepSeek 原版宝典新出炉!(附九部全集下载)
对了,这次给大家分享的 PDF 下载,是原汁原味的原版哦,网上有太多卖课者魔改的内置其广告版本。
2/28/2025 8:05:45 PM
泓澄
如何安全地使用第三方应用程序访问DeepSeek
译者 | 张哲刚审校 | 重楼AI编码助手改变了开发人员编写软件的方式。 它们可以自动执行重复性的任务,及早发现错误,进而加快开发进度。 但是,并不是所有的AI 编码工具在构建时都考虑到了安全性这个重要的问题。
2/28/2025 5:03:43 PM
张哲刚
阿里国际 AI 搜索引擎 Accio 成功接入 DeepSeek
阿里国际 AI 搜索引擎 Accio 宣布接入 DeepSeek,进一步提升其在全球市场的搜索能力。 这一新举措不仅为用户提供了更为精准的信息检索服务,还为企业和开发者打开了全新的合作机会。 Accio 作为阿里巴巴旗下的国际搜索引擎,致力于利用人工智能技术为全球用户提供快速、准确的信息查询服务。
2/28/2025 4:10:00 PM
AI在线
DeepSeek 只有 160 名员工:新希望董事长刘永好透露与梁文锋交谈内容,称赞年轻人更懂新的科技
刘永好称:“DeepSeek 梁同学,这次开会我们又在一块吃饭,我就问他,我说你现在有多少员工,他说 160 个。我说你现在那么大的影响,做那么多事才 160 个?他说是。”
2/28/2025 2:37:46 PM
汪淼
转战 AI 课程直播!“嘎子哥”谢孟伟开卖DeepSeek课程
在直播热潮中,曾因主演《小兵张嘎》而广受欢迎的演员 “嘎子哥” 谢孟伟,也选择直播赛道。 继之前销售白酒后,他将目光投向了人工智能领域,推出了名为 DeepSeek 的 AI 课程。 在直播中,嘎子哥向观众介绍了 DeepSeek 课程的内容。
2/28/2025 2:11:00 PM
AI在线
DeepSeek太给力了!自家的大模型秘方开源到底!国产大模型雄起
出品 | 51CTO技术栈(微信号:blog51cto)DeepSeek “开源周”第五天,依旧保持了一如既往地“务实”风,满满的诚意。 先来回忆下前四天,源神的慷慨发布——第一天,2月24日,最为外界称道的MLA技术率先开源,这项解码加速器FlashMLA技术能够让英伟达Hopper架构GPU跑得更快,效果更好! 紧接着,25日,直接亮出首个面向MoE模型的开源专家并行通信库DeepEP,实现了MoE训练推理的全栈优化;第三天,则进一步祭出一项跨时代的发布:FP8通用矩阵乘法加速库,从底层让模型训练、微调变得更加流畅丝滑;第四天,也就是昨天的并行优化“三剑客”:DeepSeek-V3和R1 模型背后的并行计算优化技术——DualPipe(双向流水线并行算法,让计算和通信高效协同)、EPLB ( 专家并行负载均衡器,让每个 GPU 都“雨露均沾”)、profile-data (性能分析数据,可以理解成V3/R1 的并行优化的分析经验)可以说前四天的发布聚焦在算力通信、模型架构优化,也就是算力和算法的层面,而接下来第五天的开源则补上了AI三驾马车的最后一块,也是用户体验感知更为明显的一块优化动作:高性能分布式文件系统(数据存储层面的改进)。
2/28/2025 12:32:42 PM
DeepSeek开源周最后一天:让数据处理「从自行车升级到高铁」
DeepSeek 的开源周终于迎来了最后一天。 今天他们开源了一个名为 3FS(Fire-Flyer File System)的系统。 这是一种并行文件系统,它利用现代固态硬盘(SSD)和远程直接内存访问(RDMA)网络的全部带宽,能够加速和推动 DeepSeek 平台上所有数据访问操作。
2/28/2025 10:36:25 AM
机器之心
DeepSeek 开源进度 5/5:高性能并行文件系统 3FS 实现聚合吞吐 6.6 TiB/s
2 月 28 日消息,DeepSeek 在开源周第五天发布了 3FS(Fire-Flyer File . System),这是一个专为充分利用现代 SSD 和 RDMA . 网络带宽而设计的并行文件系统,具备惊人的数据访问性能,为深度学习等数据密集型应用提供了强大的支持。
2/28/2025 10:01:06 AM
故渊
“嘎子哥”谢孟伟开卖 AI 课,宣称 DeepSeek 引爆流量
随着生成式 AI 行业以及国产 DeepSeek 模型的爆火,直播带货行业也开始向 AI 靠拢。2 月 26 日有网友发布视频,曾主演《小兵张嘎》的演员“嘎子哥”谢孟伟有了新的直播方向。
2/28/2025 9:38:06 AM
汪淼
疯了!居然有人试图让我搞懂,什么是 DeepGEMM
DeepSeek开源周,继DeepEP之后,开源了第三弹DeepGEMM。 今天简单来说说:吃瓜:DeepGMEE是干嘛的? 技术:DeepGMEE是怎么做到的?
2/28/2025 9:30:00 AM
58沈剑
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
谷歌
机器人
数据
大模型
Midjourney
开源
智能
Meta
用户
微软
GPT
学习
技术
图像
Gemini
马斯克
智能体
AI创作
Anthropic
英伟达
论文
AI新词
代码
训练
算法
Stable Diffusion
LLM
芯片
蛋白质
腾讯
开发者
Claude
苹果
生成式
AI for Science
Agent
神经网络
3D
机器学习
研究
xAI
生成
人形机器人
AI视频
计算
百度
Sora
GPU
工具
华为
RAG
AI设计
大语言模型
搜索
字节跳动
具身智能
大型语言模型
场景
深度学习
预测
视频生成
伟达
视觉
Transformer
AGI
架构
神器推荐
亚马逊
Copilot
特斯拉
应用
DeepMind