DeepSeek
「DeepSeek-V3 技术解析」:无辅助损失函数的负载均衡
在混合专家模型(MoE)的实践中,负载不均衡俨然已成为制约模型性能提升的关键瓶颈之一。 传统的均衡策略往往需要引入复杂的辅助损失函数,不仅增加了训练的复杂度,还可能干扰模型的核心学习目标。 工程师们在提升模型效率的道路上,一直苦苦追寻着一个优雅而高效的平衡解决方案。
4/2/2025 2:17:00 AM
追求卓越的
DeepSeek-R1之后推理模型发展如何?Raschka长文梳理后R1时代14篇重要论文
近日,Deepseek R1 等一系列推理大语言模型已成为 2025 年最热门的话题之一。 在过去的几周里,研究人员推出了许多改进推理的新策略,包括扩展简单测试 - 时间规模化(S1)、关联思维链(Chain of Associated thoughts)、Inner Transformer 等方法。 不仅如此,还有来自腾讯实验室的研究人员探索了 Thoughts Are All Over the Place,通过衡量不正确答案中的 token 效率来鼓励模型对每条推理路径进行更深入的探索;来自美国马里兰大学和橡树岭国家实验室等机构联合提出了 Recurrent Block,通过重复调用同一个循环体的方式,在推理阶段可以迭代任意多次;以及来自美国 Zoom 视频通讯公司的研究团队提出了 Chain of Draft(CoD),基于更接近人类推理的提示策略提出了草稿图,这是一种优先考虑效率和推理的提示词策略。
4/1/2025 4:14:00 PM
机器之心
打工人自救指南:Manus+DeepSeek+Coze破局AI淘汰
前言2025年的中国AI竞技场中,三股技术浪潮正深度重构普通人的生存法则——DeepSeek让普通人年也能享受硅谷级智囊服务;Manus让小微企业人力成本直降70%(简历筛选、财务核算等);Coze的智能体孵化出了新兴职业(智能体架构师、智能体调教师等)。 当人们还在争论AI是否替代人类时,这三个现象级工具已悄然定义了智能技术的三种进化路径:认知突破、执行闭环与生态革命。 这场技术革命的核心分野,在于三者对人类能力的增强坐标差异:• DeepSeek强化认知维度:用强化学习与模型蒸馏技术,将专业决策的颗粒度细化至人类难以企及的层级(如投资策略模拟准确率达97.3%);• Manus重构执行范式:通过规划-执行-验证(PEV)架构,替代HR筛选、财务核算等流程性工作,实现企业人力成本大幅度降低;• Coze激活创新生态:其插件市场增长率达200%,催生“智能体调教师”“智能体架构师”等新职业,让技术民主化从口号变为现实。
4/1/2025 9:49:06 AM
后端小肥肠
DeepSeek能否超越ChatGPT?营销人员应该关注什么
在关于创业的商业课程中,初创企业进入市场时面临一个战略决策,即要与竞争对手保持同步。 对于一项新产品,你必须快速推向市场,或者为市场带来与众不同的东西。 如今,AI初创企业面临着比大多数初创企业更短的跑道来做出这一选择,因为当前领导者之间的竞争依然激烈——包括Perplexity、Claude、谷歌的Gemini和OpenAI的ChatGPT。
4/1/2025 7:00:00 AM
Pierre DeBois
一站式解决Deepseek微调三大痛点:数据集、GPU资源、微调手册与源码
1.Deepseek微调痛点Deepseek模型微调是提升在行业领域表现的关键,但你是否被这些问题卡住? 数据集:不知道如何准备,担心数据泄露? GPU算力:算力不足,Deepseek不同模型尺寸对应的GPU配置选择一头雾水?
3/31/2025 5:10:00 PM
九章云极DataCanvas
万字长文总结:DeepSeek 引发的 AI Infra 变革正在「加速」丨GAIR Live
作者丨朱可轩编辑丨陈彩娴DeepSeek 在进一步点燃 AI Infra 可能性的同时,也带来了新的竞争格局,在 DeepSeek 的范式上,其他厂商能否追赶甚至实现超越尤为关键,这决定了他们能否继续留在牌桌上,当前,AI Infra 已然进入新的洗牌期。 圆桌主持人为 3C AGI Partners 创始人兼 CEO 王康曼,她一直专注于投资 AI Infra 赛道,其创立基金成立后仅一年多就已经成为英伟达全球 VC 联盟成员,也投资了海外发展势头最猛的两家 AI 芯片创业公司 Cerebras Systems 和 Groq。 同时,圆桌还邀请了魔形智能创始人CEO徐凌杰、探微芯联 CEO 刘学和清程极智联合创始人师天麾共同开启了一场深度对话。
3/31/2025 3:50:00 PM
朱可轩
文小言上新了!支持多模型调度,升级全新语音大模型、图片问答能力
3月31日,新一期百度AI DAY上,文小言宣布完成品牌焕新与功能升级。 除品牌视觉形象焕新外,文小言聚焦模型开放与功能创新,支持多模型融合调度,升级全新语音大模型、图片问答、AI生图生视频等多项能力,为用户带来更智能、更高效的AI体验。 百度AI产品创新业务负责人薛苏强调:“AI的未来不再是单纯的技术参数比拼,而是如何通过多模型协同,真正为用户创造价值。
3/31/2025 3:22:01 PM
DeepSeek 月访问量超越 ChatGPT,成为 AI 工具新星
根据3月31日发布的报告,AI 分析平台 aitools.xyz 揭示,DeepSeek 已迅速崛起,成为全球增长最快的 AI 工具之一。 令人惊讶的是,该平台在2025年2月的月访问量达到了5.25亿次,成功超过了 OpenAI 的 ChatGPT,后者的月访问量为5亿次。 这一变化标志着 DeepSeek 在 AI 市场的强劲增长,令业内人士为之一振。
3/31/2025 11:54:00 AM
AI在线
2 月 DeepSeek 新访问量力压 ChatGPT,增长势头强劲
中国AI公司DeepSeek在2025年2月新访问量达5.247亿次,超越ChatGPT的5亿次,市场份额从2.34%增至6.58%,展现强劲增长势头。全球AI工具2月总访问量120.5亿次,独立访客30.6亿。#AI工具##DeepSeek#
3/31/2025 11:17:02 AM
远洋
基于DeepSeek推理的文本聚类
译者 | 李睿审校 | 重楼开发人员需要开发和理解一种新的文本聚类方法,并使用DeepSeek推理模型解释推理结果。 本文将探索大型语言模型(LLM)中的推理领域,并介绍DeepSeek这款优秀工具,它能帮助人们解释推论结果,构建能让终端用户更加信赖的机器学习系统。 在默认情况下,机器学习模型是一种黑盒,不会为决策提供开箱即用的解释(XAI)。
3/31/2025 8:28:24 AM
李睿
Deepseek V3升级!更快、更准、更聪明!
前言大家好,我是林三心,用最通俗易懂的话讲最难的知识点是我的座右铭,基础是进阶的前提是我的初心~🎈 编程的兄弟们都知道,现阶段咱们的开发真的离不开 AI,尤其是碰到一些代码技术上的难题的时候,AI 简直是太好使了,以前咱们要花几个小时去网上查找资料,而现在通过 AI 给出答案,只需要几秒钟 ❗️❗️❗️但是,现在的AI界也是卷出了新的高度,从年前的DeepSeek到Manus每一次的话题都能引爆全网热议。 要问目前AI产品的顶流,问小白现在的发展势头非常迅猛,其凭借着速度快、稳定、方便上手使用、完全免费,受到广大用户好评! 我们可以在AI ChatBots发布的全球 AI 网站增长榜中清楚的看到,问小白正在以超高的增速杀入全球前三。
3/31/2025 3:33:00 AM
割韭菜新姿势:C#+DeepSeek自动生成爆文,单篇收益破万的秘密
在内容创作的江湖中,一直流传着各种“一夜暴富”的传说。 如今,一种看似能让梦想照进现实的“神奇组合”——C#与DeepSeek,正悄然在技术圈掀起波澜,传言称依靠它们自动生成爆文,单篇收益能轻松破万,这究竟是“财富密码”,还是新的“割韭菜”套路? 今天,就让我们一探究竟。
3/31/2025 12:25:00 AM
conan
靠C#年入百万:开发DeepSeek爆文生成系统,日更50篇的源码解剖
在内容创作领域,流量就是财富密码。 如何高效产出吸引眼球的爆文,成为众多创作者和内容机构的核心诉求。 借助当下先进的AI技术,结合强大的C#开发能力,一套能够日更50篇爆文的DeepSeek爆文生成系统应运而生,为从业者打开了年入百万的大门。
3/31/2025 12:22:25 AM
conan
DeepSeek V3来了 老外评测结果:很不错
近期,DeepSeek-V3-0324正式发布,迅速在全球AI领域引发热议。 相较于前作,V3版本虽未实现颠覆性创新,却在推理和编程两大关键领域取得进步,为用户带来新的惊喜。 DeepSeek向来秉持低调策略,在推出新版本时,既不发布白皮书进行详细阐述,也没有召开盛大发布会,仅将模型上传至Hugging Face平台。
3/31/2025 12:00:00 AM
小刀
李开复:零一万物正基于 DeepSeek,打造 AI 2.0 时代的 Windows
在 2025 中关村论坛年会上,零一万物 CEO、创新工场董事长李开复表示,“大模型的推理成本正在以每年降低十倍的速度快速下降,这为 AI-First 应用爆发提供了非常重要的条件。”(新浪科技)
3/30/2025 3:41:44 PM
-
刘慈欣称 DeepSeek 暂时不太会替代科幻作家,未来在理论上完全有可能
DeepSeek 未来有可能替代科幻作家吗?据央视财经昨日报道,科幻作家刘慈欣表示,暂时不太会,但是再过 10 年、20 年,从理论上说完全可能代替科幻小说作家。
3/30/2025 9:23:18 AM
汪淼
李开复:DeepSeek 的成功证明闭源是“死路”,开源才有更大发展
他认为,随着AI的Scaling Law法则从预训练端转移到推理端上,AI模型、AI应用会在今年迎来新的加速爆发,今年的一个行业口号应该是“Make AI Work”(让AI变得有用)。
3/29/2025 4:18:58 PM
清源
微软CEO内部发言看好DeepSeek 重塑AI协作与创新范式
在最近的员工大会上,微软首席执行官萨蒂亚·纳德拉对DeepSeek的评价引人注目,透露出公司在人工智能领域的战略深思。 纳德拉被DeepSeek200人团队的协同能力深深打动,他认为这不仅仅是一个研究项目,更是一个成功转化为市场领先产品的典范。 CoreAI负责人Jay Parikh进一步强调,这个小型团队的成就促使微软重新审视内部协作模式。
3/28/2025 2:55:00 PM
AI在线
资讯热榜
智谱AI全新企业级超级助手Agent CoCo正式上线
苹果发布全新Xcode 26开发者工具:内置ChatGPT先进AI功能
豆包App“一句话P图”功能全新升级 基于SeedEdit 3.0实现全面优化
DeepSeek前高管秘密创业,新AI Agent项目已获顶级VC押注
那个男人回来了!Ilya现身多伦多大学毕业典礼:AI 像是用数字方式复制出来的大脑!不管你愿不愿意,AI都将深刻影响你的一生!
ChatGPT 语音功能升级,实时翻译对话更自然流畅
支持MCP!开源智能体开发框架 Rowboat:打造你的智能助手只需几分钟
苹果向开发者开放本地AI能力,推出全新Foundation Models框架
标签云
人工智能
AI
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
数据
谷歌
机器人
大模型
Midjourney
用户
智能
开源
微软
GPT
学习
Meta
图像
技术
AI创作
Gemini
论文
马斯克
Stable Diffusion
算法
代码
英伟达
Anthropic
芯片
生成式
开发者
蛋白质
腾讯
神经网络
研究
3D
生成
训练
苹果
计算
智能体
Sora
机器学习
AI设计
AI for Science
Claude
GPU
AI视频
人形机器人
华为
搜索
场景
百度
大语言模型
xAI
预测
伟达
深度学习
Transformer
字节跳动
Agent
模态
具身智能
神器推荐
LLaMA
文本
视觉
Copilot
算力
工具
LLM
驾驶
API
大型语言模型
应用
RAG
亚马逊