理论
如何利用 DeepSeek-R1 本地部署强大的推理模型:从 ChatGPT 风格界面到 API 集成
01、概述随着开源推理模型如 DeepSeek-R1 的崛起,开发者可以在本地运行强大的 AI,而不再依赖于云服务。 这一技术的出现引发了不小的网络热议,或许你也在好奇如何利用这一模型在本地搭建自己的 AI 系统。 本指南将带你了解两种关键的使用场景:普通用户:创建一个 ChatGPT 风格的界面开发者:通过 API 集成模型到应用中在开始之前,如果你有兴趣深入了解 DeepSeek-R1 的背景,以便更好地理解接下来的过程,可以参考我的文章《DeepSeek-R1 理论简介(适合初学者)》。
2/12/2025 2:09:31 PM
基咯咯
AMD开源科研AI Agent,一站式自动写论文
科学研究的漫长历程中,受限于时间和资源,许多高质量的研究想法未能得到充分探索。 如果能够减少探索想法的限制,研究人员将能够同时研究多个概念,增加科学发现的效率。 所以,为了帮助科研人员节省时间快速撰写论文,AMD和约翰·霍普金斯大学的研究人员联合开源了一个专用于科研的AI Agent——Agent Laboratory。
2/12/2025 1:44:12 PM
AIGC开放社区
DeepSeek并非完美,训练过程存在“深度诅咒”
高性能大模型在训练的过程中通常需要数千个GPU,耗费数月甚至更长时间才能完成一次训练。 这种巨大的资源投入使得模型的每一层都必须高效训练,才能确保算力资源最大化利用。 但大连理工、西湖大学、牛津大学等研究人员对DeepSeek、Qwen、Llama和Mistral研究发现,这些模型的深层在训练过程中表现并不好,甚至可以被完全剪枝而不会影响模型性能。
2/12/2025 1:42:25 PM
AIGC开放社区
AI太强,验证码全失效?新南威尔士全新设计:GPT傻傻认不出,人类一致好评
验证码通过利用人类与机器的认知差异实现身份验证。 传统的验证码方案主要依赖文本扭曲[1]、图像分类[2,3]或逻辑推理[4]来区分人类与机器,但随着多模态LLMs(Large Language Model)的发展[5],这些方法逐渐失效,机器也能达到人类水平的认知。 GPT-4o对简单「文本验证码」的破解成功率超过90%,Gemini 1.5 Pro 2.0[6]能识别带噪声的「reCAPTCHA图像」(成功率50%);LLMs在「推理验证码」上的表现较差(平均成功率20%),但人类用户的失败率也同样很高。
2/12/2025 1:37:56 PM
新智元
如何训练最强代码大模型?北大aiXcoder-7B贡献前沿实践
本文的通讯作者是北京大学计算机学院长聘教授李戈。 本文一作是 aiXcoder 蒋思源和北大李戈教授课题组博士生李佳,团队重点关注融合深度学习与软件工程的代码建模方法。 如何训练一个代码大模型?
2/12/2025 1:34:40 PM
机器之心
统一SAM2和LLaVA!字节豆包提出Dense Video多模态大模型Sa2VA
在最近的一篇论文中,来自字节跳动、北京大学等机构的研究者提出了 Sa2VA。 市面上第一个结合 SAM-2 和 LLaVA-like 的视频多模态大模型,结合了 SAM-2 和 LLaVA 的优势,实现了时空细粒度的理解。 论文地址:: 地址:,研究者设计了一套统一的指令微调格式 (Instruction Tuning Pipeline),整合了五种不同的任务,超过 20 个数据集一起进行联合训练。
2/12/2025 1:31:33 PM
机器之心
淘宝卖DeepSeek安装包一月赚数十万???我们免费教你本地部署DeepSeek-R1
当看到这条消息时,机器之心编辑部陷入了集体沉默。 作为一个免费开源的模型,DeepSeek 竟能让倒卖商如此大赚特赚,也着实让人震惊。 而这也从侧面佐证了 DeepSeek 模型引发的本地部署热潮是多么汹涌。
2/12/2025 1:23:47 PM
机器之心
奥特曼公开回怼马斯克,OpenAI董事会成员:说要收购,没收到报价啊?
奥特曼马斯克互怼继续! 继两人因“收购OpenAI”在𝕏平台爆发口水大战后,OpenAI CEO奥特曼在随后的巴黎AI峰会上,对马斯克予以公开回击。 马斯克此举只是压制竞争的小伎俩,我希望他能通过打造更好的产品来竞争;可能他的一生都处于不安全状态,我为这个人感到难过…我不认为他是个快乐的人。
2/12/2025 1:17:25 PM
量子位
DeepSeek被曝估值1500亿达OpenAI一半?巴黎地铁70岁老人都在聊!
DeepSeek的估值,被曝已达1500亿美元,达到了OpenAI的一半? 最近,Bloomberg的这个数据,引起了轩然大波。 所有人都在问:真的假的?
2/12/2025 12:47:01 PM
新智元
4090单卡跑满血版DeepSeek-R1,清华团队开源项目再破大模型推理门槛
DeepSeek-R1火遍海内外,但推理服务器频频宕机,专享版按GPU小时计费的天价成本更让中小团队望而却步。 而市面上所谓“本地部署”方案,多为参数量缩水90%的蒸馏版,背后原因是671B参数的MoE架构对显存要求极高——即便用8卡A100也难以负荷。 因此,想在本地小规模硬件上跑真正的DeepSeek-R1,被认为基本不可能。
2/12/2025 12:45:59 PM
三分钟学会计算DeepSeek的显存内存配置
DeepSeek本地部署前段时间DeepSeek震惊了全世界不容易啊终于国内有了自己的精品图片但访问过程中频繁的 “服务器繁忙”,也让很多人尝而不得作为技术人员都在考虑如何充分利用开源的价值让我们的程序也能借船出海搭上AI的快车,那么问题来了。 如果我需要本地部署一个大模型需要什么配置的电脑呢? 显卡、显存怎么选配模型的大小,决定了对硬件的需求以 DeepSeek-R1 为例1.5b、7b、32b、70b、671b 之间差距非常大图片很多人埋怨说:我的大模型就是个“人工智障”但你得反过来检视一下是不是用的模型参数太少了?
2/12/2025 12:45:06 PM
了不起
突发:苹果AI与阿里牵手成功!曝本地AI功能已提交网信部审批!曾考虑采用DeepSeek
编辑 | 伊风终于定了? 几经波折,苹果AI在中国的落地终于有了眉目! 阿里最终与苹果牵手成功,合作开发国行的Apple Intelligence。
2/12/2025 12:36:11 PM
伊风
DeepSeek R1 搭建个人 AI 知识库
前言上一篇文章写到了部署本地deepseek,基于这篇文章,继续讲一下如何搭建自己的知识库。 可能很多人会有疑问,本地部署有什么优势呢。 其实如果不是有特别的技术研究和比较私密的数据,可以不用搭建。
2/12/2025 12:12:59 PM
cqhly
8卡32B模型超越o1预览版、DeepSeek V3,普林斯顿、北大提出层次化RL推理新范式
一.引言推理大语言模型(LLM),如 OpenAI 的 o1 系列、Google 的 Gemini、DeepSeek 和 Qwen-QwQ 等,通过模拟人类推理过程,在多个专业领域已超越人类专家,并通过延长推理时间提高准确性。 推理模型的核心技术包括强化学习(Reinforcement Learning)和推理规模(Inference scaling)。 主流的大模型强化学习算法,如 DPO、PPO、GRPO 等,通常需要在完整的思维链上进行微调,需要高质量数据、精确的奖励函数、快速反馈和在线迭代、以及大量的算力。
2/12/2025 12:04:54 PM
机器之心
本地部署 DeepSeek:打造你的专属 AI 推理环境,简单明了适合新手
随着 AI 大模型的爆发,DeepSeek 作为一款备受瞩目的开源大模型,吸引了众多开发者的关注。 如何在本地搭建 DeepSeek 推理环境,以便更高效地进行 AI 研究和应用开发? 本篇文章将为你详细解析本地部署 DeepSeek 的完整流程,让你轻松打造属于自己的 AI 推理环境。
2/12/2025 11:59:15 AM
派大星
微软:生成式AI可导致人类认知能力下降
AI正在掀起一场“工作革命”,根据Anthropic公司近日发布的AI经济指数报告,在软件开发(37.2%)、艺术文化创作(10.3%)等知识密集型领域,57%的交互呈现"人机协作"特征。 但是,在“AI大大增强工作效率”的同时,是否也会对人类知识工作者产生负面影响? 近日,微软与卡耐基梅隆大学的一项研究发现,生成式人工智能可导致知识工作者的认知和批判思维能力下降。
2/12/2025 11:36:27 AM
佚名
Deepseek的前世今生
DeepSeek(深度求索)引起硅谷“恐慌”,性能超越了美国的顶尖模型,且研发成本更低,使用的芯片性能也较弱。 甚至有人猜测DeepSeek(深度求索)模型对美国股市都构成了威胁。 中国AI公司证明了用有限的计算资源,足以做出顶尖水平的模型。
2/12/2025 11:25:39 AM
小扒
AI/ML存储环境架构的三个技巧
人工智能彻底改变了我们周围的世界,其革命性影响源于它分析大量数据、从中学习并提供见解和自动化能力。 这些数据通常分布在数据仓库、数据湖、云和本地数据中心中,确保关键信息能够被访问和分析,以适应当今的人工智能计划。 人工智能激增的影响之一是传统商业模式的颠覆。
2/12/2025 10:33:44 AM
AI情报室
资讯热榜
标签云
人工智能
AI
OpenAI
AIGC
ChatGPT
模型
DeepSeek
AI绘画
机器人
数据
谷歌
大模型
Midjourney
用户
智能
开源
微软
GPT
学习
Meta
图像
技术
AI创作
Gemini
论文
马斯克
Stable Diffusion
算法
代码
芯片
英伟达
生成式
蛋白质
开发者
Anthropic
腾讯
研究
神经网络
3D
计算
生成
Sora
机器学习
AI设计
AI for Science
苹果
GPU
训练
AI视频
华为
搜索
Claude
场景
人形机器人
百度
智能体
xAI
预测
伟达
大语言模型
深度学习
Transformer
字节跳动
模态
LLaMA
文本
具身智能
神器推荐
Copilot
视觉
驾驶
API
应用
Agent
算力
大型语言模型
工具
安全
干货合集
视频生成