AI在线 AI在线

理论

DeepSeek+CodeWave实战,打通组织内落地DeepSeek的最后一公里

内容概要1、采购智能体应用效果演示2、DeepSeek大模型特征介绍3、DeepSeek和CodeWave如何产生化学反应4、0基础开发更智能采购管理系统智能体应用效果演示:开源 DeepSeek LLM 7B 和 67B 的 Base 和 Chat 模型2024年2月:开源 DeepSeek Coder 系列模型2024年2月:开源 DeepSeek Math 模型2024年3月:开源 DeepSeek-VL 系列模型2024年5月:开源 DeepSeek-V2 系列模型2024年7月:开源 DeepSeek-Coder-V2 系列模型2024年12月:开源 DeepSeek-V3 系列模型2025年1月:开源推理模型 DeepSeek-R1DeepSeek-V3和DeepSeek-R1差异图片技术特性差异:V3强调训练效率,能以较低GPU资源实现高性能;R1采用"强化学习优先"策略,先培养推理能力再优化语言流畅度核心能力及应用场景差异:V3通用型语言模型,擅长自然语言生成和多领域任务(如写作、多语言处理);R1专注于逻辑推理领域,强化数学解题、代码生成等复杂推理能力。 部署使用差异:API调用时,V3对应名称`deepseek-chat`,R1为`deepseek-reasoner`DeepSeek和CodeWave化学反应为什么需要整合DS到CodeWave主要有以下原因:打造个性化UI开发独立AI应用或已有应用智能化私域流量运营图片DeepSeek、Coze、CodeWave作用与关系CodeWave:通用应用开发平台,可以集成coze、dify、DeepSeek等开发通用AI应用,运行在私域上Coze、Dify:大语言应用开发平台,工作流编排,智能体应用开发,运行在公域上DeepSeek、豆包:大语言模型,是底层AI能力提供者        0基础教你开发更智能的采购管理系统准备工作注册CodeWave: Key:“采购管理系统”创建项目:图片在项目中引入DeepSeek连接器导入连接器:第一步,集成中心 - 导入连接器图片第二步,资产市场搜索DeepSeek连接器并导入:图片第三步,点击添加,在弹框中填入DeepSeek平台获得的API_Key:图片图片这样就导入完毕了!
2/20/2025 8:45:41 AM
前端杨村长

再谈什么是神经网络,透过现象看本质

面对着网络上各种各样关于神经网络的内容,很多想学习神经网络的人都无从下手,包括作者自己;面对各种乱七八糟的概念,名词,很多人都被这些东西蒙住了眼睛。 所以,今天我们就抛开各种高大上的概念,从本质出发来学习什么网络;我们今天不讨论CNN,RNN,Transformer,LSTM等各种神经网络架构;只讨论什么是神经网络。 神经网络对神经网络有过了解的人应该都知道,神经网络就是仿生学的一种实现,使用的是数学模型模拟人类的大脑神经系统;具体的可以看一下上一篇文章——从一个简单的神经网络模型开始。
2/20/2025 8:10:00 AM
AI探索时代

Transformer 的三大优化技术!!

Transformer 是一种基于自注意力(Self-Attention)机制的深度学习模型,最早由 Vaswani 等人在 2017 年的论文《Attention Is All You Need》中提出。 与传统的循环神经网络(RNN)和长短期记忆网络(LSTM)不同,Transformer 丢弃了递归计算结构,而是通过自注意力机制并行处理输入序列,从而大大提高了计算效率。 Transformer 广泛用于自然语言处理(NLP)和计算机视觉(CV)领域,如机器翻译、文本生成、文本分类、目标检测等。
2/20/2025 12:28:59 AM
程序员小寒

DeepSeek公务员上岗!公务员铁饭碗不保?

图片2月18日,“AI公务员上岗”冲上热搜第一名,在深圳福田区率先推出基于DeepSeek开发的AI数字员工,首批70名上岗。 这一事件标志着智能体技术从实验室走向社会治理的第一线,开启人机协作的新纪元。 据介绍,福田这70名新员工可实现:公文格式修正准确率超 95%,审核时间缩短90%错误率控制在 5%以内;“执法文书生成助手”将执法笔录秒级生成执法文书初稿;民生诉求分拨准确率从70%提升至95%;“AI招商助手”企业分析筛选效率提升 30%……“幸福福田”官微显示,广东深圳福田区推出基于DeepSeek开发的AI数智员工,上线福田区政务大模型2.0版,除了有DeepSeek通用能力外,还结合各部门各单位实际业务流程,量身定制个性化智能体,首批满足240个业务场景使用。
2/20/2025 12:00:00 AM
数仓宝贝库

从一个简单的神经网络模型开始

关于神经网络的文章写的也不少了,但一直没弄明白神经网络到底是怎么运作的;而现有的神经网络模型又太复杂,如Transformer,CNN,RNN,以及各种应用场景(NLP,CV,分类任务,回归任务等等);导致我们无法看到神经网络最本质的东西。 所以,今天我们就来从最简单的神经网络开始学起。 简单神经网络神经网络的基本原理很简单,那就是模仿由人类大脑神经元构成的神经网络;神经元结构如下图所示:上图是生物学中神经元的基本结构,神经元由树突和轴突以及细胞核组成;而不同神经元之间通过轴突进行连接;当然这些都是中学生物学的基础,就不多说了。
2/19/2025 6:00:00 PM
AI探索时代

Springer知识蒸馏专著解读 | 面向图像识别的知识蒸馏综述

本次文章介绍我们发表于由Springer出版的专著《Advancements in Knowledge Distillation: Towards New Horizons of Intelligent Systems 》中的第一章“Categories of Response-Based, Feature-Based, and Relation-Based Knowledge Distillation”。 该篇文章的主要内容是整理了面向图像识别的知识蒸馏的相关工作,首先在response-based、feature-based和relation-based三种知识形式来介绍离线知识蒸馏的相关工作,然后整理了在线知识蒸馏和自知识蒸馏的相关工作,在其中也对自监督学习蒸馏和视觉Transformer(ViT)蒸馏也进行了介绍。 最后讲解了扩展的蒸馏技术领域,包括多教师知识蒸馏、跨模态知识蒸馏、注意力机制知识蒸馏、无数据知识蒸馏和对抗知识蒸馏。
2/19/2025 5:20:00 PM
机器之心

「诺奖风向标」2025斯隆奖公布,清华姚班大神霸榜!8位华人计算机科学家入选

2025斯隆研究奖,最新名单刚刚出炉! 今年,126位杰出的职业生涯早期科学家,荣获「诺奖风向标」斯隆研究奖。 这些学者凭借卓越的成就和巨大的发展潜力,成功跻身美国和加拿大新一代科学领军人物的行列。
2/19/2025 4:01:46 PM
新智元

Kimi新论文再次“撞车”DeepSeek,都谈到了长文注意力机制

Kimi背后的长上下文处理机制曝光了! 这项名为MoBA的新型注意力机制,能将处理1M长文本的速度一下子提升6.5倍,而且还是经过Kimi平台实际验证的那种。 概括而言,这项耗时一年半的工作主要看点在:把完整上下文划分成块,让每个查询token自动去关注最相关的KV块,这样就能高效处理长序列数据;提出一种新的参数无关的top-k门控机制,它能给每个查询token挑选出最相关的块,保证模型只聚焦在最有用信息的块上;支持在全注意力和稀疏注意力模式之间轻松切换;一言以蔽之,MoBA将MoE(专家混合)应用于注意力机制,通过遵循一种“less structure” 原则,允许模型自主决定关注哪些区域或位置。
2/19/2025 4:01:37 PM
量子位

DeepSeek新注意力机制引热议!梁文锋亲自提交预印本,目标明确降低计算成本

DeepSeek新注意力机制论文一出,再次引爆讨论热度。 依然是熟悉的画风,熟悉的味道——那边马斯克疯狂烧了20万张卡训出Grok 3,这厢DeepSeek重点关注的依然是压缩计算和推理成本。 具体来说,新论文提出了一种可原生训练的稀疏注意力机制,名为NSA(Native Sparse Attention)。
2/19/2025 4:01:37 PM
量子位

OpenAI掀「百万美金」编程大战!Claude 3.5 Sonnet狂赚40万拿下第一

昨天马斯克刚刚发布了号称「地表最聪明」的Grok 3模型,抢走了所有关注。 这边OpenAI就开始坐不住了,立刻扔出了SWE-Lancer(AI编码测试基准),看一下AI到底能在现实任务中挣到多少钱。 SWE-Lance是一个全新的、更贴近现实的基准测试,用于评估AI模型的编码性能。
2/19/2025 4:01:37 PM
新智元

李彦宏最新财报会议内容流出:百度从DeepSeek身上学到了一件事;调用量涨30倍百度AI搜索的打法;50亿股票回购回馈股东

编辑 | 言征出品 | 51CTO技术栈(微信号:blog51cto)开年,各大科技巨头都被DeepSeek狠狠冲击已经近三周。 本周将会迎来各大公司的2024的Q4财报会议。 百度率先公开了过去三个月取得的成绩。
2/19/2025 4:01:29 PM
言征

Spring Boot 接入 DeepSeek API:实现智能应用的全新路径

在数字化时代,人工智能技术的飞速发展为各行业带来了前所未有的变革机遇。 自然语言处理作为 AI 领域的重要分支,正逐渐渗透到我们日常生活的方方面面,从智能客服、文本生成到知识问答等应用场景,其价值不断凸显。 DeepSeek 作为一种先进且功能强大的自然语言处理 API,为开发者提供了高效、精准的语言理解和生成能力。
2/19/2025 4:00:00 PM
Java技术营地

中国高温超导新突破登Nature,薛其坤院士领衔,南方科大成果

中国高温超导,再迎新突破! 南方科技大学校长薛其坤院士领衔的团队,最新研究成果加急发表在了Nature。 不同于经典的铜或铁基超导,这项成果首次让镍基化合物突破了麦克米兰极限(40K)。
2/19/2025 3:43:16 PM
量子位

奥特曼押注惨败,爆火Ai Pin已死!ChatGPT版iPhone终结,惠普1.16亿美元接盘

谁也没想到,曾红极一时爆火硬件Ai Pin直接挂了! 刚刚,惠普以1.16亿美元收购了前苹果夫妻高管联手创办的AI初创Humane。 曾经,AI硬件这个领域被奥特曼寄予厚望,为此他大力投资了消费硬件初创Humane。
2/19/2025 2:02:23 PM
新智元

宇树机器人跳舞被疑AI合成,王兴兴发新视频自证,小红书:还是疑似AI合成

“这机器人绝对是AI或CG合成的! ”“这也太假了。 ”在一片质疑声之下,宇树科技CEO王兴兴在小红书上发了段自家机器人的最新视频:这段视频是宇树G1机器人的实拍,最大特点就是在机器人后边放了块大镜子。
2/19/2025 2:02:18 PM
量子位

一句话,满足两个广告商!谷歌最新「Token拍卖模型」,多LLM联合创作广告词

当多个LLM智能体共同创作内容时,它们会如何协调彼此的「话语权」? 想象一下,在广告投放中,A航空公司和B度假村都希望吸引用户的目光,但单独宣传各自的服务可能不如联合推广来得有吸引力。 那么,如何让AI智能体像人类一样展开博弈,在竞争与合作之间找到最佳平衡?
2/19/2025 2:02:11 PM
新智元

英伟达CEO老黄预言:未来,每个人都有自己的AI导师!

AI导师时代来临,学习门槛将大幅降低! 在近日接受《财富》杂志采访时,黄仁勋直言:「AI的迅猛发展正在彻底改变知识获取的方式。 」以往学习一门新技能或进入陌生领域,需要投入大量时间和精力,而AI导师的出现让这一切发生了翻天覆地的变化。
2/19/2025 2:02:11 PM
新智元

DeepSeek满血微调秘籍开源!站在巨人肩膀打造私有模型,一手教程在此

DeepSeek爆火甚至引发API低价内卷……但是别忘了开源模型的最大好处是提供了“巨人的肩膀”啊! 微调DeepSeek-V3/R1,低成本打造高质量私有模型、提高业务竞争力,或许才是当下行业内更迫切的需求。 就在刚刚,已收获近4万GitHub StarColossal-AI发布开源大模型后训练工具箱,它包含:DeepSeek-V3/R1满血671B LoRA低成本SFT微调;完整的强化学习工具链PPO、GRPO、DPO、SimPO等;无缝适配DeepSeek系列蒸馏模型在内的HuggingFace开源模型;兼容支持英伟达GPU、华为昇腾NPU等多种硬件;支持混合精度训练,gradient checkpoint等训练加速降低成本;灵活的训练配置接口,支持自定义奖励函数、损失函数等;提供灵活的并行策略配置接口,包括数据并行、模型并行、专家并行、ZeRO和Offload等,以适应不同硬件规模。
2/19/2025 2:02:11 PM
量子位