理论
通俗讲解DeepSeek中的GRPO:强化学习里的神奇算法
在人工智能快速发展的时代,强化学习是其中的关键技术,它让机器能够像人一样,在不断尝试中学习怎么做是最好的。 今天要讲的 GRPO(Group Relative Policy Optimization),也就是群体相对策略优化算法,是强化学习里非常厉害的存在。 接下来,就带大家走进deepseek(Paper Review: DeepSeek-R1——强化学习驱动的大语言模型推理能力提升) GRPO 的奇妙世界,看看它到底是怎么回事。
3/11/2025 1:00:00 AM
大模型之路
从DeepSeek MoE专家负载均衡谈起
上周中的时候, 同事给我了一份线上DeepSeek-R1推理的Expert激活的数据用来研究一些专家负载均衡的算法, 当然这些线上数据来自于公司内部的请求, 从中观测出前面10层专家基本上是相对均衡的, 而越到后面不均衡程度差异越大. 当时讨论到这个问题时, 是怀疑内部的一些请求是否专注于电商领域而带来的不平衡特性, 于是做了一些研究. 恰好搜到Intel的一篇论文《Semantic Specialization in MoE Appears with Scale: A Study of DeepSeek-R1 Expert Specialization》[1]有一些基于语义的MoE分析专家的专业性相关的问题, 再加上前几天看到某个公众号采访某院长的一个比较有趣的说法:“Dense模型适合toB业务,MoE模型适合toC业务”.
3/11/2025 12:35:00 AM
zartbot
一条神奇的指令,DeepSeek直接文生图
最近又发现一条神奇的提示词指令,借助Markdown的image标签可以直接在DeepSeek当前窗口得到我们想要的图片。 效果预览我们先看看这条指令的效果:图片这是岳哥在DeepSeek官网直接生成的一辆高铁行驶在海面上生成的图片,可以在DeepSeek上直接预览和下载图片。 提示词指令这条提示词指令具体如下:复制提示词解读这条这里分为3部分第一部分的描述性内容是告诉DeepSeek要生成AI图片,并且指出要如何生成第二部分的url则是具体的AI图片生成的指令,通过替换Prompt的内容来生成第三部分则是希望DeepSeek将AI绘画的提示词以中文的形式显示出来虽然是在DeepSeek当前窗口直接输出,但其实上这里还是借助了第三方AI绘画网站生成图片的功能。
3/11/2025 12:22:00 AM
、平凡世界
Spring-Smart-DI 动态切换实现类,很不错!
在系统开发的实际场景中,我们常常会碰到这样一类需求:同一个功能需要对接多个服务提供商。 这么做主要基于两个重要原因。 其一,为了规避某个服务商的服务出现不可用的风险,以便在出现问题时能够迅速切换到其他服务商,确保系统的稳定性和业务的连续性;其二,不同服务商的收费标准存在差异,从成本控制的角度出发,需要根据实际情况进行灵活切换。
3/11/2025 12:00:35 AM
不才陈某
刚刚,Manus联创回应“沙盒越狱”问题,并表示:没用MCP!顺便官宣了开源计划!
💫X平台用户@jian发布帖子称通过简单的自然语言指令成功获取Manus的系统文件(路径:/opt/.manus/),暴露其沙箱运行时代码、工具链及完整提示词框架。 Manus联合创始人季逸超(Peak)在跟帖中进行了回复,以下是内容翻译:嗨! 我是 Manus AI 的 Peak。
3/10/2025 6:12:22 PM
具身智能新时代!VLA迎来最强基础模型Magma:UI导航、机器人操作全能
现有的大语言模型、图像生成模型等都只是在某几个模态数据上进行操作,无法像人类一样与物理世界产生交互。 视觉-语言-行动(VLA,Vision-Language-Action)模型是可以感知视觉刺激、语言输入以及其他与环境相关数据的自主智能体,能够在物理和数字环境中生成有意义的「具身行动」(embodied actions)以完成特定任务。 图片由于二维数字世界和三维物理世界之间存在差异,现有的VLA模型通常对任务进行简化,导致多模态理解能力偏弱,在跨任务和跨领域的泛化能力上不够通用。
3/10/2025 1:31:28 PM
「古董」GPU也能跑DeepSeek同款GRPO!显存只需1/10,上下文爆涨10倍
开源微调神器Unsloth带着黑科技又来了:上次更新把GRPO需要的内存见到了7GB,这次只需要5GB的VRAM,就能训练自己的推理模型Qwen2.5(1.5B),比上次要少2GB。 这次彻底把推理模型训练显存打下来了! 这次把GRPO训练推理模型的上下文变长10倍,同时需要的显存少了90%。
3/10/2025 1:11:26 PM
新智元
软件行业的颠覆性革命:AI不仅吞噬一切,它就是一切
从前,软件吞噬了世界。 如今,AI来了,要消化剩下的部分。 曾经由应用程序主导、市场控制访问、平台抽取分成的计算模式正在瓦解。
3/10/2025 1:11:00 PM
Justin Westcott
一次搭建完胜1亿次编码,MCP硅谷疯传!Anthropic协议解锁智能体「万能手」
上一周,智能体迎来里程碑式的一周。 从Manus及其开源复现,到Opera的浏览器操作AI智能体、AI工作伴侣Archer,再到多种个人项目,将Agent推向热议风口。 在处理动辄需要十几甚至几十分钟的复杂任务时,涉及到3个核心能力:规划工具使用记忆其中,第二趴是让智能体「动起来」的关键,真正与现实世界进行交互。
3/10/2025 1:08:37 PM
新智元
AI正在冲击一切 无法适应的品牌将会消失
智能体正在筛选品牌、重塑商业并主导消费者选择。 颠覆浪潮即将来袭——你的品牌能否脱颖而出?在不久的将来,商业世界将迎来一场颠覆性的变革,重新定义竞争、客户互动,乃至企业的生存之道。 这场变革的核心是自主式AI——一种承诺通过充当我们的个人数字助理,真正成为我们的“跑腿者”,从而彻底改变日常生活的AI。
3/10/2025 1:04:21 PM
Matt Stroud
扩散模型+深度学习双剑合璧,生成式AI破解染色质构象
编辑丨&人体内的每一个细胞都包含相同的基因序列,但每个细胞只表达这些基因的一个方面。 这些细胞特异性基因表达模式确保脑细胞与皮肤细胞不同,部分由染色质的三维结构决定,遗传物质控制着每个基因的可及性。 高通量测序和成像技术的最新进展大大提高了如今研究单个细胞基因组组织的能力。
3/10/2025 12:57:00 PM
ScienceAI
90%成功响应率,整合约9000个样本,统合癌症蛋白质组学的LLM驱动平台
编辑丨&功能蛋白质组学为癌症机制提供了关键见解,有助于发现新的生物标志物和治疗靶点。 为了充分利用他们整合的将近 500 份高质量抗体的精选组合,美国德克萨斯大学决定采用 LLM 驱动来使资源更高效。 他们推出了 DrBioRight 2.0,这是一个由最先进的大型语言模型提供支持的直观生物信息学平台。
3/10/2025 12:52:00 PM
ScienceAI
谷歌再度被要求出售Chrome!AI投资和安卓系统暂时苟住了!网友:这样只会让Edge成为赢家!谷歌:坚决上诉!
编辑 | 伊风出品 | 51CTO技术栈(微信号:blog51cto)重磅后续来了:谷歌的Chrome还是要卖! 图片上周五,美国司法部在周五提交的法庭文件中,提议要求谷歌剥离 Chrome 浏览器,作为最终的补救措施之一。 提案要求谷歌“迅速且完全剥离 Chrome 及所有必要资产或服务,以确保剥离的成功完成,并将其出售给由原告(即政府)自行决定批准的买家,且需遵守法院和原告批准的条款。
3/10/2025 12:26:10 PM
伊风
如何看待”首个真干活”AI—Manus?
话题背景今日凌晨,一款通用AI Agent产品「Manus」正式发布。 GAIA评分已超越OpenAI的DeepResearch,成为GAIA评分第一。 这一产品以“数字代理人”自居,宣称能独立完成复杂任务并交付完整成果,迅速成为科技圈的焦点。
3/10/2025 12:00:00 PM
腾讯技术工程
人工智能到底是啥?今天彻底讲明白!
想象一下,你家里突然多了个超级聪明的机器人管家。 你对它说:“帮我点杯奶茶! ” 它立刻打开外卖软件,选好你最喜欢的口味,还自动用优惠券帮你省钱。
3/10/2025 11:48:10 AM
快乐程序猿
OpenAI给所有模型做“身份卡”!一个页面读懂能力、速度、价格全指标
OpenAI的模型搞得太多太凌乱,官方自己都看不下去了。 为了厘清这些模型还有它们的各种版本,官方直接给做它们了一套“身份卡”。 每个模型“身份卡”都包含了能力、速度、支持模态、价格等信息,并且以图示 简单文本的形式呈现,既简洁又清晰。
3/10/2025 11:38:42 AM
马斯克推出政务机器人:用AI批量取代公务员
据《WIRED》最新报道,马斯克主导的政府效率部(DOGE)近日在美国总务管理局(简称GSA)内部署了一款名为GSAi的政务聊天机器人,覆盖1500名联邦员工。 这款AI工具旨在接管此前由人工完成的“常规”任务,而此举正值DOGE加速裁减联邦员工之际,引发外界对AI与裁员关联的广泛猜测。 “政府版ChatGPT”仅具备实习生水平?
3/10/2025 10:55:44 AM
佚名
人工智能的深远影响不仅仅是失业:数字幽灵的神秘力量
人工智能正在改变日常生活,从个人助理和推荐算法到高级生成模型。 但最深刻的变化可能是我们未曾预料到的。 虽然新闻头条往往聚焦失业或隐私问题,但人工智能的影响远不止这些。
3/10/2025 10:30:08 AM
晓晓
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
谷歌
AI绘画
机器人
数据
大模型
Midjourney
开源
智能
Meta
用户
微软
GPT
学习
技术
图像
Gemini
AI新词
智能体
马斯克
AI创作
Anthropic
英伟达
论文
训练
代码
算法
LLM
Stable Diffusion
芯片
腾讯
苹果
蛋白质
Claude
开发者
AI for Science
Agent
生成式
神经网络
机器学习
3D
xAI
研究
人形机器人
生成
AI视频
百度
计算
工具
Sora
GPU
华为
大语言模型
RAG
AI设计
字节跳动
具身智能
搜索
大型语言模型
场景
AGI
深度学习
视频生成
预测
视觉
伟达
架构
Transformer
神器推荐
编程
DeepMind
亚马逊
特斯拉
AI模型