理论
已节省数百万GPU小时!字节再砍MoE训练成本,核心代码全开源
字节对MoE模型训练成本再砍一刀,成本可节省40%! 刚刚,豆包大模型团队在GitHub上开源了叫做COMET的MoE优化技术。 COMET已应用于字节的万卡训练集群,在真实的生产环境中,累计帮助节省了数百万GPU小时。
3/11/2025 9:20:00 AM
量子位
面试官:AI 友好的整洁业务组件架构,到底解决了什么问题?
人工智能的发展速度已经快到让人难以跟上,但真正决定 AI 实用性的,已经不仅仅是最新的模型(如 GPT-5、Gemini 2 或 Claude 4),而是如何让 AI 连接真实世界,理解实时数据,并自主执行任务。 这就是 Anthropic 的 Model Context Protocol(MCP)横空出世的原因——它不仅仅是一个升级,而是一场 AI 交互的革命! 如果你还没听说过 MCP,那么接下来的内容会彻底改变你对 AI 的认知。
3/11/2025 9:19:53 AM
dev
LeCun最新访谈对DeepSeek一顿猛夸,还谈了AI发展需理解物理世界
LeCun最新访谈,对DeepSeek一顿猛夸。 他表示,DeepSeek是一项很出色的成果,它的开源不只是成果创造者受益,全世界都能从中受益。 不过LeCun也指出,金融市场对DeepSeek出现的反应,说什么“哦,现在我们可以更便宜地训练系统了,所以我们不再需要那么多计算机”,这种说法是错误的。
3/11/2025 9:15:00 AM
量子位
Manus被破解了?曝出系统提示词和背后大模型,CTO也回复了
最近几天,一个叫「Manus」的通用 AI Agent 产品刷屏网络。 它能完成复杂的文件处理、数据分析、代码编写等多种任务。 刚上线不久,大家纷纷在线求购邀请码,都想亲自上手一试这个突然火起来的智能体。
3/11/2025 8:42:04 AM
机器之心
DeepSeek级AI?训练自己的推理模型仅需七个步骤
译者 | 布加迪审校 | 重楼谁需要超级计算机? 仅用15GB VRAM就可以训练你自己的功能强大的AI推理模型! DeepSeek的R1模型在不需要人类反馈的情况下就能进行更深思熟虑的推理,已颠覆了大语言模型(LLM)领域。
3/11/2025 8:37:42 AM
布加迪
人类学的 MCP 彻底颠覆 AI 交互!
人工智能的发展速度已经快到让人难以跟上,但真正决定 AI 实用性的,已经不仅仅是最新的模型(如 GPT-5、Gemini 2 或 Claude 4),而是如何让 AI 连接真实世界,理解实时数据,并自主执行任务。 这就是 Anthropic 的 Model Context Protocol(MCP)横空出世的原因——它不仅仅是一个升级,而是一场 AI 交互的革命! 如果你还没听说过 MCP,那么接下来的内容会彻底改变你对 AI 的认知。
3/11/2025 8:37:17 AM
dev
人加AI:重新定义协作智能时代的工作
人机协作中缺失的中间环节“有一种新兴的协作智能,是现在公司竞争和创新所需要的,”威尔逊在我们的对话中解释道,“这真的是关于深思熟虑且严谨地创造那种结合效应,即人类的聪明才智、人类的创新加上AI系统,能够超越任何一方单独所能做到的。 ”为了说明这一点,威尔逊分享了一个立陶宛研究人员的有趣故事,该研究人员巧妙地重新利用了AlphaFold(一个预测蛋白质结构的AI系统)来解决其创造者未曾设想的复杂蛋白质相互作用问题。 结果呢?这是人类创造力与AI处理能力相结合的科学突破。
3/11/2025 8:30:00 AM
Bernard Marr
2025年的智能体:改变业务、重新定义领导力并加速数字化转型
对于CIO和CTO而言,这些系统既带来了前所未有的机遇,也肩负着重大责任。 智能体正在重塑领导者制定战略、构建基础设施和组织文化的方式,要求他们采取果断行动和具备远见卓识。 智能体在数字化转型中的角色智能体被设计为模仿人类的能力,包括学习、推理和决策。
3/11/2025 8:00:00 AM
Mohit Gupta
六种LLM定制开发基本策略:提示工程、解码策略、RAG、代理、微调和RLHF
译者 | 朱先忠审校 | 重楼为什么要定制LLM? 大型语言模型是基于自监督学习预训练的深度学习模型,需要大量的训练数据资源、训练时间并保存大量参数。 尤其是在过去2年里,LLM彻底改变了自然语言处理,在理解和生成类似人类的文本方面表现出色。
3/11/2025 8:00:00 AM
朱先忠
低价Claude3.7极速使用,白票Deepseek满血R1
在当今数字化时代,人工智能技术正以前所未有的速度改变着我们的工作和生活方式。 无论你是开发者、创意工作者、还是企业管理者,拥有高效、经济的AI工具已成为提升效率的关键。 而今天,我要向大家隆重推荐的Token-AI平台,正是实现这一目标的完美解决方案。
3/11/2025 2:00:00 AM
tokengo
Spring AI这样玩才高级!注解式AI服务开发,这些技巧 GitHub 都找不到
AI Services是什么AI Services 的设计灵感来源于 Spring Data JPA 和 Retrofit 等框架,采用声明式接口定义所需的 API,然后由框架自动生成实现该接口的代理对象。 这种方法隐藏了与 LLM 交互的复杂性,提供了简单直观的 API。 AI Services 主要处理以下常见操作:格式化输入以发送给 LLM解析 LLM 的输出同时还支持更高级的功能:聊天记忆管理工具调用(Function Calling)检索增强生成(RAG)基本使用示例LangChain4j是 Java 生态系统中的一个流行框架,它提供了两种抽象级别:低级 API 和高级 API。
3/11/2025 1:23:11 AM
冷冷
通俗讲解DeepSeek中的GRPO:强化学习里的神奇算法
在人工智能快速发展的时代,强化学习是其中的关键技术,它让机器能够像人一样,在不断尝试中学习怎么做是最好的。 今天要讲的 GRPO(Group Relative Policy Optimization),也就是群体相对策略优化算法,是强化学习里非常厉害的存在。 接下来,就带大家走进deepseek(Paper Review: DeepSeek-R1——强化学习驱动的大语言模型推理能力提升) GRPO 的奇妙世界,看看它到底是怎么回事。
3/11/2025 1:00:00 AM
大模型之路
从DeepSeek MoE专家负载均衡谈起
上周中的时候, 同事给我了一份线上DeepSeek-R1推理的Expert激活的数据用来研究一些专家负载均衡的算法, 当然这些线上数据来自于公司内部的请求, 从中观测出前面10层专家基本上是相对均衡的, 而越到后面不均衡程度差异越大. 当时讨论到这个问题时, 是怀疑内部的一些请求是否专注于电商领域而带来的不平衡特性, 于是做了一些研究. 恰好搜到Intel的一篇论文《Semantic Specialization in MoE Appears with Scale: A Study of DeepSeek-R1 Expert Specialization》[1]有一些基于语义的MoE分析专家的专业性相关的问题, 再加上前几天看到某个公众号采访某院长的一个比较有趣的说法:“Dense模型适合toB业务,MoE模型适合toC业务”.
3/11/2025 12:35:00 AM
zartbot
一条神奇的指令,DeepSeek直接文生图
最近又发现一条神奇的提示词指令,借助Markdown的image标签可以直接在DeepSeek当前窗口得到我们想要的图片。 效果预览我们先看看这条指令的效果:图片这是岳哥在DeepSeek官网直接生成的一辆高铁行驶在海面上生成的图片,可以在DeepSeek上直接预览和下载图片。 提示词指令这条提示词指令具体如下:复制提示词解读这条这里分为3部分第一部分的描述性内容是告诉DeepSeek要生成AI图片,并且指出要如何生成第二部分的url则是具体的AI图片生成的指令,通过替换Prompt的内容来生成第三部分则是希望DeepSeek将AI绘画的提示词以中文的形式显示出来虽然是在DeepSeek当前窗口直接输出,但其实上这里还是借助了第三方AI绘画网站生成图片的功能。
3/11/2025 12:22:00 AM
、平凡世界
Spring-Smart-DI 动态切换实现类,很不错!
在系统开发的实际场景中,我们常常会碰到这样一类需求:同一个功能需要对接多个服务提供商。 这么做主要基于两个重要原因。 其一,为了规避某个服务商的服务出现不可用的风险,以便在出现问题时能够迅速切换到其他服务商,确保系统的稳定性和业务的连续性;其二,不同服务商的收费标准存在差异,从成本控制的角度出发,需要根据实际情况进行灵活切换。
3/11/2025 12:00:35 AM
不才陈某
刚刚,Manus联创回应“沙盒越狱”问题,并表示:没用MCP!顺便官宣了开源计划!
💫X平台用户@jian发布帖子称通过简单的自然语言指令成功获取Manus的系统文件(路径:/opt/.manus/),暴露其沙箱运行时代码、工具链及完整提示词框架。 Manus联合创始人季逸超(Peak)在跟帖中进行了回复,以下是内容翻译:嗨! 我是 Manus AI 的 Peak。
3/10/2025 6:12:22 PM
具身智能新时代!VLA迎来最强基础模型Magma:UI导航、机器人操作全能
现有的大语言模型、图像生成模型等都只是在某几个模态数据上进行操作,无法像人类一样与物理世界产生交互。 视觉-语言-行动(VLA,Vision-Language-Action)模型是可以感知视觉刺激、语言输入以及其他与环境相关数据的自主智能体,能够在物理和数字环境中生成有意义的「具身行动」(embodied actions)以完成特定任务。 图片由于二维数字世界和三维物理世界之间存在差异,现有的VLA模型通常对任务进行简化,导致多模态理解能力偏弱,在跨任务和跨领域的泛化能力上不够通用。
3/10/2025 1:31:28 PM
「古董」GPU也能跑DeepSeek同款GRPO!显存只需1/10,上下文爆涨10倍
开源微调神器Unsloth带着黑科技又来了:上次更新把GRPO需要的内存见到了7GB,这次只需要5GB的VRAM,就能训练自己的推理模型Qwen2.5(1.5B),比上次要少2GB。 这次彻底把推理模型训练显存打下来了! 这次把GRPO训练推理模型的上下文变长10倍,同时需要的显存少了90%。
3/10/2025 1:11:26 PM
新智元
资讯热榜
标签云
人工智能
OpenAI
AIGC
AI
ChatGPT
AI绘画
DeepSeek
模型
数据
机器人
谷歌
大模型
Midjourney
智能
用户
开源
学习
GPT
微软
Meta
图像
AI创作
技术
论文
Gemini
Stable Diffusion
马斯克
算法
蛋白质
芯片
代码
生成式
英伟达
腾讯
神经网络
研究
计算
Anthropic
Sora
3D
AI for Science
AI设计
机器学习
开发者
GPU
AI视频
华为
场景
人形机器人
预测
百度
苹果
伟达
Transformer
深度学习
xAI
Claude
模态
字节跳动
大语言模型
搜索
驾驶
具身智能
神器推荐
文本
Copilot
LLaMA
算力
安全
视觉
视频生成
训练
干货合集
应用
大型语言模型
亚马逊
科技
智能体
AGI
DeepMind