AI在线 AI在线

资讯列表

从DeepSeek MoE专家负载均衡谈起

上周中的时候, 同事给我了一份线上DeepSeek-R1推理的Expert激活的数据用来研究一些专家负载均衡的算法, 当然这些线上数据来自于公司内部的请求, 从中观测出前面10层专家基本上是相对均衡的, 而越到后面不均衡程度差异越大. 当时讨论到这个问题时, 是怀疑内部的一些请求是否专注于电商领域而带来的不平衡特性, 于是做了一些研究. 恰好搜到Intel的一篇论文《Semantic Specialization in MoE Appears with Scale: A Study of DeepSeek-R1 Expert Specialization》[1]有一些基于语义的MoE分析专家的专业性相关的问题, 再加上前几天看到某个公众号采访某院长的一个比较有趣的说法:“Dense模型适合toB业务,MoE模型适合toC业务”.
3/11/2025 12:35:00 AM
zartbot

一条神奇的指令,DeepSeek直接文生图

最近又发现一条神奇的提示词指令,借助Markdown的image标签可以直接在DeepSeek当前窗口得到我们想要的图片。 效果预览我们先看看这条指令的效果:图片这是岳哥在DeepSeek官网直接生成的一辆高铁行驶在海面上生成的图片,可以在DeepSeek上直接预览和下载图片。 提示词指令这条提示词指令具体如下:复制提示词解读这条这里分为3部分第一部分的描述性内容是告诉DeepSeek要生成AI图片,并且指出要如何生成第二部分的url则是具体的AI图片生成的指令,通过替换Prompt的内容来生成第三部分则是希望DeepSeek将AI绘画的提示词以中文的形式显示出来虽然是在DeepSeek当前窗口直接输出,但其实上这里还是借助了第三方AI绘画网站生成图片的功能。
3/11/2025 12:22:00 AM
、平凡世界

Spring-Smart-DI 动态切换实现类,很不错!

在系统开发的实际场景中,我们常常会碰到这样一类需求:同一个功能需要对接多个服务提供商。 这么做主要基于两个重要原因。 其一,为了规避某个服务商的服务出现不可用的风险,以便在出现问题时能够迅速切换到其他服务商,确保系统的稳定性和业务的连续性;其二,不同服务商的收费标准存在差异,从成本控制的角度出发,需要根据实际情况进行灵活切换。
3/11/2025 12:00:35 AM
不才陈某

鸿海富士康推出旗下首款 AI 推理大模型 FoxBrain ,基于 Meta Llama 3.1 打造

鸿海富士康宣布旗下首个AI推理大模型FoxBrain,基于Meta Llama 3.1打造,涵盖数据分析、数学、推理和代码生成等功能,未来将开源。与英伟达合作,利用120块H100 GPU训练一个月,优化繁体中文处理。 #富士康 #AI #FoxBrain
3/10/2025 8:45:17 PM
漾仔

广东:支持企业整合人工智能与机器人产业链、创新链资源

广东省人民政府办公厅印发广东省推动人工智能与机器人产业创新发展若干政策措施。其中提到,支持关键核心技术攻关。支持企业、高校、科研院所等各类创新主体开展联合攻关,围绕人工智能与机器人产业链上下游组建产业创新联盟,加快构建全过程创新链。组织实施省重点领域研发计划“新一代人工智能”“智能机器人”等旗舰项目、重大专项,在人工智能与机器人领域部署一批攻关任务。对国家科技重大专项符合省级配套条件的人工智能与机器人领域重点项目,省财政按规定给予配套奖励,单个项目省级配套金额超 1 亿元(含)的,按“一事一议”方式研究给予支持。创建人工智能与机器人领域制造业创新中心,对符合条件的国家级、省级制造业创新中心,省财政按规定分别给予最高 5000 万元、1000 万元的资金支持。
3/10/2025 7:53:29 PM
远洋

小米相关人员:“CyberOne 人形机器人即将量产”消息不实

据科创板日报今日报道,近期有消息称,小米机器人CyberOne正分阶段落地亦庄产线,并计划于3-4月公示量产进展,4-5月开放参观,下半年做PR宣发。对此,小米相关人员回应称,前述消息不属实。
3/10/2025 7:28:08 PM
清源

“专为我开了一个新课题”,顶尖博士为什么偏爱去字节实习?

在字节跳动,有这样一群实习生,他们的另一重身份,都是来自顶尖高校的技术博士。 实习第 100 天,团队为了清华博士云飞专门开了一个全新课题。 北大博士瑞晨曾经不得已搁置的想法,也在这里实现了大规模验证。
3/10/2025 6:46:00 PM
机器之心

全新CoD颠覆推理范式,准确率接近但token消耗成倍降低

如今,OpenAI o1 和 DeepSeek R1 等推理模型的发展,显著提升了思维链 (CoT) 之类的技术在大语言模型 (LLM) 推理任务上的表现。 这种范式鼓励模型将问题分解为逐步探索,模仿人类的结构化推理过程。 虽然这种方法有效,但它在推理时需要更多的计算资源,导致输出冗长且延迟更高。
3/10/2025 6:29:00 PM
机器之心

机器人泛化能力大幅提升:HAMSTER层次化方法和VLA尺度轨迹预测,显著提升开放世界任务成功率

近年来,人工智能在视觉和自然语言处理方面取得了惊人的泛化能力,但在机器人操作领域,端到端方法往往需要大量昂贵的本域数据,且难以在不同硬件平台与开放场景下推广。 为此,HAMSTER(Hierarchical Action Models with Separated Path Representations)通过层次化架构,在高层利用域外数据微调的大模型(VLM)生成二维路径,中间表示解耦了任务规划与具体执行,让低层控制模块专注于实际动作控制。 实验表明,HAMSTER 在多种操作任务中都体现出更高的任务成功率与更好的跨平台泛化性能,并显著降低了对昂贵机器人演示数据的依赖。
3/10/2025 6:27:00 PM
机器之心

刚刚,Manus联创回应“沙盒越狱”问题,并表示:没用MCP!顺便官宣了开源计划!

💫X平台用户@jian发布帖子称通过简单的自然语言指令成功获取Manus的系统文件(路径:/opt/.manus/),暴露其沙箱运行时代码、工具链及完整提示词框架。 Manus联合创始人季逸超(Peak)在跟帖中进行了回复,以下是内容翻译:嗨! 我是 Manus AI 的 Peak。
3/10/2025 6:12:22 PM

上海科技馆馆长倪闽景:AI 可能会“消灭差生”并真正实现因材施教,要把干净的手机还给孩子

“原来是一个老师面对这么多学生,只能均衡教育,考一样的考卷,学一样的内容,但有了人工智能,我们每一个孩子真的可以学得不一样了,它可以提高我们孩子的自主性。”
3/10/2025 6:02:20 PM
清源

大模型效率狂飙:字节COMET技术开源,提速1.7倍

字节跳动旗下豆包大模型团队近日宣布,成功攻克混合专家模型(MoE)架构的关键瓶颈,并开源一项名为COMET的重大优化技术。 该技术显著提升了大模型的训练效率,实现了高达1.7倍的效率提升,并有效降低了40%的训练成本。 图源备注:图片由AI生成,图片授权服务商Midjourney据介绍,COMET技术已在字节跳动的万卡集群训练中得到实际应用,累计节省了数百万GPU小时的训练算力。
3/10/2025 5:59:00 PM
AI在线

中国信通院:正式启动多模态智能体技术规范编制工作

据人民财讯报道,为进一步加速智能体赋能产业应用,推动多模态智能体高质量发展,中国信通院正式启动多模态智能体技术规范编制工作。为充分完善技术规范内容,增进产业交流,中国信通院人工智能研究所将于 3 月 13 日召开多模态智能体技术沙龙暨技术规范研讨会,邀请业内专家围绕多模态智能体技术的发展动态、应用落地等展开研讨,并介绍多模态智能体技术规范框架。
3/10/2025 5:56:50 PM
远洋

00后用DeepSeek直播1天卖出3.3亿元

近日,在浙江杭州,随着 AI 工具 DeepSeek 的走红,越来越多的创业者开始借助其强大的功能来实现盈利。 日前,关于一位00后主播在使用 DeepSeek 进行直播时,仅一天就成功销售了价值3.3亿元的商品,引起了广泛关注。 据报道,在 DeepSeek 的帮助下,许多商家和个人都尝试了新的销售方式。
3/10/2025 5:56:00 PM
AI在线

LeCun 最新访谈对 DeepSeek 一顿猛夸,还谈了 AI 发展需理解物理世界

他表示,DeepSeek 是一项很出色的成果,它的开源不只是成果创造者受益,全世界都能从中受益。
3/10/2025 5:43:30 PM
清源

​ServiceNow 即将以 30 亿美元收购 AI 公司 Moveworks

近日,有报道称,美国软件公司 ServiceNow 正在与人工智能助手提供商 Moveworks 进行收购谈判,这笔交易可能会成为 ServiceNow 有史以来最大的一笔收购,交易金额接近 30 亿美元。 消息源指出,虽然双方的讨论已进入高级阶段,但仍存在延迟或谈判破裂的可能性。 Moveworks 成立于 2016 年,专注于开发 AI 驱动的员工助理工具,其客户包括联合利华、GitHub 和博通等知名企业。
3/10/2025 5:43:00 PM
AI在线

字节跳动豆包大模型团队开源MoE架构优化技术,训练成本节省40%

字节跳动豆包大模型团队官宣开源一项针对 MoE(混合专家模型)架构的关键优化技术,可将大模型训练效率提升 1.7 倍,成本节省 40%。据悉,该技术叫做 COMET,已实际应用于字节的万卡集群训练,累计帮助节省了数百万 GPU 小时训练算力。
3/10/2025 5:42:41 PM
远洋

智元发布家务机器人基座大模型 GO-1,成功率大幅提升

3月10日,智元机器人正式推出其首个通用具身基座大模型 ——Genie Operator-1(简称 GO-1)。 这一消息引起了广泛关注,特别是其在家庭服务机器人的潜力方面,似乎为未来的家务管理带来了新的希望。 根据智元机器人的官方介绍,GO-1大模型通过学习大量人类视频,展示了其在执行多项家务任务上的出色表现,如递送水杯、制作餐点和迎接客人等。
3/10/2025 4:59:00 PM
AI在线