资讯列表
DeepSeek开源三箭齐发,梁文峰亲自上阵!双向并行LLM训练飙升
开源周第4天,DeepSeek放出的是——优化并行策略,一共三个项目。 DualPipe:一种用于V3/R1模型训练中实现计算与通信重叠的双向流水线并行算法EPLB:一个针对V3/R1的专家并行负载均衡工具深入分析V3/R1模型中的计算与通信重叠机制值得一提的是,DualPipe是由三个人——Jiashi Li、Chengqi Deng和梁文峰共同研发。 有网友对此表示,这是一个颠覆性的突破。
2/27/2025 12:06:45 PM
新智元
DeepSeek一口气开源3个项目,还有梁文锋亲自参与,昨晚API大降价
实现顶级 AI 性能的秘诀,就在这里了。 DeepSeek 的开源周已经进行到了第四天(前三天报道见文末「相关阅读」)。 今天这家公司一口气发布了两个工具和一个数据集:DualPipe、EPLB 以及来自训练和推理框架的分析数据。
2/27/2025 11:45:00 AM
机器之心
MLSys’25 | 极低内存消耗:用SGD的内存成本实现AdamW的优化性能
AIxiv专栏是AI在线发布学术、技术内容的栏目。 过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。 如果您有优秀的工作想要分享,欢迎投稿或者联系报道。
2/27/2025 11:41:00 AM
机器之心
夏威夷大学与谷歌联手推出免费人工智能培训计划
近日,夏威夷大学宣布与谷歌合作,为其全州10个校区的学生和员工提供免费的人工智能培训课程。 这一计划将为参与者打开通向职业发展的新大门,特别是在网络安全、数据分析和信息技术支持等热门领域。 通过这一合作,夏威夷大学的学生可以免费获得谷歌职业证书项目的入场券。
2/27/2025 11:38:00 AM
AI在线
Anthropic 全面开放 Claude AI 的 GitHub 集成,赋能所有开发者
Anthropic 的 Claude 宣布面向所有用户开放 GitHub 集成,此前该功能仅限企业版用户。集成后,Claude 能理解代码库上下文,帮助测试、调试代码。免费用户需注意配额消耗,Pro 用户则更易控制。这是继 Google Drive 集成后,Claude 为开发者提供的又一重要功能。 #Claude #GitHub集成 #开发者工具
2/27/2025 11:37:20 AM
故渊
亚马逊推出全新智能助手 Alexa+,语音指令执行餐馆预订等任务
亚马逊宣布推出全新的智能助手 Alexa ,这一升级版的数字助理引入了生成式人工智能技术,提升了对话的自然流畅度和智能化水平。 Alexa 不仅能记住用户的偏好,还具备强大的多平台操作能力,让用户的日常任务更加轻松便捷。 Alexa 将于下个月在美国进行早期访问,亚马逊 Prime 会员可以免费使用,而非会员则需支付19.99美元。
2/27/2025 11:28:00 AM
AI在线
调查显示超八成美国职场人士尚未应用人工智能
根据最新调查显示,大多数美国上班族仍未在工作中使用 AI。 皮尤研究中心于本周二发布的调查结果显示,只有约16% 的美国上班族表示会利用 AI 来完成至少一部分工作。 相较之下,约81% 的受访者被视为 “非 AI 用户”。
2/27/2025 11:22:00 AM
AI在线
发布在即?OpenAI GPT-4.5出现在Android应用测试版
最近,OpenAI 正在为其新一代语言模型 GPT-4.5的预览版做准备,这一消息引发了广泛关注。 根据发现,这一开发成果出现在 ChatGPT 的 Android 应用程序中,作为一个已宣布的实验性选项,尽管目前还无法访问。 根据最新通知,GPT-4.5最初将专门向 Pro 订阅用户提供。
2/27/2025 11:15:00 AM
AI在线
前OpenAI首席技术官穆拉蒂创立新公司 估值将达90亿美元
在硅谷,前OpenAI首席技术官米拉・穆拉蒂(Mira Murati)的新公司 Thinking Machines Lab 正成为投资者关注的焦点。 据《商业内幕》的报道,这家成立不到一年的初创公司正在筹集10亿美元融资,估值预计将达到惊人的90亿美元,折合人民币约653.57亿元。 这一估值在初创企业中可谓凤求凰,尤其是在竞争激烈的人工智能(AI)行业中。
2/27/2025 11:14:00 AM
AI在线
阿里最新深度思考模型强不强?我们让它和Grok3比拼了下
AI好好用报道编辑:杨文又来了一个深度思考模型。 昨天,阿里 Qwen 团队发了个博客,标题就是:乍一看,还以为电脑卡出了乱码,但再往下一瞅,里头大有「乾坤」,因为这篇博客:不是人写的。 而是出自阿里最新深度思考模型 QwQ-Max-Preview 之手。
2/27/2025 11:06:00 AM
AI好好用
19岁女棋手因AI作弊,被中国围棋协会重罚禁赛8年
中国围棋协会日前发布通报,对职业棋手秦思玥(2006年生)在全国围棋锦标赛(个人)女子组比赛中作弊行为做出严厉处罚。 通报显示,秦思玥在2024年12月15日的比赛中被发现携带手机,并利用人工智能程序作弊。 经调查,秦思玥不仅在赛前藏匿手机,还在比赛过程中实施作弊,且在被询问时隐瞒事实,情节严重。
2/27/2025 11:00:50 AM
AI在线
绕过 RAG 实时检索瓶颈,缓存增强生成(CAG)如何助力性能突破?
检索增强生成(RAG)作为一种通过整合外部知识源来增强语言模型的强大方法而备受瞩目。 不过,这种方法也带来了一些挑战,比如检索过程的延迟、文档挑选时可能出现的误差,以及系统复杂度的增加。 随着能够处理更长上下文的大语言模型(LLMs)的兴起,缓存增强生成(CAG)技术应运而生,它避免了实时的信息检索。
2/27/2025 10:55:44 AM
追求卓越的
DeepSeek开源第四天发布并行策略升级:DualPipe与EPLB技术推动大模型训练革命
今日,国内人工智能领军企业DeepSeek正式公开其开源计划的第四日成果——Optimized Parallelism Strategies(优化并行策略),重点推出双向管道并行算法DualPipe、专家并行负载均衡器EPLB,以及对计算-通信重叠机制的深度优化。 此次技术升级直击大规模语言模型训练的核心痛点,为超万卡级集群的高效运行提供了全新解决方案。 DualPipe:双向管道并行算法作为本次升级的核心技术之一,DualPipe专为V3/R1架构设计,通过创新的双向数据流管道,实现计算与通信的高度重叠。
2/27/2025 10:45:00 AM
AI在线
人人都是有声书创作者:ElevenLabs 开放 AI 语音技术,让你的文字“声”动人心
ElevenLabs发布ElevenReader Publishing平台,利用AI技术帮助作者快速制作专业的有声书。该平台提供语音定制、节奏控制等个性化功能,并支持变现渠道。#AI科技资讯 #有声书
2/27/2025 10:42:45 AM
故渊
被DeepSeek带火的知识蒸馏详解!
今天来详细了解DeepSeek中提到的知识蒸馏技术,主要内容来自三巨头之一Geoffrey Hinton的一篇经典工作:。 主要从背景、定义、原理、代码复现等几个方面来介绍:1、背景介绍训练与部署的不一致性在机器学习和深度学习领域,训练模型和部署模型通常存在显著差异。 训练阶段,为了追求最佳性能,我们通常会使用复杂的模型架构和大量的计算资源,从海量且高度冗余的数据集中提取有用信息。
2/27/2025 10:41:53 AM
Glodma
Hugging Face 推出 FastRTC:实时语音视频应用开发变得轻而易举
AI 初创公司 Hugging Face 宣布推出 FastRTC,这是一个开源的 Python 库,旨在消除开发人员在构建实时音频和视频 AI 应用时面临的重大障碍。 Hugging Face 的 FastRTC 旨在简化 WebRTC 和 Websocket 应用的构建过程。 Freddy Boulton,FastRTC 的创建者之一表示:“在 Python 中,构建实时 WebRTC 和 Websocket 应用非常困难,直到现在才有所改变。
2/27/2025 10:41:00 AM
AI在线
AI工具在大学生中普及 老师表示AI作文全判0分
近期,央视新闻报道指出,AI工具已成为大学生完成报告、论文的“神器”。 然而,这一现象也引发了学术不端行为的担忧。 一些高校教师和专家表示,少数学生利用AI伪造研究数据、编辑实验图片等,严重影响了学术诚信。
2/27/2025 10:34:00 AM
AI在线
深度思考:现在的AI模型真的在进行推理吗?
最近,OpenAI、DeepSeek、谷歌、Anthropic都推出新模型,它们都宣称模型已经具备真正的推理能力,也就是人类解决问题时运用的思维方式,但问题在于:AI大模型所说的推理真的和人一样吗? 现在的模型可以将复杂问题分解成小问题,然后逐步解决小问题再给出回应,业界将这个过程称为“思维链推理”。 这些模型有时表现让人惊叹,可以解决逻辑谜题和数学难题,能够快速写出完美代码,但有时面对极为简单的问题却显得蠢笨。
2/27/2025 10:33:36 AM
小刀