AI在线 AI在线

算力

故障率降低100倍,微软突破性技术破解AI算力浪费大难题

在AI数据中心中,网络链路的高故障率一直是制约算力释放的关键困局。 传统光纤链路故障率是铜缆的100倍以上,10万GPU规模的AI集群甚至每6-12小时就会出现链路故障,导致同步性极强的AI训练任务中断,造成巨大算力浪费。 在9月葡萄牙召开的“ACM SIGCOMM 2025”大会上,微软研究院公布了突破性技术MOSAIC,凭借宽通道慢速率架构与microLEDs创新组合,一举将链路故障率降低100倍。
9/16/2025 10:30:15 AM

重磅!5年破解黎曼猜想,10年接管人类认知,AI超级增长曲线揭秘

「如果未来五年内看到 AI 解出黎曼猜想,我一点也不会太惊讶。 」近日,Epoch AI负责人Jaime Sevilla,与公司数据与分析负责人Yafah Edelman在一次播客节目中,为我们揭示了未来十年,AI的发展路线图。 Jaime Sevilla(左)与Yafah Edelman(右)对话谈到了以下问题:我们是否会持续每年5x的算力扩张节奏?
9/15/2025 9:11:00 AM

倒计时1天 | 来服贸会参加一场贯穿AI与算力全景生态的活动

2025年,AI技术演进正呈指数级加速,当我们惊叹于AIGC的创造力时,你是否想过,我们日常接触的AI应用,或许只是整个庞大技术体系中的冰山一角? 应用之下,是由算力、数据、模型和基础设施共同构筑的庞大基石。 吴恩达教授在最近的公开发言中也指出,AI技术栈从底层的半导体,到云平台,再到基础模型,环环相扣,最大的机会存在于应用层。
9/12/2025 5:00:17 PM
量子位的朋友们

AI工厂:国产GPU的算力进化

训练大模型,有点像炼丹。 而算力,就是炼丹炉里的柴。 只有炉火纯青,才能真正炼出好丹。
8/13/2025 11:40:30 AM
小枣君

狂拿大模型明星订单,一家清华系HPC-AI Infra公司浮出水面

不靠囤算力,拿下数家大模型明星公司订单。 93年创始人掌舵的清华系计算创业公司,有点出其不意。 2023上半年,百模大战开启,模型预训练需求空前爆发,在算力焦虑下,囤积算力成为一种趋同性动作,更充裕的算力几乎就等于金额更高的订单。
7/30/2025 8:47:00 AM

20人团队提前实现DeepSeek构想,AI算力变天?直击大模型算力成本痛点

如果有一种芯片,天生只为大模型而生,能否突破当前AI的算力瓶颈? 要知道,如今的芯片算力,强依赖于制程、工艺等非芯片设计因素。 这是因为,传统通用型的GPGPU计算架构在应对日益庞大的模型和复杂计算时,其硬件固有的局限性日益凸显。
6/11/2025 9:06:00 AM

华为创造AI算力新纪录:万卡集群训练98%可用度,秒级恢复、分钟诊断

大模型的落地能力,核心在于性能的稳定输出,而性能稳定的底层支撑,是强大的算力集群。 其中,构建万卡级算力集群,已成为全球公认的顶尖技术挑战。 但是,在华为,昇腾万卡算力集群,已经可以做到近乎“永不罢工”了:训练可用度达98%:这就好比你开着一辆车,全年365天里,有358天无论刮风下雨都能一脚油门就出发,从不掉链子,有问题可以随时检修,几乎不会耽误你的任何行程。
6/10/2025 4:36:29 PM

RL后训练步入超节点时代!华为黑科技榨干算力,一张卡干俩活

在大模型竞赛白热化的当下,「强化学习后训练」已成为突破LLM性能天花板的核心路径。 爆火出圈的OpenAI o1、DeepSeek-R1等模型,背后都是依靠RL后训练点石成金。 相较于预训练阶段的「广撒网」式知识获取,RL 后训练通过驱动模型与外部环境进行动态交互,直接塑造了LLM在复杂任务中的推理效能。
6/6/2025 8:55:00 AM

奥特曼:假如给我一千倍算力,我会这样做

完美的人工智能是“一个拥有超人推理能力、1万亿个上下文标记并可以使用你能想到的所有工具的微型模型”。 这是奥特曼在最新的访谈中对下一代模型的展望。 他表示,理想中的AGI不需要包含知识——只需要思考、搜索、模拟和解决任何问题的能力。
6/5/2025 9:09:00 AM

CVPR 2025 | 解决XR算力瓶颈,FovealSeg框架实现毫秒级IOI分割

本文共同第一作者为纽约大学研究生 Hongyi Zeng 和Wenxuan Liu。 合作作者为 Tianhua Xia、Jinhui Chen、Ziyun Li。 通讯作者为纽约大学电子工程系和计算机系教授 Sai Qian Zhang,研究方向为高效人工智能,硬件加速和增强现实。
6/3/2025 9:12:00 AM

o3崛起,但推理模型离「撞墙」只剩一年?

最多一年,推理模型就会撞上训练算力的「天花板」。 OpenAI的o3这样的推理模型,诞生还不到一年,能力已经突飞猛进。 OpenAI的研究人员非常乐观地认为,这种趋势会持续下去。
6/3/2025 8:26:00 AM

星门计划震撼全球!美阿联酋联手打造5吉瓦AI超级枢纽,算力革命来了!

人工智能基础设施建设迎来历史性突破!星门计划(Project Stargate)作为一项由OpenAI、Oracle、SoftBank及阿布扎比MGX基金共同推动的5000亿美元AI数据中心项目,正迅速扩展其版图。 从美国德克萨斯州阿比林的1.2吉瓦AI园区到阿联酋阿布扎比的5吉瓦超级数据中心,星门计划正以惊人速度重塑全球AI计算格局。 AIbase综合最新信息,为您深入解析这一全球瞩目的科技壮举。
5/26/2025 3:00:50 PM
AI在线

散户组团挑战算力霸权,40B 模型 + 20 万亿 token 刷新世界纪录

全球网友用闲置显卡组团训练大模型。40B 大模型、20 万亿 token,创下了互联网上最大规模的预训练新纪录!去中心化 AI 的反攻,正式开始。OpenAI 等巨头的算力霸权,这次真要凉了?
5/26/2025 9:56:55 AM
汪淼

帮大模型提速80%,华为拿出昇腾推理杀手锏FlashComm,三招搞定通算瓶颈

在今年 2 月的 DeepSeek 开源周中,大模型推理过程中并行策略和通信效率的深度优化成为重点之一。 近日,华为数学家出手,祭出 FlashComm,三箭齐发,解决大模型推理通算难题:FlashComm1: 大模型推理中的 AllReduce 通信优化技术。 将 AllReduce 基于通信原理进行拆解,并结合后续计算模块进行协同优化,推理性能提升 26%。
5/22/2025 1:40:21 PM

OpenAI 得州数据中心扩建计划获 116 亿美元投资

有媒体报道称,初创公司 Crusoe 为 OpenAI 在得克萨斯州建设的数据中心成功获得116亿美元的融资。 这一资金将用于将目前的两栋建筑扩展至八栋,以满足日益增长的计算需求。 图源备注:图片由AI生成,图片授权服务商Midjourney据悉,这座数据中心预计将成为 OpenAI 的最大算力基地,每栋建筑将配备多达五万块英伟达 Blackwell 芯片。
5/22/2025 9:00:55 AM
AI在线

推理大模型1年内就会撞墙,性能无法再扩展几个数量级 | FrontierMath团队最新研究

一年之内,大模型推理训练可能就会撞墙。 以上结论来自Epoch AI。 这是一个专注于人工智能研究和基准测试的非营利组织,之前名动一时的FrontierMath基准测试(评估AI模型数学推理能力)就出自它家。
5/14/2025 9:07:00 AM

一个「always」站在大模型技术C位的传奇男子

怎么老是你? ? ?
5/12/2025 8:40:00 AM

LeCun被痛批:你把Meta搞砸了!烧掉千亿算力,自曝折腾20年彻底失败

凭借着GPT/o系列、Gemini 2.5、Claude的强大能力,OpenAI、谷歌、Anthropic纷纷在AI大战中各领风骚。 唯独Meta,没有走在前沿。 Llama 4自发布以来种种拉跨的表现,让Meta在某种程度上沦为了业内的「笑柄」。
4/21/2025 8:40:00 AM
新智元