AI在线 AI在线

机器学习

VLDB2025 | Magnus: 字节跳动面向大规模机器学习的数据管理方案

导读机器学习广泛应用于字节跳动,数据作为机器学习训练的核心要素,如何高效灵活的管理支撑大规模训练数据的存储、生产以及训练,成为数据基础设施的一大挑战;近两年大模型迅猛发展,对数据集管理也提出了更多新的场景需求。 字节跳动在开源 Apache Iceberg 的基础上,打造了一套面向大规模机器学习的数据管理解决方案 Magnus,在存储格式、索引、元数据管理、更新机制、训练框架集成等多个维度实现优化。 Magnus 已在字节内部部署超过五年,在搜索、广告、推荐、大模型等核心业务中大规模落地,数据规模超5EB,相关成果已被 VLDB 2025收录。
9/10/2025 9:59:52 AM
基础技术训练设施

AlphaGo作者领衔,8个机械臂协同干活0碰撞,DeepMind新作登Science子刊

一群机械臂手忙脚乱地自己干活,彼此配合、互不碰撞。 科幻大片场景真的走入现实了。 优雅,实在是优雅。
9/10/2025 9:00:00 AM

如何使用Gradio快速搭建AI演示

译者 | 刘涛审校 | 重楼人工智能领域呈现出高速发展的态势。 每周均有新的模型诞生,旧有模型也在持续优化,基于这些模型开发的应用工具愈发便捷易用。 然而,在构建机器学习项目的过程中,开发者可能会遭遇一个关键挑战:如何高效地分享项目成果,以供他人进行试用。
9/10/2025 8:03:10 AM
刘涛

Sklearn 实现高效机器学习的 19 个最优雅的技巧

了解 19 个 Sklearn 功能,它们可以直接而优雅地替代你手动执行的常见操作。 通过查阅Sklearn 的API 参考[1],我发现最常用的模型和函数只是该库功能的冰山一角。 尽管有些功能非常局限,只用于极少数的边缘情况,但我发现许多估算器、变换器和实用函数,可以更优雅地修复人们手动执行的常见操作。
9/8/2025 1:00:00 AM
云朵君

正则化:机器学习泛化能力的守护者

一、什么是正则化? 正则化是机器学习和统计建模中的关键技术,用于控制模型复杂度,防止过拟合(overfitting)。 当模型过度拟合训练数据时,它会过度关注数据中的噪声和细节,导致在新数据上表现显著下降。
9/5/2025 10:22:35 AM
用户007

构建切实有用的机器学习模型的七个提示

译者 | 布加迪审校 | 重楼这篇实用指南帮助你从概念验证迈入到生产就绪的机器学习。 构建能够切实解决实际问题的机器学习模型不仅仅需要在测试时取得高准确率得分,更需要构建能够在生产环境中持续运行的系统。 本文介绍了七个实用技巧,帮助你专注于构建能够提供可靠业务价值而非仅仅追求出色指标的模型。
9/4/2025 8:06:34 AM
布加迪

从复刻魔术开始,RoboMirage打开了机器人仿真的新世界

在具身智能的发展路径中,如何获得海量且高质量的数据是行业绕不开的核心问题。 如果说大语言模型依赖于互联网规模的语料库,那么具身智能的成长同样需要规模化的交互经验。 现实中,收集这些数据的代价极高:机械臂等硬件部署成本高,单台投入就需数万元,且难以规模化;数据采集环节依赖经验丰富的数采员且耗时漫长。
9/3/2025 1:59:02 PM

在无服务器架构中部署实时机器学习模型:平衡延迟、成本与性能

译者 | 晶颜审校 | 重楼机器学习(ML)在诸如欺诈检测和个性化推荐等实时应用中变得越来越重要。 由于其可扩展性以及消除了基础设施管理的工作量,这些应用对于在无服务器计算中部署极具吸引力。 然而,将机器学习模型部署到无服务器环境中面临着延迟、成本和性能方面的独特挑战。
8/21/2025 8:08:04 AM
晶颜

2025年机器学习十大算法全景解析:从理论到实践的深度指南

在人工智能驱动的2025年,机器学习算法已成为科技革命的核心引擎。 从自动驾驶的实时决策到医疗诊断的精准预测,从金融风控的智能分析到个性化推荐的千人千面,十大经典算法持续进化,构建起智能社会的数字基石。 一、线性回归:数据建模的基石算法原理通过最小化预测值与实际值的平方误差,建立自变量与因变量的线性关系模型:Y=β0 ∑i=1nβiXi ϵ其中β为回归系数,ϵ为误差项。
8/4/2025 2:25:00 AM
幻风magic

谷歌通过机器学习判断用户年龄:你的搜索行为、观看内容都可作为依据

AI在线 7 月 31 日消息,据外媒 TechCrunch 今晚报道,谷歌正在美国测试一项基于机器学习的技术,旨在判断用户年龄,并在旗下所有产品中据此筛选内容。 谷歌表示,该系统会参考 Google 账户中的多种数据,例如用户的搜索行为和在 YouTube 上观看的视频类型,以估算用户年龄。 一旦判断用户未满 18 岁,谷歌会发送邮件告知其产品功能可能发生的变化。
7/31/2025 9:22:26 PM
清源

机器学习特征工程的最佳实践

特征工程是模型训练之前运行的关键过程,因为输入数据的质量直接决定了模型输出的质量。 虽然深度学习模型擅长从图像或文本等非结构化数据中自动学习特征,但明确的特征工程对于表格数据集仍然至关重要。 在本文中,云朵君将展示特征工程对回归任务的影响,特别关注具有混合数字、分类和基于时间的特征的大型表格数据集。
7/31/2025 1:22:00 AM
云朵君

自主式AI如何颠覆营销技术决策规则

要点概述:• 旧规则失效。 传统的基于规则的系统缺乏学习或适应能力,限制了实时营销中的决策制定。 • 分析技术陷入瓶颈。
7/29/2025 7:07:00 AM
Jonathan

老黄自曝皮衣口袋藏“秘密期权池”!随时准备奖励员工,团队亿万富翁数量世界第一

黄仁勋亲口承认:他随身带着“秘密期权池”,随时奖励表现出色的员工。 在最新采访的结尾,主持人问起这个传闻,老黄开玩笑式的回答“现在就装在我的口袋里”。 这位掌管着全球市值最高科技公司之一的CEO,把奖励员工这件事做得如此随性又直接。
7/25/2025 10:11:10 AM

十年六万引!BatchNorm 封神,ICML 授予时间检验奖

一篇发表于2015年的论文,在十年后,于国际机器学习大会(ICML)2025上,被授予了“时间检验奖”(Test of Time Award)。 这篇论文就是深度学习领域无人不晓的《Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift》。 它的出现,从根本上改变了研究者们训练深度神经网络的方式,成为AI技术发展进程中的一座关键里程碑。
7/18/2025 7:00:00 AM

使用 SHAP 使机器学习模型变的可解释

大家好,我是小寒今天给大家分享机器学习中的一个关键概念,SHAPSHAP 是一种用于解释机器学习模型输出的统一框架。 它基于博弈论中的 Shapley 值,用来量化每个特征对模型预测结果的贡献度。 帮助我们理解模型为什么做出这样的预测。
7/15/2025 10:29:17 AM
程序员小寒

「流匹配」成ICML 2025超热门主题!网友:都说了学物理的不准转计算机

众所周知,第 42 届国际机器学习大会(ICML)将于 7 月 13 日至 19 日在加拿大温哥华盛大举行。 在生成式 AI 领域,最新的前沿热点已经转向探索更高质量,更稳定,更简洁,更通用的模型形态。 流匹配(Flow Matching)技术正完美的踩中了每一个热点要素。
7/14/2025 9:12:00 AM

人类增强子突变敏感性图谱首次绘制:AI 与体内实验揭示发育调控密码

编辑丨&ENCODE 计划(Encyclopedia of DNA Elements)中提到,人类基因组中仅 2% 序列编码蛋白质,其余 90% 非编码区的调控功能长期成谜。 了解人类生物学需要的不仅仅是绘制基因图谱,还必须了解基因表达是如何被调节的,以指导身体系统的健康发育、生长和维系。 对于作为远端调控元件的增强子,其突变与先天性心脏病、肢体畸形等发育疾病密切相关。
7/10/2025 3:02:00 PM
ScienceAI

ICML 2025 | 给AI装上「智能升级插件」!阿里安全-清华大学D-MoLE让模型在持续学习中动态进化

本文第一作者为清华大学计算机系的硕士二年级研究生葛晨笛,研究方向为多模态大语言模型、自动机器学习和图机器学习。 主要合作者为来自阿里巴巴集团安全部的樊珈珮、黄龙涛和薛晖。 通讯作者为清华大学的朱文武教授、王鑫副研究员。
7/10/2025 2:50:24 PM