AI在线 AI在线

机器学习

联邦学习:无需共享原始数据训练模型

译者 | 李睿审校 | 重楼随着机器学习对训练数据的需求与日俱增,传统的集中式训练方式在隐私要求、运营效率低下以及消费者日益增长的怀疑态度下不堪重负。 由于道德和法律限制,医疗记录或支付历史等责任信息已经难以被简单地集中采集与处理。 在此背景下,联邦学习提供了一种截然不同的解决方案:它摒弃了“将数据传输至模型”的传统思路,转而采用“将模型推送至数据所在端”的创新模式。
10/21/2025 8:00:00 AM
李睿

Scality 推出20多种关键工具的 AI 认证,助力企业加速 AI 应用开发

在人工智能(AI)迅猛发展的今天,数据的安全性和应用的高效性变得尤为重要。 近日,全球领先的网络弹性存储软件公司 Scality 宣布,其全面的 AI 生态认证计划进一步升级,目前已覆盖20多种行业内最关键的 AI 和机器学习(ML)工具及框架。 图源备注:图片由AI生成,图片授权服务商Midjourney这一认证项目建立在 Scality 的网络弹性存储架构上,旨在确保工具之间的互操作性,并在整个 AI 生命周期中保护数据的完整性和安全性。
10/16/2025 10:12:42 AM
AI在线

合成数据:它是什么以及如何使用它

在现代数据科学和机器学习的领域中,数据是开发预测模型和进行精确分析的基础资源。 然而,真实的数据集并非总是可访问、完整或可用的。 数据稀缺、固有偏见或隐私限制等问题常常导致获取高质量数据变得困难。
10/16/2025 5:00:00 AM
晓晓

MIT发现金属制造中的隐藏秩序,机器学习揭开被忽视的非平衡化学结构

编辑丨&好像在大众的印象中,制造合金就是一场极端的「原子洗牌」。 高温、巨压、反复变形——这些过程被认为能把合金里的原子彻底搅匀。 几十年来,材料科学的共识是:只要加热到足够高、变形够剧烈,金属内部的化学秩序就会被完全抹去。
10/15/2025 4:05:00 PM
ScienceAI

“iFold”,苹果AI新成果

起猛了,苹果怎么搞起跨界AI模型了? ? 发布了一个基于流匹配的蛋白质折叠模型SimpleFold,被网友戏称为“iFold”。
9/26/2025 9:34:35 AM

第三届「简约与学习会议(CPAL)」将在德国图宾根举办,征稿中进行

CPAL会议简介CPAL是一年一度的研究型学术会议,专注于解决机器学习、信号处理、优化等领域中普遍存在的简约(Parsimonious)、低维结构(Low Dimensional Structures)问题。 回顾本次会议的出发点,其设计为一个普遍的科学论坛,使机器学习、应用数学、信号处理、优化、智能系统以及所有相关的科学和工程领域的研究人员能够聚集在一起,分享意见,并最终达成努力一个共同的现代理论和计算框架,从简单学习的角度理解智能和科学。 ()于2024年1月在香港大学举办,吸引了数百名世界各地的成功参与会者,包括为期四天的绑架的活动。
9/23/2025 5:15:00 PM
新闻资讯

千禧年大奖难题有望突破?AI为流体动力学提供新思路

编辑丨coisini从飓风的旋转涡流到抬升飞机机翼的气流,流体动力学对理解自然现象、解决工程应用至关重要。 几个世纪以来,数学家们提出了复杂的方程来描述流体动力学所涉及的基本物理原理。 专家可以精心设计使理论与实践相悖的场景,形成永远无法在物理世界中发生的情况,例如当速度或压力变为无穷大时,方程会「爆破」,超出那个爆破点 ——「奇点」,方程将不再有解。
9/19/2025 11:06:00 AM
ScienceAI

VLDB2025 | Magnus: 字节跳动面向大规模机器学习的数据管理方案

导读机器学习广泛应用于字节跳动,数据作为机器学习训练的核心要素,如何高效灵活的管理支撑大规模训练数据的存储、生产以及训练,成为数据基础设施的一大挑战;近两年大模型迅猛发展,对数据集管理也提出了更多新的场景需求。 字节跳动在开源 Apache Iceberg 的基础上,打造了一套面向大规模机器学习的数据管理解决方案 Magnus,在存储格式、索引、元数据管理、更新机制、训练框架集成等多个维度实现优化。 Magnus 已在字节内部部署超过五年,在搜索、广告、推荐、大模型等核心业务中大规模落地,数据规模超5EB,相关成果已被 VLDB 2025收录。
9/10/2025 9:59:52 AM
基础技术训练设施

AlphaGo作者领衔,8个机械臂协同干活0碰撞,DeepMind新作登Science子刊

一群机械臂手忙脚乱地自己干活,彼此配合、互不碰撞。 科幻大片场景真的走入现实了。 优雅,实在是优雅。
9/10/2025 9:00:00 AM

如何使用Gradio快速搭建AI演示

译者 | 刘涛审校 | 重楼人工智能领域呈现出高速发展的态势。 每周均有新的模型诞生,旧有模型也在持续优化,基于这些模型开发的应用工具愈发便捷易用。 然而,在构建机器学习项目的过程中,开发者可能会遭遇一个关键挑战:如何高效地分享项目成果,以供他人进行试用。
9/10/2025 8:03:10 AM
刘涛

Sklearn 实现高效机器学习的 19 个最优雅的技巧

了解 19 个 Sklearn 功能,它们可以直接而优雅地替代你手动执行的常见操作。 通过查阅Sklearn 的API 参考[1],我发现最常用的模型和函数只是该库功能的冰山一角。 尽管有些功能非常局限,只用于极少数的边缘情况,但我发现许多估算器、变换器和实用函数,可以更优雅地修复人们手动执行的常见操作。
9/8/2025 1:00:00 AM
云朵君

正则化:机器学习泛化能力的守护者

一、什么是正则化? 正则化是机器学习和统计建模中的关键技术,用于控制模型复杂度,防止过拟合(overfitting)。 当模型过度拟合训练数据时,它会过度关注数据中的噪声和细节,导致在新数据上表现显著下降。
9/5/2025 10:22:35 AM
用户007

构建切实有用的机器学习模型的七个提示

译者 | 布加迪审校 | 重楼这篇实用指南帮助你从概念验证迈入到生产就绪的机器学习。 构建能够切实解决实际问题的机器学习模型不仅仅需要在测试时取得高准确率得分,更需要构建能够在生产环境中持续运行的系统。 本文介绍了七个实用技巧,帮助你专注于构建能够提供可靠业务价值而非仅仅追求出色指标的模型。
9/4/2025 8:06:34 AM
布加迪

从复刻魔术开始,RoboMirage打开了机器人仿真的新世界

在具身智能的发展路径中,如何获得海量且高质量的数据是行业绕不开的核心问题。 如果说大语言模型依赖于互联网规模的语料库,那么具身智能的成长同样需要规模化的交互经验。 现实中,收集这些数据的代价极高:机械臂等硬件部署成本高,单台投入就需数万元,且难以规模化;数据采集环节依赖经验丰富的数采员且耗时漫长。
9/3/2025 1:59:02 PM

在无服务器架构中部署实时机器学习模型:平衡延迟、成本与性能

译者 | 晶颜审校 | 重楼机器学习(ML)在诸如欺诈检测和个性化推荐等实时应用中变得越来越重要。 由于其可扩展性以及消除了基础设施管理的工作量,这些应用对于在无服务器计算中部署极具吸引力。 然而,将机器学习模型部署到无服务器环境中面临着延迟、成本和性能方面的独特挑战。
8/21/2025 8:08:04 AM
晶颜

2025年机器学习十大算法全景解析:从理论到实践的深度指南

在人工智能驱动的2025年,机器学习算法已成为科技革命的核心引擎。 从自动驾驶的实时决策到医疗诊断的精准预测,从金融风控的智能分析到个性化推荐的千人千面,十大经典算法持续进化,构建起智能社会的数字基石。 一、线性回归:数据建模的基石算法原理通过最小化预测值与实际值的平方误差,建立自变量与因变量的线性关系模型:Y=β0 ∑i=1nβiXi ϵ其中β为回归系数,ϵ为误差项。
8/4/2025 2:25:00 AM
幻风magic

谷歌通过机器学习判断用户年龄:你的搜索行为、观看内容都可作为依据

AI在线 7 月 31 日消息,据外媒 TechCrunch 今晚报道,谷歌正在美国测试一项基于机器学习的技术,旨在判断用户年龄,并在旗下所有产品中据此筛选内容。 谷歌表示,该系统会参考 Google 账户中的多种数据,例如用户的搜索行为和在 YouTube 上观看的视频类型,以估算用户年龄。 一旦判断用户未满 18 岁,谷歌会发送邮件告知其产品功能可能发生的变化。
7/31/2025 9:22:26 PM
清源

机器学习特征工程的最佳实践

特征工程是模型训练之前运行的关键过程,因为输入数据的质量直接决定了模型输出的质量。 虽然深度学习模型擅长从图像或文本等非结构化数据中自动学习特征,但明确的特征工程对于表格数据集仍然至关重要。 在本文中,云朵君将展示特征工程对回归任务的影响,特别关注具有混合数字、分类和基于时间的特征的大型表格数据集。
7/31/2025 1:22:00 AM
云朵君