15年软件架构师经验总结:在ML领域,初学者踩过的5个坑

如果你要构建你的第一个模型,请注意并避免这些问题。

数据科学和机械进修正变得越来越流行,这个领域的人数每天都在增长。这意味着有很多数据科学家在构建他们的第一个机械进修模型时没有丰富的经验,而这也是过错大概会发生的地方。近日,软件架构师、数据科学家、Kaggle 大师 Agnis Liukis 撰写了一篇文章,他在文中谈了谈在机械进修中最常见的一些初学者过错的解决方案,以确保初学者了解并避免它们。

15年软件架构师经验总结:在ML领域,初学者踩过的5个坑

Agnis Liukis 拥有超过 15 年的软件架构和开发经验,他熟练掌握 Java、JavaScript、Spring Boot、React.JS 和 Python 等语言。此外,Liukis 还对数据科学和机械进修感兴趣,他多次参加 Kaggle 比赛并取得好成绩,已达到 Kaggle 比赛大师级别。以下为文章内容:在机械进修领域,这 5 个坑,你踩过吗?1、在需求的地方没有运用数据归一化(data normalization)对数据进行归一化操作,然后获取特性,并将其输入到模型中,让模型做出预计,这类方法是很容易的。但在某些环境下,这类简单方法的结果大概会让人失望,因为它缺少一个非常重要的部分。一些类型的模型需求数据归一化,如线性返回、经典神经网络等。这类模型运用特性值去乘训练值的权重。在非归一化特性的环境下,一个特性值的大概范畴大概不同于另一个特性值的大概范畴。假设一个特性的值在 [0,0.001] 范畴内,另一个特性的值在 [100000,200000] 范畴内。对于使两个特性同等重要的模型,第一个特性的权重将比第二个特性的权重大 1 亿倍。巨大的权重大概会给模型带来严重问题,比如存在一些异常值的时候。此外,估计各种特性的重要性变得困难,因为权重大大概意味着特性很重要,但也大概只是意味着其特性值很小。归一化后,全部特性的值都在相同的范畴内,通常为 [0,1] 或 [-1,1]。在这类环境下,权重将在相似的范畴内,并与每个特性的实际重要性密切对应。总的来说,在需求的地方运用数据归一化将产生更好、更准确的预计。2、认为特性越多越好有人大概会认为加入全部特性是一个好主意,认为模型会自动选择并运用最好的特性。实际上,这类想法很难成真。模型的特性越多,过拟合的风险越大。即使在完全随机的数据中,模型也能够找到一些特性(旌旗灯号),尽管有时较弱,有时较强。当然,随机噪声中没有真实旌旗灯号。但如果我们有足够多的噪声列,则该模型有大概根据检测到的故障旌旗灯号运用其中的一部分。当这类环境发生时,模型预计质量将会降低,因为它们一定程度上鉴于随机噪声。现在有许多技术帮助我们进行特性选择。但你要记住,你需求解释你拥有的每一个特性,以及为什么这个特性会帮助你的模型。3. 在需求外推的环境下,运用鉴于树的模型鉴于树的模型易于运用,功能强大,这也是其受欢迎的原因。然而,在某些环境下,运用鉴于树的模型大概是过错的。鉴于树的模型无法外推,这些模型的预计值永远不会大于训练数据中的最大值,而且在训练中也永远不会输出比最小值更小的预计值。在某些任务中,外推能力大概非常重要。例如,如果该模型预计股票价格,那么未来股票价格大概会比以往任何时候都高。在这类环境下,鉴于树的模型将无法直接运用,因为它们的预计几乎会超过最高历史价格。这个问题有多种解决方案,一种解决方案是预计变化或差异,而不是直接预计价值。另一种解决方案是为此类任务运用不同类型的模型。线性返回或神经网络就可以进行外推。4、在不需求的地方运用数据归一化之前文章谈到了数据归一化的必要性,但环境并非总是如此,鉴于树的模型不需求数据归一化。神经网络大概也不需求明确的归一化,因为有些网络内部已经包含归一化层,例如 Keras 库的 BatchNormalization 操作。在某些环境下,即使是线性返回也大概不需求数据归一化,这是指全部特性都已处于类似的值范畴,并且具有相同的含义。例如,如果模型适用于时间序列数据,并且全部特性都是同一参数的历史值。5. 在训练集和验证集 / 尝试集之间透露信息造成数据透露比人们想象的要容易,考虑以下代码段:

15年软件架构师经验总结:在ML领域,初学者踩过的5个坑

数据透露的示例特性实际上,这两种特性(sum_feature 和 diff_feature)都不正确。它们正在透露信息,因为在拆分到训练集 / 尝试集后,具有训练数据的部分将包含来自尝试的一些信息。这将导致更高的验证分数,但当应用于实际的数据模型时,性能会更差。正确的方法是首先将训练集 / 尝试集分开,然后才应用特性生成功能。通常,分别处理训练集和尝试集是一种很好的特性工程模式。在某些环境下,大概需求在两者之间传递一些信息 —— 例如,我们大概希望在尝试集和训练集上运用相同的 StandardScaler。总而言之,从过错中吸取教训是件好事,希望上述所提供的过错示例能帮助到你。原文链接:https://towardsdatascience.com/5-typical-beginner-mistakes-in-machine-learning-3544bd4109b

原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/15-nian-ruan-jian-jia-gou-shi-jing-yan-zong-jie-zai-ml-ling/

(0)
上一篇 2022年 8月 2日 下午3:54
下一篇 2022年 8月 5日 下午5:22

相关推荐

  • CS上榜超百,华夏要地本地935人,2021全球「高被引科学家」名单揭晓

    备受期待的科睿唯安「高被引科学家」名单公布。其中,就华夏要地本地的高校来说,清华大学当选 58 位,华夏科学技术大学当选 41 位,浙江大学当选 29 位,北京大学当选 28 位。

    2021年 11月 17日
  • 人为「刷」论文援用量,米兰理工传授被IEEE惩罚,奖项被撤销

    论文援用量本是一件非常纯粹的学术指标,代表了论文本身的重要程度和价值。但当有人故意刷论文援用量时,一切未免变了味道,也失去了学术研究的纯粹性和真实性。

    2021年 5月 23日
  • “中原氢城”濮阳与优必选科技达成策略竞争,发布全世界首款氢能源人形机器人

    2022年9月28日,氢生活、AI未来——全世界首款氢能源人形机器人发布暨濮阳“两能”交融策略签约仪式在“中原氢城”濮阳举行。在全世界首款氢能源人形机器人“一行”发布的同时,濮阳与优必选科技就人工智能与氢能“两能”交融达成策略竞争,积极探索和实施以人工智能驱动新能源生长策略,助力实行我国“碳达峰、碳中和”的目标,推动经济绿色高质量生长。领导和高朋与全世界首款氢能源人形机器人&ld

    2022年 9月 28日
  • 万字长文:哥大CV博士总结五年读博生涯,即将入职新加坡国立大学任助理教授

    在这篇文章中,哥伦比亚大学博士Mike Shou讲述了自己的五年读博经历,包括如何确定研究方向、如何确定单篇论文的选题、如何做报告、如何做出职业选择等,希望可以给正在读博或准备读博的你提供一些启发。作者 Mike 是 Facebook AI 研究科学家,他将加入新加坡国立大学 NUS,任助理教授、独立博导。他于哥伦比亚大学取得博士学位,方向为视频理解和生成。 他实验室正招收 2021 Fall PhD、访问博士生等。实验室网站:https://sites.google.com/view/showthemlab0.

    2021年 2月 9日
  • DeepMind联合UCL,推出2021加强进修最新课程

    DeepMind 的研讨科学家和工程师亲身讲授了一套加强进修课程,目前已全部上线。DeepMind 作为全球顶级 AI 研讨机构,自 2010 年创建以来已有多项世界瞩目的研讨成果,例如击败世界顶级围棋玩家的 AlphaGo 和今年高效展望的蛋白质结构的 AlphaFold。近几年,DeepMind 联合伦敦大学学院(UCL)推出了一些人工智能线上课程,今年他们联合推出的「2021 加强进修系列课程」现已全部上线。该课程由 DeepMind 的研讨科学家和工程师亲身讲授,旨在为学生提供对现代加强进修的全面介绍。课程

    2021年 9月 16日
  • 一场AI竞赛,怎么就让这群年轻人变化这么大?

    人工智能到底有什么用?这要从一场AI竞赛说起……

    2021年 6月 17日
  • 长城科技节开场要点:魏建军的「唯一机会」、华为与高德的「减法思考」,以及李克强提出的「落后束缚」

    在今日开幕的第8届长城科技节上,魏建军发布了长城汽车的2025战略——到2025年,实现全球年销量400万辆,其中80%为新能源汽车,营业收入超6000亿元。同时,长城汽车轮值总裁孟祥军也指出,长城正加速企业低碳智能升级,并计划2045年全面实现碳中和。为了实现这些目标,长城将在未来五年累计研发加入将达到1000亿元。这些加入,将集中在纯电动、氢能、混动等新能源领域,同时也将着力在低功耗、大算力芯片和碳化硅等第三代半导体关键核心技术,以及现代传感、信息融合、人工智能等方面,做好软件和硬件的交

    2021年 6月 29日
  • 专栏 | 蒙特卡洛树搜寻在黑盒优化和神经收集结构搜寻中的应用

    布朗大学在读博士王林楠在本文中介绍了他与 Facebook 田渊栋团队合作,在 2020 年 NeurIPS 取得亮眼表现的新算法,以及其在神经收集结构搜寻中的应用。

    2021年 1月 6日
  • Sora之后,OpenAI Lilian Weng亲自撰文教你从头设计视频天生分散模型

    过去几年来,分散模型强大的图象合成能力已经得到充分证明。研究社区现在正在攻克一个更困难的任务:视频天生。近日,OpenAI 安全系统(Safety Systems)负责人 Lilian Weng 写了一篇关于视频天生的分散模型的博客。                              Lilian Weng机器之心对这篇博客进行了不改变原意的编译、整理,以下是博客原文:视频天生任务本身是图象合成的超集,因为图象就是单帧视频。视频合成的难度要大得多,原因是:1. 视频合成还需要不同帧之间保持时光一致性,很自然

    2024年 4月 22日
  • vivo印象策略发布,新一代自研印象芯片及多项新手艺亮相

    2022 年 10 月 24 日,vivo 印象策略发布会正式召开。会上,vivo 盘点了之前在印象理念上的坚持,即通过业余化的本领复原眼之所见,超越眼之所见,并将业余印象手艺赋能每一个人,持续为消费者提供人性化的业余印象感受。vivo 的印象手艺矩阵也在此次印象策略发布会正式公布:围绕“三个比肩”,坚持联合立异和自主立异两大策略支点,在日趋同质化的印象赛场中创造竞争优势,力求在挪移印象赛道上筑起手艺壁垒,并保持持续领先。 vivo 印象副总裁于猛vivo 印象副总裁于猛、vivo

    2022年 10月 24日

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注