如何防止我的模型过拟合?这篇文章给出了6大必备法子

正如巴菲特所言:「近似的正确好过精确的错误。」

在机器进修中,过拟合(overfitting)会使模型的预测本能变差,通常发生在模型过于复杂的情况下,如参数过多等。本文对过拟合及其办理法子从事了归纳阐述。

如何防止我的模型过拟合?这篇文章给出了6大必备法子

在机器进修中,如果模型过于专注于特定的训练数据而错过了要点,那么该模型就被认为是过拟合。该模型提供的答案和正确答案相距甚远,即准确率低落。这类模型将无关数据中的噪声视为旗号,对准确率造成负面影响。即使模型经过很好地训练使丧失很小,也无济于事,它在新数据上的本能仍然很差。欠拟合是指模型未捕获数据的逻辑。因此,欠拟合模型具备较低的准确率和较高的丧失。

如何防止我的模型过拟合?这篇文章给出了6大必备法子

如何确定模型是否过拟合?建立模型时,数据会被分为 3 类:训练集、考证集和尝试集。训练数据用来训练模型;考证集用于在每一步尝试建立的模型;尝试集用于最后评估模型。通常数据以 80:10:10 或 70:20:10 的比率分配。在建立模型的过程中,在每个 epoch 中利用考证数据尝试当前已建立的模型,得到模型的丧失和准确率,以及每个 epoch 的考证丧失和考证准确率。模型建立完成后,利用尝试数据对模型从事尝试并得到准确率。如果准确率和考证准确率存在较大的差异,则说明该模型是过拟合的。如果考证集和尝试集的丧失都很高,那么就说明该模型是欠拟合的。如何防止过拟合交织考证交织考证是防止过拟合的好法子。在交织考证中,我们生成多个训练尝试划分(splits)并调整模型。K-折考证是一种标准的交织考证法子,即将数据分成 k 个子集,用其中一个子集从事考证,其他子集用于训练算法。交织考证允许调整超参数,本能是所有值的平均值。该法子计算成本较高,但不会浪费太多数据。交织考证过程参见下图:

如何防止我的模型过拟合?这篇文章给出了6大必备法子

用更多数据从事训练用更多相关数据训练模型有助于更好地识别旗号,避免将噪声作为旗号。数据增强是增加训练数据的一种体式格局,可以通过翻转(flipping)、平移(translation)、旋转(rotation)、缩放(scaling)、更改亮度(changing brightness)等法子来实现。移除特征移除特征不妨低落模型的复杂性,并且在一定程度上避免噪声,使模型更高效。为了低落复杂度,我们可以移除层或减少神经元数量,使搜集变小。早停对模型从事迭代训练时,我们可以度量每次迭代的本能。当考证丧失开始增加时,我们应该停止训练模型,这样就能阻止过拟合。下图展示了停止训练模型的时机:

如何防止我的模型过拟合?这篇文章给出了6大必备法子

正则化正则化可用于低落模型的复杂性。这是通过惩办丧失函数完成的,可通过 L1 和 L2 两种体式格局完成,数学方程式如下:

如何防止我的模型过拟合?这篇文章给出了6大必备法子

L1 惩办的目的是优化权重绝对值的总和。它生成一个简单且可解释的模型,且对于异常值是鲁棒的。

如何防止我的模型过拟合?这篇文章给出了6大必备法子

L2 惩办权重值的平方和。该模型不妨进修复杂的数据模式,但对于异常值不具备鲁棒性。这两种正则化法子都有助于办理过拟合问题,读者可以根据需要选择利用。DropoutDropout 是一种正则化法子,用于随机禁用神经搜集单元。它可以在任何隐藏层或输入层上实现,但不能在输出层上实现。该法子可以免除对其他神经元的依赖,进而使搜集进修独立的相关性。该法子不妨低落搜集的密度,如下图所示:

如何防止我的模型过拟合?这篇文章给出了6大必备法子

总结过拟合是一个需要办理的问题,因为它会让我们无法有效地利用现有数据。有时我们也可以在建立模型之前,预估到会出现过拟合的情况。通过查看数据、收集数据的体式格局、采样体式格局,错误的假设,错误表征不妨发现过拟合的预兆。为避免这种情况,请在建模之前先检查数据。但有时在预处理过程中无法检测到过拟合,而是在建立模型后才能检测出来。我们可以利用上述法子办理过拟合问题。原文链接:https://mahithas.medium.com/overfitting-identify-and-resolve-df3e3fdd2860

原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/ru-he-fang-zhi-wo-de-mo-xing-guo-ni-he-zhe-pian-wen-zhang/

(0)
上一篇 2021年 1月 20日 下午2:40
下一篇 2021年 1月 20日 下午3:04

相关推荐

  • 国产产业软件弯道超车迎曙光,首款云原生CAD取得重大突破

    《道德经》有云,道生一,一生二,二生三 ,三生万物。“三”往往引向无穷之数。三维家耕耘8年的科技实力即将迎来全面丰收,由此,“三体计划”横空出世。“三体计划”既包含三维家结盟三个世界顶尖技巧伙伴的合作成果、在三个前沿学科的不懈探索、以及在三大科技盛会上的实力展现,也代表三维家坚持对先进技巧的探索,用技巧为财产开拓无限想象空间。“三体计划”最终导向三大目标:降维打击、打破边界、重塑视界。10月10日首款云原生CAD的发布开

    2021年 10月 12日
  • 295页博士论文探索加强进修形象表面,获AAAI/ACM SIGAI博士论文奖提名

    除了论文本身超有技术含量之外,文中使用的图表也非常美观漂亮。

    2022年 3月 20日
  • 宏景智驾CEO刘飞龙:利用「众筹法」接近主动驾驭终局

    作者 / 曹锦2018年,一支源自Cruise的初创团队准备在中国成立一家L4级主动驾驭公司。但是很快,他们就将定位由「Robotaxi量产公司」改为「L1-L4级智能驾驭规划服务商」。这是因为,当他们做了Robotaxi样车之后,却发现不管从法规还是商场接受度来看,L4级主动驾驭都还没迎来恰当的时机。之后的故事大家可能已经知道了,这家名为宏景智驾的公司,在刚成立三年半的时候,就实现了2亿元的营收,今年上半年的订单额更是高达4.9亿元。(左:宏景智驾创始人兼CEO刘飞龙,右:Auto Byte负责人 曹锦

    2022年 5月 31日
  • 这是机械之心举行的首场智能驾驭论坛,快来报名围观

    有些声音认为主动驾驭技能指向遥远的未来,也有人认为它近在咫尺。但不可否认的是,不论是「无人卡一场值得等待的智能驾驭盛会!车」这种近乎科幻的场景、整车企业的迅速蜕变,还是已经实现商业化的Robotaxi,都代表着不再可逆的智能浪潮。在即将举行的2021世界人工智能大会(WAIC)中,这场被命名为「智行·破界」的智能驾驭高峰论坛将迎来数位深耕该领域的第一梯队代表人物,他们将在现场给出最具说服力的「答案」。该论坛由东浩兰生以及机械之心旗下的出行科技媒体——Auto Byte联合主办,其高朋声势及论坛规模无疑将使其成为整场

    2021年 6月 21日
  • 姚班校友、斯坦福助理老师吴佳俊翻译,视觉估计经典《Vision》中文版面世

    这本书曾深刻地影响了一代脑、认知、估计机视觉范畴的学者。

    2022年 1月 18日
  • BioBit Program启动!之江实验室携手全球顶级钻研团队开展生物计较国内迷信单干

    11 月 5 日,之江实验室主办的首届生物计较国内学术会议在实验室南湖总部成功举行。会上,之江实验室发起并正式启动生物计较国内单干迷信计划(BioBit Program),携手伦敦大学、华盛顿大学、以色列理工学院等国内顶尖科研力量,共同开展生物计较创新探究钻研,赋能生命健康、新材料、环境等多规模进展。“BioBit Program 为生物计较这一新兴规模建立了一个跨越边界的科研交流单干平台,充分体现了之江实验室作为一个国内化、战略性新型研发机构的担当。我相信,BioBit Program 将在国内生物计

    2022年 11月 10日
  • Nature | 电动汽车间接排放超过燃油车?实际比预想的更绿色

    长期以来,电动汽车制造商一直打着节能减排的口号来宣传。然而,一些分析师对电动汽车行业的实际绿色程度意味担忧。他们认为,电力和电池生产过程中的间接排放量可能会增加,而这些排放不仅总量不小还往往容易被忽视。但耶鲁大学环境学院最近一项发表在Nature Communications 上的研讨发现,与化石燃料汽车的间接排放相比,电动汽车的间接排放总量相形见绌。这是对燃烧化石燃料的间接排放的补充,也就是说,无论是从汽车的排气管中排出的还是从发电厂的烟囱内排出的,数据表明电动汽车在排放方面比内燃机汽车具有明显的优势。&nbsp

    2022年 1月 10日
  • PyTorch正式加入Linux基金会,Linux基金会多了一把「瑞士军刀」?

    加入 Linux 基金会后,PyTorch 不会有大的改变。

    2022年 9月 13日
  • 十二年穿越周期,“AIGC第一股”外出问问今日挂牌上市

    4月24日,“AIGC第一股”外出问问有限公司(简称“外出问问”或“公司”,股份代号:2438),正式登陆香港交易所主板,股份代号为2438.HK,每手买卖单位1,000股股份。截至9:40,外出问问报于每股3.23港元,市值48.18亿港元。据配发结果公告显示,此次外出问问(02438.HK)寰球出售8456.8万股股份,国际出售4228.4万股股份,公开出售4228.4万股股份,其中,公开出售获117.39 倍认购。最终出售价每股3.8港元,寰球出售净筹约2.67亿港元。据悉,外出问问在招股期认购异常火爆,创下

    AI 2024年 4月 24日
  • 融会趋势下基于 Flink Kylin Hudi 湖仓一体的大数据生态体系

    本文由 T3 出行大数据平台负责人杨华和资深大数据平台开发工程师王祥虎先容 Flink、Kylin 和 Hudi 湖仓一体的大数据生态体系以及在 T3 的相关应用场景,内容包括:

    湖仓一体的架构
    Flink/Hudi/Kylin 先容与融会
    T3 出行结合湖仓一体的实践

    2021年 8月 11日

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注