何为多标签分类?这里有几种实用的经典办法

这可能是最实用的多标签分类小贴士。

众所周知,二分类任意旨在将给定的输出分为 0 和 1 两类。而多标签分类(又称多宗旨分类)一次性地根据给定输出预计多个二分类宗旨。例如,模型可以预计给定的图片是一条狗还是一只猫,同时预计其毛皮是长还是短。在多分类任意中,预计宗旨是互斥的,这意味着一个输出可以对应于多个分类。本文将介绍一些可能提升多标签分类模型性能的小本领。模型评价函数通过在「每一列」(分类标签)上计算模型评价函数并取得分均值,我们可以将大多数二分类评价函数用于多标签分类任意。对数损失或二分类交叉熵就是其中一种评价函数。为了更好地考虑到类别不均衡现象,我们可以利用 ROC-AUC 作为评价函数。

何为多标签分类?这里有几种实用的经典办法

图 1:ROC-AUC 曲线建模本领在介绍构建特点的本领之前,本文将介绍一些设计适用于多标签分类场景的模型的小本领。对于大多数非神经网络模型而言,我们唯一的选择是为每个宗旨训练一个分类器,然后将预计结果融合起来。为此,「scikit-learn」程序库提供了一个简单的封装类「OneVsRestClassifier」。尽管这个封装类可以使分类器能够执行多标签任意,但我们不应采用这种办法,其弊端如下:(1)我们会为每个宗旨训练一个新模型,因此训练时间相对较长。(2)模型无法学习不同标签之间的关系或标签的相关性。第二个问题可以通过执行一个两阶段训练过程来解决。其中,我们将宗旨的预计结果和原始特点相结合,作为第二阶段训练的输出。这样做的缺点是,由于需要训练的模型数量是之前的两倍,训练时间将大幅度提升。神经网络(NN)则适用于这种场景,其中标签的数量即为网络中输出神经元的数量。我们可以直接将任意的二分类损失应用于神经网络模型,同时该模型会输出所有的宗旨。此时,我们只需要训练一个模型,且网络可以通过输出神经元学习不同标签的相关性,从而解决上文中提出的非神经网络模型的两个问题。

何为多标签分类?这里有几种实用的经典办法

图 2:神经网络有监视的特点选择办法在开始特点工程或特点选择之前,需要对特点进行归一化和标准化处理。利用「scikit-learn」库中的「Quantile Transformer」将减小数据的偏度,使特点服从正态分布。此外,还可以通过对数据采取「减去均值,除以标准差」的操作,对特点进行标准化处理。该过程与「Quantile Transformer」完成了类似的工作,其目的都是对数据进行变换,使数据变得更加鲁棒。然而,「Quantile Transformer」的计算开销较高。大多数算法都是为单一宗旨设计的,因此利用有监视特点选择办法稍微有些困难。为了解决这个问题,我们可以将多标签分类任意转化为多类分类问题。「Label Powerset」就是其中一种流行的解决方案,它将训练数据中的每一个独特的标签组合转化为一个类。「scikit-multilearn」程序库中包含实现该方案的工具。

何为多标签分类?这里有几种实用的经典办法

图 3:Label Powerset 办法在完成转换后,我们可以利用「信息增益」和「卡方」等办法来挑选特点。尽管这种办法是可行的,但是却很难处理上百甚至上千对不同的独特标签组合。此时,利用无监视特点选择办法可能更合适。无监视特点选择办法在无监视办法中,我们不需要考虑多标签任意的特性,这是因为无标签办法并不依赖于标签。典型的无监视特点选择办法包括:

主成分分析(PCA)或其它的因子分析办法。此类办法会去除掉特点中的冗余信息,并为模型抽取出有用的特点。请确保在利用 PCA 之前对数据进行标准化处理,从而使每个特点对分析的贡献相等。另一个利用 PCA 的本领是,我们可以将该算法简化后的数据作为模型可选择利用的额外信息与原始数据连接起来,而不是直接利用简化后的数据。

方差阈值。这是一种简单有效的降低特点维度的办法。我们丢弃具有低方差或离散型的特点。可以通过找到一个更好的选择阈值对此进行优化,0.5 是一个不错的初始阈值。

聚类。通过根据输出数据创建聚类簇来构建新特点,然后将相应的聚类分配给每一行输出数据,作为一列新的特点。

何为多标签分类?这里有几种实用的经典办法

图 4:K – 均值聚类上采样办法当分类数据高度不均衡时,可以利用上采样办法为稀有类生成人造样本,从而让模型关注稀有类。为了在多标签场景下创建新样本,我们可以利用多标签合成少数类过采样技术(MLSMOTE)。代码链接:https://github.com/niteshsukhwani/MLSMOTE该办法由原始的 SMOTE 办法修改而来。在生成少数类的数据并分配少数标签后,我们还通过统计每个标签在相邻数据点中出现的次数来生成其它相关的标签,并保留出现频次高于一半统计的数据点的标签。原文链接:https://andy-wang.medium.com/bags-of-tricks-for-multi-label-classification-dc54b87f79ec

原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/he-wei-duo-biao-qian-fen-lei-zhe-li-you-ji-zhong-shi-yong/

(0)
上一篇 2021年 10月 12日 下午2:46
下一篇 2021年 10月 18日 下午1:50

相关推荐

  • Creator 面对面 | 面向对立的 AI 模型架构和进修步骤

    随着 AI 的兴起,不同规模的相关研究热火朝天,各种各样的 AI 模型框架和进修步骤扑面而来,各不相同。那么是否能有一种对立的模型架构和进修步骤来解决不同规模的不同问题呢?让我们来听听怎么看。

    2022年 7月 18日
  • Snowflake如日中天是否代表Hadoop已死?大数据体系到底是什么?

    作者 | 阿里云计较平台研究员关涛、阿里巴巴项目管理专家王璀任何一种手艺都会经历从阳春白雪到下里巴人的过程,就像我们对计较机的理解从“戴着鞋套才能进的机房”变成了随处可见的智能手机。在前面20年中,大数据手艺也经历了这样的过程,从曾经高高在上的 “火箭科技(rocket science)”,成为了人人普惠的手艺。回首来看,大数据落后初期涌现了非常多开源和自研体系,并在同一个范畴展开了相当长的一段“红海”竞争期,例如Yarn VS Mesos、Hive VS Spark、Flink VS SparkStreaming

    2021年 8月 11日
  • 参加这场大佬云集的开发者大会,还能抽RTX3060,请叫我「良心之心」

    这是一场 AI 开发者的盛会!2021 WAIC AI 开发者论坛上,多位业界大咖齐聚一堂,共同探讨后深度学习时代的 AI 发展。目前,AI 开发者论坛招募活动已经开启,1000 席免费专业观众席位 7 月 2 日报名截止。7 月 10 日上海,不见不散。

    2021年 6月 25日
  • Creator 面对面 | 如何突破 AI 实践中的资源限制与壁垒?

    AI 的实际应用尚处于早期,对于大多的AI开发者来说,「从无到有」比「从有到优」要重要得多。能在有限的资源下跑通业务流程,比跑得姿态优雅要更重要,模型精度虽然是越准确越好,但当精度达到可用需求之后,精度就不再起决定性作用。

    2022年 7月 18日
  • 时空智能新赛道是怎样炼成的?千寻地位引领自立技巧创新突破

    2020年10月,华为推出Mate 40系列旗舰手机,在全球范围内首次完成车道级导航功能,及时显示用户所在车道地位。2020年11月,小鹏汽车智能轿跑P7,通过OTA升级,在深圳、重庆、杭州等高速公路上,可完成NGP高速自立导航驾驶。2020年初,武汉火神山医院在建设中,一次性完成放线测量,精确标绘,与病魔赛跑,向世界展示“十几天建一所医院”的壮举。这一年,人们离自动驾驶更近了,手机导航有了不同的体验,战疫的身影中有了科技力量。在这背后,是时空智能这项中国自立研发的技巧在消费级场景全方位渗透。作为千寻地位开创的硬核

    2021年 5月 27日
  • 全球首个联邦进修工业级开源框架FATE更新!五大模块迎来巨幅优化

    FATE(Federated AI Technology Enabler)是微众银行AI团队研发的全球首个联邦进修工业级开源框架,旨在提供安全的算计框架来支撑联邦 AI 生态。FATE 实现了基于同态加密和多方算计(MPC)的安全算计协议,它支撑联邦进修架构和多种机器进修算法的联邦进修实现,包括逻辑回归、基于树的算法、深度进修和迁移进修等等。3月31日,FATE推出 v1.6版本更新。在1.6版本中,优化了功能效率及稳定性,在使用体验方面,根据社区的反馈也有多方面的优化,将带来更流畅的使用体验。此外,新版本对其他F

    2021年 3月 31日
  • 手把手教你,从零开始实现一个稀少混合大师架构语言模型(MoE)

    本文介绍了实现一个稀少混合大师语言模型(MoE)的方法,详细解释了模型的实施过程,包括采用稀少混合大师取代传统的前馈神经网络,实现 top-k 门控和带噪声的 top-k 门控,以及采用 Kaiming He 初始化技术。作者还说明了从 makemore 架构保持不变的元素,比如数据集处理、分词预处理和语言建模任务。最后还提供了一个 GitHub 仓库链接,用于实现模型的整个过程,是一本不可多得的实战教科书。内容简介在混合大师模型 Mixtral 发布后,混合大师模型(MoE)越来越受到人们的关注。在稀少化的混合专

    2024年 2月 16日
  • ICML2022奖项公布:15篇杰出论文,复旦、厦大、上交大研讨入选

    ICML2022 共评选出 15 篇杰出论文和一篇时间检验奖论文。

    2022年 7月 21日
  • 人为「刷」论文援用量,米兰理工传授被IEEE惩罚,奖项被撤销

    论文援用量本是一件非常纯粹的学术指标,代表了论文本身的重要程度和价值。但当有人故意刷论文援用量时,一切未免变了味道,也失去了学术研究的纯粹性和真实性。

    2021年 5月 23日
  • 干货速递,baiduBML主动超参搜寻技术原理揭秘与实战攻略!

    在人工智能领域,算法工程师在训练神经网络模型的过程中,完成网络构建和准备好训练数据后,往往需要对模型从事各种参数优化,以获得更好的模型成效。但调参其实并不简单,背后往往是通宵达旦的参数调试与成效验证,并需要做大量的实验,不仅耗时也耗费大量算力。这个时候,往往想尝试主动超参搜寻,但又开始担心算力要求所带来的额外训练成本。莫慌!baidu全功能AI开发平台BML带着免费算力额度与主动超参搜寻能力来了!先来介绍baidu最近全新升级的BML,何方神圣?全功能AI开发平台BML(Baidu Machine Learning) ,是为企

    2021年 8月 11日

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注