技术博客丨原来模型训练可以不用标注?一文全解四大机械进修法子

本文将用通俗的方式,为大家介绍耳熟能详却分辨不清的四个机械进修核心概念:监视式进修、半监视进修、非监视进修和自监视进修,并将用实例简介它们试图解决的问题。

作家:Ta-Ying Cheng,牛津大学博士研究生,Medium技术博主,多篇文章均被平台官方刊物Towards Data Science收录

即使在人工智能已经逐渐普遍的今天,有许多人对机械进修相关的概念仍是一知半解。虽然机械进修论文层出不穷,几乎每过一阵子都有新技术和新想法发表,然而绝大多数新词只能沦为人们交口传诵的人工智能术语,至于这些词究竟是什么意思则不做深究。本文将用通俗的方式,为大家介绍耳熟能详却分辨不清的四个机械进修核心概念:监视式进修、半监视进修、无监视进修和自监视进修,并将用实例简介它们试图解决的问题,希望能带大家走出机械进修的入门迷雾!

监视式进修

img

图 1. 监视式进修图示 

制作:作家,素材:Unsplash

图片翻译:Dataset 数据集、Input 输出、Label 标注、Dog 狗、Cat 猫、Tasks (e.g., Classification, Regression) 机械进修工作(如分类、回归等)

监视式进修(supervised learning)是最为常见的机械进修法子,一般提到机械进修指的都是监视式进修。

简而言之,监视式进修就是给机械提供一组输出-输出对,这样模型能够进修一个中间系统,使得输出映射到准确的输出。

我们可以举一个单一的例子来说明监视式进修的工作方式。如图所示,我们须要确定图片中的动物是猫还是狗(也可以是其他动物),那么我们首先就须要拿到用于训练模型的动物图片数据集以及这些图片所对应的“类”(class),也就是我们常说的标注(labels)。

按照目前流行的法子,有了给定的输出-标注对之后,我们就将直接拿这组数据来训练我们的深度神经网络(如卷积神经网络)。训练后,模型会对已有的图片给出自己的标注猜测,然后我们须要计算模型的猜测和原有的准确标注之间的差别(称作可微损失),再把这些差别反馈给模型来调整其参数并优化最终的猜测结果(这个过程称为反向传播,backpropagation)。

总的来说,监视式进修是所有机械进修法子中最显而易懂的法子,这种法子默认所有图片的标注都是给定的,由此能让机械进修的过程变得更加单一。

半监视进修

img

图2. 半监视进修图示 

制作:作家,素材:Unsplash

图片翻译:Dataset 数据集、Labelled 已标注、Input 输出、Label 标注、Dog 狗、Cat 猫、Unlabelled 未标注、Tasks (e.g., Classification, Regression) 机械进修工作(如分类、回归等)

监视式进修的想法很强大也很单一,只须要我们手头上的数据集有着完整且准确的标注就可以了,但现实并非总是如此美好。随着AI行业的发展,人们越来越认识到标注是一个高度劳动密集型的环节,数据集的标注并非总是完美。在成本不足的情况下,手头上的数据可能只有部分有标注甚至可能齐全没有标注。

半监视进修的诞生正是为了解决问题:我们如何在只有一小部分数据有标注的情况下做到四两拨千斤的效果呢?

回到刚刚说的图片标注工作,假设我们手头上的数据集只有部分图片有标注,其余那些没有标注的数据还有用吗?

答案是肯定的,我们可以用一种叫伪标签(pseudo-labeling) 的法子来利用这些数据。

对于刚刚的工作,我们可以先按照通常的监视式进修法子用有标注的数据来训练一个分类模型,然后我们用这个模型来为剩下的数据做标注。如果模型有充分的把握认为自己的标注是准确的,那么我们就把这部分猜测标注当作是准确标注添加回原来的有标注数据当中(实际上这些猜测标注只是伪标签)。由此,我们再重复原来的模型训练过程,一遍遍地往返迭代,直到所有的数据都被用上并且最终的分类模型达到其最优性能。

当然,这种法子听起来非常聪明,但在实际操作中很容易出问题。如果原有的已标注数据实在有限,那么模型很有可能会一上来就给出错误的伪标签,导致最终的训练结果齐全失败。因此对于半监视进修来说,确定模型至少有多大的把握才能将伪标签加入训练数据中是至关重要的。

为了避免训练初期的过拟合,我们也可以利用数据增强这一强大技巧来增加原始训练数据的大小,为模型训练提供分布更广的数据。如果大家对数据增强感兴趣,可以参看我们之前发布的关于mixup的文章。

无监视进修

img

图3. 无监视进修图示 

制作:作家,素材:Unsplash

图片翻译:Dataset 数据集、Tasks (e.g., Clustering) 机械进修工作(如聚类等)

既然我们已经知道怎么样用最少的标注达到最大的训练效果,那么一个很自然又很大胆的想法便呼之欲出:能不能使用齐全无标签的数据从事进修呢?

无监视进修齐全站在另一个极端,输出的数据没有任何对应的标注,训练的最终目标是要找到数据集内部的分布规律。

无监视进修就是针对齐全无标签的数据从事的进修法子,一般用在客群划分、推荐算法等各种分类工作当中。

而这时由于我们手头上没有能够给机械从事验证的准确标注,那么我们须要通过聚类(clustering) 的法子来找到数据集内部的规律。也就是说,对于一个给定的数据集,我们须要找到这些数据都共同存在什么样的特征,然后按照这些特征对数据从事分类。比较常用的聚类法子有K-MeansK-Medoids等。

聚类听起来似乎非常单一,但能够为实际生产中的问题提供非常有用的信息。比如,当我们在设计推荐算法系统时,我们可以直接根据用户的使用习惯来将他们从事分类,然后便可以推送用户喜欢的内容给他们。在此过程中,我们齐全不须要去知道每个用户具体的兴趣是什么,一切分类工作都可以交由模型从事处理。

自监视进修

img

图4. 自监视进修图示 

制作:作家,素材:Unsplash

图片翻译:Dataset 数据集、Tasks (e.g., Classification, Regression) 机械进修工作(如分类、回归等)

自监视进修听起来和无监视进修非常像,但自监视进修更多地用来应对那些传统上使用监视式进修从事处理的工作。

自监视进修在某种程度上也可以算作是一种无监视进修,因为它不须要利用训练数据给定的标注信息。不过,自监视进修不用于聚类工作,而是专攻像图片分类这样传统上使用监视式进修从事处理的工作。

自监视进修的目标听起来似乎是天方夜谭,但近年来许许多多的研究已经提出了非常创新的思路来实现对传统监视式进修工作的无标注的进修。其中一种思路就是著名的对比进修(contrastive learning),通过比较正例和负例样本来从事进修。单一来讲,在对比进修中我们会首先对同一图像从事数据增强操作。比如用同一张小狗图片用不同的增强方式生成多张新的小狗图片,这些图片我们用作正例样本,而数据集中的其他图像我们都当作是负例样本。对比进修模型在训练过程中须要做的事情,便是尽可能地在模型内让正例样本离彼此更近,同时让正负例样本之间更远。由此神经网络可以进修到这些正例样本的本质特征,这样的进修方式使得图像分类这样原本须要ground truth(可以理解为准确标注)的工作在自监视进修中成为可能。

小试牛刀

如果你想要亲自上手来体会这些不同概念之间的区别,可以先找到自己想要训练的数据集,然后自行通过移除部分或所有标注的方式来体验这些进修法子的区别。

我们的数据集如果是直接从torchvision中调用的,会带有已做好的标注。如果我们想要尝试半监视或自监视进修,可以试着自己写一个DataLoader(数据加载器)。另外,我们还可以使用格物钛公开数据集平台来单一方便地获取数据集。格物钛的平台提供了机械进修最为常用的公开数据集,可以免费下载,还可以在浏览器中直接查看数据集内容。格物钛还提供了实用的API供我们将数据集的获取接口直接集成到自己的代码当中,让设计DataLoader变得更加单一。建议手头上只有一台笔记本电脑的同学先用MNIST和CIFAR-10这样的数据集从事测试,因为这两个数据集须要的算力相对而言更少一些。

结语

希望看到这里你已经掌握了这四个概念之间的联系及区别!如果想要进一步了解自监视进修方向的最新进展,可以到paperswithcode社区查看最新的论文及其代码。

更多信息请访问格物钛官网

原创文章,作者:格物钛Graviti,如若转载,请注明出处:https://www.iaiol.com/news/ji-shu-bo-ke-gun-yuan-lai-mo-xing-xun-lian-ke-yi-bu-yong/

(0)
上一篇 2022年 1月 10日 下午9:32
下一篇 2022年 1月 11日 上午9:35

相关推荐

  • 时隔近50年,剑桥团队首次检测到量子自旋液体,钻研登上《Science》

    钻研者应用量子摹拟器检测到一种难以捉摸的物资形态:量子自旋液体,可用于量子计算机等技术的发展。

    2021年 12月 9日
  • Alluxio宣布获得新一轮5000万美元融资

    新设中国区总部,开启寰球扩张新征程

    2021年 11月 17日
  • 深度剖析|可托AI 征途中的技能实践与运用机遇

    「机器之心2021-2022年度AI趋势大咖说」聚焦「驱动现在的AI技能」与「重塑产业的AI科技」,推出线上分享,共邀请近40位AI范围知名学者、产业专家及企业高管通过主题分享及多人圆桌等形式,与行业精英、读者、观众共同回顾 2021年中的重要技能和学术热点,盘点AI产业的年度研究方向以及重大科技突破,展望2022年度AI技能落后方向、AI技能与产业科技融合趋势。

    2022年 7月 20日
  • 论文分享 | 丢弃卷积,纯Transformer建立GAN收集

    最近,计算机视觉(CV)领域的钻研者对 Transformer 产生了极大的兴趣并陆续取得了不少突破。比如,2020 年 5 月,Facebook AI 的钻研者推出了 Transformer 的视觉版本——Detection Transformer,在性能上媲美当时的 SOTA 方法,但架构得到了极大简化;10 月,谷歌提出了 Vision Transformer (ViT),可以直接利用 transformer 对图像进行分类,而不需要卷积收集。

    2021年 2月 26日
  • RoLAP 实验室|鉴于凸凸凸的工业臂柔性计划系统

    大界成立的RoLAP实验室(RoboticPlus Laboratory for Autonomy and Perception),由中科院博士后、加州理工物理学博士、大界首席科学家周诚喆领衔,聚集了一批专业的硕博团队,致力于研究工业机器人在智能制造场景下的视觉感知(眼)、静止计划(手)、场景理解(大脑)的协同闭环系统。本文将鉴于RoLAP实验室的研究成果,为各位读者深度解析机器臂静止计划的关键技术。一. 背景介绍随着科学技术的发展,机器人技术正在被广泛应用到各种结构化的场景,比如3C消费电子和汽车工厂等标准化制造

    2022年 6月 17日
  • 2021图灵奖揭晓:高机能较量争论先驱、超算TOP500榜单创始人之一Jack Dongarra获奖

    他曾说过:未来的较量争论架构会是 CPU 和 GPU 的结合。

    2022年 3月 31日
  • 1.5K star量,上古老番变4K,B站开源超分辨率算法

    这是 B 站 AI 实验室的最新成果。

    2022年 2月 15日
  • 增大模型依然有用,DeepMind用2800亿参数的Gopher,测试谈话系统极限

    DeepMind 连发三篇论文,全面阐述大规模谈话模型依然在进展之中,能力也在继续增强。近年来,国内外各大 AI 巨头的大规模谈话模型(large language model,LLM)一波接着一波,如 OpenAI 的 GPT-3、智源研讨院的悟道 2.0 等。大模型已然成为社区势不可挡的发展趋势。然而,当前谈话模型存在着一些问题,比如逻辑推理较弱。那么,我们是否可以仅通过添加更多数据和算力的情况下革新这些问题呢?或者,我们已经达到了谈话模型相关技术范式的极限?今日,DeepMind「一口气」发表了三篇论文,目的

    2021年 12月 9日
  • 古代首次打败特斯拉,成韩国消费者最中意的EV品牌

    2021韩国电动汽车博览会(xEV TRENDKOREA 2021)从上月19日至本月14日面向1467名民众,实施电动汽车采办喜好观察,于28日发布结果显示,古代力压特斯拉,成为韩国消费者最偏好的电动汽车品牌,古代击败特斯拉是该观察自2018年起开始实施后的首次。 观察还显示,87%的受访者称未来5年内有采办电动汽车的理想,较去年增长了23%。近年电动汽车品牌趋于多样化,消费者对于电动汽车的关注度和采办理想也大幅上升。消费者采办电动汽车时最注重最大续航里程、充电站设施、价格、购车贴补等。受访者认为电动汽

    2021年 5月 28日
  • 「讹诈」制作业

    搜集犯罪分子将注意力从消费者转移到了更大更肥的是鱼上——有钱、缺人、承受迅速恢复产能的巨大压力的制作业公司。然而,许多制作商都不准备好与世界上最致命的恶意软件作斗争,即使遭受进犯,要么轻描淡写,要么讳莫如深。尽管讹诈软件通常会带来巨大的成本,浪费时间和资源,给公司的声誉和品牌带来巨大的危害,并且会影响整个行业的看法,但是,随着制作商向产业4.0过渡,面对搜集威胁,他们比其他行业更准备不足。比如,只有不到三分之二的制作商拥有搜集宁静打算,但打算位于部门响应打算最底层。越来越多的制作业企业也没

    2021年 4月 8日

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注