剑桥计算机博士推荐,毕业之前,我须要掌握这9个东西

无论你在创业还是在做学术研究,这些东西都将使你的技能更上一层楼。

学术界在推进技术方面发挥了巨大作用,但学术界和工业界往往存在一种分割状态。我们经常会看到这种现象:无数很棒的辅助东西在学术界被忽视,但在工业界很受欢迎。对于很多研究者来说,进修一种新东西可能存在困难,不愿意花费过多的时间去尝试,在当前自己掌握的东西足以应对各种问题时尤其如此。其实,有些东西一时未见到效果,在后期可能会有十倍的回报。来自剑桥大学的计算机科学博士生 Aliaksei Mikhailiuk 为我们整理了呆板进修博士在获得学位之前须要掌握的九种东西。他在剑桥大学获得物理学硕士学位,在布里斯托大学获得工程学士学位。他对研究、开发、部署感兴趣,还能熟练掌握计算机视觉算法、聚合和自然语言处理等技术。现任职华为(英国)高级人工智能工程师。

剑桥计算机博士推荐,毕业之前,我须要掌握这9个东西

个人主页:https://www.linkedin.com/in/aliakseimikhailiuk/ Mikhailiuk 将这些东西按用途分为四类:可隔离情况、试验追踪、相互协作以及可视化可隔离情况东西呆板进修是一个快速发展的领域,常用的包更新非常频繁。尽管开发人员做出了努力,但较新的版本通常与旧版本不兼容,这样给研究者带来很多麻烦。幸运的是,有东西可以解决这个问题!在这一方面,Mikhailiuk 推荐了两个东西:Docker 和 Conda。DockerMikhailiuk 攻读博士学位期间,他有一台由大学经管的呆板,学校会定期进行更新。通常情况下是一夜之间更新,没有任何通知。你可以想象,当更新后的第二天早上发现自己大部分职责与最新的驱动程序不兼容,是多么令人崩溃。Mikhailiuk 发现 Docker 可以很好地解决。

剑桥计算机博士推荐,毕业之前,我须要掌握这9个东西

Docker 准许将软件包装在称为容器的包中。容器是具有自己的软件、库和配置文件的独立单元。在一个简化的视图中,容器是一个独立的虚拟操作系统,它具有与外部世界通信的手段。Docker 是一个开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一个可移植的容器中,然后发布到任何流行的 Linux 或 Windows 操作系统的呆板上,也可以实现虚拟化,容器是完全利用沙箱机制,相互之间不会有任何接口。一个完整的 Docker 由以下几个部分组成:

DockerClient 客户端

Docker Daemon 守护进程

Docker Image 镜像

DockerContainer 容器

Docker 教程:https://aws.amazon.com/cn/blogs/opensource/why-use-docker-containers-for-machine-learning-development/Conda现在,复用别人的代码成为了一种新的规范。GitHub 作为一个代码托管云服务网站,帮助开发者存储和经管其项目源代码,且能够追踪、记实并控制用户对其代码的修改。研究者可以克隆上面的代码,安装并提出自己的解决方案,而不须要自己写任何东西。但是 GitHub 也有不方便的情况,当多个项目一起利用时,你会遇到包经管问题,因为不同的项目须要不同版本的包。Conda 可以解决这个问题 。Conda 是一个开源跨平台语言无关的包经管与情况经管系统,它准许创办多个情况并快速安装、运行和更新包及其依赖项,用户可以在隔离的情况之间快速切换。

剑桥计算机博士推荐,毕业之前,我须要掌握这9个东西

Conda 教程:https://conda.io/projects/conda/en/latest/user-guide/getting-started.html#starting-conda运行、追踪和记实试验东西在应用领域想要获得博士学位,严谨性和一致性是两个基本支柱。假如你是研究呆板进修模型的,或多或少都能遇到这种情况——你创办了许多不同的模型来试验不同的参数甚至整个架构。你还想尝试优化器的选择、进修率、时期数等。因此,实际上,你将进行许多不同的试验,并且将越来越难以整理结果。在这一方面,Aliaksei Mikhailiuk 向我们展示了如何正确方便地经管和记实自己的 ML 和 DL 试验东西,主要推荐了 Weights & Biases,MLFlow,Screen 东西。Weights & Biases

剑桥计算机博士推荐,毕业之前,我须要掌握这9个东西

wandb panel 一组简单指标 Snapshot——训练损失、进修率和平均验证损失。请注意,你还可以追踪系统参数。W&B(Weights & Biases) 是一个平台,可以帮助数据科学家追踪他们的模型、数据集、系统信息等。只需几行代码,用户就可以开始追踪有关这些功能的所有内容。它收费供个人利用,团队利用通常须要付费,但用于学术目的的团队是收费的。你可以将 W&B 与自己喜欢的框架一起利用,例如 TensorFlow、Keras、PyTorch、SKlearn、fastai 等。W&B 提供了以下 4 个有用的东西:

Dashboard:试验追踪;

Artifacts:数据集版本控制、模型版本控制;

Sweeps:超参数优化;

Reports 保存和共享可重现的结果。

W&B 教程:https://docs.wandb.ai/quickstartMLFlowMLFlow 是一个能够覆盖呆板进修全流程(从数据准备到模型训练到最终部署)的新平台,它是一款经管呆板进修职责流程的东西,主要有三个功能模块:Tracking 追踪和记实、Project 项目经管和 Models 模型经管。MLflow 支持 Java、Python、R 和 REST API 等。

剑桥计算机博士推荐,毕业之前,我须要掌握这9个东西

MLFlow 具有以下主要组件:

追踪:用于追踪试验,以记实和比较参数与结果;

模型:用于通过各种 ML 库经管模型,并将其部署到各种模型服务和推理平台;

项目:用于将 ML 代码打包成可重用、可再现的格式,以便与其他数据科学家共享或转移到生产情况;

模型注册表:使你可以将模型存储集中化,以便利用版本控制和批注功能来经管模型的完整生命周期阶段转换;

模型服务:可用于将 MLflow 模型以 REST 终结点的形式托管。

MLFlow 教程:https://www.mlflow.org/docs/latest/tutorials-and-examples/tutorial.htmlScreen对于每个研究者来说,让试验通宵运行而且呆板不会进入休眠状态再好不过了。当进行远程职责时,很多人都会担心 ssh 会话中断——代码运行几个小时就停止了。screen 命令准许用户在一个窗口内利用多个终端会话,可以断开连接,也可以重新连接已断开连接的会话。每个会话都可以恢复连接,这样就算会话断开了,用户也不必担心数据丢失。Screen 教程:https://www.geeksforgeeks.org/screen-command-in-linux-with-examples/协作东西学术界缺乏有效的团队经管机制,在某种程度上这是由于学术界会严格划分个人贡献造成的。然而,呆板进修的发展速度须要大家共同努力。Mikhailiuk 推荐了两个非常基本的东西:GitHub 以及 Lucidchart,它们对于有效的沟通非常方便,尤其是在远程职责上。GitHubGitHub 是通过 Git 进行版本控制的软件源代码托管服务平台,同时提供付费账户和收费账户,这两种账户都可以创办公开或私有的代码仓库,但付费用户支持更多功能。除了准许个人和组织创办和访问保管中的代码以外,它也提供了一些方便社会化共同软件开发的功能,包括准许用户追踪其他用户、组织、软件库的动态,对软件代码的改动和 bug 提出评论等。GitHub 也提供图表功能,用于概观显示开发者们怎样在代码库上职责以及软件的开发活跃程度。

剑桥计算机博士推荐,毕业之前,我须要掌握这9个东西

就在近日,GitHub 正式发布了 2021 年度报告。过去一年里,有 1600 万开发者加入了 GitHub,目前平台的开发者数量已经达到了 7300 万;过去一年里,他们在 GitHub 上创办了 6100 万个存储库。世界财富 100 强企业中的 84% 都在利用 GitHub。GitHub 教程:https://docs.github.com/en/get-started/quickstart/hello-worldLucidchartLucidchart 是一款收费的可以支持离线操作的谷歌浏览器图表插件,可以帮助用户绘制包括流程图、实体模型、UML、思维导图等多种图表的绘制职责。它提供了很多收费绘图模板,大大地加快了用户的绘图速度。该应用的一大优势是,它基于 HTML5,因此用户不须要下载本地应用程序,就可以在电脑、iPad 等设备上利用该应用。它的另一主要优势是共享的协作空间和在图表旁边做笔记的能力。

剑桥计算机博士推荐,毕业之前,我须要掌握这9个东西

Lucidchart 教程:https://www.lucidchart.com/pages/tour可视化东西提交论文时,研究人员经常会遇到拒稿的情况,这让 Mikhailiuk 意识到可视化功能和结果一样重要。如果审稿人没有太多时间,或者对论文涉及的领域不熟悉,通常来说论文会被拒掉,其中一部分原因可能是论文中的视图给人印象不深刻。因此,Mikhailiuk 推荐了 Inkscape 和 Streamlit 这两个东西。InkscapeInkscape 是一个开源的矢量图编辑东西,利用可伸缩向量图形 (SVG),以及基于 W3C 标准的 open XML 格式作为其默认文件格式。设计过程可能从一张涂鸦、一幅素描或者软件中模型设计开始,这些可能不足以完成一整个项目。Inkscape 可以帮助你将以上不成熟的素材转变为专业的设计,用于广告发布、模型制作等用途。Inkscape 还能提供 TexText 扩展,利用此软件包,你可以将 latex 公式无缝集成到图像中。

剑桥计算机博士推荐,毕业之前,我须要掌握这9个东西

Inkscape 推荐教程:https://inkscape.org/learn/tutorials/StreamlitStreamlit 和常规 Web 框架不同之处在于,它不须要你去编写任何客户端代码(HTML/CSS/JS),只须要编写普通的 Python 模块,就可以在很短的时间内创办美观并具备高度交互性的界面,从而快速生成数据分析或者呆板进修的结果;另一方面,和那些只能通过拖拽生成的东西也不同的是,你仍然具有对代码的完整控制权。

剑桥计算机博士推荐,毕业之前,我须要掌握这9个东西

教程地址:https://builtin.com/machine-learning/streamlit-tutorial以上就是 Mikhailiuk 在获得呆板进修博士学位之前须要掌握的九个东西,你不妨也进修一下,相信这些东西在你之后的进修、职责中,会起到事半功倍的效果。原文链接:https://towardsdatascience.com/nine-tools-i-wish-i-mastered-before-my-phd-in-machine-learning-708c6dcb2fb0

原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/jian-qiao-ji-suan-ji-bo-shi-tui-jian-bi-ye-zhi-qian-wo-xu/

(0)
上一篇 2021年 11月 17日 下午9:02
下一篇 2021年 11月 23日 上午10:21

相关推荐

  • 5300亿参数的「威震天-图灵」,微软、英伟达合力造出超大语 言模型

    在微软和英伟达的共同努力下, Turing NLG 17B 和 Megatron-LM 模型的继承者诞生了:5300 亿参数,天生强大,它的名字叫做「Megatron-Turing」。

    2021年 10月 12日
  • 论文分享 | 丢弃卷积,纯Transformer建立GAN收集

    最近,计算机视觉(CV)领域的钻研者对 Transformer 产生了极大的兴趣并陆续取得了不少突破。比如,2020 年 5 月,Facebook AI 的钻研者推出了 Transformer 的视觉版本——Detection Transformer,在性能上媲美当时的 SOTA 方法,但架构得到了极大简化;10 月,谷歌提出了 Vision Transformer (ViT),可以直接利用 transformer 对图像进行分类,而不需要卷积收集。

    2021年 2月 26日
  • 两款量产主动驾驭重卡登台WAIC 嬴彻科技全栈自研面向量产

    在主题为“智联世界,众智成城”的2021世界人工智能大会上,嬴彻科技展现了两款主动驾驭重卡的量产车型。这两款车型分别是与东风商用车、中国重汽联合开发,搭载嬴彻轩辕主动驾驭系统,是全球最早的量产型主动驾驭重卡。嬴彻科技同台展现了其全栈自研主动驾驭技能的一系列最新成果。 两款主动驾驭重卡登台WAIC 嬴彻首度展出和东风商用车、中国重汽分别联合开发的两款主动驾驭量产车型。2019年嬴彻启动与OEM联合开发主动驾驭重卡,两年来与产业伙伴紧密合作,遵守严谨的车辆正向开发流程,在主动

    2021年 7月 9日
  • 2021图灵奖揭晓:高机能较量争论先驱、超算TOP500榜单创始人之一Jack Dongarra获奖

    他曾说过:未来的较量争论架构会是 CPU 和 GPU 的结合。

    2022年 3月 31日
  • 丰田的「小目标」:成为对华夏氢燃料电池产业贡献最大的企业

    1996年,也是丰田的首款混淆动力量产车型普锐斯推出的前一年,丰田已经在开发纯电动版本的RAV4了。「但是非常遗憾,当时别说以EV为主了,都几乎没有人会选择EV。」丰田汽车公司执行董事 CTO 前田昌彦表示,讲究「适时适地适车」的丰田,虽然丰田在上海车展期间全球首发了崭新纯电动专属系列TOYOTA bZ,并展出了该系列的首款概念车TOYOTA bZ4X CONCEPT,但并不意味着丰田将转向EV为主的路线,而是要由市场来选择。在上海车展首日,丰田汽车高层通过连线及现场问答形式对HEV、PHEV、EV、FCEV的规划

    2021年 4月 22日
  • 2021年的第一盆冷水:有人说别太把图神经网络当回事儿

    图神经网络(GNN)是目前热门的研究方向,但我们是否应把注意力过多地放在这上面?数据科学家 Matt Ranger 从模型的本质、性能基准测试、实践应用等方面陈述了自己的观点。

    2021年 1月 5日
  • 智加科技完成总计4.2亿美元新一轮融资

    2021年3月31日,重卡主动驾驭公司智加科技(Plus)继上月宣布2亿美元融资之后,完成新一轮2.2亿美元融资,方源本钱(FountainVest Partners)和锴明投资(ClearVue Partners) 领投,上汽本钱、红杉中国、满帮集团、广达电脑(Quanta Computer Inc.)、卓易本钱(Phi Zoyi Capital)、千禧本钱(Millennium Technology Value Partners)跟投。智加本轮融资总额达到4.2亿美元,其他投资人包含国泰君安国际,CPE等。据了

    2021年 3月 31日
  • 开启生成式视频压缩:谷歌基于GAN来实现,性能与HEVC相当

    来自谷歌的钻研者提出了一种基于生成对抗网络 (GAN) 的神经视频压缩办法,该办法优于以前的神经视频压缩办法,并且在用户钻研中与 HEVC 性能相当。

    2021年 8月 11日
  • 北京R SPACE都会异想空间开馆,上汽R跨界打造新地标

    夜幕降临,星光熠熠。裙摆与西服,穿梭在音乐与美酒之间;镜头与灯光,记录下交织的玫瑰与车影……5月17日晚,在位于北京国贸CBD核心商圈的北京华贸广场,R汽车联合时髦芭莎共同呈现了一场致意现在的先锋时髦盛宴——ROSE NIGHT。《时髦芭莎》执行出版人兼主编沙小荔,国际知名时髦摄影师、视觉艺术家陈漫,以及多位艺术与时髦大咖齐聚,共同见证北京R SPACE都会异想空间正式开馆,点亮帝都潮水生存新地标。科技跨界时髦  北京R SPACE点亮潮水新地标举目四顾

    2021年 5月 18日
  • 面向认知,智源研究院联合清华大学、阿里巴巴、搜狗等发布超大规模新型预训练模型“悟道·文汇”

    2021年1月11日,由北京智源人工智能研究院(以下简称“智源研究院”)、阿里巴巴、清华大学、中国人民大学、中国科学院、搜狗、智谱.AI、循环智能等单位的科研骨干成立“悟道”联合攻关团队,发布了面向认知的超大规模新型预训练模型“文汇”,旨在探索解决当前大规模自监督预训练模型不具有认知能力的问题。“文汇”模型不仅使用数据驱动的方法来建构预训练模型,还将用户行为、常识知识以及认知联系起来,主动“学习”

    2021年 1月 12日

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注