抓取了1400家科技公司的雇用信息,我发现数据工程师比数据迷信家更有市场

「作为数据迷信家,我还有机会吗?」不,你更应该成为数据工程师。

抓取了1400家科技公司的雇用信息,我发现数据工程师比数据迷信家更有市场

数据无处不在,而且只会越来越多。在过去的 5-10 年内,数据迷信已经吸引了越来越多的新人投身于此。但如今数据迷信的雇用状况如何?亚马逊 Alxea 团队的呆板进修迷信家 Mihail Eric 收集了多家公司的雇用信息后,在个人博客中撰写了一篇阐发文章,阐述自己的思考。

抓取了1400家科技公司的雇用信息,我发现数据工程师比数据迷信家更有市场

数据胜于雄辩,他对自 2012 年以来 Y-Combinator 孵化的每家公司发布的数据畛域地位举行了阐发,钻研问题包括:

在数据畛域,公司最常雇用的地位是什么?

人们常讨论的数据迷信家的需求究竟有多大?

公司看重的这些妙技是引发当今数据革命的妙技吗?

下列是博客文章的主要内容:方法我选择对 YC 风投公司举行阐发,这些公司声称将某种数据作为其价值主张的一部分。主要关注 YC 是因为其提供了易于搜索(可抓取)的公司目录。此外,作为一个特别有远见的孵化器,它已经为全球众多畛域的公司提供投资长达十年之久,我觉得他们为本次阐发钻研提供了一个具有代表性的市场样本。但请注意,我没有阐发超大型科技公司。我抓取了自 2012 年以来每家 YC 公司的首页网址,建立起一个包含 1400 家公司的初始池。为什么是从 2012 年开始呢?2012 年,AlexNet 在 ImageNet 竞赛中获奖,掀起了如今呆板进修和数据建模的热潮,最早的一批数据优先(data-first)公司由此诞生。我对初始池执行了关键词过滤,以减少必要浏览的公司量。具体而言,我只考虑了其网站至少包含下列术语之一的公司:AI、CV、NLP、自然语言处理、计算机视觉、人工智能、呆板、ML、数据。同时不考虑那些网站链接故障的公司。这样的操作应该会产生大量错误的结果,我意识到将对各个网站举行更细粒度的手动检查以了解相关脚色,因此我尽可能地优先考虑高召回率。在这个筛选过的资源池中,我遍历了每个网站,找到了他们发布雇用信息的位置,并记下了标题中包含数据、呆板进修、NLP 或 CV 的所有地位。这让我建立了一个来自大概 70 个不同公司的雇用地位的资源池。也有点小失误:其中我错过了一些公司,有些网站虽然雇用信息很少,但是其实正在雇用。此外,有些公司没有正式的雇用页面,但而是要求应聘者直接通过电子邮件与他们联系。我忽略了这两种类型的公司,它们不在本次阐发钻研中。另一件事是,这项钻研的大部分都是在 2020 年的最后几个星期内完成的。随着公司定期更新雇用页面,绽放的地位可能已经改变,但我认为这对得出的结论影响不大。数据从业者应该控制什么?在深入钻研结果之前,值得花一些时间来搞清楚每种数据畛域地位一般控制什么。我将花时间介绍下列四个地位:

数据迷信家控制在统计和呆板进修中使用各种技术来处理和阐发数据,一般控制建立模型以探究从某些数据源中能够学到的内容,但模型一般是原型级别而非生产级别;

数据工程师控制开发一套强大且可扩展的数据处理工具 / 平台,必须熟悉 SQL / NoSQL 数据库的整理和建立 / 维护 ETL 流水线;

呆板进修(ML)工程师一般既控制训练模型,又控制生产模型,他们必要熟悉一些高级 ML 框架,还必须能够轻松建立模型的可扩展训练,推理和部署流水线;

呆板进修(ML)迷信家致力于前沿钻研,他们一般控制探索可以在学术会议上发表的新想法。在移交给 ML 工程师举行生产之前,呆板进修迷信家一般只必要对新的 SOTA 模型举行原型制作。

值得一提的是,与传统数据迷信家相比,绽放数据工程师的地位增加了不少,在这种情况下,在公司雇用的原始量上,数据工程师比数据迷信家多了大概 55%,而呆板进修工程师的数量与数据迷信家的数量大致相同。但如果查看各个地位的名称,就会发现似乎有些重复。

抓取了1400家科技公司的雇用信息,我发现数据工程师比数据迷信家更有市场

我只通过合并地位来提供粗略的分类即在不同地位脚色控制的内容大致相同的情况下将其合并为一个名称。其中包括下列等价关系集:

NLP 工程师≈CV 工程师≈ML 工程师≈深度进修工程师(尽管畛域可能不同,但职责大致相同)

ML 迷信家≈深度进修≈ML 实习生

数据工程师≈数据架构师≈数据主管≈数据平台工程师

抓取了1400家科技公司的雇用信息,我发现数据工程师比数据迷信家更有市场

按百分比描述的话是:

抓取了1400家科技公司的雇用信息,我发现数据工程师比数据迷信家更有市场

总体而言,合并会使差异更加明显。绽放数据工程师比数据迷信家多大概 70%。此外,绽放 ML 工程师比数据迷信家多大概 40%。呆板进修迷信家的数量也只有数据迷信家的大概 30%。结论与其他数据驱动型地位相比,数据工程师的需求越来越高。从某种意义上说,这代表了该方向正朝着更广阔的畛域发展。5 到 8 年前,呆板进修变得炙手可热,各个公司必要的是能够对数据举行分类的人才。但是之后 Tensorflow 和 PyTorch 等框架发展得很好,使得着手开始举行深度进修和呆板进修的能力大众化,随之而来的是数据建模妙技商品化。如今,发展瓶颈在于帮助公司获得有关生产级别数据问题的呆板进修和建模的意见。比如要考虑下列问题:

如何注释数据?

如何处理和清理数据?

如何将其从 A 移到 B?

如何尽快完成这些任务?

抓取了1400家科技公司的雇用信息,我发现数据工程师比数据迷信家更有市场

所有的这些都意味着,地位要求具有良好的工程妙技,偏向于数据的传统软件工程可能是我们目前真正必要的。但是否意味着您不应该进修数据迷信?并不是。而是意味着竞争将更加艰难。对于正准备训练成为数据迷信人才的初学者来说,可用的地位将会越来越少。当然,有效地阐发数据并从数据中提取可行见解的人一直必要,但这些见解必须是优秀的。很明显,公司经常必要混合型数据从业者,即可以建立和部署模型的人。或者更简洁地说,可以使用 Tensorflow,但也可以从源代码建立它的人。本钻研的另一个发现是 ML 钻研地位非常少。呆板进修钻研倾向于获得相当大的资源支持,因为这是顶尖级的钻研,例如 AlphaGo 和 GPT-3。但是对于许多公司,尤其是早期公司而言,顶尖的 SOTA 技术可能不再是必需的。达到最佳模型性能的 90%,同时扩展到 1000 个以上的用户,一般对他们来说更有价值。但你可能会在工业界的钻研实验室里找到很多这样的脚色,他们可以在很长一段时间里承受资本密集型赌注,而不是在种子轮就开始做产业 demo 准备接 A 轮融资。如果没有其他问题,我认为最重要的是让新来者对数据字段的期望合理并经过校准。我们必须承认,数据迷信现在已经今非昔比,只有当我们知道自己身处何处时,我们才知道要去到哪里。

原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/zhua-qu-le-1400-jia-ke-ji-gong-si-de-gu-yong-xin-xi-wo-fa/

(0)
上一篇 2021年 1月 20日 下午3:01
下一篇 2021年 1月 21日 下午2:16

相关推荐

  • 库克、盖茨等500余人联名倡议:让每一个中小先生都能学计算机课程

    蒂姆 · 库克、杰夫 · 贝佐斯、比尔 · 盖茨等科技界知名人士在公开信上签了名。近日,500 余名商业、培养和非营利部门的知名人士签订了一封联名信,呼吁州长和培养领导者更新美国基础培养 K-12 课程,让「每所书院的每一个先生都有时机进修计算机科学」。签订者名单包含许多科技界的知名人士,包孕苹果首席执行官蒂姆 · 库克、亚马逊创始人兼执行主席杰夫 · 贝佐斯、Alphabet 首席执行官桑达尔 · 皮查伊、微软联合创始人比尔 &mi

    2022年 7月 13日
  • HAOMO AI DAY官宣定档,年末AI主动驾技术盛筵即将上演

    今日好消息,毫末智行HAOMO AI DAY定档12月23日! 特斯拉AI DAY后,中国AI主动驾驭领域也有了自己的AI主动驾驭技术盛筵!在即将过去的2021年中,毫末智行惊喜不断,三次品牌开放日接连带来Pre-A轮融资、全球首个L4无人车工厂、主动驾驭三定律、NOH 智慧领航辅佐驾驭零碎、全球算力最高的可量产主动驾驭计算平台ICU3.0等众多惊爆人眼球的业务及产品发布,特别是辅佐驾驭用户行驶里程仅150天即突破200万公里、辅佐驾驭零碎3年落地乘用车超100万台的成绩及目标,更是让人们看到了主动驾驭技术大规模量

    2021年 12月 14日
  • 呆板之心CVPR线下论文分享会干货集锦,同时邀你报名ACL 2021论文分享会

    随着人工智能的火热,AAAI、NeurIPS、CVPR 等顶级学术会议的影响力也愈来越大,每年接收论文、参会人数的数量连创新高。但受疫情影响,近两年国外举办的学术会议都转为了线上,无法满足学者们现场交流的需求。以 CVPR 为例,2019 年,CVPR 注册参会人数高达 9227 人,其中来自国内的参会人数就达到 1044 位。因此,在 2020 年和 2021 年,国内 AI 从业者因疫情限制无法进行有效的学术交流。

    2021年 7月 1日
  • 1600米深海沉船如何索求?斯坦福人形机器人实现远程人机交互下潜

    深海里面藏着许多秘密,沉船,坠机,数不尽的金银珠宝和历史记忆都埋藏在深海中。从前索求这些遗址的方法多为整体打捞,许多证据难以保存。近日,斯坦福大学的机器人团队研发出名为 OceanOneK 的水下人机交互机器人,通过远程操控,让人形机器人以最接近真人潜水的方式在水下 1600 米实现索求,最大程度地实现了人机交互,也最大程度地保护了遗址的完整性。

    2022年 7月 29日
  • 「Pop SOTA!List for AI Developers 2021」社区评估 TOP 128 代价处事完整名录发布!

    2022 年初,我们对 2021 年度发布于 arXiv 的「SOTA」AI 论文进行了一轮分析,试图找到 2021 年度,对 AI 开发者最具代价的「Pop SOTA!」处事。但面对超过 2 万篇的「SOTA」处事,我们产生了疑惑 —— 自称「SOTA」的处事就一定是先进的吗?对广大 AI 开发者来说,什么样才是先进的技术处事?是思路具有启发性?还是跑出的实验分数高?是易于实现,对数据资源、计算资源的需求可控?还是放出的代码实现即插即用,可用性强?

    2022年 1月 27日
  • 邢波任校长的大学迎来机械进修鼻祖:Michael Jordan加盟MBZUAI任名誉老师

    提起 Michael Jordan,我们总能想起一连串的称号,比如「人工智能畛域泰斗」、「机械进修鼻祖」、「美国三院院士」、「全世界最有影响力的计算机科学家」等等。

    2022年 1月 20日
  • ICML2022奖项公布:15篇杰出论文,复旦、厦大、上交大研讨入选

    ICML2022 共评选出 15 篇杰出论文和一篇时间检验奖论文。

    2022年 7月 21日
  • 大神Goodfellow去向定了:回归google,在DeepMind继续长途办公

    Goodfellow 跳槽,真的是因为不想回办公室上班吗?

    2022年 5月 18日
  • 每小时挪动800例货箱,波士顿能源推出商用仓储呆板人Strentch

    当地时间3月29日,波士顿能源公司宣布推出一款可间接搬运货箱的智能仓储呆板人Stretch,支持物流行业对灵巧自动化解决方案日益增长的需求。这款呆板人的首次亮相,标志着波士顿能源正式进入快速增长的堆栈自动化市场。波士顿能源的标志性产品是仿生呆板狗Spot,这款呆板人设想用于从海上石油钻机到深井等环境中歇息。与波士顿能源以往的产品不同,Stretch不是以人类或动物为模型,而是以实用为目的。报道 | 呆板之能Stretch由一个带轮子的方形挪动底座,一个带有摄像头和其他传感器的“感知桅杆&rdq

    2021年 3月 30日
  • 5300亿参数的「威震天-图灵」,微软、英伟达合力造出超大语 言模型

    在微软和英伟达的共同努力下, Turing NLG 17B 和 Megatron-LM 模型的继承者诞生了:5300 亿参数,天生强大,它的名字叫做「Megatron-Turing」。

    2021年 10月 12日

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注