提供鉴于transformer的pipeline、准确率达SOTA,spaCy 3.0正式版发布

spaCy 3.0 正式版来了。

spaCy 是具有工业级强度的 Python NLP 工具包,被称为最快的工业级自然语言处理工具。它反对多种自然语言处理的基本性能,主要性能包括分词、词性标注、词干化、命名实体识别、名词短语提取等。近日,spaCy v3.0 正式发布,这是一次重大革新。

提供鉴于transformer的pipeline、准确率达SOTA,spaCy 3.0正式版发布

spcCy 3.0 革新文档地点:https://github.com/explosion/spaCy/releases/tag/v3.0.0spaCy v3.0 有以下特点:

具有新的鉴于 transformer 的 pipeline,这使得 spaCy 的准确率达到了当前的 SOTA 水平;

提供了新的 workflow 体系,帮助用户将原型变为产品;

pipeline 摆设尤其简单,训练 pipeline 也尤其轻松;

与 NLP 生态体系的其他部分有许多新的和改观的集成。

spaCy v3.0 旨在优化用户的应用体验。用户可以应用强大的新摆设体系来描述所有的设置,从而在 PyTorch 或 TensorFlow 等框架中编写反对 spaCy 组件的模型。新的 workflow 体系尤其适用于方法复杂的现代 NLP 流程。快速安装启动为了实现最流畅的革新过程,项目开发者建议用户在一个新的虚拟环境中启动:pip install -U spacy在具体操作上,用户可以采用自己的操作体系、包管理器、硬件、摆设、训练 pipeline,以及采用 pipeline 时可以采用侧重效率性或者准确性。

提供鉴于transformer的pipeline、准确率达SOTA,spaCy 3.0正式版发布

新性能与改观之处本次革新的 spaCy v3.0 增添了一些新性能,也进行了一系列改观,具体如下:

鉴于 Transformer 的 pipeline,反对多任务学习;

针对 18 + 种语言再训练的模型集合以及 58 个训练的 pipeline(包括 5 个鉴于 transformer 的pipeline);

针对所有反对语言再训练的 pipeline,以及用于马其顿语和俄语的新的核心 pipeline;

新的训练工作流和摆设体系;

应用 PyTorch、TensorFlow 和 MXNet 等任何机器学习框架实现自定义模型;

管理从预处理到模型部署等端到端多方法工作流的 spaCy 项目;

集成数据版本控制(Data Version Control, DVC)、Streamlit、Weights & Biases、Ray 等;

利用 Ray 的并行训练和分布式计算;

新的内置pipeline组件:SentenceRecognizer、Morphologizer、Lemmatizer、AttributeRuler 和 Transformer;

针对自定义组件的全新改观版 pipeline 组件 API 和装饰器;

从用户训练摆设的其他 pipeline 中获取经过训练的组件;

为所有经过训练的 pipeline 包提供预建和更高效的二进制 wheel;

应用 Semgrex 运算符在依赖解析(dependency parse)中提供用于匹配模式的 DependencyMatcher;

在 Matcher 中反对贪婪模式(greedy pattern);

新的数据结构 SpanGroup,可以通过 Doc.spans 有效地存储可能重叠的 span 的集合;

用于自定义注册函数的类型提示和鉴于类型的数据验证;

各种新方法、属性和命令。

58 个训练的 pipeline用户在下载训练的 pipeline 时,可以应用 spacy download 命令。58 个训练的 pipeline 如下图所示:

提供鉴于transformer的pipeline、准确率达SOTA,spaCy 3.0正式版发布

部分截图。用户在自己的数据上训练 pipeline 时可参考训练文档,地点:https://spacy.io/usage/training已删除或重命名的 API

提供鉴于transformer的pipeline、准确率达SOTA,spaCy 3.0正式版发布

下图中弃用的方法、属性和参数已经在 v3.0 中删除,其中的大多数已经弃用了一段时间,并且很多以往会引发错误。如果用户应用的是最新版本的 spaCy v2.x,则代码对它们的依赖性不大。

提供鉴于transformer的pipeline、准确率达SOTA,spaCy 3.0正式版发布

参考链接:https://explosion.ai/blog/spacy-v3https://zhuanlan.zhihu.com/p/51425975

原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/ti-gong-jian-yu-transformer-de-pipeline-zhun-que-lyu-da/

(0)
上一篇 2021年 2月 1日 下午3:40
下一篇 2021年 2月 2日 下午2:34

相关推荐

  • 阿里开源 反对10万亿模型的自研分布式训练框架EPL(Easy Parallel Library)

    最近阿里云机器学习PAI平台和达摩院智能估计实验室一起发布“低碳版”巨模型M6-10T,模型参数已经从万亿跃迁到10万亿,规模远超业界此前发布的万亿级模型,成为当前全球最大的AI预训练模型。

    2022年 3月 30日
  • 技术博客丨动手实践系列:CV语义宰割!

    作者:游璐颖,福州大学,Datawhale成员 图象宰割是计算机视觉中除了分类和检测外的另一项基本任务,它意味着要将图片根据内容宰割成不同的块。相比图象分类和检测,宰割是一项更精细的工作,因为需要对每一个像素点分类。如下图的街景宰割,由于对每一个像素点都分类,物体的轮廓是精准勾勒的,而不是像检测那样给出边界框。图象宰割可以分为以下三个子领域:语义宰割、实例宰割、全景宰割。 由对比图可发现,语义宰割是从像素层次来识别图象,为图象中的每一个像素制定类型标记,目前广泛应用于医学图象和无人驾驶等;实例宰割相对

    2022年 1月 11日
  • 对话极盾科技CEO丁杨:始创企业,所有客户都是创始人

         十几年前的丁杨是一名工科大学生,在校期间,他最喜欢的事儿就是参加每周的社团活动,这个社团名为东南大学网络宁静联盟(SUS),它还有着一个特殊的称号,即国内最早的高校网络宁静社团。在接受朋湖专访时,说起这段青春往事,丁杨的语调也变得高昂起来,“我们每周六社团的人都会聚在一起做内容分享,风雨无阻。”他讲道,“当然后期来的人也有所减少,但最后留下来的人现在来看,也都选择从事了和网络宁静相关的工作。”丁杨是其中坚持下来的一员。如今,丁杨已是一家网络宁静始创企业创始人,拥有15年宁静和

    2022年 9月 7日
  • B站粉丝超130万,最火最直觉数学网站3b1b终于有了笔墨版!网友:点燃对数学的爱

    进修知识有更优雅的方法。如果你无法懂得高等数学、比特币、深度进修这些观念,可能有人会向你推荐 3blue1brown 的视频——这是一个专门制作可视化讲授视频的频道,其实质覆盖数学、人工智能等领域,每门课都配有直觉生动的动画演示,帮助观众加深对观念定理的懂得。它火到什么程度?除了 YouTube 上 380 万订阅者之外,3b1b 在 B 站上还有官方账号,粉丝数量超过 130 万,每个视频都是 10 万以上播放量,甚至有老师在课堂上播放该频道的视频。对于一个硬核教学 UP 主来说,这样的成

    2021年 8月 5日
  • Interact Analysis 年度陈诉发布 见证极智嘉稳居全世界仓储机器人商场绝对领先地位

    近日,全世界权威研究机构Interact Analysis重磅发布《2022移动机器人商场陈诉》(The Mobile Robot Market-2022),对移动机器人在全世界仓储和制造范畴的运用现状、商场环境和发展趋势进行了全面分析和展望。陈诉指出,移动机器人商场在2021年大幅增进,从相对疲软的2020年有所回升,出货量增进超过70%。长期来看,劳动力稀缺、劳动力成本上升、电子商务增进、柔性制造转型这些驱动力将一如既往强劲,陆续推动着移动机器人商场发展。预测未来五年,移动机器人的出货量将继续以每年约50%的速度增

    2022年 11月 23日
  • 百分点科技:媒介数据中台设置装备摆设方法论和落地实践

    编者按媒介融合下半场的重心将向智能化趋势发展。如何打造实用有效的媒介数据产品和办事,继而完成数智化转型,已成为媒介行业当前最为关注的问题。本文围绕当前媒介机构的转型需求,百分点科技大数据技术团队零碎地介绍了百分点科技媒介数据中台设置装备摆设方法论及实践成果。一、媒介数据中台设置装备摆设背景以报纸、出版、广播电视等为代表的传统媒介,和以网站、新闻客户端、微博、微信公众号、IPTV、OTT等为代表的新媒介产品,无论是呈现方式、传播途径,还是设置装备摆设目标、技术体系都大不相同,这就导致了零碎设置装备摆设重复浪费、各使用零碎和颁布渠道各自为政,出现营业

    2021年 3月 10日
  • 2021阿里环球数学角逐预选赛试题出炉:5万人参赛,第一题只有2000多人选对了(附答案)

    第一道单选题,只有2251位参赛者选出了正确答案「C」。

    2021年 5月 19日
  • 39亿参数模型公开可用,采样速度7倍提升,残差量化天生图片入选CVPR’22

    基于残差量化的自回归图象天生,官方已将代码公开。

    2022年 3月 27日
  • 最大数据集、多使命覆盖,阿里达摩院发布首个大规模华文多模态评测基准MUGE

    在计算机视觉范围甚至人工智能的发展历程中,ImageNet对于整个范围的技术进步具有至关重要的作用。随着多模态学习成为当下的新热点,为了通过大规模数据集建设和全方位模型能力评测推动多模态范围的发展,阿里达摩院推出MUGE(全称Multimodal Understanding and Generation Evaluation Benchmark)评测基准。该基准是由达摩院联合浙江大学、阿里云天池平台联合发布,中国计算机学会计算机视觉专委会(CCF-CV专委)协助推出的首个大规模华文多模态评测基准。其拥有全球最大规模的华文多模态评测数据集,覆盖多种类型的使命,包括图文形貌、基于文本的图象天生、跨模态检索等。MUGE的推出旨在解决当前华文多模态范围下游使命数据集匮乏的问题,并且为广大研究者提供权威平台,从了解能力和天生能力两大角度去衡量算法模型的有效性。

    2021年 12月 21日
  • 六项使命、多种数据类型,谷歌、DeepMind提出高效Transformer评价基准

    自诞生以来,Transformer 在差别领域得到了广泛应用,钻研职员也提出了许多高效 Transformer 模型。如何评价这类模型呢?最近,谷歌和 DeepMind 提出了一项系统化的统一基准——Long-Range Arena,重点关注长语境场景下的模型质量评价。

    2020年 11月 29日

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注