拖拽公式图片、一键转换LaTex公式,这款开源公式识别神器比Mathpix Snip更适合你

只必要把公式图片用鼠标拖动到东西内,就能一键转成 LaTex 公式。

写论文、做研究时,最让你头疼的是什么?想必公式编辑会榜上有名。那么有没有便捷的方法从事公式编辑呢?这里推荐一款神器,它利用 PyTorch Lightning 可将 LaTeX 数学方程的图象映射到 LaTeX 代码。它的效果是这样的,输入一张带公式的图片,它能转换成 LaTeX 代码形式:

拖拽公式图片、一键转换LaTex公式,这款开源公式识别神器比Mathpix Snip更适合你

而它的名字也是很直接的,就叫做「Image to LaTex Converter」,把产品功能写在了明面上。

拖拽公式图片、一键转换LaTex公式,这款开源公式识别神器比Mathpix Snip更适合你

项目地址:https://github.com/kingyiusuen/image-to-latex网友表示:我太必要这个了。

拖拽公式图片、一键转换LaTex公式,这款开源公式识别神器比Mathpix Snip更适合你

也有网友表示,你也可以利用 CLIP 来实现,因为这个东西是将完整的方程拆分为单个字符。

拖拽公式图片、一键转换LaTex公式,这款开源公式识别神器比Mathpix Snip更适合你

此前,很多人都在用 Mathpix Snip,这个东西虽然好用,但是只能提供 50 次免费转换。之后,一位中国开发者也创设了一款类似东西「Image2LaTeX」,用户输入公式截图即可以自动将其对应的 LaTex 文本转换出来。效果也虽好,不过也只是提供了 1000 次从文档中提取公式的能力。此次项目的创设者为明尼苏达大学双城分校计量心理学博士生 King Yiu Suen,他本科毕业于香港中文大学,致力于研究评估心理尝试和教育评估的统计学方法,以及尝试响应数据的建模。该项目为何能够一键转换成 LaTex 公式?这要都得益于背后利用的数据集和模型。项目背后的数据集与模型作家也对打造过程从事了详细的介绍。2016 年,在 Yuntian Deng 等作家合著的一篇 OCR 主题论文《What You Get Is What You See: A Visual Markup Decompiler》中,他们介绍了叫做「im2latex-100K」的模型(原始版本和预处理版本),这是一个由大约 100K LaTeX 数学方程图象组成的数据集。作家利用该数据集训练了一个模型,利用 ResNet-18 作为具有 2D 位置编码的编码器,利用 Transformer 作为具有交叉熵损失的解码器。这个过程类似于《Full Page Handwriting Recognition via Image to Sequence Extraction》Singh et al. (2021) 中描述的方法,不过作家只利用 ResNet up to block 3 来降低计算成本,并且去掉了行号编码,因为它不适用于这个问题。

拖拽公式图片、一键转换LaTex公式,这款开源公式识别神器比Mathpix Snip更适合你

Singh et al. (2021)论文中的系统架构。最初,作家利用预处理数据集来训练模型,因为预处理图象被下采样到原始巨细的一半以提高效率,而且分组并添补为相似的巨细以方便批处理。但结果表明,这种严格的预处理被证明是一个巨大的限制。尽管该模型可以在尝试集(其预处理方式与训练集相反)上取得合格的性能,但它并不能很好地泛化到数据集之外的图象,这很可能是因为其他图象质量、添补和字体巨细与数据集中的图象不同。利用相反数据集尝试解决相反问题的其他人也发现了这种现象。下图这位开发者试图从论文中裁剪图象,图象与数据集中的图象巨细相似。但即使对于简单的公式,输出也会完全失败:

拖拽公式图片、一键转换LaTex公式,这款开源公式识别神器比Mathpix Snip更适合你

为此,作家利用了原始数据集并在数据处理 pipeline 中包含了图象增强(例如随机缩放、高斯噪声)以增加样本的多样性。此外,作家没有按巨细对图象从事分组,而是从事了均匀采样并将它们添补为批次中最大图象的巨细,以便模型必须学习如何适应不同的添补巨细。作家在利用数据集中遇到的其他问题包括:

一些 LaTex 代码生成了视觉上相反的输出,比如 \left(和 \ right),看起来与 (和)) 一样,因此做了规范化处理;

一些 LaTex 代码用来添加空间,比如 \ vspace{2px}和 \ hspace{0.3mm})。但是,间距对于人类来说也很难判断。此外,表述相反间距有很多方法,比如 1 cm = 10 mm。最后,作家比希望模型在空白图象上生成代码,因此删除了这些空白图象。

不过,该项目也有一些可能必要改进的地方:

更好地数据清理(比如删除间距敕令)

尽可能多地训练模型(由于时间原因,只训练了 15 个 epoch 的模型,但是验证损失依然下降)

利用集束搜索(只实现了贪婪搜索)

利用更大的模型(比如 ResNet-34 而不是 ResNet-18)

从事一些超参数调优

作家利用的是 Google Colab,计算资源有限,因此并没有做到以上这些。项目的利用与部署在项目设置方面:首先你必要将该项目克隆到计算机,并将敕令行放置到库文件夹中:git clone https://github.com/kingyiusuen/image-to-latex.gitcd image-to-latex然后,创设一个名为 venv 的虚拟环境并安装所需的软件包:make venvmake install-dev在数据预处理方面:执行以下敕令下载 im2latex-100k 数据集并从事所有预处理任务(图象裁剪可能必要一个小时):python scripts/prepare_data.py在模型训练方面:启动训练 session 的敕令以下:python scripts/run_experiment.py trainer.gpus=1 data.batch_size=32你可以在 conf/config.yaml 中修改配置,也可以在敕令行中修改。在实验跟踪方面:最佳模型 checkpoint 将自动上传到 Weights & Biases (W&B)(在训练开始前你必要先从事注册或登录 W&B )。以下是从 W&B 下载训练模型 checkpoint 的示例敕令:python scripts/download_checkpoint.py RUN_PATH将 RUN_PATH 替换为运转的路径,运转路径格式为 < entity>/<project>/<run_id>。如果你想查找特定实验运转的运转路径,请转到 dashboard 中的 Overview 选项卡从事查看。例如,你可以利用以下敕令下载最佳运转:python scripts/download_checkpoint.py kingyiusuen/image-to-latex/1w1abmg1checkpoint 将被下载到项目目录下一个名为 artifacts 的文件夹中。尝试和持续集成方面:以下东西可用于 lint 代码库:

isort:对 Python 脚本中的 import 语句从事排序和格式化;

black:遵循 PEP8 的代码格式化程序;

flake8:在 Python 脚本中报告风格问题的代码检查器;

mypy:在 Python 脚本中执行静态类型检查。

利用下面的敕令来运转所有的检查和格式化程序:make lint在部署方面:训练好的模型通过创设的 API 从事预测,启动和运转服务器敕令以下:make api要运转 Streamlit 应用程序,请利用以下敕令创设一个新的终端窗口:make streamlit应用程序应该在浏览器中自动打开,你也可通过 http://localhost:8501 / 从事查看。想让这个应用程序运转,你还必要下载实验运转的工件,启动并运转 API。为 API 创设一个 Docker 映像:make docker

原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/tuo-zhuai-gong-shi-tu-pian-yi-jian-zhuan-huan-latex-gong/

(0)
上一篇 2021年 8月 12日 下午4:23
下一篇 2021年 8月 19日 下午2:09

相关推荐

  • 我用YOLOv5做情绪识别!

    AI技术已经应用到了我们生活中的方方面面,而目标检测是其中应用最广泛的算法之一。本文将教大家如何快速上手目标检测模型YOLOv5,并将其应用到情绪识别中。

    2022年 3月 30日
  • 时空智能新赛道是怎样炼成的?千寻地位引领自立技巧创新突破

    2020年10月,华为推出Mate 40系列旗舰手机,在全球范围内首次完成车道级导航功能,及时显示用户所在车道地位。2020年11月,小鹏汽车智能轿跑P7,通过OTA升级,在深圳、重庆、杭州等高速公路上,可完成NGP高速自立导航驾驶。2020年初,武汉火神山医院在建设中,一次性完成放线测量,精确标绘,与病魔赛跑,向世界展示“十几天建一所医院”的壮举。这一年,人们离自动驾驶更近了,手机导航有了不同的体验,战疫的身影中有了科技力量。在这背后,是时空智能这项中国自立研发的技巧在消费级场景全方位渗透。作为千寻地位开创的硬核

    2021年 5月 27日
  • 案例 | 二手车智能质检:以双流分组残差搜集为核心,结合计算机视觉构建智能车辆检测零碎

    汽车产业互联网平台大搜车针对车辆检测场景所开发的AI云检测解决规划,鉴于云-端交互的零碎架构,以双流分组残差搜集作为主干搜集,结合计算机视觉技能,以专业化的智能设备代替人眼识别,以数据分析代替主观经验,在最大程度降低人为影响因素的前提下,兑现毫秒级实时检测。中国二手车交易行业:二手车辆检测工作依赖人为、耗时冗长,亟待智能技能提高检测效能近年来,中国二手车消费市场规模进一步扩大,2019年中国二手车市场交易额已突破1万亿元。然而由于二手车的“非标”属性,一车一况之下,车辆检测作为二手车交易流程

    2021年 7月 27日
  • 我今年89岁,刚刚拿了个物理学博士学位

    小时候,无数人说自己长大后要当「科学家」、「发明家」,但他是认真的。

    2021年 11月 6日
  • AI可诠释性及其在蚂蚁保险平安规模的运用简介

    可诠释性有关算法作为蚂蚁集团提出的“可托AI”技术架构的重要组成部分,已大量运用于蚂蚁集团保险平安风控的风险鉴别、欺诈举报审理等场景,取得了一些阶段性的成果。本系列文章,我们将以风控规模详细运用为例,尤其关注规模大师履历和机械进修要领的交互结合,介绍蚂蚁集团特点可诠释、图可诠释、逻辑可诠释等算法方案的探索和落地。大师点评:沈超 西安交通大学教授、网络空间保险平安学院副院长AI可诠释性是可托AI的重要组成部分,已成为野生智能规模的研究热点。可诠释性有助于用户了解系统的决议逻辑并建立信任,从而

    2022年 4月 24日
  • 为写论文,明尼苏达大学钻研者向Linux提交多条「恶意代码」,结果整个大学都被Linux封了

    为了写论文,明尼苏达大学的钻研者竟然向 Linux 内核发送了多个有漏洞的代码,结果惹怒了 Linux 社区,不仅禁止整所大学向 Linux 提交代码,还将该校提交的代码还原。

    2021年 4月 22日
  • 详解AI加速器(三):架构基础离不开ISA、可重构处置惩罚器……

    在上一篇文章中,前苹果工程师、普林斯顿大学博士 Adi Fuchs 解释了为什么现在是 AI 加速器的黄金时代。在这篇文章中,我们将聚焦 AI 加速器的秘密基石——指令集架构 ISA、可重构处置惩罚器等。

    2022年 2月 13日
  • 技能破局?畅谈元宇宙大浪下的AI技能流实践机遇与挑拨

    「机器之心2021-2022年度AI趋势大咖说」聚焦「驱动将来的AI技能」与「重塑产业的AI科技」,推出线上分享,共邀请近40位AI领域知名学者、产业专家及企业高管通过主题分享及多人圆桌等形式,与行业精英、读者、观众共同回顾 2021年中的重要技能和学术热点,盘点AI产业的年度研究目标以及重大科技突破,展望2022年度AI技能开展目标、AI技能与产业科技融合趋势。

    2022年 7月 26日
  • IJCAI-21三大奖项公布,加强进修之父、CMU助理传授方飞、德扑AI之父获奖

    「加强进修之父」Richard Sutton、CMU 助理传授方飞、「德扑 AI 之父」 Tuomas Sandholm 分别获得了今年 IJCAI-21 的杰出钻研奖、计算机与思惟奖、约翰麦卡锡奖。

    2021年 7月 8日
  • 第一!科大讯飞再度革新Cityscapes世界纪录

    近日,科大讯飞凭借在道路方向检测领域多年的技巧索求,革新了Cityscapes 3D方向检测任务的全球最好成绩,得到检测分数(DS)42.9,取得了该项评测的第一名。此次也是科大讯飞继2017年、2018年参与测评之后,再一次革新Cityscapes的世界纪录。此次评测,科大讯飞借鉴了已在都会交通出行场景下应用的Anchor-Free车辆检测技巧,将2D方向检测技巧升级至3D,并连系3D到2D重投影的特殊先验信息进行算法迁移。通过连系语义、上下文信息、位置先验信息以及方向形状先验信息等,提取准确的3D方向检测框,构

    2021年 8月 22日

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注