论文千千万,如何发现和综述新研究?这里有个利用AI技术的热门开源项目

paperai 利用 AI 技术发现和综述医疗 / 科学论文。

在研究领域,每天都会涌现大量论文,如何发现优秀论文并快速获取信息是一个难题。最近,有开发者开源了一个 AI 支持的文献发现和综述引擎 paperai,可用于医疗 / 科学论文。GitHub 地址:https://github.com/neuml/paperaipaperai 可以自动执行繁琐的文献综述工作,使研究人员不必为此耗费精力,从而能够聚焦自己的核心工作。该工具运转 query 筛选出符合特定标准的论文,并执行基于问答提取技术的 report 功能,从一组医疗 / 科学论文中找出关键问题的答案。

论文千千万,如何发现和综述新研究?这里有个利用AI技术的热门开源项目

 如上图所示,paperai 运转 query 和 report,得到问题的答案,并在论文中标注出来。据介绍,paperai 已被用于分析 COVID-19 开放研究数据集 (CORD-19),并在 CORD-19 Kaggle 挑战赛中获得了多个奖项。paperai 背后的 AI 技术paperai 运用 Python 建立,并运用 FastText + BM25 创建句子嵌入索引。详情参见:https://towardsdatascience.com/building-a-sentence-embedding-index-with-fasttext-and-bm25-f07e7148d240paperai 模型利用句子嵌入索引和 SQLite 数据库处理文章。具体而言,模型将每篇文章解析成多个句子,并和文章元数据一起保存进 SQLite 数据库,然后基于整个数据库建立 FastText 向量。句子嵌入索引仅运用标记文章,从而帮助输出最具相关性的结果。用户可以通过多个入口点与模型进行互动:

paperai.report:为一系列 query 建立 markdown 款式的汇报。对于每条 query,模型显示最匹配的文章,并用高亮形式标示出与 query 嵌入搜索最具相关性的文章部分。

paperai.query:在终端运转一条 query。

paperai.shell:在终端运转多条 query。

项目作者展示了 paperai 在 CORD-19 挑战赛中的应用:

论文千千万,如何发现和综述新研究?这里有个利用AI技术的热门开源项目

论文千千万,如何发现和综述新研究?这里有个利用AI技术的热门开源项目

如何安置和运用GitHub 项目详细介绍了 paperai 的安置和运用方法。安置最简单的方式是通过 pip 和 PyPI 安置:pip install paperai也可以直接从 GitHub 安置 paperai,推荐运用 Python 虚拟环境,支持 Python 3.6+:pip install git+https://github.com/neuml/paperai建立模型用户可以利用以下代码为 SQLite 数据库建立索引:# Can optionally use pre-trained vectors# https://www.kaggle.com/davidmezzetti/cord19-fasttext-vectors cord19-300d.magnitude# Default location: ~/.cord19/vectors/cord19-300d.magnitudepython -m paperai.vectors#Build embeddings indexpython -m paperai.index模型将保存在 ~/.cord19。建立汇报文件调用汇报的示例如下:python -m paperai.report tasks/risk-factors.yml汇报支持多种款式:Markdown(默认款式)、CSV 和标注款式(即在原始 PDF 文件上显示标注结果)。运转 query最快速的方式是启动 paperai shell:paperai将出现提示。query 会被直接输入到控制台中。

Powered by Froala Editor

原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/35740

(0)
上一篇 2020年12月11日 下午5:47
下一篇 2020年12月14日 下午2:33

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注