AI在线 AI在线

Google开源框架LangExtract初体验

从AI技术维度分类,大约可以将LangExtract归为RAG框架,但从细处分辨,二者实有比较明显的区别。 RAG的关注重点是检索,LangExtract的重点则如其名,是对数据的提取,且主要针对非结构化文本数据进行结构化提取。 LangExtract官网对它的介绍为:“一个使用大语言模型从非结构化文本中提取结构化信息的 Python 库,具备精确的源定位和交互式可视化功能。

从AI技术维度分类,大约可以将LangExtract归为RAG框架,但从细处分辨,二者实有比较明显的区别。RAG的关注重点是检索,LangExtract的重点则如其名,是对数据的提取,且主要针对非结构化文本数据进行结构化提取。

LangExtract官网对它的介绍为:“一个使用大语言模型从非结构化文本中提取结构化信息的 Python 库,具备精确的源定位和交互式可视化功能。”提取结构化信息是其核心功能,而其亮点则是能够提供精确的源定位,并完成交互式的可视化呈现。

之所以能提供精确的源定位,在于LangChain并没有使用embedding的机制通过向量进行相似度计算和检索,而是采用了一套精巧的确定性文本对齐算法:“首先通过指令让LLM返回原文片段,然后利用WordAligner进行多层次匹配——从精确字符串匹配到模糊相似度计算,但始终避免了基于向量embedding的模糊对齐。”

例如,运行官方提供的医疗文本的提取代码,可得到如下结果:

复制

结果清晰给出了提取的实体在文本所处的位置。在生成的jsonl文件中,以Dosage为例,输出的结构化数据为:

复制

其中的char_interval属性值就是提取结果在原文中的位置,很好地体现了它的溯源能力。

完成提取后,LangExtract会自动生成一个HTML文件,打开网页能够看到提取结构的一种交互式可视化呈现: 

图片图片

虽说LangExtract官网将其定位为“Gemini 驱动的信息提取库”,这大概是为了配合Google大模型的宣传手段,但它显然不会愚蠢得仅支持Gemini模型。事实上,它可以支持任何LLM,即便官方没有提供支持,也可以自定义模型的Provider。事实上,前面输出的结果使用的模型是我通过Ollama在本地部署的lamma3:7b模型:

复制复制

除了受控生成技术,LangExtract还通过运用“少样本”示例尽可能确保结果的稳定性:

复制复制

虽然LangExtract完全可以精确提取超长文本的高价值信息,却是以消耗极高的token数量为代价,因此在生产使用时,必须考虑时间成本、基础设置的资源成本以及算力成本。就以官方使用的《罗密欧与朱丽叶》为例,整个提取操作会消耗约44000 tokens。而这个所谓的长文本,其实还不到3万个单词。

我在本机尝试使用lamma:7b的LLM对《罗密欧与朱丽叶》的文本进行提取,运行没有多久,CPU就开始疯狂运转,不断散发热量,风扇开始卖力的工作,结果没等执行完毕,就抛出了ResolverParsingError错误。我将LLM切换为更匹配LangExtract的gemma2:9b大模型,仍然出现同样错误。显然,真要让LangChain为大量非结构性文本提供精确的提取服务,背后需要更好的LLM和更强大的算力支持。

另一个不足之处在于LangExtract目前仅支持文本字符串作为文本源,一些常见的文本文档文件,如PDF、DOCX,暂时都不支持。当然,社区已经看到了这一问题,目前作为Proposal的Issue提交到了LangExtract的Issue列表中。

无论如何,LangExtract为我们处理非结构化文本提供一个不错的选择。

相关资讯

智创飞跃|AI 技术栈全链赋能,助力出海开发创新

在 AI 日新月异的浪潮中,技术不再只是算力堆叠,而是一种可以被人“感知”、与人“共创”的未来语言。 让我们一起通过 2025 Google 谷歌开发者大会,走进 Google AI 的技术核心,深入 JAX 与 TPU 带来的极致性能世界,探索如何借助不断升级的 Gemma 开放模型系列与开放生态,革新工作流、释放创造力。 谷歌正以前所未有的速度推动 AI 出海创新。
8/18/2025 1:50:11 PM

谷歌I/O开发者大会中国站:大模型技术进入全生态

本周三,谷歌在北京召开了中国开发者大会。除 5 月加州山景城的 I/O 大会之外,今年的 I/O Connect 环球之旅从德国柏林开始、到印度班加罗尔,也已来到中国北京。在这次活动中,来自多个不同领域的专家为国内开发者深入分享了谷歌在 AI、Web、移动端、云技术等领域的最新技术进展、开发工具和全球服务平台等内容。「中国是全球最大的开发者市场之一,我们的开发者一直是全球舞台上不可或缺的先锋力量,」谷歌大中华区总裁陈俊廷在开幕演讲中表示。「过去一年,来自中国的 25 个开发团队共有 31 款游戏和应用,在全球不同的
8/9/2024 5:37:00 PM
李泽南

谷歌内部项目:大模型AI智能体发现了代码漏洞

开源数据库引擎 SQLite 有 bug,还是智能体检测出来的! 通常,软件开发团队会在软件发布之前发现软件中的漏洞,让攻击者没有破坏的余地。 模糊测试 (Fuzzing)是一种常见的软件测试方法,其核心思想是将自动或半自动生成的随机数据输入到一个程序中,并监视程序异常。
11/2/2024 2:56:00 PM
机器之心
  • 1