随着强大的深度神经网络(DNN)和人工标记服务(我们统称为“Oracle格式”)的广泛应用,我们可以越来越多地对非结构化数据纪录(例如,视频、文本)举行自动化盘问。例如,城市规划人员通过盘问路边摄像头的视频对车辆举行计数,以了解交通状况。律师可以提取包含雇员/雇主信息的电子邮件(关系提取)来发现灵验信息。
实行此类盘问的一种简单格式是应用Oracle格式将非结构化数据纪录完全转化为结构化信息。例如,对象检测DNN可以从视频的帧中提取对象类型和对象位置,或者基于BERT的DNN可以提取员工/雇主信息。
然而这种传统盘问格式的运行成本可能非常高:对象检测DNN的实行速度比实时慢十倍,而人工标注可能要花费数十万美元。为了减少此类盘问的成本,NoScope、概率预测等应用了代办署理模型(proxy model)的格式,它通过训练类似oracle格式的廉价模型得到代办署理分数,主要是针对二元预测的即席(ad-hoc)方式。但是要对非结构化数据实行盘问还有很多工作要做。下面开始引见我们小组中针对这一问题的几个新项目。
我们将发布一系列博客文章,描写我们最近在对非结构化数据盘问举行加速优化方面的工作:
本文将描写即将在VLDB 2020上发表的最新工作BlazeIt。我们将描写如何加快聚拢和限制盘问。在第2部分中,我们将引见一类新的盘问:具有统计保证的相似选择盘问(SUPG盘问)。我们将描写为什么我们需要统计保证,其语义以及这些盘问的灵验算法。SUPG也将在VLDB 2020上展出!第3部分将描写基于DNN的可视数据盘问中的系统瓶颈。我们将揭示视觉数据的预处理是当前一个主要瓶颈,以及如何解决这一瓶颈。关于这项工作的论文将在VLDB 2021中发布。第4部分将引见如何为相同数据上的各种盘问建立索引。我们将揭示如何应用索引来灵验地回答以前的博客文章及更多文章中的所有盘问。
代办署理分数(Proxy Score)
此前在相似二元预测(approximating binary predicates)的语境盘问中已经应用了代办署理模型。这些算法遵循相同的通用策略:应用oracle格式中的标签训练更小更便宜的代办署理模型。然后代办署理模型会为每个数据纪录生成一个分数,该分数会估计oracle预测的可能性。例如,我们可以训练一个小的DNN来估计汽车是否在视频帧中。
但是许多需求不止是简单地实行二元分类。如盘问每帧视频是否有汽车存在,并不能统计每帧视频的汽车数量。
为了纠正这个问题,我们引入了二元分类之外的代办署理模型。本文将重点引见代办署理模型,这些代办署理模型用于将oracle格式产生的任意值相似于非结构化数据纪录。在摄取时,我们的系统应用oracle格式处理一小部分纪录:然后在盘问时应用这些纪录来训练代办署理模型以估计oracle的结果。
在盘问中应用代办署理分数
现在我们可以生成代办署理分数来相似计算统计信息的oracle格式结果,我们如何应用这些分数来回答盘问?我们将简要描写如何完成相似聚拢和基数限制的选择盘问。
系统总览
BlazeIt具有两个关键组件:摄取(离线)组件和盘问处理组件。在离线组件中,BlazeIt将应用oracle格式正文一个非结构化数据纪录的示例:这些正文用于训练代办署理模型。BlazeIt的盘问处理组件将实行盘问,并为每个盘问训练新的代办署理模型。下图揭示了Blazelt的系统。
系统总览,BlazeIt尝试在受限的情况下尽可能灵验地回答盘问。
相似汇总
我们描写的第一种盘问类型是加速聚拢盘问,该盘问对数据集中的每条纪录统计数据举行相似处理(如对每帧视频的汽车数量举行计数)。我们侧重于相似聚拢,因为要提供准确的盘问答案需要穷举实行oracle格式,而这是非常昂贵的。为了避免详尽实现,我们提供了两种盘问处理算法。
我们证明了可以直接应用代办署理分数来回答相似聚拢盘问。由于代办署理分数和基本事实接近,因此我们可以直接汇总分数。例如要计算每条纪录的平均值,我们可以对代办署理分数求和,然后除以纪录总数。由于代办署理模型是通过oracle格式训练的,所以代办署理和oracle之间的误差将理想地平均化。经证实,直接应用代办署理分数比回答聚拢盘问的替代格式要灵验得多。
虽然直接应用代办署理分数可能是灵验的,但某些应用程序需要盘问准确性的统计保证。为了满足这种需求,我们可以在相似盘问处理(AQP)技术的启发下,应用采样技术来加速相似聚拢盘问。通过适当地应用置信区间,我们可以实现盘问的统计保证。但是标准的AQP技术在采样中不应用代办署理分数,这是有价值的信息来源。为了利用代办署理评分,我们将它们用作控制变量,这是一种统计格式,可以减少抽样方差。最后我们将控制变量与始终灵验的停止算法结合在一起,该算法应用较少样本且方差较小的样本,称为EBS停止。综合讲,这可以使我们的系统在给定的误差水平下应用更少的样本。下图揭示了控制变量和算法概述-算法的关键部分是算法始终灵验,并根据样本方差终止。
控制变量示意图。m(t)是真实值,a(t)是代办署理分数。虽然并不总是精确的,但a(t)可以相似为m(t)。
EBS停止的伪代码,如果满足差异条件,它将提前停止。
为了揭示我们算法的效用,我们揭示了它们在相似计算每帧视频的汽车数量上的性能。关于每帧视频是否有汽车的问题,我们将原始格式与应用代办署理模型的格式举行比较。如下图所示,我们的格式大大优于基准格式。尤其是已知某汽车在视频帧中出现,并不能了解该汽车是否在视频中普遍存在。
BlazeIt’s 与详尽正文,二进制检测工作和随机抽样相比,聚拢盘问的性能更高。如图所示,BlazeIt优于所有基准
基数限制选择
我们描写如何加速的第二种盘问类型是基数有限的选择盘问,用于找到满足某些条件的少量纪录。这些盘问通常用于手动研究异常事件。
为了加快这些盘问的速度,我们应用代办署理分数对感兴趣的纪录举行排名。尤其是,我们训练一个代办署理模型来估算感兴趣的数量(例如,一帧中的汽车数量)并根据这些分数举行排名。我们发现,即使此类事件很少发生,代办署理模型在排名最高的数据纪录中也可以具有很高的精度。
下图中显示了算法的性能(有和没有代办署理模型的效果)和基线。与相似聚拢一样,对于异常事件的基数限制选择,我们的算法大大胜过传统格式和随机抽样。
与详尽的正文,先前的二元分类工作和随机采样相比,BlazeIt在极限盘问上的性能更高。如图所示,BlazeIt优于所有基线。
结论
由于机器学习的发展,非结构化数据盘问变得越来越可行。但是部署oracle格式的成本很高,因此实行此类盘问的费用可能会过高。我们本文中引见了应用代办署理得分来加速汇总和限制盘问的格式,我们希望这些格式可以开始对非结构化数据举行盘问。在下一篇博文中,我们将引见如何通过统计保证实行相似选择盘问。
相关阅读
Accelerating Queries over Unstructured Data with ML, Part 2 (Approximate Selection Queries with Statistical Guarantees) 31 Aug 2020(https://dawn.cs.stanford.edu/2020/08/31/supg/)How do MLPerf v0.7 entries compare on cost? 17 Aug 2020(https://dawn.cs.stanford.edu/2020/08/17/mlperf-v0.7-cost/)Selection via Proxy: Efficient Data Selection for Deep Learning 23 Apr 2020(https://dawn.cs.stanford.edu/2020/04/23/selection-via-proxy/)
原创文章,作者:数据派THU,如若转载,请注明出处:https://www.iaiol.com/news/35818