百分点大数据技术团队：数据管理“PAI”实施方法论

百分点科技 • 2021年 3月 10日下午4:51 • AI

编者按数据作为第五大生产要素，已逐渐成为政府和企业决策的重要手段与依据。面对数据多样化、数据需要个性化、数据应用智能化的需要，以及在2B和2G行业中数据品质参差不齐、数据应用难以发挥价值、数据资产难以积淀等问题，如何做好数据管理事务、提拔数据管理才智成为了政府和企业数字化转型的重中之重。百分点大数据技术团队基于多年的数据管理项目经验，总结了一套做好数据管理事务及提拔数据管理才智的实施方法论。近年来，推动数据管理体系建设一直是业界探索的热点，另外，《中共中央、国务院关于构建更加完善的要素市场化配置体制机制的意见》将数

编者按

数据作为第五大生产要素，已逐渐成为政府和企业决策的重要手段与依据。面对数据多样化、数据需要个性化、数据应用智能化的需要，以及在2B和2G行业中数据品质参差不齐、数据应用难以发挥价值、数据资产难以积淀等问题，如何做好数据管理事务、提拔数据管理才智成为了政府和企业数字化转型的重中之重。

百分点大数据技术团队基于多年的数据管理项目经验，总结了一套做好数据管理事务及提拔数据管理才智的实施方法论。

近年来，推动数据管理体系建设一直是业界探索的热点，另外，《中共中央、国务院关于构建更加完善的要素市场化配置体制机制的意见》将数据作为第五大生产要素提出意义非同一般。但与劳动力等生产要素不同的是，数据是无形的，且数据孤岛林立，要想发挥数据价值，提拔数据管理才智是必要举措。

百分点结合多年政府各个部门及各类企业数据管理项目经验，提出数据管理项目开展过程中数据管理平台应具备4大才智：聚、治、通、用，以及项目实施总体指导思想：PDCA。

四大才智建设：

聚：数据汇聚才智，面对数据来源各异，数据类型纷繁多样，数据时效要求不一等各类情况，数据管理首先能把各类数据接入到平台中，“进的来”是第一步。

治：狭义数据管理才智，包括数据规范、数据品质、元数据、数据安全、数据生命周期、主数据。核心是保证数据规范的统一、借助元数据掌握数据资产分布情况及影响分析和血缘关系、数据品质地持续提拔、数据资产的安全可靠、数据资产的淘汰销毁机制以及核心主数据的统一及使用。

通：数据拉通整合才智，原始营业数据分散在各营业系统中，数据组织是以满足营业流转为前提。后续数据需要是根据实际营业对象开展而非各营业系统，所以需要根据营业实体重新组织数据。比如政府单位针对人的综合分析通常会涉及：财产、教育程度、五险一金、缴税、家庭成员等，需要以身份证号拉通房管局、交通局、教育局、人社局、税务局、卫健委等多个委办局数据。数据拉通整合才智是后续满足多样化需要分析的基础，是数据资产积累积淀的根基，也是平台建设的另一个重点。

用：数据服务才智，数据资产只有真正赋能于前端营业才能发挥实际效用，所以如何让营业部门快速找到并便利的使用所需数据资产是数据管理平台的另一项核心才智。

P：plan，规范、规划、过程制定；D：do，产品工具辅助落地；C：check，营业技术双重检查保证；A：action，持续优化提拔数据品质及服务。

结合数据管理项目实际落地实施过程以四大才智构建、PDCA实施指导思想提出了“PAI”实施方法论，即过程化（process-oriented）、自动化（automation）、智能化（intelligence）三化论，以逐步递进办法不断提拔数据管理才智，为政府和企业后续的数据赋能营业及数据催生营业创新打下坚实基础。

过程化将数据管理项目执行过程举行过程化梳理，同时规范过程节点中的规范输入输出，并将规范输入输出模板化。另外对各过程节点的重点注意事项举行提示。

自动化针对过程化之后的相关节点及规范输入输出举行自动化开发，减轻人力负担，让大家将精力放在营业层面及新技术拓展上，避免重复人力事务。如自动化数据接入及自动化剧本开发等。

智能化针对新项目或是新领域结合历史项目经验及积淀给出推荐实质，比如模型创建、数据品质稽核规则等。

一、数据管理过程化

因数据管理类项目通常采用瀑布式开发模式，核心过程包含：需要、设想、开发、测试、上线等阶段，过程化是将交付过程步骤举行详细分解并对项目组及客户事务实质举行提炼及规范，明白每个过程的规范输入、输出实质。过程节点、节点产出物及数据管理平台四大才智对应关系如下所示：

其中因需要、概要设想和详细设想为执行过程中的核心过程节点，将针对此三部分举行详细讲解。

1. 需要调研

1.1 需要调研过程

数据类项目总体调研过程如下：

数据调研是整个项目的基础，既要详细掌握现有营业现状及数据情况又要准确获取客户需要，明白项目建设目标。如上图所示总体分成三个大的时间节点：包括需要调研准备、需要调研实施及需要调研后期的梳理确认。

需要调研准备包括：调研计划确定、调研前准备，具备条件的尽量开一次调研需要见面会（项目启动会介绍过的可以不需要再组织）。其中调研前准备需针对客户的组织架构及营业情况举行充分的了解，以便在后续的调研实施阶段有的放矢，调研实质更为详实，客户需要把控更为准确。

调研实施阶段一般组织两轮调研，第一论主要是了解营业运转现状、对接营业数据以及客户需要。第二轮针对具体的营业和数据的细节问题举行确认，及分析后的客户需要与客户确认。对于部分系统的细节问题以线下办法对接，不再做第三轮整体调研。

需要调研后期主要是针对客户需要及客户营业及数据现状举行内外部评审并确认签字，以《需要规格说明书》形式明白本期项目建设目录。

1.2 需要调研事务事项

上表描述了需要调研过程关键节点的客户方及项目组事务实质实质及输入输出，并说明了需要调研阶段的总体原则、调研办法及相关要求。

1.3 需要调研注意事项

（1）需要收集

关键干系人需要

真正用户是谁及其需要

需要获取前置问题：客户管什么，重点关注什么，目前如何管理，欠缺什么，重复劳动有哪些？

（2）需要验证

3W验证，谁来用，什么场景下用，解决哪些问题？

原型草图

（3）需要管理

核心需要（需要需融入营业过程并发挥实际效用）

识别是否行业共性（有余力则做没有则算，项目管理角度不需要，行业角度需要）

（4）需要确认

形成文字版需要规格说明书

务必签字确认（后续可以更改，大变更需记录）

2. 概要设想

数据管理项目概要设想主要涵盖网络架构、数据流架构、规范库建设、数据仓库建设四部分实质。总体目标是明白数据如何进出数据管理平台（明白网络情况）、数据在平台内部如何组织及流动（数据流架构及数据仓库模型）以及数据在平台内部应遵循哪些规范及规范（规范库）。针对每部分具体事务事项及输入、输出如下所示：

2.1 网络架构示意图

网络架构要明白硬件部署方案、待接入系统网络情况及后续使用人群及访问系统办法，以便满足数据接入及数据服务需要。

2.2 数据流示意图

数据流架构要明白各类数据的处理办法及流向，以便确认后续数据加工及存储办法。

2.3 数据规范实质示意图

规范库建设要明白平台所遵循的各类规范及规范，以保证平台建设过程的统一规范，为后续营业赋能打下坚实基础。

2.4 数据仓库主题域及核心实体示意图

数据仓库建设要明白主题域及关键实体，明白后续数据拉通整合的实体对象，以更好地支撑繁杂多变的数据需要。

3. 详细设想

详细设想针对项目实际落地的事务模块分别举行设想，明白每部分实现的设想，具体模块、事务实质、输入、输出如下所示：

二、数据管理自动化

在将数据管理项目过程化以后整个事务实质及具体事务产出已经比较明白了，但是会发现过程中会涉及到大量的开发事务，同时发现很多事务具有较高的重复性或相似性，开发使用的过程及技术都是一样的只是配置不同，因此针对过程化以后各节点的自动化开发应运而生。通过配置任务的个性化部分，然后统一生成对应的开发任务或剧本即可完成开发。

自动化处理一般有两种实现路径，其一是采购成熟数据管理软件，其二是自研开发相应工具。其中数据管理过程中可实现自动化处理的过程节点如“工序”标蓝色部分：

注：对于需要调研、模型设想等过程节点因为涉及到线下的访谈、营业的理解更多的是与人的沟通交流，进而获取相应的营业知识及需要，并非单纯的计算机语言同时“因人而异”的情况也比较常见，所以此部分相关事务暂时还以人工为主。

因数据接入、剧本开发及数据品质稽核在日常事务中占用时间较长，下面将详细讲解此三部分实质。

1. 批量数据接入

数据接入是所有数据管理平台的第一步，批量数据接入占数据接入事务量的70-90%之间。自动化处理即将任务个性化部分举行抽象化形成配置项，通过配置任务的抽象化配置项，进而生成对应的任务。批量数据接入抽象以后的配置项如下：

源系统：源系统数据库类型

源库名：源系统数据库库名称（数据库的链接办法在其他地方统一管理）

源表名：源系统数据库库表名称

目标系统：目标数据库类型

目标库：目标数据库库名称

目标表：目标数据库库表名

增/全量：1表示全量接，0表示增量接

示例配置如上，不管使用sqoop、datax等办法都可以批量生成对应命令或配置文件，实现批量生成接入作业，实现自动化数据接入事务，数据接入效率提拔75%以上，后续只需验证数据接入正确性即可。

2. 剧本开发

资源库、主题库的加工剧本占整体开发事务事务的50%-80%，同时经过对此部分数据加工办法举行特定分析后，数据常用的处理办法如下一般有以下几种类型：

将以上加工办法举行总结后可积淀出以下几种数据处理办法：

结合Mapping文档选定以上数据处理办法的一种即可自动生成资源库或主题库对应剧本，开发效率得到大幅度提拔，整体效率提拔60%以上（模型及Mapping设想尚需人工处理）。

3. DQC

数据品质是PDCA实施总体指导思想的关键一步，是发现数据问题以及检查数据规范规范落地的必须环节。针对具体的规则都可以通过产品和自助开发来实现，只需举行相应配置即可实现自动化检查，具体检查事项如下：

三、数据管理智能化

经过自动化阶段以后数据管理过程中数据仓库模型设想、Mapping映射等阶段依旧有非常多人工处理事务，这些事务大部分跟营业领域知识及实际数据情况强相关，依赖专业的营业知识和行业经验才可举行合理地规划和设想。如何快速精通行业知识和提拔行业经验是数据管理过程中新的“拦路虎”。如何更好地积淀和积累行业知识，自动地提供设想和处理的建议是数据管理“深水区”面临的一个新的挑战。数据管理智能化将为我们的数据管理事务开辟一个 “新天地”。

在整个数据管理过程中智能化可以发挥作用的的节点如“工序”标红色部分：

实现智能化的第一步是如何积累营业知识及行业经验，形成知识库。数据管理知识库应包括：规范文件、模型（数据元）、DQC规则及数据清洗方案、剧本数据处理算法、指标库、营业知识问答库等，具体涵盖实质及总体过程如下图所示：

1. 规范文件

在2B和2G行业尤其是2G行业，国家、行业、地方都发布了大量的规范文件，在营业和技术层面都举行了相关约束，并且指导新建营业系统的开发。规范文件知识库涵盖几个方面：a.国标、行标、地标等规范的在线查看 b.相关规范的在线全文检索 c.规范具体实质的结构化解析。

2. 数据元（模型）

对于不同行业来说技术规范中的命名以及模型是目前大家都比较关注的，也是在做数据中台类项目以及数据管理项目比较耗时的地方，在金融领域已经比较稳定的主题模型在其他行业尚未形成统一，所以对于做2B和2G市场的企业如何能积淀出特定行业的数据元规范甚至是主题模型，对于行业理解及后续同类项目交付就至关重要。具体包括：实体分类、实体名称名称、中文名称、英文名称、数据类型、引用规范等。

3. DQC（数据品质稽核）&数据清洗方案

数据管理的关键点是提拔数据管理，所以不同行业及各个行业通用的数据品质清洗方案及数据品质稽核的积淀就尤为重要，比如通用规则校验身份证号18位校验（15转18）、手机号为11位（如有国际电话需加国家代码）、日期格式、邮箱格式等。

4. 剧本开发

在数据类项目中，数据mapping确认以后就是具体的开发了，由于数据处理办法的共性，可以高度提炼成特定类型的数据处理，比如交易流水一般采用追加的办法，每日新增数据append进来即可。状态类的历史拉链表形式等。此过程中的步骤都可以通过自动化程序来实现，同时借助于上面积淀的具体规范实质，进一步规范化剧本开发。

5. 指标库

对于一个行业的理解一定程度上体现在行业指标体系的建立，行业常用指标是否覆盖全，指标加工规则是否有歧义是非常重要的两个考核项，行业指标库的建立对于营业知识的积累至关重要。

6. 营业知识问答库

行业知识积累的最直观体现是营业知识问答库的建立，各类营业知识都可以逐步积淀到问答库中，并以问答等多种交互办法更便利的服务于各类使用人员。比如生态环境领域AQI的计算规则，空气常见污染因子、各类污染指标的排放限值等，都可以以问答对形式举行积淀。

基于以上知识的不断积淀积累，在数据管理开展过程中即可举行智能化推荐。如上图所示，在做实体及属性认定时结合NLP技术和知识库规则即可举行相似度认定推荐。

并且随着行业知识的不断积累和完善后期可以直接推荐行业主题模型及主数据模型，以及针对实体及属性的数据规范、数据品质检查规则的推荐。

总结

过程化是数据管理事务开展第一步，是自动化和智能化的基础，将数据管理各节点开展过程中用到的实质举行梳理并规范，包括：营业过程图、网络架构图、营业系统台账等，行业知识梳理完善以后形成行业版知识（抽离通用版），如规范文件梳理：1.代码表整理，2.数据元规范整理（数据仓库行业模型对应规范梳理）。

自动化是将过程化规范后的事务举行自动化开发，涉及仓库模型设想、规范化、剧本开发、DQC、指标体系自动化构建，包括：自动化程序生成和自动化检查。自动程序生成一是解放生产力，提高效率而是提拔开发的规范化。自动化检查包括：1.发现数据问题，出具品质报告（唯一性、空值等通用问题），2.行业知识检查（行业版内置，不同行业关注的重要数据问题，并且会不断完善知识库）。

智能化是在过程化、自动化基础之上针对数据拉通整合、主题模型、数据加工检查给出智能化建议，减少人工分析的事务。

总体思路先解决项目上规范化执行问题，然后提拔建设效率及处理规范化问题（自动化处理），最后基于营业知识的积淀最终实现全过程智能化构建。

原创文章，作者：百分点科技，如若转载，请注明出处：https://www.iaiol.com/news/bai-fen-dian-da-shu-ju-ji-shu-tuan-dui-shu-ju-guan-li-pai/

数据管理自动化调研需要

百分点科技

悉尼大学教授陶大程加入京东，出任京东试探研究院院长

上一篇 2021年 3月 9日下午4:27

百分点科技：媒介数据中台设置装备摆设方法论和落地实践

下一篇 2021年 3月 10日下午5:04

AI

只有170字节，最小的64位Hello World步伐这样写成

最简单的 C 语言 Hello World 步伐，底层到底发生了什么？如何编写出最小的 64 位 Hello World 步伐？

2020年 12月 25日
AI

AI自动化系统可以赶快找到新的电池化学成分，比人工尝试要快得多

编辑 | 萝卜皮开发高能高效电池技术是推进交通和航空电气化的关键方面。然而，电池创新能够需要数年时间才能实现。在非水电池电解质溶液的情况下，选择多种溶剂、盐及其相对比例的许多计划变量使得电解质优化既费时又费力。为了克服这些问题，卡内基梅隆大学（Carnegie Mellon University）的钻研团队提出了一种尝试计划，将呆板人技术（一个名为「Clio」的定制自动化尝试）与呆板学习（一个名为「Dragonfly」的基于贝叶斯优化的尝试计划器）结合起来。在单盐和三元溶剂计划空间内对电解质电导率进行自主优化，在两

2022年 10月 13日
AI

机器之心ACL 2022论文分享会干货集锦，6月邀你来CVPR分享会

作为国际最受关注的自然谈话处理顶级会议，每年的 ACL 都吸引了大量华人学者投稿、参会。今年的 ACL 大会已是第 60 届，于 5 月 22-5 月 27 日期间举办。

2022年 5月 27日
AI

千寻地位亮相2022世界人工智能大会：首秀更精细化的数字孪生才智

9月1日，2022世界人工智能大会在上海正式开幕。全球领先的时空智能基础设施公司——千寻地位网络有限公司（以下简称“千寻地位”）首次展示了具备精确时空才智的数字孪生产品在都会数字化、新基建建设等领域的利用，包括都会道路智能巡检和保护、高速公路高精度舆图收罗、智能矿山三维可视化办理等。今年的世界人工智能大会以“智联世界，元生无界”为主题，数字孪生、时空智能、元宇宙等硬核科技热门赛道备受关注。更精细化的数字孪生才智数字孪生是物理世界与数

2022年 9月 1日
AI

又一全新汽车品牌来了！瞄上「安康调理」场景，已获东风、长江等投资

作者 / 曹锦10月30日，前大众团体高管苏伟铭的创业项目，得到进一步揭晓。由其担任创始人兼董事长的电动汽车品牌——BeyonCa正式亮相，同时还展示了代表品牌定位的概念车Gran Turismo Opus 1（GT Opus 1）。BeyonCa计划于明年春天宣布品牌中文名，第一辆量产车型将于2024年下线。大家对于BeyonCa的最初认知，无疑就是其核心人物苏伟铭。他曾在大众汽车任职16年，在2021年离职时，他位居大众汽车团体执行副总裁，也是团体内职位最高的华裔高管；此后，苏伟铭也曾担任雷诺中国CEO，而他创

2022年 10月 31日
AI

吴恩达那场十万人观察的讲座，如今有了专项课程

如果你看过那个一小时的演讲，而且觉得意犹未尽，这门课程可能适合你。

2021年 5月 14日
AI

「导师要我的论文和别人协同一作」，Nature揭露论文签名乱象：没奉献为啥要签名？

在科研界，论文签名以及按次一直是钻研职员非常重视的题目。由于各种原因，签名排序过程中难免会出现分歧与争议。近日，《Nature》对论文签名题目从事了查询拜访，指出了一些不好的现象，并希望能够创建一个公正的论文个人奉献评价系统。

2021年 6月 15日
AI

教授何恺明在MIT的第一堂课

700 座的大教室，相比去年增加一倍容量，仍然座无虚席：这就是麻省理工学院（MIT）计算机视觉课《Advances in Computer Vision》6.8300 在 2024 新学期的盛况。今年是四位教授，每人负责一部分课程：课程信息：https://advances-in-vision.github.io/index.html有网友评论说，能选上这课的学生太幸运了，每节都是计算机视觉顶会 CVPR Oral 的体验。对于很多人来说，其中最为期待的自然是新晋教授何恺明的课。MIT 电气工程与计算机科学系副教授

2024年 3月 11日
AI

新加坡国立大学金玥明组全奖博士生、博士后、科研助理招募

新一年博士招生正式启动！本期我们将为大家介绍新加坡国立大学金玥明课题组招募博士生 / 博士后 / 科研助理的相关信息。

2022年 8月 11日
AI

中科大吴枫获IEEE CAS最高荣誉奖项，11位学者获ACM四大手艺奖项

5 月 24 日，IEEE 电路与体系（CAS）学会将 2021 年度 IEEE CAS Mac Van Valkenburg 奖授予中国科学手艺大学吴枫教授，以表彰他对「多媒体非均匀编码和通信的孝敬」，时隔不久，5 月 26 日，计算机协会（Association for Computing Machinery）宣布了四项著名手艺奖的获得者。

2021年 5月 27日

百分点大数据技术团队：数据管理“PAI”实施方法论

相关推荐

发表回复