百分点大数据技术团队:数据管理“PAI”实施方法论

编者按数据作为第五大生产要素,已逐渐成为政府和企业决策的重要手段与依据。面对数据多样化、数据需要个性化、数据应用智能化的需要,以及在2B和2G行业中数据品质参差不齐、数据应用难以发挥价值、数据资产难以积淀等问题,如何做好数据管理事务、提拔数据管理才智成为了政府和企业数字化转型的重中之重。百分点大数据技术团队基于多年的数据管理项目经验,总结了一套做好数据管理事务及提拔数据管理才智的实施方法论。近年来,推动数据管理体系建设一直是业界探索的热点,另外,《中共中央、国务院关于构建更加完善的要素市场化配置体制机制的意见》将数

编者按

数据作为第五大生产要素,已逐渐成为政府和企业决策的重要手段与依据。面对数据多样化、数据需要个性化、数据应用智能化的需要,以及在2B和2G行业中数据品质参差不齐、数据应用难以发挥价值、数据资产难以积淀等问题,如何做好数据管理事务、提拔数据管理才智成为了政府和企业数字化转型的重中之重。

百分点大数据技术团队基于多年的数据管理项目经验,总结了一套做好数据管理事务及提拔数据管理才智的实施方法论。

近年来,推动数据管理体系建设一直是业界探索的热点,另外,《中共中央、国务院关于构建更加完善的要素市场化配置体制机制的意见》将数据作为第五大生产要素提出意义非同一般。但与劳动力等生产要素不同的是,数据是无形的,且数据孤岛林立,要想发挥数据价值,提拔数据管理才智是必要举措。

百分点结合多年政府各个部门及各类企业数据管理项目经验,提出数据管理项目开展过程中数据管理平台应具备4大才智:聚、治、通、用,以及项目实施总体指导思想:PDCA。

百分点大数据技术团队:数据管理“PAI”实施方法论

四大才智建设:

聚:数据汇聚才智,面对数据来源各异,数据类型纷繁多样,数据时效要求不一等各类情况,数据管理首先能把各类数据接入到平台中,“进的来”是第一步。

治:狭义数据管理才智,包括数据规范、数据品质、元数据、数据安全、数据生命周期、主数据。核心是保证数据规范的统一、借助元数据掌握数据资产分布情况及影响分析和血缘关系、数据品质地持续提拔、数据资产的安全可靠、数据资产的淘汰销毁机制以及核心主数据的统一及使用。

通:数据拉通整合才智,原始营业数据分散在各营业系统中,数据组织是以满足营业流转为前提。后续数据需要是根据实际营业对象开展而非各营业系统,所以需要根据营业实体重新组织数据。比如政府单位针对人的综合分析通常会涉及:财产、教育程度、五险一金、缴税、家庭成员等,需要以身份证号拉通房管局、交通局、教育局、人社局、税务局、卫健委等多个委办局数据。数据拉通整合才智是后续满足多样化需要分析的基础,是数据资产积累积淀的根基,也是平台建设的另一个重点。

用:数据服务才智,数据资产只有真正赋能于前端营业才能发挥实际效用,所以如何让营业部门快速找到并便利的使用所需数据资产是数据管理平台的另一项核心才智。

P:plan,规范、规划、过程制定;D:do,产品工具辅助落地;C:check,营业技术双重检查保证;A:action,持续优化提拔数据品质及服务。

百分点大数据技术团队:数据管理“PAI”实施方法论

结合数据管理项目实际落地实施过程以四大才智构建、PDCA实施指导思想提出了“PAI”实施方法论,即过程化(process-oriented)、自动化(automation)、智能化(intelligence)三化论,以逐步递进办法不断提拔数据管理才智,为政府和企业后续的数据赋能营业及数据催生营业创新打下坚实基础。

过程化将数据管理项目执行过程举行过程化梳理,同时规范过程节点中的规范输入输出,并将规范输入输出模板化。另外对各过程节点的重点注意事项举行提示。

自动化针对过程化之后的相关节点及规范输入输出举行自动化开发,减轻人力负担,让大家将精力放在营业层面及新技术拓展上,避免重复人力事务。如自动化数据接入及自动化剧本开发等。

智能化针对新项目或是新领域结合历史项目经验及积淀给出推荐实质,比如模型创建、数据品质稽核规则等。

一、数据管理过程化

因数据管理类项目通常采用瀑布式开发模式,核心过程包含:需要、设想、开发、测试、上线等阶段,过程化是将交付过程步骤举行详细分解并对项目组及客户事务实质举行提炼及规范,明白每个过程的规范输入、输出实质。过程节点、节点产出物及数据管理平台四大才智对应关系如下所示:

百分点大数据技术团队:数据管理“PAI”实施方法论

其中因需要、概要设想和详细设想为执行过程中的核心过程节点,将针对此三部分举行详细讲解。

1. 需要调研

1.1 需要调研过程

数据类项目总体调研过程如下:

百分点大数据技术团队:数据管理“PAI”实施方法论

数据调研是整个项目的基础,既要详细掌握现有营业现状及数据情况又要准确获取客户需要,明白项目建设目标。如上图所示总体分成三个大的时间节点:包括需要调研准备、需要调研实施及需要调研后期的梳理确认。

需要调研准备包括:调研计划确定、调研前准备,具备条件的尽量开一次调研需要见面会(项目启动会介绍过的可以不需要再组织)。其中调研前准备需针对客户的组织架构及营业情况举行充分的了解,以便在后续的调研实施阶段有的放矢,调研实质更为详实,客户需要把控更为准确。

调研实施阶段一般组织两轮调研,第一论主要是了解营业运转现状、对接营业数据以及客户需要。第二轮针对具体的营业和数据的细节问题举行确认,及分析后的客户需要与客户确认。对于部分系统的细节问题以线下办法对接,不再做第三轮整体调研。

需要调研后期主要是针对客户需要及客户营业及数据现状举行内外部评审并确认签字,以《需要规格说明书》形式明白本期项目建设目录。

1.2 需要调研事务事项

百分点大数据技术团队:数据管理“PAI”实施方法论

上表描述了需要调研过程关键节点的客户方及项目组事务实质实质及输入输出,并说明了需要调研阶段的总体原则、调研办法及相关要求。

1.3 需要调研注意事项

(1)需要收集

关键干系人需要

真正用户是谁及其需要

需要获取前置问题:客户管什么,重点关注什么,目前如何管理,欠缺什么,重复劳动有哪些?

(2)需要验证

3W验证,谁来用,什么场景下用,解决哪些问题?

原型草图

(3)需要管理

核心需要(需要需融入营业过程并发挥实际效用)

识别是否行业共性(有余力则做没有则算,项目管理角度不需要,行业角度需要)

(4)需要确认

形成文字版需要规格说明书

务必签字确认(后续可以更改,大变更需记录)

2. 概要设想

数据管理项目概要设想主要涵盖网络架构、数据流架构、规范库建设、数据仓库建设四部分实质。总体目标是明白数据如何进出数据管理平台(明白网络情况)、数据在平台内部如何组织及流动(数据流架构及数据仓库模型)以及数据在平台内部应遵循哪些规范及规范(规范库)。针对每部分具体事务事项及输入、输出如下所示:

百分点大数据技术团队:数据管理“PAI”实施方法论

2.1 网络架构示意图

百分点大数据技术团队:数据管理“PAI”实施方法论

网络架构要明白硬件部署方案、待接入系统网络情况及后续使用人群及访问系统办法,以便满足数据接入及数据服务需要。

2.2 数据流示意图

百分点大数据技术团队:数据管理“PAI”实施方法论

数据流架构要明白各类数据的处理办法及流向,以便确认后续数据加工及存储办法。

2.3 数据规范实质示意图

百分点大数据技术团队:数据管理“PAI”实施方法论

规范库建设要明白平台所遵循的各类规范及规范,以保证平台建设过程的统一规范,为后续营业赋能打下坚实基础。

2.4 数据仓库主题域及核心实体示意图

百分点大数据技术团队:数据管理“PAI”实施方法论

数据仓库建设要明白主题域及关键实体,明白后续数据拉通整合的实体对象,以更好地支撑繁杂多变的数据需要。

3. 详细设想

详细设想针对项目实际落地的事务模块分别举行设想,明白每部分实现的设想,具体模块、事务实质、输入、输出如下所示:

百分点大数据技术团队:数据管理“PAI”实施方法论

二、数据管理自动化

在将数据管理项目过程化以后整个事务实质及具体事务产出已经比较明白了,但是会发现过程中会涉及到大量的开发事务,同时发现很多事务具有较高的重复性或相似性,开发使用的过程及技术都是一样的只是配置不同,因此针对过程化以后各节点的自动化开发应运而生。通过配置任务的个性化部分,然后统一生成对应的开发任务或剧本即可完成开发。

自动化处理一般有两种实现路径,其一是采购成熟数据管理软件,其二是自研开发相应工具。其中数据管理过程中可实现自动化处理的过程节点如“工序”标蓝色部分:

百分点大数据技术团队:数据管理“PAI”实施方法论

注:对于需要调研、模型设想等过程节点因为涉及到线下的访谈、营业的理解更多的是与人的沟通交流,进而获取相应的营业知识及需要,并非单纯的计算机语言同时“因人而异”的情况也比较常见,所以此部分相关事务暂时还以人工为主。

因数据接入、剧本开发及数据品质稽核在日常事务中占用时间较长,下面将详细讲解此三部分实质。

1. 批量数据接入

数据接入是所有数据管理平台的第一步,批量数据接入占数据接入事务量的70-90%之间。自动化处理即将任务个性化部分举行抽象化形成配置项,通过配置任务的抽象化配置项,进而生成对应的任务。批量数据接入抽象以后的配置项如下:

源系统:源系统数据库类型

源库名:源系统数据库库名称(数据库的链接办法在其他地方统一管理)

源表名:源系统数据库库表名称

目标系统:目标数据库类型

目标库:目标数据库库名称

目标表:目标数据库库表名

增/全量:1表示全量接,0表示增量接

百分点大数据技术团队:数据管理“PAI”实施方法论

示例配置如上,不管使用sqoop、datax等办法都可以批量生成对应命令或配置文件,实现批量生成接入作业,实现自动化数据接入事务,数据接入效率提拔75%以上,后续只需验证数据接入正确性即可。

2. 剧本开发

资源库、主题库的加工剧本占整体开发事务事务的50%-80%,同时经过对此部分数据加工办法举行特定分析后,数据常用的处理办法如下一般有以下几种类型:

百分点大数据技术团队:数据管理“PAI”实施方法论

将以上加工办法举行总结后可积淀出以下几种数据处理办法:

百分点大数据技术团队:数据管理“PAI”实施方法论

结合Mapping文档选定以上数据处理办法的一种即可自动生成资源库或主题库对应剧本,开发效率得到大幅度提拔,整体效率提拔60%以上(模型及Mapping设想尚需人工处理)。

3. DQC

数据品质是PDCA实施总体指导思想的关键一步,是发现数据问题以及检查数据规范规范落地的必须环节。针对具体的规则都可以通过产品和自助开发来实现,只需举行相应配置即可实现自动化检查,具体检查事项如下:

百分点大数据技术团队:数据管理“PAI”实施方法论

三、数据管理智能化

经过自动化阶段以后数据管理过程中数据仓库模型设想、Mapping映射等阶段依旧有非常多人工处理事务,这些事务大部分跟营业领域知识及实际数据情况强相关,依赖专业的营业知识和行业经验才可举行合理地规划和设想。如何快速精通行业知识和提拔行业经验是数据管理过程中新的“拦路虎”。如何更好地积淀和积累行业知识,自动地提供设想和处理的建议是数据管理“深水区”面临的一个新的挑战。数据管理智能化将为我们的数据管理事务开辟一个 “新天地”。

在整个数据管理过程中智能化可以发挥作用的的节点如“工序”标红色部分:

百分点大数据技术团队:数据管理“PAI”实施方法论

实现智能化的第一步是如何积累营业知识及行业经验,形成知识库。数据管理知识库应包括:规范文件、模型(数据元)、DQC规则及数据清洗方案、剧本数据处理算法、指标库、营业知识问答库等,具体涵盖实质及总体过程如下图所示:

百分点大数据技术团队:数据管理“PAI”实施方法论

1.  规范文件

在2B和2G行业尤其是2G行业,国家、行业、地方都发布了大量的规范文件,在营业和技术层面都举行了相关约束,并且指导新建营业系统的开发。规范文件知识库涵盖几个方面:a.国标、行标、地标等规范的在线查看 b.相关规范的在线全文检索 c.规范具体实质的结构化解析。

2.  数据元(模型)

对于不同行业来说技术规范中的命名以及模型是目前大家都比较关注的,也是在做数据中台类项目以及数据管理项目比较耗时的地方,在金融领域已经比较稳定的主题模型在其他行业尚未形成统一,所以对于做2B和2G市场的企业如何能积淀出特定行业的数据元规范甚至是主题模型,对于行业理解及后续同类项目交付就至关重要。具体包括:实体分类、实体名称名称、中文名称、英文名称、数据类型、引用规范等。

3.  DQC(数据品质稽核)&数据清洗方案

数据管理的关键点是提拔数据管理,所以不同行业及各个行业通用的数据品质清洗方案及数据品质稽核的积淀就尤为重要,比如通用规则校验身份证号18位校验(15转18)、手机号为11位(如有国际电话需加国家代码)、日期格式、邮箱格式等。

4.  剧本开发

在数据类项目中,数据mapping确认以后就是具体的开发了,由于数据处理办法的共性,可以高度提炼成特定类型的数据处理,比如交易流水一般采用追加的办法,每日新增数据append进来即可。状态类的历史拉链表形式等。此过程中的步骤都可以通过自动化程序来实现,同时借助于上面积淀的具体规范实质,进一步规范化剧本开发。

5.  指标库

对于一个行业的理解一定程度上体现在行业指标体系的建立,行业常用指标是否覆盖全,指标加工规则是否有歧义是非常重要的两个考核项,行业指标库的建立对于营业知识的积累至关重要。

6.  营业知识问答库

百分点大数据技术团队:数据管理“PAI”实施方法论

行业知识积累的最直观体现是营业知识问答库的建立,各类营业知识都可以逐步积淀到问答库中,并以问答等多种交互办法更便利的服务于各类使用人员。比如生态环境领域AQI的计算规则,空气常见污染因子、各类污染指标的排放限值等,都可以以问答对形式举行积淀。

百分点大数据技术团队:数据管理“PAI”实施方法论

基于以上知识的不断积淀积累,在数据管理开展过程中即可举行智能化推荐。如上图所示,在做实体及属性认定时结合NLP技术和知识库规则即可举行相似度认定推荐。

并且随着行业知识的不断积累和完善后期可以直接推荐行业主题模型及主数据模型,以及针对实体及属性的数据规范、数据品质检查规则的推荐。

总结

过程化是数据管理事务开展第一步,是自动化和智能化的基础,将数据管理各节点开展过程中用到的实质举行梳理并规范,包括:营业过程图、网络架构图、营业系统台账等,行业知识梳理完善以后形成行业版知识(抽离通用版),如规范文件梳理:1.代码表整理,2.数据元规范整理(数据仓库行业模型对应规范梳理)。

自动化是将过程化规范后的事务举行自动化开发,涉及仓库模型设想、规范化、剧本开发、DQC、指标体系自动化构建,包括:自动化程序生成和自动化检查。自动程序生成一是解放生产力,提高效率而是提拔开发的规范化。自动化检查包括:1.发现数据问题,出具品质报告(唯一性、空值等通用问题),2.行业知识检查(行业版内置,不同行业关注的重要数据问题,并且会不断完善知识库)。

智能化是在过程化、自动化基础之上针对数据拉通整合、主题模型、数据加工检查给出智能化建议,减少人工分析的事务。

总体思路先解决项目上规范化执行问题,然后提拔建设效率及处理规范化问题(自动化处理),最后基于营业知识的积淀最终实现全过程智能化构建。

原创文章,作者:百分点科技,如若转载,请注明出处:https://www.iaiol.com/news/bai-fen-dian-da-shu-ju-ji-shu-tuan-dui-shu-ju-guan-li-pai/

(0)
上一篇 2021年 3月 9日 下午4:27
下一篇 2021年 3月 10日 下午5:04

相关推荐

  • 面向认知,智源研究院联合清华大学、阿里巴巴、搜狗等发布超大规模新型预训练模型“悟道·文汇”

    2021年1月11日,由北京智源人工智能研究院(以下简称“智源研究院”)、阿里巴巴、清华大学、中国人民大学、中国科学院、搜狗、智谱.AI、循环智能等单位的科研骨干成立“悟道”联合攻关团队,发布了面向认知的超大规模新型预训练模型“文汇”,旨在探索解决当前大规模自监督预训练模型不具有认知能力的问题。“文汇”模型不仅使用数据驱动的方法来建构预训练模型,还将用户行为、常识知识以及认知联系起来,主动“学习”

    2021年 1月 12日
  • 【征稿】IJCAI 2021联邦进修与转嫁进修国内研讨会

    数字时代,隐衷和宁静正成为一个关键问题。公司和组织每天都在收集大量的数据,然而数据隐衷爱护相关法律法规越来越严格,给大数据和人工智能带来了新的挑衅。例如欧盟的《通用数据爱护条例》(General data Protection Regulation,GDPR)就明确提出,禁止在没有明确用户受权的情况下,直接合并来自不同来源的用户数据进行AI建模。为了探索AI如何适应这种新的监管环境,微众银行、京东、第四范式等中国企业共同香港科技大学、新加坡南洋理工大学、普林斯顿大学等国内知名高校及科研院所,将在第30届人工智能国内

    2021年 4月 9日
  • 2023 IEEE Fellow出炉:唐立新、宗成庆、朱军、姬水旺、李佳等当选

    近日,美国电子电气工程师学会(Institute of Electrical and Electronic Engineers,IEEE)确定了新一届 Fellow 名单。

    2022年 11月 22日
  • 为什么要纯C谈话手搓GPT-2,Karpathy回应网友质疑

    Karpathy:for fun.几天前,前特斯拉 Autopilot 负责人、OpenAI 科学家 Andrej Karpathy 发布了一个仅用 1000 行代码即可在 CPU/fp32 上实行 GPT-2 训练的项目「llm.c」。llm.c 旨在让大模型(LM)训练变得简单 —— 使用纯 C 谈话 / CUDA,不须要 245MB 的 PyTorch 或 107MB 的 cPython。例如,训练 GPT-2(CPU、fp32)仅须要单个文献中的大约 1000 行干净代码(clean

    2024年 4月 11日
  • 每次放一个细胞,打印心脏或上千年,斯坦福大学如何加快3D打印心脏?

    使用先进的 3D 打印技术,斯坦福大学钻研者将由活细胞制成的糊状物转化为心脏和其他器官。

    2022年 3月 27日
  • 闲下来的Andrej Karpathy录了个课程:保证学会,你听不懂我吃鞋

    为了重拾自己对 AI 开源和教育的热情,Andrej Karpathy 在家录了一个详解反向传达的课程。

    2022年 8月 19日
  • 准确率达 95%,机械进修猜测复杂新质料合成

    编辑/绿萝科学家和机构每年都投入非常多的资源来发明新质料,以期为燃料提供催化剂。随着自然资源的减少,以及对更高价值和先进性能产品的需求增长,钻研职员越来越多地关注到纳米质料。但识别新质料的连续尝试方法对质料发明施加了不可逾越的限制。近日,美国西北大学和丰田钻研所(TRI)的钻研职员应用机械进修来指导新纳米质料的合成,消除了质料发明相关的障碍。这种训练有素的算法,可通过界说数据集来准确猜测可用于清洁能源、化学和汽车行业燃料的重要催化剂。该钻研以「Machine learning–accelerated design

    2021年 12月 30日
  • 2021 Facebook 博士奖研金名单出炉:13位华人学者获选

    今年,Facebook 从来自全球百余所大学的 2163 份申请中选出了 26 位奖研金获得者,华人博士生占据半数。当地时间 4 月 22 日,Facebook 公布了 2021 年博士生奖研金(2021 PhD Fellowship)获得者的名单,共有 26 位博士生获奖,其中华人博士生占据半数,多达 13 位。Facebook 奖研金计划主要面向计算机科学与工程领域的重要主题,包括计算机视觉、编程语言等。获奖者将获得为期两个学年的学费,并获得 42000 美元的津贴,其中包括会议旅行等支持。此外,获奖者还将受邀

    2021年 4月 24日
  • 新石器无人车获得海内首批无人配送车上路天分

    2021年5月25日,北京高级别主动驾驭示范区发布无人配送车管理政策,新石器无人车作为首批无人配送车头部企业获得海内首批无人配送车上路天分。预计到今年6月底,超过150辆新石器无人车作为离用户最近的无人驾驭便利店,将在海内首个智能网联汽车政策先行区内构建无人车服务网络,常态化供应便民服务。新石器无人车作为新形态道路交通参与者,在零卖、安防和金融等众多领域有着广泛的应用场景。在“上路”(公开道路行驶)前,新石器无人车早已在亦城国际、BDA企业大道、北京亦庄生物医药园等多个园区,面向&ldquo

    2021年 5月 26日
  • 人工智能帮助创造系外行星上的份子,甚至有一天大概会创造新的物理定律

    编辑 | 萝卜皮你知道地球的大气是由什么组成的吗?你大概记得它是氧气,也大概是氮气。借助 Google 的一点帮助,您可以轻松得出更精确的谜底:78% 的氮气、21% 的氧气和 1% 的氩气。大气可以表明行星的性质,以及它们是不是可以承载生命。然而,当谈到外大气层——太阳系外行星的大气层——的组成时,谜底是未知的。由于系外行星如此遥远,已证明探测它们的大气层极其困难。研讨表明,人工智能 (AI) 大概是探索它们的最佳选择——但前提是能够证明这些算

    2021年 12月 10日

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注