观点分享 | 格物钛智能科技产品专家李薇:非结构化数据平台的下层逻辑和场景化实践

2021年12月30日,由中国人工智能产业发展联盟和中国信息通信研究院联合举办的 “AI数据治理技术沙龙”通过腾讯会议从事。格物钛智能科技产品专家李薇对非结构化数据平台的下层逻辑和场景化实践从事了介绍,分享了自己的见解与思考。

2021年12月30日,由中国人工智能产业发展联盟(以下简称“AIIA”或“联盟”)和中国信息通信研究院(以下简称“信通院”)联合举办的 “AI数据治理技术沙龙”通过腾讯会议从事。格物钛智能科技产品专家李薇对非结构化数据平台的下层逻辑和场景化实践从事了介绍,分享了自己的见解与思考。

0非结构化数据的现状

近年来,文本、语音、图像、视频以及点云等非结构化数据增长迅速,IDC预计未来5年内企业80%的数据将会由非结构化数据组成。非结构化数据具有海量、分散、多样、异构等特点,目前企业对非结构化的经管也是相对原始和落后的,他们用传统的文件经管系统,80%的空间在保存重复的数据、工程师60%的工作时间在从事数据搜索、40%的数据处理时间在用于数据从硬盘读到内存和从内存写到硬盘。

非结构化数据经管面临的挑战:

1、经管手段原始,没有成熟的经管东西和手段。

2、数据场景分裂,没有数据链接的平台,数据没法串联到一起。

3、角色分散

4、利用东西分裂

5、过程分裂,面对海量数据经管,没有适合的过程。

这些问题导致了目前数据经管的人力成本高、时间成本高、经管数据规模没法扩大,造成了数据价值流失。

0高质量数据作用关键观点分享 | 格物钛智能科技产品专家李薇:非结构化数据平台的下层逻辑和场景化实践

李薇提到,非结构化数据和结构化数据最大的不同,是非结构化数据几乎没法直接使用,如果想要从海量的非结构化数据中提取出重要信息,绝大多数情况下依靠的是AI的方法。知名机器学习专家吴恩达一直在强调这样的观点,AI模型已经接近固定,AI从 Model Centric 向 Data Centric 转变,代码上的改变已经没法满足许多利用场景的精度需求,只有通过晋升数据的质量才能更快晋升算法结果的准确性。Google有一篇论文讲到,在真正设计繁复AI的过程中,算法只占据了很小的一部分,核心的内容在数据层面,数据的处理会占用大量的时间和人力。随着AI的进一步发展,对数据质量的要求不断晋升,然而高效的数据经管系统缺失为企业AI落地带来巨大挑战

0组织方式的变革

观点分享 | 格物钛智能科技产品专家李薇:非结构化数据平台的下层逻辑和场景化实践

李薇提到,在AI的发展过程中,传统的模式是由算法工程师完成全部的工作,包括数据的采集、标注、训练和参数调整等,面对数据量级别不断上升,只由算法工程师完成是难以完成的,会导致数据经管成本较高,没法支援大规模繁复数据的利用。

随着现在AI的发展趋势,组织形式正在不断演进,职责分化诞生新的功能模块。由数据运维工程师完成数据标注、清洗、增强、聚合等工作,后续再由机器学习工程师完成对模型的训练,而算法工程师仅需关注算法的开发。新的组织带来协作难度升级,也需要新的系统和东西来支援。

0新一代非结构化数据平台观点分享 | 格物钛智能科技产品专家李薇:非结构化数据平台的下层逻辑和场景化实践

上一代的数据平台是汇聚传统SQL数据库数据支援检索和分析的平台,格物钛智能科技作为非结构化数据赋能专家,为企业及AI开发者提供全新的智能时代数据经管方案,以数据引擎为核心技术,打造下一代数据平台,帮助更好地释放非结构化数据潜力,助推AI工程化和数据资产化最佳实践。

此平台可以支援多维度的非结构化数据,同时通过利用市场对接到不同的数据利用,使用户的数据在整个研发生命周期中通过平台从事经管,同时平台也能将数据的价值运用到各行各业。

简单来说非结构化数据平台解决两个核心问题:数据流转和数据经管。横向上可以简单理解为利用层,格物钛提供更好的东西让数据流转更快,比如数据检索、可视化、版本经管、自动化等等;纵向上在基础和技术层,格物钛自研数据引擎,就像汽车引擎一样给数据提供动力,让它能够更好地应对海量和繁复度挑战,完成更低成本、更大规模。

0数据引擎驱动性能革命观点分享 | 格物钛智能科技产品专家李薇:非结构化数据平台的下层逻辑和场景化实践

格物钛自研的数据引擎,带来三大平台性能优势:存算分离、多维度的高效数据检索和自动化。下层的保存部分支援多种保存服务,使用了存算分离的架构设计,可以完成更低成本、更大规模;中间层是跨平台及保存方案的版本经管系统和数据索引加速器,可以支撑上层所有数据的利用、也可以更快地从事数据检索和操作工作;再上层是一个灵活的调度系统,可以基于轻量的系统从事横向无限扩展。另外一部分是允许用户去自定义代码,完成更加繁复的数据转化以及数据查询的逻辑。格物钛数据平台帮企业用户筑牢新基建下层,驱动海量繁复数据的灵活存取用,让机器学习更敏捷。

0解决的场景和案例观点分享 | 格物钛智能科技产品专家李薇:非结构化数据平台的下层逻辑和场景化实践

格物钛数据平台在AI开发过程中重点解决三大场景问题——数据发现、数据迭代、数据流自动化。

发现高价值数据:支援标签化筛选、可视化呈现,瞬间完成繁复场景检索和结果查看;

高效经管和协同:清晰的权限管控和版本经管,让协作更安全、迭代可追溯;

自动化数据处理:自定义工作流和开发者东西无缝衔接,低成本加速数据流动和迭代。

观点分享 | 格物钛智能科技产品专家李薇:非结构化数据平台的下层逻辑和场景化实践

格物钛正在将创新技术与实践深度结合,助力AI落地和百业智慧升级。以自动驾驶和物流行业为例,格物钛帮助某自动驾驶公司打造数据闭环,成功将模型迭代效率晋升50%;某头部物流企业利用视觉技术对全国几百个港口、园区等不同场景下的人、车、货、仓要素从事全过程管控,每开发一个功能需要3个工程近3个月时间,格物钛数据平台解决方案为其把准备周期从以周为单位缩短到以小时为单位,解决了数据量大、数据质量差等痛点,提高了该企业在AI开发过程中的效率,完成了更全面的数据经管和数据采集、筛选、上传的过程自动化。

李薇总结到,随着终端全方位感知物理世界和云的普及,未来非结构化数据潜能会进一步被释放,利用非结构化数据的AI场景将更为广泛,算法模型开发有效晋升,促进了AI工程化落地,并已在安防、金融、客服、零售、医疗健康、广告营销、教育、城市交通、制造、农业等领域完成商用,达成了规模效应。越来越多的企业将在格物钛的帮助下释放积累数据的无限价值。

更多信息请访问格物钛官网

原创文章,作者:格物钛Graviti,如若转载,请注明出处:https://www.iaiol.com/news/guan-dian-fen-xiang-ge-wu-tai-zhi-neng-ke-ji-chan-pin-zhuan/

(0)
上一篇 2022年 3月 30日 下午6:08
下一篇 2022年 3月 30日 下午6:11

相关推荐

  • 暴雪也没拦住的新版本:Linux之父家中停电6天,「冰冻荒原」版Linux内核还是来了

    既然是冬天停电的时候诞生的,那就叫它「冰冻荒原」吧。

    2021年 3月 2日
  • 他发明了通用数据压缩算法:Jacob Ziv获2021 IEEE名誉勋章

    今年的 IEEE 名誉勋章,颁给了一位 90 岁老人:Jacob Ziv。

    2021年 1月 19日
  • 无代码生产力对象赋能数字化供应链新发展

    「机器之心2021-2022年度AI趋势大咖说」聚焦「驱动将来的AI技术」与「重塑财产的AI科技」,推出线上分享,共邀请近40位AI领域知名学者、财产专家及企业高管通过主题分享及多人圆桌等形式,与行业精英、读者、观众共同回顾 2021年中的重要技术和学术热点,盘点AI财产的年度研究方向以及重大科技突破,展望2022年度AI技术发展方向、AI技术与财产科技融合趋势。

    2022年 8月 1日
  • 大咖齐聚、思想碰撞、探索前沿,2021WAIC· 隐衷盘算学术交流会全日程公布

    2021 年世界人工智能大会(WAIC)将于 7 月 7 日 – 10 日在上海举办,本届大会继续秉持「智联世界」的理念,以「众智成城」为主题,促进全球人工智能翻新思想、技术、应用、人才和资本的集聚和交流,推动全球科技的翻新协同,助力打造人工智能世界级产业集群。7 月 8 日下午,由世界人工智能大会组委会指导,蚂蚁集团、机器之心和 CCF YOCSEF 上海学术委员会共同主办的「2021 WAIC· 隐衷盘算学术交流会」将于上海世博展览馆 2 号会议室隆重举行。本届大会程序委员会主席:上海交通大学盘算

    2021年 6月 23日
  • 详解AI加速器(一):2012年的AlexNet到底做对了什么?

    AI、机器进修、深度进修的概念可以追溯到几十年前,然而,它们在过去的十几年里才真正流行起来,这是为什么呢?AlexNet 的基本结构和之前的 CNN 架构也没有本质区别,为什么就能一鸣惊人?在这一系列文章中,前苹果、飞利浦、Mellanox(现属英伟达)工程师、普林斯顿大学博士 Adi Fuchs 尝试从 AI 加速器的角度为我们寻找这些问题的答案。当代世界正在经历一场革命,人类的体验从未与科技如此紧密地结合在一起。过去,科技公司通过观察用户行为、研究市场趋势,在一个通常必要数月甚至数年时候的周期中优化产品线来改进

    2022年 1月 13日
  • AI模型被「骗」怎么破?《燃烧吧!天才程序员》冠军团队解决方案出炉

    前段时间,一档名为《燃烧吧!天才程序员》的竞赛类综艺让「程序员」这一群体成功破圈,也呈现了 AI 在解决实际问题的过程中面临的一些挑战,如数据集中存在对立样本、图象中存在噪声等。在本文中,CLS 战队(大赛头名团队)的优秀选手、奥比中光算法工程师埼玉详细解读了他们在竞争中用到的解决方案。近日,由蚂蚁集团、清华大学等组织共同协办的首届「Inclusion|A-tech 科技精英赛」(以下简称 A-tech 大赛)圆满落幕。奥比中光科技集团股份有限公司 (以下简称「奥比中光」) 研究院 SDK 组负责人小蛮腰、算法工程

    2021年 1月 21日
  • Hologres揭秘:深度解析高效率分布式查问引擎

    Hologres(中文名交互式分析)是阿里云自研的一站式及时数仓,这个云原生体系融合了及时服务和分析大数据的场景,全面兼容PostgreSQL协议并与大数据生态无缝打通,能用同一套数据架构同时支持及时写入及时查问以及及时离线联邦分析。它的出现简化了业务的架构,与此同时为业务提供及时决策的能力,让大数据发挥出更大的商业价值。Hologres作为HSAP服务分析一体化的落地最佳实践,其查问引擎是一个完全自研的施行引擎,它的核心设计目标是支持所有类型的分布式分析和服务查问,并做到极致查问机能。为了做到这一点,我们借鉴了各

    2021年 8月 11日
  • 言语模型参数越多越好?DeepMind用700亿打败自家2800亿,训练优化出「小」模型

    给定固定的 FLOPs 估算,该当如何权衡模型巨细和训练 token 的数目?DeepMind 得出了与先前不同的结论。

    2022年 4月 3日
  • RoLAP 实验室|鉴于凸凸凸的工业臂柔性计划系统

    大界成立的RoLAP实验室(RoboticPlus Laboratory for Autonomy and Perception),由中科院博士后、加州理工物理学博士、大界首席科学家周诚喆领衔,聚集了一批专业的硕博团队,致力于研究工业机器人在智能制造场景下的视觉感知(眼)、静止计划(手)、场景理解(大脑)的协同闭环系统。本文将鉴于RoLAP实验室的研究成果,为各位读者深度解析机器臂静止计划的关键技术。一. 背景介绍随着科学技术的发展,机器人技术正在被广泛应用到各种结构化的场景,比如3C消费电子和汽车工厂等标准化制造

    2022年 6月 17日
  • 百亿量化私募“道歉”,AI选股还能信吗?

    近两年来,量化投资行业爆发式增长,一批私募范围突破百亿大关,备受商场关注。随着大量资金涌入量化私募,商场竞争亦在不断加剧,尤其是头部私募之间的比拼,纷纷展开军备竞赛。为了保持长期竞争上风,不少量化私募开始加大人工智能、机器进修方面的加入。与此同时,商场上也有许多疑问。阿尔法狗诞生以后,在围棋、象棋、德州扑克等范畴,人工智能已经彻底打败了人类。那么,在投资范畴人工智能会打败人类吗?近期,知名量化私募幻方量化因事迹回撤达到了历史最大值,在官微发布公告,表示“深感愧疚”。幻方表示,事迹波动的一部分原因来源于长周期上的持股

    2022年 1月 10日

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注