加入收藏 | 设为首页 | 会员中心 | 我要投稿 威海站长网 (https://www.0631zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 站长资讯 > 外闻 > 正文

现代数据管道的精髓

发布时间:2021-02-27 12:51:32 所属栏目:外闻 来源:互联网
导读:程序的增多而增多。每一个都需要专门的数据集和数据访问权限才能产生内容。这简直是管道爆炸! 如果没有DataOps,每个数据管道都将成为一个数据孤岛,与其他数据管道,数据集和数据生产者几乎没有关系。没有协作或重用,浪费大量的人工和返工,有大量的错误和

程序的增多而增多。每一个都需要专门的数据集和数据访问权限才能产生内容。这简直是管道爆炸!

如果没有DataOps,每个数据管道都将成为一个数据孤岛,与其他数据管道,数据集和数据生产者几乎没有关系。没有协作或重用,浪费大量的人工和返工,有大量的错误和数据缺陷,并且交付时间极慢。商业用户除了信任自己的数据外不信任任何数据,而且许多用户需要在没有任何数据或没有足够数据的情况下做出决策,因为他们等不及了。

DevOps的降临。在引入敏捷开发和DevOps技术之前,软件工程界一直受到类似问题的困扰。如今,DevOps的先驱例如Amazon,Google和LinkedIn等公司每天(甚至每小时或更快)部署软件版本,这是几年前无法想象的发展节奏。令人惊讶的是,即使周期时间加快了,软件错误和缺陷也有所减少。容器化和微服务的问世将进一步加速和强化软件交付周期。简而言之,DevOps可以以更低的成本更快地提供更好的代码。

对于DataOps来说


数据挑战。
看到打破僵局的机会,数据世界正在紧紧抓住DevOps原则。 DevOps管理代码,工具和基础架构之间的联系,以加快应用程序功能的交付,而DataOps添加了第四个元素——数据——比其他三个元素相加更难以控制!在每个管道中,必须对数据进行标识、捕获、格式化、标记、验证、画像(profiled)、清理、转换、组合、聚合、保护、分类、治理(governance)、移动、查询、可视化、分析和操作。 呜!随着组织从数百个数据源收集大量数据,这些任务变得越来越复杂。

工具和人员。此外,每个任务还需要专门的工具管理。这些工具的范围从传统的ETL / ELT,数据质量和主数据管理工具到数据目录,数据准备和数据治理产品,再到报告,数据可视化和数据科学工具。这些工具中的每一个针对不同类型的用户——从IT部门的系统工程师和数据库管理员——到BI团队中的数据工程师,数据管理员和报表开发人员——到数据分析师,数据科学家和数据使用者业务部门。

协调所有的这些工具,技术和人员是一项巨大的工作,特别是在拥有规模庞大的开发团队,来自数百个来源的大量数据以及该领域的大量数据分析师和数据科学家的大型组织中。这就是为什么DataOps会发展起来。

DataOps框架

定义DataOps非常困难。它包含很多零件和过程。图1是试

(编辑:威海站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读