加入收藏 | 设为首页 | 会员中心 | 我要投稿 威海站长网 (https://www.0631zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 站长资讯 > 动态 > 正文

乌托邦理想

发布时间:2021-05-04 10:17:52 所属栏目:动态 来源:互联网
导读:在左侧,各个部门使用相应的数据运行其应用程序。在技术产品公司中,这包括在特定领域努力的团队。数据可以居住在任何存储中:MS Excel文件,数据库,CSV文件,Kafka主题,云桶,您将其命名为。 在中间,数据平台团队提取该数据,并将其加载到数据湖的着陆区

在左侧,各个部门使用相应的数据运行其应用程序。在技术产品公司中,这包括在特定领域努力的团队。数据可以居住在任何存储中:MS Excel文件,数据库,CSV文件,Kafka主题,云桶,您将其命名为。

在中间,数据平台团队提取该数据,并将其加载到数据湖的着陆区。第一步是标准化日期和数字格式和列名称的方面。这可以包括为历史观点拍摄数据的快照。生成的数据集收集存储在所谓的“暂存”图层中。然后将数据组合并放置在静电层中。策级层是包含相干数据集,唯一标识符和清晰关系的数据存储。因此,我将此称为DWH(数据仓库)。但是,它可以是任何可用存储,包括大规模云数据库(BigQuery),Hive表,Blob存储(S3)或Delta Lake Parquet文件。该策级层的目标是提供易于使用所有数据的总视图。

在右侧,数据科学团队使用平台的工作环境和数据集来解决它们的用例。

当这不起作用

理想的声音很棒。不幸的是,简的真实体验略有不同:

Jane需要一些额外的数据集可以在数据平台上提供。为了获得头部开始,金融部门为初步分析提供了一些CSV出口。简探测了预测需要在产品组上报告,而这些数据是在各个产品上。在几个会议之后,她了解哪些内部产品名称属于哪些组。产品的收入在组件中分开,部分是基础产品,部分是附加组件。折扣是另一个故事;因为它们从总账单中减去了,因此归属变得有点棘手。另一个惊喜。三个月前公共产品焕然一新,重命名,结合一些旧的利基产品。随着一些困难而且只丢弃最小的数据,她管理将旧数据与大多数类似的新产品匹配。

管理数据平台的数据工程师呢?好吧,他们只是入门:

最后,拾取了数据工程机票,数据工程师开始提取,加载和转换各种数据集。第一个步骤很容易,但现在他们需要在数据上创建可用视图。他们需要与各种(可能)未来的用户交谈以了解哪些转变很重要。他们与简言组织了一些细化会议。然后他们需要返回数据产生部门以弄清楚数据实际意味着什么,以及它如何映射到区域。该部门忙于一些新的内部产品。因此,他们将数据工程师转发给数据科学团队,这显然已经完成了一些准备工作。

简而言之,这不是非常顺利的。

有一些关键问题:

  • 数据科学家需要能够创建使用情况特定的转换。
  • 平台团队需要准备他们不拥有的域的数据,以便于使用案例他们无法正常工作。
  • 数据平台团队成为数据科学家团队的瓶颈。

(编辑:威海站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读