准确的电话号码和 WhatsApp 号码提供商。 如果您想要电子邮件营销活动列表或短信营销活动,那么您可以联系我们的团队。 电报: @latestdbs

使用 Unity Catalog 的分布式数据治理和隔离环境

有效的数据治理对于任何依赖数据、分析和人工智能进行运营的组织来说都是必不可少的。在许多组织中,人们越来越认识到集中式数据治理的价值主张。然而,即使有最好的意图,如果没有适当的组织流程和资源,实施集中式治理也可能具有挑战性。首席数据官 (CDO) 的角色仍在许多组织中出现,留下了关于谁将在整个组织中定义和执行数据治理策略的问题。 因此,在整个组织中定义和执行数据治理策略的责任通常不是集中的,从而导致跨业务线、子单元和组织内其他部门的策略变化或管理机构。为简单起见,我们可以将这种模式称为分布式治理,其中对这些治理单元之间的区别有一个普遍的共识,但不一定是中央数据治理功能。

在此博客中,我们将探索使用

实施分布式治理模型,它为 lakehouse 中的数据、分析和 AI 提供统一的治理解决方案。 Databricks 中数据治理的演变 在引入 Unity Catalog 之前,工作区的概念是单一的,每个工作区都有自己的元存储、用户管理和表 ACL 存储。这导致了工作空间之间固有的数据和治理隔离边界,以及为解决它们之间的一致 数据库 性而进行的重复工作。 为了解决这个问题,一些客户求助于运行管道或代码来同步他们的元存储和 ACL,而其他客户则设置自己的自我管理元存储以跨工作区使用。但是,这些解决方案增加了更多的管理费用和维护成本,迫使就如何在整个组织中划分数据进行前期架构决策,从而创建数据孤岛。

数据库

使用 Unity Catalog 进行数据治理

为了克服这些限制,Databricks 开发了 Unity Catalog,旨在简化数据治理的实施,同时最大限度地提高协作和共享数据的能力。实现这一目标的第一步是实施一个公共名称空间,该名称空间允许访问组织内的任何数据。 这种方法可能看起来像是对前面提到的分布式治理模式的挑战,但 Unity Catalog 在命名 EW 线索 空间内提供了新的隔离机制,组织传统上使用多个 Hive 元存储来解决这个问题。这些隔离机制使团队能够在最少或没有交互的情况下独立运行,还允许他们在其他场景中实现隔离,例如生产与开发环境。 Databricks 中的 Hive Metastore 与 Unity Catalog 对于 Hive,元存储是一个服务边界,这意味着拥有不同的元存储意味着不同的托管底层 Hive 服务和不同的底层数据库。

Related Posts

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注