使用 Unity Catalog 的分布式数据治理和隔离环境

April 17, 2023April 17, 2023 By oaseq 特殊数据库数据库,特殊数据库,特殊电子邮件列表,特殊营销数据库,购买特殊数据库服务

有效的数据治理对于任何依赖数据、分析和人工智能进行运营的组织来说都是必不可少的。在许多组织中，人们越来越认识到集中式数据治理的价值主张。然而，即使有最好的意图，如果没有适当的组织流程和资源，实施集中式治理也可能具有挑战性。首席数据官 (CDO) 的角色仍在许多组织中出现，留下了关于谁将在整个组织中定义和执行数据治理策略的问题。因此，在整个组织中定义和执行数据治理策略的责任通常不是集中的，从而导致跨业务线、子单元和组织内其他部门的策略变化或管理机构。为简单起见，我们可以将这种模式称为分布式治理，其中对这些治理单元之间的区别有一个普遍的共识，但不一定是中央数据治理功能。

在此博客中，我们将探索使用

实施分布式治理模型，它为 lakehouse 中的数据、分析和 AI 提供统一的治理解决方案。 Databricks 中数据治理的演变在引入 Unity Catalog 之前，工作区的概念是单一的，每个工作区都有自己的元存储、用户管理和表 ACL 存储。这导致了工作空间之间固有的数据和治理隔离边界，以及为解决它们之间的一致 数据库 性而进行的重复工作。为了解决这个问题，一些客户求助于运行管道或代码来同步他们的元存储和 ACL，而其他客户则设置自己的自我管理元存储以跨工作区使用。但是，这些解决方案增加了更多的管理费用和维护成本，迫使就如何在整个组织中划分数据进行前期架构决策，从而创建数据孤岛。

使用 Unity Catalog 进行数据治理

为了克服这些限制，Databricks 开发了 Unity Catalog，旨在简化数据治理的实施，同时最大限度地提高协作和共享数据的能力。实现这一目标的第一步是实施一个公共名称空间，该名称空间允许访问组织内的任何数据。这种方法可能看起来像是对前面提到的分布式治理模式的挑战，但 Unity Catalog 在命名 EW 线索 空间内提供了新的隔离机制，组织传统上使用多个 Hive 元存储来解决这个问题。这些隔离机制使团队能够在最少或没有交互的情况下独立运行，还允许他们在其他场景中实现隔离，例如生产与开发环境。 Databricks 中的 Hive Metastore 与 Unity Catalog 对于 Hive，元存储是一个服务边界，这意味着拥有不同的元存储意味着不同的托管底层 Hive 服务和不同的底层数据库。

使用 Unity Catalog 的分布式数据治理和隔离环境

在此博客中，我们将探索使用

使用 Unity Catalog 进行数据治理

Related Posts

什么是交易电子邮件交易电子邮件就像网站

然后手动生成他们需要的报告

当前列表是中当前列出的标准渠道

Leave a Reply Cancel reply