Visão geral da conectividade gerenciada

Neste documento, apresentamos os pipelines de conectividade gerenciada usados para importar metadados de fontes terceirizadas para o Dataplex Universal Catalog.

Com a conectividade gerenciada, é possível importar metadados para o Dataplex Universal Catalog em grande escala. Um pipeline de conectividade gerenciada extrai metadados de fontes de dados e os importa para o Dataplex Universal Catalog. Se necessário, o pipeline também cria grupos de entrada do Dataplex Universal Catalog no projeto doGoogle Cloud . É possível orquestrar os fluxos de trabalho e agendar os jobs de importação de acordo com os requisitos.

Você cria conectores personalizados para extrair metadados de fontes de terceiros. Por exemplo, é possível criar um conector para extrair metadados de fontes como MySQL, SQL Server, Oracle, Snowflake, Databricks e outras. Confira as etapas de criação de conectores personalizados em Desenvolver um conector personalizado para importação de metadados. Outra opção é usar os conectores personalizados criados pela comunidade para várias fontes de terceiros.

Para saber como executar um pipeline de conectividade gerenciada, consulte Importar metadados de uma fonte personalizada usando o Workflows.

Como funciona a conectividade gerenciada

O diagrama a seguir mostra um pipeline de conectividade gerenciada.

Um pipeline de conectividade gerenciada.

De modo geral, a conectividade gerenciada funciona assim:

  1. Você cria um conector para a fonte de dados.

    O conector precisa ser uma imagem do Artifact Registry que pode ser executada no Dataproc sem servidor.

  2. Você executa o pipeline de conectividade gerenciada no Workflows, uma plataforma de orquestração.

  3. O pipeline de conectividade gerenciada faz o seguinte:

    1. Cria um grupo de entrada de destino com base na configuração informada, se ele ainda não existir.
    2. Executa o conector. O conector extrai os metadados da fonte de dados e gera um arquivo para importação no Dataplex Universal Catalog.
    3. Monitora o progresso da extração de metadados.
    4. Executa um job para importar os metadados para o Dataplex Universal Catalog.
    5. Monitora o progresso do job de importação de metadados.

O pipeline de conectividade gerenciada usa o Dataproc sem servidor para executar o conector. Também usa os métodos da API de importação de metadados do Dataplex Universal Catalog para executar o job de importação.

Os metadados importados consistem em entradas do Dataplex Universal Catalog e os respectivos aspectos. Saiba mais sobre os metadados do Dataplex Universal Catalog em Sobre o gerenciamento do catálogo de dados no Dataplex Universal Catalog.

Conectores personalizados da comunidade

Uma opção para importar metadados de fontes de terceiros é usar os conectores personalizados da comunidade. O arquivo README de cada conector contém as instruções de configuração e mais informações sobre ele.

Fonte de dados Repositório
MySQL mysql-connector
Oracle oracle-connector
PostgreSQL postgresql-connector
Snowflake snowflake-connector
SQL Server sql-server-connector

A seguir