本文概要說明可用的代管連線管道,您可藉此將第三方來源的中繼資料匯入 Dataplex Universal Catalog。
透過受管理連線,您可以大規模將中繼資料匯入 Dataplex Universal Catalog。受管理連線管道會從資料來源擷取中繼資料,然後將中繼資料匯入 Dataplex Universal Catalog。如有需要,管道也會在您的Google Cloud 專案中建立 Dataplex Universal Catalog 項目群組。您可以根據需求編排工作流程,並排定匯入工作。
您可自行建構自訂連接器,從第三方來源擷取中繼資料。舉例來說,您可以建立連接器,從 MySQL、SQL Server、Oracle、Snowflake、Databricks 等來源擷取中繼資料。如需建構自訂連接器範例的操作步驟,請參閱「開發自訂連接器以匯入中繼資料」。您也可以使用社群提供的自訂連接器,這些連接器適用於各種第三方來源。
如要瞭解如何執行受管理連線管道,請參閱使用工作流程從自訂來源匯入中繼資料。
受管理連線的運作方式
下圖顯示代管連線管道。
大致來說,受管理連線的運作方式如下:
您 為資料來源建立連接器。
連接器必須是可在 Dataproc 無伺服器上執行的 Artifact Registry 映像檔。
您可以在自動化調度管理平台 Workflows 中執行代管的連線管道。
受管理連線管道會執行下列動作:
- 如果項目群組尚不存在,系統會根據您的設定建立目標項目群組。
- 執行連接器。連接器會從資料來源擷取中繼資料,並產生可匯入 Dataplex Universal Catalog 的中繼資料匯入檔案。
- 監控中繼資料擷取進度。
- 執行中繼資料匯入工作,將中繼資料匯入 Dataplex Universal Catalog。
- 監控中繼資料匯入工作的進度。
代管連線管道會使用 Dataproc Serverless 執行連接器,並使用 Dataplex Universal Catalog 中繼資料匯入 API 方法執行中繼資料匯入工作。
匯入的中繼資料包含 Dataplex Universal Catalog 項目及其切面。如要進一步瞭解 Dataplex Universal Catalog 中繼資料,請參閱「關於 Dataplex Universal Catalog 中的中繼資料管理」。
社群提供的自訂連接器
如要從第三方來源匯入中繼資料,可以使用社群提供的自訂連接器。如需設定說明和連接器相關資訊,請參閱各連接器的 README 檔案。
資料來源 | 存放區 |
---|---|
MySQL | mysql-connector |
Oracle | oracle-connector |
PostgreSQL | postgresql-connector |
Snowflake | snowflake-connector |
SQL Server | sql-server-connector |