BigQuery 簡介
BigQuery 是內建 AI 的全代管資料平台,內建機器學習、搜尋、地理空間分析和商業智慧等功能,有助於管理及分析資料。您可以使用 SQL 和 Python 等語言,透過 BigQuery 的無伺服器架構,解答貴機構最棘手的問題,而且完全不需要管理基礎架構。
BigQuery 提供一致的方式處理結構化和非結構化資料,並支援 Apache Iceberg、Delta 和 Hudi 等開放式資料表格式。BigQuery 串流支援持續資料擷取和分析,而 BigQuery 可擴充的分散式分析引擎可讓您在幾秒內查詢 TB 資料,在幾分鐘內查詢 PB 資料。
BigQuery 提供內建的治理功能,可讓您探索及整理資料,以及管理中繼資料和資料品質。您可以透過語意搜尋和資料沿革等功能,找出並驗證用於分析的相關資料。您可以透過存取控管機制,在貴機構內分享資料和 AI 資產。這些功能採用 Dataplex Universal Catalog,這是一項統合式智慧型治理解決方案,可管理 Google Cloud中的資料和 AI 資產。
BigQuery 的架構包含兩個部分:用於擷取、儲存及最佳化資料的儲存層,以及提供分析功能的運算層。這些運算和儲存層可獨立運作,且效率極高,這要歸功於 Google 的 petabit 等級網路,可讓這些層之間進行必要的通訊。
傳統資料庫通常必須在讀取/寫入作業和分析作業之間共用資源。這可能會導致資源衝突,並在寫入或讀取儲存空間中的資料時,導致查詢速度變慢。當資料庫管理工作 (例如指派或撤銷權限) 需要資源時,共用資源集區可能會進一步受限。BigQuery 將運算層和儲存層分開,讓每個層都能動態分配資源,且不會影響其他層的效能或可用性。
這項分離原則可讓 BigQuery 加快創新,因為儲存空間和運算資源的改善措施可獨立部署,不會造成停機或對系統效能造成負面影響。您也必須提供全代管的無伺服器資料倉儲,由 BigQuery 工程團隊負責更新和維護。這樣一來,您就不需要佈建或手動調整資源,可以專注於提供價值,而非處理傳統資料庫管理工作。
BigQuery 介面包括 Google Cloud 主控台介面和 BigQuery 指令列工具。開發人員和資料科學家可以使用用戶端程式庫,搭配熟悉的程式語言 (包括 Python、Java、JavaScript 和 Go) 以及 BigQuery 的 REST API 和 RPC API,轉換及管理資料。ODBC 和 JDBC 驅動程式可與現有應用程式互動,包括第三方工具和公用程式。
無論您是資料分析師、資料工程師、資料倉儲管理員或資料科學家,BigQuery 都能協助您載入、處理及分析資料,以利做出重要業務決策。
開始使用 BigQuery
您可以在幾分鐘內開始探索 BigQuery。善用 BigQuery 的免費方案或免費沙箱,開始載入及查詢資料。
- BigQuery 沙箱:在 BigQuery 沙箱中開始使用,無須付費且不必擔心風險。
- Google Cloud 控制台快速入門:瞭解 BigQuery 控制台的強大功能。
- 公開資料集:探索公開資料集計畫提供的大量實際資料,體驗 BigQuery 的效能。
探索 BigQuery
BigQuery 的無伺服器基礎架構可讓您專注於資料,而非資源管理。BigQuery 結合了雲端式資料倉儲和強大的分析工具。
BigQuery 儲存空間
BigQuery 會使用資料欄式儲存格式儲存資料,這種格式可針對分析查詢進行最佳化。BigQuery 會以資料表、資料列和資料欄的形式呈現資料,並提供資料庫交易語義 (ACID) 的完整支援。BigQuery 儲存空間會自動複製到多個位置,提供高可用性。
- 瞭解在資料倉儲和資料分冊中,整理 BigQuery 資源的常見模式。
- 瞭解資料集:BigQuery 的頂層資料表和檢視容器。
- 將資料載入 BigQuery:
- BigQuery 資料移轉服務可自動擷取資料。
詳情請參閱「BigQuery 儲存空間簡介」。
BigQuery 分析
描述性和規範性分析的用途包括商業智慧、專案分析、地理空間分析和機器學習。您可以查詢儲存在 BigQuery 中的資料,或使用外部資料表或聯合查詢 (包括儲存在 Google 雲端硬碟中的 Cloud Storage、Bigtable、Spanner 或 Google 試算表),對資料所在位置執行查詢。
- ANSI 標準 SQL 查詢 (SQL:2011 支援),包括支援彙整、巢狀和重複欄位、分析和匯總函式、多陳述式查詢,以及各種地理空間函式,以及地理資訊系統。
- 建立檢視畫面,分享您的分析結果。
- 商業智慧工具支援功能,包括BI Engine 與 Looker Studio、Looker、Google 試算表,以及 Tableau 和 Power BI 等第三方工具。
- BigQuery ML 提供機器學習和預測分析功能。
- BigQuery Studio 提供 Python 筆記本等功能,以及筆記本和儲存查詢的版本控制功能。這些功能可讓您更輕鬆地在 BigQuery 中完成資料分析和機器學習 (ML) 工作流程。
- 使用外部資料表和聯合查詢查詢 BigQuery 外部的資料。
詳情請參閱「BigQuery 數據分析總覽」。
BigQuery 管理
BigQuery 可集中管理資料和運算資源,而身分與存取權管理 (IAM) 則可協助您透過在整個 Google Cloud中使用的存取模式,保護這些資源。Google Cloud 安全性最佳做法提供穩固且靈活的做法,可納入傳統的邊界安全防護,或更複雜且精細的縱深防禦做法。
- 資料安全性和管理簡介可協助您瞭解資料管理,以及保護 BigQuery 資源可能需要的控管機制。
- 「工作」是指 BigQuery 代表您執行的動作,包括載入、匯出、查詢或複製資料。
- 保留項目可讓您在「以量計價」和「以運算資源為基礎」的定價模式之間切換。
詳情請參閱「BigQuery 管理簡介」。
BigQuery 資源
探索 BigQuery 資源:
- 版本資訊會提供功能、變更和淘汰功能的變更記錄。
分析和儲存空間的定價。另請參閱:BigQuery ML、BI Engine 和資料移轉服務定價。
位置:定義建立及儲存資料集的位置 (區域和多區域位置)。
Stack Overflow 提供一個活躍的社群,成員包括使用 BigQuery 的開發人員和分析師。
BigQuery 支援團隊可協助您使用 BigQuery。
Valliappa Lakshmanan 和 Jordan Tigani 合著的 Google BigQuery:完整指南:大規模資料倉儲、分析和機器學習一書,說明 BigQuery 的運作方式,並提供服務的完整逐步操作說明。
API、工具和參考資料
適用於 BigQuery 開發人員和分析師的參考資料:
- 如要進一步瞭解如何使用 GoogleSQL,請參閱「SQL 查詢語法」。
- BigQuery API 和用戶端程式庫會提供 BigQuery 功能和用途的總覽。
- BigQuery 程式碼範例提供數百個用戶端程式庫的程式碼片段,包括 C#、Go、Java、Node.js、Python 和 Ruby。或者,您也可以查看範例瀏覽器。
- DML、DDL 和使用者定義的函式 (UDF) 語法可讓您管理及轉換 BigQuery 資料。
- bq 指令列工具參考資料說明
bq
CLI 介面的語法、指令、標記和引數。 - ODBC / JDBC 整合:將 BigQuery 連結至現有的工具和基礎架構。
Gemini 版 BigQuery 功能
Gemini in BigQuery 是 Gemini for Google Cloud 產品組合的一部分,提供 AI 輔助功能,協助您處理資料。
Gemini in BigQuery 提供 AI 輔助功能,可協助您執行下列作業:
- 透過資料洞察探索並瞭解資料。資料洞察功能會使用資料表中繼資料產生的深入查詢,以自動化且直覺的方式發掘模式和執行統計分析。這項功能特別有助於解決早期資料探索的冷啟動問題。詳情請參閱「在 BigQuery 中產生資料洞察資料」。
- 透過 BigQuery 資料畫布探索、轉換、查詢及呈現資料。您可以搭配使用 BigQuery 中的 Gemini 和自然語言,尋找、彙整及查詢資料表資產、以圖表呈現結果,並在整個流程中與其他人無縫協作。詳情請參閱「使用資料畫布進行分析」。
- 取得 SQL 和 Python 資料分析輔助功能。您可以使用 BigQuery 中的 Gemini 產生或建議 SQL 或 Python 程式碼,以及說明現有的 SQL 查詢。您也可以使用自然語言查詢來開始進行資料分析。如要瞭解如何產生、完成及匯總程式碼,請參閱下列說明文件:
- 準備要分析的資料。BigQuery 的資料準備功能會提供 AI 產生的轉換建議,讓您瞭解相關資訊,以便清理資料進行分析。詳情請參閱「使用 Gemini 準備資料」。
- 使用翻譯規則自訂 SQL 翻譯。(預先發布版) 建立 Gemini 強化的翻譯規則,在使用互動式 SQL 翻譯器時自訂 SQL 翻譯。您可以使用自然語言提示說明 SQL 轉譯輸出的變更,或指定要尋找及取代的 SQL 模式。詳情請參閱「建立轉譯規則」。
如要瞭解如何在 BigQuery 中設定 Gemini,請參閱「在 BigQuery 中設定 Gemini」。
BigQuery 角色和資源
BigQuery 可滿足下列角色和職責的資料專家需求。
資料分析師
如需執行下列操作,請參閱工作指南:
- 使用SQL 查詢語法,透過互動式或批次查詢查詢 BigQuery 資料
- 參照 SQL 函式、運算子和條件式運算式來查詢資料
使用工具分析及以視覺化方式呈現 BigQuery 資料,包括 Looker、Looker Studio 和 Google 試算表。
使用地理空間分析,透過 BigQuery 的地理資訊系統分析及視覺化地理空間資料
如要在 Google Cloud 控制台中直接瞭解 BigQuery 的資料分析功能,請按一下「開始導覽」。
資料管理員
如需執行下列操作,請參閱工作指南:
- 使用預留項目管理成本,以平衡按需和以容量為準的定價。
- 瞭解資料安全性和治理,以便依資料集、資料表、欄、資料列或檢視畫面來保護資料
- 使用資料表快照備份資料,以便保留特定時間點的資料表內容。
- 查看 BigQuery INFORMATION_SCHEMA,瞭解資料集、工作、存取權控管、保留空間、資料表等的中繼資料。
- 使用工作讓 BigQuery 代表您執行載入、匯出、查詢或複製資料等動作。
- 監控記錄和資源,瞭解 BigQuery 和工作負載。
詳情請參閱「BigQuery 管理簡介」。
如要在 Google Cloud 控制台中直接參閱 BigQuery 資料管理功能的導覽,請按一下「參閱導覽」。
資料科學家
如要使用 BigQuery ML 的機器學習功能執行下列作業,請參考以下指引:
- 瞭解機器學習模型的端對端使用者歷程
- 管理 BigQuery ML 的存取權控管
- 建立及訓練 BigQuery ML 模型,包括:
- 線性迴歸預測
- 二元邏輯和多重類別邏輯迴歸分類
- K-means 叢集:適合資料區隔用途
- 使用 Arima+ 模型進行時間序列預測
資料開發人員
如需執行下列操作,請參閱工作指南:
BigQuery 影片教學課程
以下一系列教學影片可協助您開始使用 BigQuery:
標題 |
說明 |
---|---|
如何開始使用 BigQuery (17:18) | 概略說明 BigQuery 的用途和使用方式。主題包括:ETL 管道、價格和最佳化、BigQuery ML 和 BI Engine,最後在 Google Cloud 控制台中示範 BigQuery。 |
什麼是 BigQuery?(4:39) | 概略說明 BigQuery 的設計方式,以及如何擷取及儲存大量資料,以便分析師和開發人員使用 |
使用 BigQuery 沙箱 (3:05) | 如何設定 BigQuery 沙箱,讓您不必使用信用卡就能執行查詢 |
提問、執行查詢 (5:11) | 如何在 BigQuery UI 中編寫及執行 SQL 查詢,以及選擇中獎球衣號碼 |
將資料載入 BigQuery (5:31) | 如何即時擷取及分析資料,或一次性批次分析資料 - 以及貓咪與狗狗 |
以視覺化方式呈現查詢結果 (5:38) | 資料視覺化功能如何協助您更輕鬆地瞭解及內化複雜的資料集 |
使用 IAM 管理存取權 (5:23) | 如何透過 IAM 權限和存取權控管功能,允許其他使用者在 BigQuery 中查詢您的資料集 |
儲存及共用查詢 (6:17) | 如何輕鬆在 BigQuery 中儲存及分享查詢 |
使用授權檢視畫面保護機密資料 (7:12) | 如何設定自訂存取權控制項,輕鬆與其他使用者共用資料集 |
使用 BigQuery 查詢外部資料 (5:49) | 如何在 BigQuery 中設定外部資料來源,以及查詢 Cloud Storage、Cloud SQL、Google 雲端硬碟等來源的資料 |
什麼是使用者定義函式?(4:59) | 如何建立使用者定義的函式 (UDF),以便在 BigQuery 中分析資料集 |
後續步驟
- 如需 BigQuery 儲存空間的總覽,請參閱「BigQuery 儲存空間總覽」。
- 如需 BigQuery 查詢的總覽,請參閱「BigQuery 數據分析總覽」。
- 如需 BigQuery 管理的總覽,請參閱 BigQuery 管理簡介。
- 如需 BigQuery 安全性總覽,請參閱「資料安全性和治理總覽」。