数据存储与分析全解析:从数据源到数据湖
立即解锁
发布时间: 2025-08-21 01:26:38 阅读量: 2 订阅数: 18 


Azure数据工程与处理实战指南
# 数据存储与分析全解析:从数据源到数据湖
## 1. 数据相关基础概念与问题回顾
### 1.1 常见问题解答
以下为一些数据相关的常见问题及答案:
|问题|选项|答案|
| ---- | ---- | ---- |
|常见的数据文件格式有哪些?|A. JSON<br>B. ORC<br>C. PHP<br>D. XML|A、B、D|
|常见的数据结构有哪些?|A. Structured<br>B. Nonstructured<br>C. Relational<br>D. Organizational|A、B、C|
|哪种分布式表会将数据复制到集群的所有节点?|A. Round - robin<br>B. Hash<br>C. Replicated<br>D. All|C|
|应该使用哪种表来存储不经常更改的数据?|A. Dimension<br>B. External<br>C. Fact<br>D. Sink|A|
|PolyBase 是什么?|A. 用于构建 DBMS 的 API<br>B. 用于数据类型转换的工具<br>C. 绑定数据源的粘合剂<br>D. 迁移实用程序|C|
|以下哪个是其他表的数据子集?|A. View<br>B. Index<br>C. Schema<br>D. Partition|A|
|哪些是有效的 DataFrame、PySpark 语法?(多选)|A. df.show(5, truncate=False, vertical=True)<br>B. df.select('*')<br>C. df.groupBy('frequency_id').max('value').show()<br>D. df.createOrReplaceTemporaryView("Brainwaves")|A、B、C、D|
|哪种 SQL 语法属于聚合函数?|A. AVG<br>B. MIN<br>C. SUM<br>D. MAX|A、B、C、D|
|可以使用哪种 SQL 语法处理 JSON 文件?|A. OPENROWSET<br>B. PARSEJSON<br>C. CLOSEJSON<br>D. OPENJSON|D|
|以下哪个不是大数据阶段?|A. Digest<br>B. Store<br>C. Serve<br>D. Transform|A|
### 1.2 数据来源与摄取机制
数据是数据分析解决方案的基础,它可以通过推送至摄取端点,也可以通过自动化的定期检索过程拉取。数据的来源广泛,包括设备、应用程序日志、数据文件或本地数据存储。不同的数据生产者和数据存储场景通常需要不同的摄取机制。
数据的状态(流式传输、不定期或定期摄取)和来源决定了用于摄取数据到 Azure 平台的产品。以下是不同摄取类型对应的处理和摄取服务:
|摄取类型|处理和摄取服务|
| ---- | ---- |
|临时|Azure Storage Explorer、AzCopy、Azure PowerShell、Azure CLI、Azure Portal|
|Hadoop 集群|Azure Synapse Analytics、Azure Data Factory、Azure Data Box、Apache DistCp|
|HDInsight 集群|Azure Synapse Analytics、Azure Data Factory、AzCopy、Apache DistCp|
|大型数据集|Azure ExpressRoute|
|关系型数据|Azure Synapse Analytics、Azure Data Factory|
|流式数据|Azure Stream Analytics、Apache Kafka、HDInsight Storm、Azure Event Hubs、Azure IoT Hub|
|Web 服务器日志|Azure Data Factory、Azure SDKs、Azure PowerShell、Azure CLI|
## 2. 不同场景下的数据来源及应用
### 2.1 销售预测
若要预测公司当前年度和下一季度的年度销售额,可参考过去几年的销售趋势和季度销售对比数据。例如:
| YEAR | SALES Q1 | SALES Q2 | SALES Q3 | SALES Q4 |
| ---- | ---- | ---- | ---- | ---- |
| 2020 | 1000 | 1100 | 1650 | 2900 |
| 2021 | 3050 | 3355 | 5000 | 8750 |
| 2022 | 9200 |?? | | |
2020 年总销售额为 6650,2021 年为 20155,年增长率超过 300%。可通过将 2021 年总销售额乘以 300% 来预测预期总销售额。同时,Q2 销售额通常比 Q1 高 10%,因此可以预测 2022 年 Q2 的销售目标为 10120。随着数据分析的深入,可以应用算法评估影响销售预测的因素,使预测更准确可靠。数据可以存储在关系型数据库中,通过简单查询获取,也可以作为 CSV 文件摄取到管道中。
### 2.2 股票交易
投资者常利用历史股价预测未来股价。例如微软的股票历史数据:
```plaintext
Date,Open,High,Low,Close,Adj Close,Volume
2021 - 12 - 21,323.290009,327.730011,319.799988,327.290009,327.290009,24740600
2021 - 12 - 22,328.299988,333.609985,325.750000,333.200012,333.200012,24831500
2021 - 12 - 23,332.750000,336.390015,332.730011,334.690002,334.690002,19617800
2021 - 12 - 27,335.459991,342.480011,335.429993,342.450012,342.450012,19947000
2021 - 12 - 28,343.149994,343.809998,340.320007,341.250000,341.250000,15661500
2021 - 12 - 29,341.299988,344.299988,339.679993,341.950012,341.950012,15042000
2021 - 12 - 30,341.910004,343.130005,338.820007,339.320007,339.320007,15994500
```
通过比较每日或季度平均收盘价来判断价格趋势,若价格上涨则考虑买入。但仅依靠数据可能无法获得准确洞察,还需结合个人经验和其他数据源。
### 2.3 社交媒体
数据也可以来自社交媒体的评论或评级。Azure 认知服务中的语言理解智能服务(LUIS)可以帮助理解评论的含义。例如,当评论包含“bad”“angry”等词时,LUIS 返回“negative”意图;包含“happy”“love”等词时,返回“
0
0
复制全文