数据管理与分析:Purview的全方位指南
立即解锁
发布时间: 2025-08-24 02:11:01 阅读量: 2 订阅数: 4 

### 数据管理与分析:Purview的全方位指南
在数据管理和分析的领域中,有效连接、扫描、搜索和分类数据是至关重要的。Purview作为一款强大的工具,提供了一系列功能来帮助我们完成这些任务。下面将详细介绍如何使用Purview进行数据连接、扫描、搜索、分类以及与Azure服务的集成。
#### 1. 连接到你的数据
当服务部署完成后,在概述面板上会看到以下几个选项:
- **打开Purview Studio**:通过此选项可进入Purview Studio。
- **管理用户**:会带你进入服务的访问控制(IAM)部分,在这里可以添加用户和组,并控制他们对服务的基于角色的访问控制(RBAC)。
连接Data Lake账户的步骤如下:
1. 点击“注册源”磁贴,进入带有空白画布的源地图视图。
2. 由于源按集合分组,点击“+新建集合”创建一个集合,例如命名为“DataLakes”,作为顶级父集合无需添加其他父集合,点击“创建”。
3. 点击“注册”开始注册数据湖,在弹出的注册源选择器中,有多种源连接器可供选择,如Azure存储账户、Data Lake存储、Amazon S3存储桶等,还有各种数据库以及Power BI等选项。选择Azure Data Lake Storage Gen2,然后点击“继续”。
4. 在右侧弹出的“注册源(Data Lake Storage Gen2)”面板中,填写或选择必要信息,如名称、Azure订阅、存储账户名称等,最后在“选择集合”字段中选择之前创建的集合,数据湖将作为节点显示在其下方。
在开始扫描之前,还需要为Purview托管标识在Data Lake账户中设置访问权限,将Purview托管标识添加到Data Lake中的Blob存储数据读取器RBAC角色。
#### 2. 扫描数据
设置第一次扫描的步骤如下:
1. 在Data Lake节点中点击“新扫描(蓝色吃豆人图标)”符号,在右侧会弹出对话框。
2. 填写扫描名称,其余设置保持默认。若需要访问本地源,可以选择其他集成运行时。
3. 还可以设置除Purview托管标识之外的其他凭据,以适应源的个别安全设置。
4. 连接测试成功后,点击“继续”。
5. 第二步需要确定扫描范围,在Data Lake账户的树视图中,可以单独勾选要扫描或避免扫描的文件夹,也可以保持默认设置,然后点击“继续”。
6. 在“扫描规则集”面板中,可以选择现有的扫描规则集,也可以直接创建新的规则集。默认选择的AdlsGen2扫描规则集包含约100多种内置分类。
7. 下一步选择扫描触发器,这里选择“一次”,然后点击“继续”。
8. 最后会显示“查看扫描”界面,有机会纠正设置。点击“保存并运行”,扫描将开始,返回数据地图视图,扫描大约需要10 - 15分钟完成。可以点击Data Lake节点中的“查看详细信息”链接跟踪扫描状态,扫描过程中不同磁贴会显示已扫描和分类的资产数量,可随时刷新视图查看进度。
#### 3. 搜索你的目录
现在可以开始发现存储在Data Lake中的数据,有以下几种搜索方式:
- **使用Purview Studio顶部功能区的搜索字段**:输入搜索关键词或其部分内容,Purview会立即在搜索框下方显示快速结果。按下回车键或点击快速结果中的“查看搜索结果”链接,将进入搜索结果页面。在该页面左侧有过滤器窗格,可以通过勾选显示的条目来缩小搜索结果范围,可用的过滤器由搜索结果中的实体决定,可能包括资产类型、分类、联系人、敏感度标签、术语表术语等。
#### 4. 浏览资产
通过主页上的“浏览资产”磁贴可以查找资产,尤其是在想要获得初步概览时。注册的数据源会以磁贴形式显示。需要注意的是,如果看到自己未创建的Azure存储账户,不必困惑,它是随着Data Lake源创建的,可忽略。选择之前在连接数据部分注册的Data Lake账户,会进入另一个视图,其中Data Lake账户名称显示为链接,点击该链接可进入类似浏览器的Data Lake概述界面,像浏览存储资源管理器一样浏览其中的文件夹和文件,找到所需资产后点击可查看其详细信息。
#### 5. 检查资产
找到所需资产后,其详细信息会显示在以下不同选项卡中:
|选项卡|内容|
| ---- | ---- |
|概述|提供描述、资产范围分类、架构分类、完全限定名称、层次结构以及相关术语表术语的快速概览。|
|属性|包含资产的所有描述性属性,如内容类型、是否为文件标志、文件路径等。|
|架构|列出工件的架构,包括列名、分类、数据类型、敏感度标签、术语表术语以及特定列的描述。|
|谱系|如果连接了Data Factory/Synapse管道和Power BI账户,这是一个非常有趣且信息丰富的视图,可显示资产、管道和Power BI数据集之间的完整路径和关系。|
|联系人|可在此处指定数据集的专家和所有者,这些联系人来自Azure Active Directory。|
|相关|显示Purview目录中与显示资产可能存在某种关系的所有资产,可能是在同一文件夹中找到的,或者是同
0
0
复制全文
相关推荐








