最佳实践-HENGSHI SENSE 可视化创作中如何引入数据集市的成果

HENGSHI SENSE 提供了 中心化的数据集市管理 ,即数据集市的功能:

数据集市,支持层级结构的数据集市建立,按用户,用户组,组织架构授权,将数据分配到合适的人。支持统一的计算字段,计算指标管理,在企业内部实现关键 KPI 的统计逻辑,统计算法在部门之间保持统一口径,告别数据不一致。完善的数据权限设定,支持数据连接权限,行权限的多种权限模式,满足不同的权限管理场景。

本章节以 coffee 分析 数据为例,详细描述提供了数据集市功能后,用户在数据集市中建立了数据集后的后续使用功能。

在使用本章节的文档之前,请先明确不同用户角色在数据集市可见性上的限制:

用户角色数据集市是否可见数据集市中创建文件夹数据集市文件夹中创建数据集
系统管理不可见----------
数据管理可见无法创建、无提示-----
数据分析不可见----------
数据查看不可见----------
系统管理+数据管理可见可创建可创建任意数据集
系统管理+数据分析不可见----------
系统管理+数据查看不可见----------
数据管理+数据分析可见无法创建、无提示-----
数据管理+数据查看可见无法创建、无提示-----
数据分析+数据查看不可见----------
系统管理+数据管理+数据分析可见可创建可建任意数据集
系统管理+数据管理+数据查看可见可创建可建任意数据集
系统管理+数据分析+数据查看不可见----------
数据管理+数据分析+数据查看可见无法创建、无提示-----
系统管理+数据管理+数据分析+数据查看可见可创建可建任意数据集

上述表格记录了任意用户对数据集市的可见性,以及在数据集市中可以进行的操作。

拥有 系统管理+数据管理 的角色,可以在数据集市中创建文件夹、数据包;拥有 数据管理 角色的用户,无法在数据集市中新建文件夹、数据包,但是可以在获得授权的文件夹中创建数据集。

以下,以 coffee 分析 为例,简单介绍从应用集市中完成数据处理,至在数据可视化中使用该数据包中数据完成图表创建的整个过程。

  1. 新建文件夹/数据包

    拥有 系统管理+数据管理 的角色在数据集市中新建文件夹、数据包

  2. 设置该文件夹或数据包的权限管理

    完成上述步骤后,在应用集市列表页封面上的三点菜单中,可以设置该文件夹或数据包的权限管理:

    点击 权限管理 ,在弹出的窗口中设置该数据包的管理、查看权限:

    管理者:与文件夹的创建着拥有相同的权限,可以修改文件夹的访问权限、查看、使用、编辑文件夹内的数据包以及数据包内的数据集;

    编辑者:只能查看、使用、编辑文件夹内的数据包以及数据包内的数据集;

    查看着:只能查看、使用文件夹内的数据集以及数据包内的数据集。

    按照各公司不同部门间的不同职责设置具体的权限。

  3. 新建文件夹或数据包

    在文件夹中,可以继续新建文件夹或者新建数据包,拥有 管理者 、编辑者 权限的用户,都可以在该文件夹中创建文件夹、数据包

  4. 设置数据包中数据集的据权限

    在数据包的 设置 页面,可以设置用户查看、使用该数据包时使用什么账户的权限查看数据集数据。拥有该数据包所在的文件夹的 管理者编辑者 权限的用户,都可以在数据包中设置数据权限。

    • 应用作者

      访问应用的人看到的应用作者的数据,可设置权限控制。

      不同用户在数据包中创建数据集时,均使用应用作者在数据连接上的数据权限,与自己在数据连接上的权限无关。

    • 数据集作者

      访问应用的人看到的是数据集作者的数据,可设置权限控制。

      不同用户在数据包中创建数据时,均使用自己在数据连接上的数据权限,不同用户在查看、使用数据集时,按照数据集作者的权限获取数据。

    • 使用者

      访问应用的人看到的是自己的数据。

      不同用户在数据包中创建数据集、查看、编辑数据集时,均使用自己在数据连接上的数据权限。

    我们推荐用户在设置数据包的数据权限时,使用“应用作者*的数据权限。避免因为每个人的权限不同而导致的后续的数据集复制、多表联合等结果数据集无数据的情况。

    数据权限使用”数据就作者“、”使用者“时,在使用的过程中,容易碰到疑惑:

    A 用户创建数据集 A、B 用户创建数据集 B;

    • C 用户在做数据处理时,给 A、B 两个数据集创建了副本:

      副本数据集内无数据:C 用户没有 A、B 数据集使用的数据连接的权限;

      副本数据集内数据与 A、B 数据集数据完全不一致:C 用户在数据连接上的权限与 A、B 用户不一致;

    • D 用户做数据处理时,A、B 两个数据集做多表联合生成了 Fusion 数据集

      Fusion 数据集无数据:D 用户对 A、B 数据集所在的数据连接中的表的权限不一致导致关联后,数据集无数据;

      Fusion 数据集内数据与 A、B 数据集无任何重合:D 用户对 A、B 数据集所在的数据连接中的表的权限不一致导致关联后,数据集内数据与 A、B 数据集数据完全不重合;

在完成上述1~4的工作后,数据集市中文件夹的树形结构、文件夹/数据包的权限管理、数据包中数据集的数据权限已完成设置。即指定那些用户可以访问该文件夹/数据包、可以对文件夹/数据包执行什么操作、使用数据包中的那些数据

接下来则需要在数据包中完成数据处理即可

  1. 新建数据集

首先,在数据集市中需要创建数据集:

  1. 数据处理

    • 数据集的数据处理

      • 多表联合

        SENSE 系统提供了强大的 FUSION 功能,通过数据集之间特定字段的意义对应关系。可将多个数据集通过多表联合处理后生成一张宽表。

    • 数据聚合

      在已创建数据集的基础上,通过数据聚合来创建的数据集,从原本的数据集中,只选择关注的字段生成新的数据集,适合对列较多的数据集进行“数据分析”。

      • 数据合并

        当需要将多个数据集的数据汇总到一个数据集中,可以使用数据功能。数据合并生成新的数据集。

      • 数据追加

        当需要将多个数据集的数据汇总到一个数据集中,可以使用数据功能。数据追加直接改变基础数据集,不生成新的数据集。

      • 数据模型

        数据模型,即关联分析模型,与为每一种关联分析建立一个数据集的方式相比,它能够提供给数据分析极大的自由度和敏捷性:随时编辑模型中的关联关系,新的模型关系能够立即影响分析结果。详解见数据模型

    • 数据集内的数据处理

      • 字段管理

        字段管理为数据预处理的一大部分,包括:修改字段别名、批量修改字段名、修改字段类型及字段格式、设置是否显示等。

      • 添加新列

        添加新列为处理数据集中的原有字段,最终得到新的字段。

  2. 指标管理体系

    完成数据处理后,HENGSHI SENSE 3.0 支持统一的计算字段,计算指标管理,及指标管理。指标管理就是在被用于数据可视化的数据集中定义了聚合指标后,所有用户使用该数据集做可视化时,都统一使用一套指标,避免概念不一致。

    例如:指标 销售额 ,在指标管理中通过公式 sum({销售业绩}*{销售数量}),那大家对“销售额”这个指标的概念就是一致的,避免相同名次的不同计算方式导致的数据不一致问题。

    故指标管理在企业内部实现关键 KPI 的统计逻辑,统计算法在部门之间保持统一口径,告别数据不一致.

至此,数据集市中的操作全部完成,数据分析用户在 应用创作 区中可使用该数据集市的数据集做数据可视化

上述权限管理中在管理者、编辑者、查看者,任意模块下添加了的用户,在创建图表时,点击新建后,在选择图表类型左侧点击展开框,展开数据源的选择区域,可以看到该文件夹。

<think>我们正在讨论如何集成SENSE。根据引用[3],HENGSHISENSE4.0是一个数据分析平台,它提供了数据转换节点和可视化数据处理能力。但是,用户的问题比较简短,我们需要进一步澄清。用户说“我想集成SENSE”,但没有具体说明集成到何种系统或环境中。通常,集成一个数据分析平台可能涉及以下几个方面:1.数据源集成:如何将SENSE连接到现有的数据源(如数据库、数据仓库、文件存储等)。2.应用程序集成:如何将SENSE的分析结果嵌入到其他应用程序中(如通过API、iframe或导出数据)。3.身份认证集成:如何将SENSE与现有的单点登录(SSO)或用户管理系统集成。4.工作流集成:如何将SENSE数据处理流程与现有工作流(如ETL流程、调度任务等)结合。由于引用[3]中提到了SENSE4.0的敏捷分析管道,特别是数据转换节点(ELT中的T),我们可以推测集成可能涉及数据流程的整合。但是,由于用户没有提供更多细节,我将给出一般性的集成步骤和建议:###1.**确定集成目标**-明确需要集成的具体功能:是使用SENSE进行数据转换,还是嵌入其分析结果?-确定集成环境:是在企业内部系统,还是云环境?###2.**查阅官方文档**-访问HENGSHISENSE的官方文档,了解其API、SDK或插件机制。-引用[3]提到SENSE4.0增强了数据转换节点和可视化数据处理,因此文档中应该会有相应的集成指南。###3.**数据源连接**-SENSE可能需要连接数据源。通常,这类平台支持多种数据源,如:-关系型数据库(MySQL,PostgreSQL,SQLServer等)-数据存储(Hive,HDFS,Spark等)-云存储(AWSS3,AzureBlob等)-配置数据源连接:在SENSE的管理界面中添加数据源连接信息。###4.**API集成**-如果需要在其他系统中调用SENSE的功能或获取数据,查看SENSE是否提供RESTAPI。-例如,通过API获取分析结果,或将数据推送到SENSE进行处理。###5.**单点登录(SSO)集成**-如果企业已有身份认证系统(如LDAP,ActiveDirectory,OAuth2等),可以配置SENSE使用这些系统进行用户认证。###6.**工作流集成**-如果希望将SENSE数据处理流程嵌入到现有工作流中,可以:-使用SENSE的调度功能触发任务。-通过外部调度工具(如Airflow)调用SENSE的API来启动任务。###7.**自定义扩展**-如果需要更深的集成,例如自定义数据处理节点,查看SENSE是否支持插件开发。###示例:通过API调用SENSE假设SENSE提供了RESTAPI,我们可以通过编程方式与其交互。以下是一个伪代码示例:```pythonimportrequests#认证获取令牌auth_endpoint="https://sense.example.com/api/auth"credentials={"username":"your_username","password":"your_password"}auth_response=requests.post(auth_endpoint,json=credentials)token=auth_response.json().get("token")#调用数据处理流程process_endpoint="https://sense.example.com/api/process"headers={"Authorization":f"Bearer{token}"}data={"process_id":"your_process_id","parameters":{...}}response=requests.post(process_endpoint,json=data,headers=headers)#处理响应ifresponse.status_code==200:print("流程启动成功")else:print("流程启动失败")```###注意事项-安全性:在集成时注意保护凭证和敏感数据-错误处理:考虑网络波动和系统错误,实现重试和日志记录。-性能:如果处理大量数据,注意API调用的性能和异步处理。由于具体集成细节依赖于SENSE平台的具体实现,强烈建议参考其官方文档或联系技术支持。如果用户能提供更多关于集成场景的信息(如集成到哪个系统,具体要做什么),我们可以给出更具体的建议。§§相关问题§§1.SENSE支持哪些数据源?2.如何配置SENSE的单点登录(SSO)?3.SENSE提供哪些API接口?4.如何将SENSE数据处理流程与Airflow集成?5.SENSE是否支持自定义插件开发?</think>### 如何集成 HENGSHI SENSE 4.0 根据您提到的 SENSE 平台(引用[3]),以下是集成 HENGSHI SENSE 4.0 的关键步骤和技术要点: #### 1. **环境准备** - **系统要求**:确认服务器/云环境满足 SENSE 4.0 的运行要求(CPU、内存、存储) - **依赖组件**:安装支持的数据库(如 PostgreSQL/MySQL)和运行时环境(Java/Python) - **权限配置**:准备具有足够权限的服务账户用于系统间通信 #### 2. **数据接入集成** ```python # 示例:通过API推送数据SENSE import requests sense_api = "https://<your-sense-domain>/api/v1/datastream" payload = { "dataset": "sales_2023", "records": [ {"product": "A", "revenue": 2500, "region": "East"}, {"product": "B", "revenue": 1800, "region": "West"} ] } headers = {"Authorization": "Bearer <api-token>", "Content-Type": "application/json"} response = requests.post(sense_api, json=payload, headers=headers) print(f"集成状态: {response.status_code}, 响应: {response.json()}") ``` - 支持的数据源类型: - 数据库直连(JDBC/ODBC) - 文件导入(CSV/Excel/Parquet) - 实时流(Kafka/MQTT) - API 接口(REST/GraphQL) #### 3. **分析管道集成**(核心特性 [^3]) - **可视化配置**: ```mermaid graph LR A[原始数据] --> B{转换节点} B --> C[数据清洗] C --> D[特征工程] D --> E[AI模型] E --> F[可视化报表] ``` - 关键操作: - 通过拖拽界面创建 ELT 管道 - 配置转换规则(如:`$$ \text{新字段} = \frac{\text{收入}}{\text{数量}} \times 100 $$`) - 设置调度策略(定时/事件触发) #### 4. **结果输出集成** - **嵌入分析看板**: ```html <!-- 在Web应用中嵌入SENSE仪表盘 --> <iframe src="https://<sense-domain>/dashboards/sales_performance" width="100%" height="800px" frameborder="0"> </iframe> ``` - **API 提取结果**: ```bash GET /api/v1/analysis/sales_trend?start=2023-01-01&end=2023-12-31 ``` - 支持导出格式:JSON、CSV、Excel、PDF #### 5. **身份集成** - **单点登录(SSO)配置**: - 支持协议:SAML 2.0/OIDC - 在 `security_config.yaml` 中添加身份提供商元数据: ```yaml identity_providers: - name: "Corporate_AD" type: "saml" metadata_url: "https://idp.example.com/metadata.xml" attribute_mapping: email: "urn:oid:0.9.2342.19200300.100.1.3" group: "urn:oid:1.3.6.1.4.1.5923.1.5.1.1" ``` #### 6. **扩展开发** - **自定义插件**(Python SDK): ```python from sense_sdk import TransformPlugin class DiscountCalculator(TransformPlugin): def process(self, dataframe): import pandas as pd # 计算折扣率 $$ \text{折扣率} = (1 - \frac{\text{售价}}{\text{标价}}) \times 100 $$ dataframe["discount_rate"] = (1 - dataframe['sale_price']/dataframe['list_price']) * 100 return dataframe ``` ### 最佳实践 1. **增量集成**:从只读数据源开始,逐步扩展到写操作 2. **监控配置**:启用 API 调用日志和管道执行审计 3. **性能优化**: - 对大表启用列式存储 - 对高频查询使用物化视图 $$ \text{物化视图} = f(\text{基表}, \text{刷新策略}) $$ 4. **安全加固**: - 数据传输使用 TLS 1.3 - 敏感字段启用动态脱敏 > **故障排查提示**:若遇到数据同步问题,检查`/var/log/sense/connector.log`中的时间戳异常 $$ t_{error} = t_{system} - t_{source} $$
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值