物联网分析的数据科学与数据组织策略
立即解锁
发布时间: 2025-08-30 01:01:00 阅读量: 8 订阅数: 20 AIGC 

# 物联网分析的数据科学与数据组织策略
## 1. 在 AWS 上设置 TensorFlow
2015 年 11 月,谷歌发布了一个名为 TensorFlow 的深度学习开源软件平台。TensorFlow 拥有灵活的架构,它能够将计算分布到多个 CPU 上,也可以使用图形处理单元(GPU)。GPU 有数千个计算核心,能促进大规模并行处理,非常契合深度学习训练的需求。与 TensorFlow 交互最常见的方式是使用 Python 代码。
Python 的 keras 包可作为 TensorFlow 的接口层,让编程变得更简单。建议使用 keras 而非直接对 TensorFlow 进行编程。
若想在 GPU 单元上轻松设置带有 keras 接口的 TensorFlow 以加速训练时间,AWS 提供的 AMI 实例已包含了所有这些功能及更多内容。可以轻松地将其部署到支持 GPU 的 EC2 实例上(务必先查看价格,因为 GPU 的需求很高)。这些被称为 AWS 深度学习 AMI,相关的入门信息可在 [https://aws.amazon.com/amazon - ai/amis/](https://aws.amazon.com/amazon - ai/amis/) 找到。
## 2. 数据组织策略的背景
在工作场景中,你晋升到了原老板的职位,带领着一个小型数据科学家团队。老板注意到团队交付分析结果的速度和几个月前一样,询问是否有办法让团队更快地迭代。你意识到大部分分析时间都花在了数据收集、清理和处理上,可能占比达 80% 甚至更高。于是你打算和数据库专家一起集思广益,寻找减少这部分时间的方法。
## 3. 数据组织的关键概念与目标
数据组织的核心目标是让数据科学家更轻松地提取数据价值。这里将介绍链接分析数据集(LAD)的概念,它能显著提升机器学习(ML)模型开发的速度。同时,还会探讨如何防止数据湖变成数据沼泽,以及为物联网数据制定数据保留策略,在保留分析价值的同时降低维护大量历史数据的成本。
### 3.1 链接分析数据集(LAD)
LAD 结合了分析数据集和关系数据库的成熟理念,能加速数据科学家进行分析的进程。虽然相关的一般概念并不新鲜,但目前似乎没有一个通用的名称来称呼这种组合,所以引入了 LAD 这个术语。
#### 3.1.1 分析数据集
创建分析数据集的概念简单,但执行起来有难度。分析数据集会将一系列有用的特征组合到每个记录实例中,目的是为了数据理解和机器学习。目标是将物联网分析师针对特定主题所需的至少 80% 的信息组合到一个表中,并且该表会持续自动生成。
分析数据集是半非规范化的表,不仅包含字段的 ID 代码,还包含其描述。也可以根据值范围创建类别,并将其作为单独的特征。这样做的目的是让分析师的工作更轻松,而不是像纯粹的关系数据库设计那样专注于高效存储值。
构建分析数据集的过程如下:
1. **确定数据分辨率**:确定所需的聚合级别,例如记录是在设备级别、报告实例级别还是时间段级别。这应根据传入数据的分辨率以及业务用途来决定。以物联网设备的 GPS 位置数据为例,分辨率为每 10 秒报告一次 GPS 位置。
2. **列出所有变化、类别、计算和描述**:列出团队认为对建模有用的内容,也可以通过与业务专家讨论得出。在 GPS 位置示例中,包括纬度、经度、星期几、自上次 GPS 位置记录以来的时间、速度(根据先前的滚动记录集计算)、当前时区偏移、白天或黑夜、GPS 网格标识符、UTC 的确切时间、当地的确切时间、设备的当前状态(行驶、怠速或停车)等。
3. **评估使用频率**:审查每个项目在分析、机器学习建模或报告中可能的使用频率,决定创建和存储该信息的成本是否值得。在 GPS 示例中,当地的确切时间和星期几因预期使用频率与存储和计算成本的权衡而被排除。
4. **创建数据转换代码**:创建自动创建和维护表中信息的代码,实现自动化,让数据科学家无需每次都重新创建。
5. **创建唯一标识符**:如果记录没有唯一标识符,则需要创建。在 GPS 示例中,将 UTC 的确切时间与唯一设备标识符组合,创建一个单独的 ID 字段,方便数据科学家进行分析。
0
0
复制全文
相关推荐









