物联网分析的数据科学与数据组织策略

# 物联网分析的数据科学与数据组织策略 ## 1. 在 AWS 上设置 TensorFlow 2015 年 11 月，谷歌发布了一个名为 TensorFlow 的深度学习开源软件平台。TensorFlow 拥有灵活的架构，它能够将计算分布到多个 CPU 上，也可以使用图形处理单元（GPU）。GPU 有数千个计算核心，能促进大规模并行处理，非常契合深度学习训练的需求。与 TensorFlow 交互最常见的方式是使用 Python 代码。 Python 的 keras 包可作为 TensorFlow 的接口层，让编程变得更简单。建议使用 keras 而非直接对 TensorFlow 进行编程。若想在 GPU 单元上轻松设置带有 keras 接口的 TensorFlow 以加速训练时间，AWS 提供的 AMI 实例已包含了所有这些功能及更多内容。可以轻松地将其部署到支持 GPU 的 EC2 实例上（务必先查看价格，因为 GPU 的需求很高）。这些被称为 AWS 深度学习 AMI，相关的入门信息可在 [https://aws.amazon.com/amazon - ai/amis/](https://aws.amazon.com/amazon - ai/amis/) 找到。 ## 2. 数据组织策略的背景在工作场景中，你晋升到了原老板的职位，带领着一个小型数据科学家团队。老板注意到团队交付分析结果的速度和几个月前一样，询问是否有办法让团队更快地迭代。你意识到大部分分析时间都花在了数据收集、清理和处理上，可能占比达 80% 甚至更高。于是你打算和数据库专家一起集思广益，寻找减少这部分时间的方法。 ## 3. 数据组织的关键概念与目标数据组织的核心目标是让数据科学家更轻松地提取数据价值。这里将介绍链接分析数据集（LAD）的概念，它能显著提升机器学习（ML）模型开发的速度。同时，还会探讨如何防止数据湖变成数据沼泽，以及为物联网数据制定数据保留策略，在保留分析价值的同时降低维护大量历史数据的成本。 ### 3.1 链接分析数据集（LAD） LAD 结合了分析数据集和关系数据库的成熟理念，能加速数据科学家进行分析的进程。虽然相关的一般概念并不新鲜，但目前似乎没有一个通用的名称来称呼这种组合，所以引入了 LAD 这个术语。 #### 3.1.1 分析数据集创建分析数据集的概念简单，但执行起来有难度。分析数据集会将一系列有用的特征组合到每个记录实例中，目的是为了数据理解和机器学习。目标是将物联网分析师针对特定主题所需的至少 80% 的信息组合到一个表中，并且该表会持续自动生成。分析数据集是半非规范化的表，不仅包含字段的 ID 代码，还包含其描述。也可以根据值范围创建类别，并将其作为单独的特征。这样做的目的是让分析师的工作更轻松，而不是像纯粹的关系数据库设计那样专注于高效存储值。构建分析数据集的过程如下： 1. **确定数据分辨率**：确定所需的聚合级别，例如记录是在设备级别、报告实例级别还是时间段级别。这应根据传入数据的分辨率以及业务用途来决定。以物联网设备的 GPS 位置数据为例，分辨率为每 10 秒报告一次 GPS 位置。 2. **列出所有变化、类别、计算和描述**：列出团队认为对建模有用的内容，也可以通过与业务专家讨论得出。在 GPS 位置示例中，包括纬度、经度、星期几、自上次 GPS 位置记录以来的时间、速度（根据先前的滚动记录集计算）、当前时区偏移、白天或黑夜、GPS 网格标识符、UTC 的确切时间、当地的确切时间、设备的当前状态（行驶、怠速或停车）等。 3. **评估使用频率**：审查每个项目在分析、机器学习建模或报告中可能的使用频率，决定创建和存储该信息的成本是否值得。在 GPS 示例中，当地的确切时间和星期几因预期使用频率与存储和计算成本的权衡而被排除。 4. **创建数据转换代码**：创建自动创建和维护表中信息的代码，实现自动化，让数据科学家无需每次都重新创建。 5. **创建唯一标识符**：如果记录没有唯一标识符，则需要创建。在 GPS 示例中，将 UTC 的确切时间与唯一设备标识符组合，创建一个单独的 ID 字段，方便数据科学家进行分析。

最低0.47元/天解锁专栏

赠100次下载

继续阅读点击查看下一篇

400次会员资源下载次数

300万+ 优质博客文章

1000万+ 优质下载资源

1000万+ 优质文库回答

复制全文

物联网分析的数据科学与数据组织策略

相关推荐

专栏目录

物联网分析的数据科学与数据组织策略

相关推荐

智慧城市大数据分析平台建设与运营整体解决方案.docx

浅谈大数据及大数据分析浅谈大数据及大数据分析

数据科学与新兴技术.docx

物联网数据分析的数据组织与经济考量

A公司物联网产品规划研究与优化策略

物联网安全与数据隐私保护策略

物联网分析：从数据到价值的全面指南

智能物联网的大数据分析

物联网数据分析：Dask在边缘到云的数据处理新范式

【物联网与电池数据】：收集和分析物联网设备上电池性能数据的10个关键点

VMware安装centos7并配置网络固定ip,ssh连接

如何高效搭建 Qwen2.5-VL-7b 模型的推理服务

专栏目录

最新推荐

利用GARCH模型变体进行股票市场预测中的情感分析实现

打造与分享Excel仪表盘：设计、保护与部署全攻略

数据分析与分层模型解读

数据在不同部门的应用与挑战及后续提升建议

数据可视化：工具与Python库的综合指南

数据可视化：静态与交互式的优劣及团队模式分析

软件定义网络的数据可视化与负载均衡实验

数据科学家绩效评估方法解析

Rasa开发：交互式学习、调试、优化与社区生态

基于文本的关系提取与知识图谱构建