37、交通流量数据缺失值填充与时间序列预测研究

交通流量数据缺失值填充与时间序列预测研究

1. 交通流量数据缺失值处理

1.1 非随机缺失数据

在数据集中,存在非随机缺失的数据,这类缺失数据与自身属性以及数据集中的其他数据相关,一般不能直接删除。

1.2 概率PCA - EM填充算法

概率PCA - EM是一种使用变分EM算法处理缺失数据的算法。其本质是考虑每个变量的概率分布,在确定主元素和误差的概率函数后,通过EM算法建立模型。具体步骤如下:
1. 对原始训练样本数据进行标准中心化处理,得到隐变量X和观测数据的概率分布。
2. 计算期望,并利用隐变量的现有估计计算隐变量的最大似然估计。
3. 最大化最大似然值以计算参数的值。该算法的目标函数是数据对数似然的下界,在高维空间中,PCA - EM算法每次迭代所需的计算量比传统算法小得多。

1.3 实验步骤

本次实验采用控制变量法,为同一数据集创建不同比例的缺失值,然后使用PCA - EM算法填充缺失值,最后比较和评估填充效果。具体步骤如下:
1. 数据读取与分组 :读取原始交通流量数据,按天进行分支处理,每列数据对应不同天同一时段的交通流量数据,将每列数据视为一组具有共同属性的数据。
2. 创建不同比例缺失值 :人为创建缺失值比例分别为10%、30%、50%、70%和90%的数据集。
3. 缺失值填充 :使用PCA - EM算法填充每列的缺失值。
4. 效果评估
- 绘制Q -

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值