交通流量数据缺失值填充与时间序列预测研究
1. 交通流量数据缺失值处理
1.1 非随机缺失数据
在数据集中,存在非随机缺失的数据,这类缺失数据与自身属性以及数据集中的其他数据相关,一般不能直接删除。
1.2 概率PCA - EM填充算法
概率PCA - EM是一种使用变分EM算法处理缺失数据的算法。其本质是考虑每个变量的概率分布,在确定主元素和误差的概率函数后,通过EM算法建立模型。具体步骤如下:
1. 对原始训练样本数据进行标准中心化处理,得到隐变量X和观测数据的概率分布。
2. 计算期望,并利用隐变量的现有估计计算隐变量的最大似然估计。
3. 最大化最大似然值以计算参数的值。该算法的目标函数是数据对数似然的下界,在高维空间中,PCA - EM算法每次迭代所需的计算量比传统算法小得多。
1.3 实验步骤
本次实验采用控制变量法,为同一数据集创建不同比例的缺失值,然后使用PCA - EM算法填充缺失值,最后比较和评估填充效果。具体步骤如下:
1. 数据读取与分组 :读取原始交通流量数据,按天进行分支处理,每列数据对应不同天同一时段的交通流量数据,将每列数据视为一组具有共同属性的数据。
2. 创建不同比例缺失值 :人为创建缺失值比例分别为10%、30%、50%、70%和90%的数据集。
3. 缺失值填充 :使用PCA - EM算法填充每列的缺失值。
4. 效果评估 :
- 绘制Q -