简介:1.数据处理;2.数据探索;3.模型训练;4.提交
思路:增加日期相关特征,模型捕捉特点产品特征,21天销售额为0 ,则零预测—— Tom 平均误差,平滑噪音——改进预测
1.数据处理
1.1 数据缺失
发现:检查缺失值(圣诞节日期,周末油价数据, 交易数据 ),了解时间序列范围和特性;
解决:圣诞节日期缺失补为0,填补周末油价数据, 交易数据 ( 零销售日期的交易数据填充为0,并对其余缺失值进行线性插值 )
1.2 数据处理
识别假期数据中不同层级的假期;
将假期数据进行标准化和简化,以便于建模和分析 —— 1.通过将类似的假期(如周围的假期)分组来减少数据的复杂性,并通过处理假期描述中的冗余词汇来统一假期标签 ;2. 去除了不实际庆祝的转移假期,将假期分为不同级别(国家、区域、地方),并为这些假期创建了适合模型的特征
2.数据探索
数据预处理和转换:
-
数据从长格式转换为宽格式,以便每列对应一个时间序列。这样可以更方便地进行分析和可视化。
-
数据缩放处理使得不同商店和产品类别的销售值在相同的尺度上,便于比较。
-
缩放后的数据转换回长格式,并添加假期信息,以便分析假期对销售的影响。
发现:
-
零销售趋势:
-
随着时间的推移,零销售的数量总体减少,但圣诞节和新年期间零销售仍然较多。
-
部分目标系列的所有值都为零,可能与产品类型有关,例如书籍类产品。
-
许多目标系列以零开始,这可能表明产品缺货或开始销售表现差。
-
目标系列尾部的零较少,表明销售在年度之间较为一致,但有些产品末期销售差。</
-