kaggle篇(二)时间序列标注实践

简介:1.数据处理;2.数据探索;3.模型训练;4.提交

思路:增加日期相关特征,模型捕捉特点产品特征,21天销售额为0 ,则零预测—— Tom 平均误差,平滑噪音——改进预测

1.数据处理

1.1 数据缺失

发现:检查缺失值(圣诞节日期,周末油价数据, 交易数据 ),了解时间序列范围和特性;

解决:圣诞节日期缺失补为0,填补周末油价数据, 交易数据 ( 零销售日期的交易数据填充为0,并对其余缺失值进行线性插值 )

1.2 数据处理

识别假期数据中不同层级的假期;

将假期数据进行标准化和简化,以便于建模和分析 —— 1.通过将类似的假期(如周围的假期)分组来减少数据的复杂性,并通过处理假期描述中的冗余词汇来统一假期标签 ;2. 去除了不实际庆祝的转移假期,将假期分为不同级别(国家、区域、地方),并为这些假期创建了适合模型的特征

2.数据探索

数据预处理和转换:

  • 数据从长格式转换为宽格式,以便每列对应一个时间序列。这样可以更方便地进行分析和可视化。

  • 数据缩放处理使得不同商店和产品类别的销售值在相同的尺度上,便于比较。

  • 缩放后的数据转换回长格式,并添加假期信息,以便分析假期对销售的影响。

发现:

  1. 零销售趋势:

    • 随着时间的推移,零销售的数量总体减少,但圣诞节和新年期间零销售仍然较多。

    • 部分目标系列的所有值都为零,可能与产品类型有关,例如书籍类产品。

    • 许多目标系列以零开始,这可能表明产品缺货或开始销售表现差。

    • 目标系列尾部的零较少,表明销售在年度之间较为一致,但有些产品末期销售差。</

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值