M5 Dataset Model

The document outlines a process for forecasting sales at Walmart stores using the M5 dataset, employing both ARIMA and LightGBM models. It details steps including data loading, processing, and model training, along with performance metrics like Mean Absolute Error (MAE). Key takeaways emphasize the importance of accurate demand forecasting for inventory management and supply chain efficiency.

Uploaded by

pranilbanoth12

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

4 views13 pages

M5 Dataset Model

Uploaded by

pranilbanoth12

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

You are on page 1/ 13

ML MODEL FOR FORECASTING SALES OF DIFFERENT STORES OF WALMART

USING M5 DATASET.

STEP 1: IMPORT NECESSARY LIBRARIES

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

STEP 2: LOAD THE DATASET

df_calendar = pd.read_csv('calendar.csv')
df_price = pd.read_csv('sell_prices.csv')
df_sales = pd.read_csv('sales_train_validation.csv')

STEP 3: SINCE WE ARE FORECATING SALES

df_sales
STEP 4: SAMPLE DATA IS TAKEN FROM (df_sales) AND PLOT TO CHECK THE FLUCTUATIONS IN
SALES OVER TIME.

df_sample = df_sales.iloc[3, :]
series_sample = df_sample.iloc[6:]
df_sample
STEP 5 : SUMMARIZE THE SALES DATA BY GROUPING IT BY STORE_ID AND CALCULATING
THE TOTAL SALES FOR EACH STORE ACROSS ALL PRODUCTS AND TIME PERIODS.

df_sales_total_by_store = df_sales.groupby(['store_id']).sum()
df_store_sales = df_sales_total_by_store.iloc[:,5:]
df_store_sales
STEP 6 : PROCESSING DATA AND CHECKING WHEATHER DATA IS STATIONARY OR NON
STATIONARY

Using Adfuller Statistics Model – ADF Statistics -2.035408

P value 0.271267.
If p value is <0.05 null hypothesis is rejected and which determines given series of data is
stationery.
As we can see the p value initial is >0.05
def difference(dataset , interval=1): Differencing Method
diff=list() is used to convert
for i in range(interval , len(dataset)): non stationary data
value= dataset[i]-dataset[i-interval] to stationary
diff.append(value)
return np.array(diff)
series_d1 = difference(series)
results = adfuller(series_d1)

STEP 7: AUTO CORRELATION MATRIX IS PLOTTED TO CHECK SEASONALITY IN TIME SERIES

DATA.
plot_acf(series, lags = 730, use_vlines = True)
plt.show()
1) DIFFERENCE(SERIES,INTERVAL=7) WEEKLY DIFFERENCING
series_d7 = difference(series, 7)

2) Difference(Series_D7_D30, Interval=30) Monthly Differencing

series_d7_d30 = difference(series_d7, 30)
STEP 8: USING THIS PROCESSED STATIONARY DATA ARIMA MODEL IS BULIT (TRADITIONAL
METHOD)

from statsmodels.tsa.arima.model import ARIMA

model = ARIMA(series_d7_d30, order=(1, 0, 1))
model_fit = model.fit()

# Forecast the next 28 time steps

forecast_steps = 28
forecast = model_fit.forecast(steps=forecast_steps)
Final Forecasted Values (Original Scale):
[10433.79676477 8465.26387334 7627.39493797 7497.54887916 7726.54061899 9653.54106222 11096.54103843 16311.33780448 14961.80491298 12439.93597762 11561.08991881 11691.08165864
13309.08210186 15816.08207808 22423.87884412 20931.34595262 16924.47701726 15140.63095845 15169.62269828 16946.62314151 19798.62311772 27861.41988377 26885.88699227
21270.01805691 18934.1719981 18892.16373793 20656.16418115 24186.16415737]

FORECASTED VALUES ARE THEN SCALED TO ORIGINAL VALUES BY INVERSE_DIFFERENCE

METHOD
final_forecast = np.array(final_forecast)

from sklearn.metrics import mean_absolute_error

test_data = series[-forecast_steps:] # Last 28 days of the original series
mae = mean_absolute_error(test_data, final_forecast)
print(f"Mean Absolute Error (MAE): {mae}")
Mean Absolute Error (MAE): 1156.18687017154

ONE STEP FORECASTING METHOD LightGBM :

STEP 1: CREATE X,Y VARIABLES
def create_xy(series, window_size, prediction_horizon, shuffle = False):
x=[]
y=[]
for i in range(0, len(series)):
if len(series[(i + window_size):(i + window_size + prediction_horizon)]) < prediction_horizon:
break
x.append(series[i:(i + window_size)])
y.append(series[(i + window_size):(i + window_size + prediction_horizon)])
x = np.array(x)
y = np.array(y)
return x,y

HYPER PARAMETERS
window_size = 365 (1 YEAR == 365 DAYS )
prediction_horizon = 1 -ONE STEP FORECASTING HENCE PREDICTION
HORIZON=1
TRAIN TEST SPLIT
test_size = 28
split_time = len(series) - test_size

train_series = series[:split_time]
test_series = series[split_time - window_size:]

train_x, train_y = create_xy(train_series, window_size, prediction_horizon)

test_x, test_y = create_xy(test_series, window_size, prediction_horizon)

train_y = train_y.flatten()
test_y = test_y.flatten()

FIT THE MODEL WITH X_TEST AND VALIDATE WITH Y_TEST

import lightgbm as lgb
params = {
'n_estimators': 2000,
'max_depth': 4,
'num_leaves': 2**4,
'learning_rate': 0.1,
'boosting_type': 'dart'
}
model = lgb.LGBMRegressor(first_metric_only = True, **params)
model.fit(train_x, train_y,
eval_metric = 'l1',
eval_set = [(test_x, test_y)] )

MULTI STEP FORECATING

In recursive forecasting, we first train a one-step model then generate a multi-step forecast by
recursively feeding our predictions back into the model.

Recursive MAE: 214.8020

Direct MAE: 233.6326
Combination MAE: 217.0313
One-Step MAE: 200.5037
Multi-Step MAE: 214.8020

plt.rcParams['figure.figsize'] = [5, 5]
lgb.plot_importance(model, max_num_features = 15, importance_type = 'split')
pl.show()

LightGBM provides feature importance scores, which help identify the most influential features in
the model.
CONCLUSION OF THIS MODEL (KEY TAKE AWAYS ):
 Share accurate demand forecasts with suppliers and distributors to reduce information
asymmetry.
 This helps align orders with actual consumer demand, minimizing amplification
 Use forecasts to adjust inventory levels dynamically, avoiding overstocking or stockouts.
 Use multi-step forecasts to plan production and delivery schedules in advance.
 4Shorter lead times reduce the need for large safety stocks, which can amplify the bullwhip
effect.

John Hattie, Vince Bustamante, John T. Almarode, Douglas Fisher, Nancy Frey - Great Teaching by Design - From Intention To Implementation in The Visible Learning Classroom-Corwin (2021)
100% (2)
John Hattie, Vince Bustamante, John T. Almarode, Douglas Fisher, Nancy Frey - Great Teaching by Design - From Intention To Implementation in The Visible Learning Classroom-Corwin (2021)
129 pages
Car Purchase Factors in Saudi Arabia
No ratings yet
Car Purchase Factors in Saudi Arabia
25 pages
How To Design A Good Experiment
No ratings yet
How To Design A Good Experiment
8 pages
Self-Determination Theory (SDT) : A Theory of Human Motivation
100% (4)
Self-Determination Theory (SDT) : A Theory of Human Motivation
29 pages
ForecastingIndividualassignment MohammadMujtaba 12020063
No ratings yet
ForecastingIndividualassignment MohammadMujtaba 12020063
20 pages
Time Series Analysis
No ratings yet
Time Series Analysis
5 pages
Adsl Exp 9 2024
No ratings yet
Adsl Exp 9 2024
14 pages
A project based on Python
No ratings yet
A project based on Python
17 pages
26 Ads Expt9
No ratings yet
26 Ads Expt9
7 pages
Mini Project Based On Time Series Forecasting Methods: Data Used
No ratings yet
Mini Project Based On Time Series Forecasting Methods: Data Used
14 pages
Time-Series Forecasting Using Conv1D-LSTM - Multiple Timesteps Into Future
No ratings yet
Time-Series Forecasting Using Conv1D-LSTM - Multiple Timesteps Into Future
6 pages
Business Report TSF - Rose DataSet
100% (4)
Business Report TSF - Rose DataSet
52 pages
Forecast Live Approach2
No ratings yet
Forecast Live Approach2
3 pages
s3950476 TimeSeriesAnalysis Assignment 3
No ratings yet
s3950476 TimeSeriesAnalysis Assignment 3
13 pages
NTFX Price Prediction
No ratings yet
NTFX Price Prediction
5 pages
A - Basic - Time Series Forecasting Course With Python
No ratings yet
A - Basic - Time Series Forecasting Course With Python
43 pages
WWW Tensorflow Org Tutorials Structured Data Time Series
No ratings yet
WWW Tensorflow Org Tutorials Structured Data Time Series
41 pages
Time Series With Python
No ratings yet
Time Series With Python
88 pages
Coca Cola Start
No ratings yet
Coca Cola Start
1 page
Algorithms 16 00248 v2
No ratings yet
Algorithms 16 00248 v2
16 pages
Application of Predictive Analytics in Volume Forecasting and Resource Planning
No ratings yet
Application of Predictive Analytics in Volume Forecasting and Resource Planning
69 pages
Time Series Forecasting With Python Cheat Sheet
No ratings yet
Time Series Forecasting With Python Cheat Sheet
7 pages
Dav 4
No ratings yet
Dav 4
6 pages
6 Real-World Case Studies: Data Science For Business
No ratings yet
6 Real-World Case Studies: Data Science For Business
18 pages
forecast_live_approach1
No ratings yet
forecast_live_approach1
3 pages
A New Hybrid Method For Predicting Univariate and Multivariate Time Series Based On Pattern Forecasting
No ratings yet
A New Hybrid Method For Predicting Univariate and Multivariate Time Series Based On Pattern Forecasting
17 pages
Applied Datascience - Phase3
No ratings yet
Applied Datascience - Phase3
8 pages
Forecasting Models
No ratings yet
Forecasting Models
9 pages
roadmap for project
No ratings yet
roadmap for project
9 pages
Ibd Manual
No ratings yet
Ibd Manual
12 pages
Assignment 1 Supplementary
No ratings yet
Assignment 1 Supplementary
5 pages
Certificate
No ratings yet
Certificate
33 pages
Converting Time Series Into Supervised Learning Models
No ratings yet
Converting Time Series Into Supervised Learning Models
5 pages
Time Series 3
No ratings yet
Time Series 3
1 page
06-time-series-analysis
No ratings yet
06-time-series-analysis
9 pages
New Microsoft Word Document4
No ratings yet
New Microsoft Word Document4
31 pages
Time Series Prediction Algorithms Literature Review
No ratings yet
Time Series Prediction Algorithms Literature Review
4 pages
Download Full Practical Time Series Forecasting with R A Hands On Guide 2nd Edition Galit Shmueli PDF All Chapters
100% (2)
Download Full Practical Time Series Forecasting with R A Hands On Guide 2nd Edition Galit Shmueli PDF All Chapters
65 pages
Multivariate Multi Step Time Series Forecasting Using Stacked LSTM Sequence To Sequence Autoencoder in Tensorflow 2 0 Keras
No ratings yet
Multivariate Multi Step Time Series Forecasting Using Stacked LSTM Sequence To Sequence Autoencoder in Tensorflow 2 0 Keras
9 pages
E Monika Sree 10-10-2024
No ratings yet
E Monika Sree 10-10-2024
60 pages
Thesis Presentation
No ratings yet
Thesis Presentation
23 pages
London Water Case Study
No ratings yet
London Water Case Study
13 pages
Business Forecasting Methods
No ratings yet
Business Forecasting Methods
5 pages
Practice questions - Forecasting
No ratings yet
Practice questions - Forecasting
2 pages
An End-to-End Project On Time Series Analysis and Forecasting With Python
No ratings yet
An End-to-End Project On Time Series Analysis and Forecasting With Python
19 pages
Aakash S Project Report
No ratings yet
Aakash S Project Report
12 pages
Tsay for Ch 3, 4
No ratings yet
Tsay for Ch 3, 4
16 pages
Predictive Analytics: Module 11: Forecasting
No ratings yet
Predictive Analytics: Module 11: Forecasting
55 pages
Suresh-Rose Time Series Forecasting Project Report
100% (1)
Suresh-Rose Time Series Forecasting Project Report
75 pages
MA_Daniel_Berberich_Hybrid_Methods_for_Time_Series_Forecasting
No ratings yet
MA_Daniel_Berberich_Hybrid_Methods_for_Time_Series_Forecasting
118 pages
Comparative Analysis Between Different Forecasting Methods: Course: Managing Operations and Supply Chain (P501)
No ratings yet
Comparative Analysis Between Different Forecasting Methods: Course: Managing Operations and Supply Chain (P501)
11 pages
Handout 2020 Part1 PDF
No ratings yet
Handout 2020 Part1 PDF
82 pages
Activity 5 (Time Series) - Rudinas
No ratings yet
Activity 5 (Time Series) - Rudinas
7 pages
Time Series Notes9
No ratings yet
Time Series Notes9
32 pages
STA651 Practical Test 1
No ratings yet
STA651 Practical Test 1
5 pages
Week 10 Intro Forecasting
No ratings yet
Week 10 Intro Forecasting
25 pages
BS MINI PROJECT 2
No ratings yet
BS MINI PROJECT 2
5 pages
Forecast Time Series-Notes
No ratings yet
Forecast Time Series-Notes
138 pages
Profound Python Data Science
From Everand
Profound Python Data Science
Onder Teker
No ratings yet
Python Advanced Programming: The Guide to Learn Python Programming. Reference with Exercises and Samples About Dynamical Programming, Multithreading, Multiprocessing, Debugging, Testing and More
From Everand
Python Advanced Programming: The Guide to Learn Python Programming. Reference with Exercises and Samples About Dynamical Programming, Multithreading, Multiprocessing, Debugging, Testing and More
Marcus Richards
No ratings yet
Software Design Simplified
From Everand
Software Design Simplified
Liviu Catalin Dorobantu
No ratings yet
Advanced C Concepts and Programming: First Edition
From Everand
Advanced C Concepts and Programming: First Edition
Gayatri
3/5 (1)
Amazing Java: Learn Java Quickly
From Everand
Amazing Java: Learn Java Quickly
Andrei Besedin
No ratings yet
C Language Programming Codes
From Everand
C Language Programming Codes
Durgesh
No ratings yet
Seminar Report Submission Check List
No ratings yet
Seminar Report Submission Check List
2 pages
Final Report(b220759pe)
No ratings yet
Final Report(b220759pe)
17 pages
Feature Engineering
No ratings yet
Feature Engineering
2 pages
Indentation
No ratings yet
Indentation
6 pages
Oil Gas(Case Study)
No ratings yet
Oil Gas(Case Study)
19 pages
Miroscopy
No ratings yet
Miroscopy
34 pages
Additive Manufacturing
No ratings yet
Additive Manufacturing
21 pages
Lecture 4 Drilling and Boring
No ratings yet
Lecture 4 Drilling and Boring
13 pages
04_Lectures-11-13
No ratings yet
04_Lectures-11-13
35 pages
02_Lectures-5-8
No ratings yet
02_Lectures-5-8
38 pages
01_Lectures-1-4
No ratings yet
01_Lectures-1-4
48 pages
Lecture 6 Milling Machine
No ratings yet
Lecture 6 Milling Machine
12 pages
Computer Assisted Instruction e
100% (1)
Computer Assisted Instruction e
2 pages
Energy Audit
No ratings yet
Energy Audit
8 pages
IJAST-V2I2P103
No ratings yet
IJAST-V2I2P103
5 pages
Media Information Technology Quarter 1 - Module: 1 Introduction To Media and Information Literacy
No ratings yet
Media Information Technology Quarter 1 - Module: 1 Introduction To Media and Information Literacy
5 pages
ACasestudyof Environmental Accountingin Indiawithreferenceto JSWSteel
No ratings yet
ACasestudyof Environmental Accountingin Indiawithreferenceto JSWSteel
13 pages
Sample - DLP - TEST OF HYPOTHESIS Sir Buhangin
No ratings yet
Sample - DLP - TEST OF HYPOTHESIS Sir Buhangin
9 pages
AI-ML-in-Development
No ratings yet
AI-ML-in-Development
98 pages
Guide Thesis
No ratings yet
Guide Thesis
75 pages
Exploring Issues and Strategies of Developing Skyway Systems:A Case Study of The Taipei Shin-Yi District
No ratings yet
Exploring Issues and Strategies of Developing Skyway Systems:A Case Study of The Taipei Shin-Yi District
15 pages
Tugas UAS Manpro - Muhammad Yusuf Syamsul Assegaf (1162003020)
No ratings yet
Tugas UAS Manpro - Muhammad Yusuf Syamsul Assegaf (1162003020)
14 pages
Violeta Vázquez Rojas Maldonado - The Syntax and Semantics of Purépecha Noun Phrases and The Mass - Count Distinction-New York University (2012)
No ratings yet
Violeta Vázquez Rojas Maldonado - The Syntax and Semantics of Purépecha Noun Phrases and The Mass - Count Distinction-New York University (2012)
215 pages
Dream Incubation Tourism: The Resurrection of Ancient Egyptian Heritage of Sleep Temples
No ratings yet
Dream Incubation Tourism: The Resurrection of Ancient Egyptian Heritage of Sleep Temples
18 pages
A Year in Design School - Rupesh Tripathi
100% (1)
A Year in Design School - Rupesh Tripathi
70 pages
Report On Survey
100% (1)
Report On Survey
12 pages
A Handbook for Medical Teachers 4th Edition PDF DOCX DOWNLOAD
No ratings yet
A Handbook for Medical Teachers 4th Edition PDF DOCX DOWNLOAD
16 pages
Xray Omsdh DPC 2021
No ratings yet
Xray Omsdh DPC 2021
20 pages
Booklet Final-2019 PDF
No ratings yet
Booklet Final-2019 PDF
341 pages
Useful Words For Literature Review
100% (1)
Useful Words For Literature Review
5 pages
Bryan Lawson
No ratings yet
Bryan Lawson
20 pages
Syllabus MM5004 Operation Management
No ratings yet
Syllabus MM5004 Operation Management
23 pages
Chapter 9 - Audit Sampling - Substantive Tests of Account Balances - Answers
No ratings yet
Chapter 9 - Audit Sampling - Substantive Tests of Account Balances - Answers
49 pages
DLP-CO-4-2025-Formulating-Hypothesis
No ratings yet
DLP-CO-4-2025-Formulating-Hypothesis
9 pages
Alibaba Presentation
No ratings yet
Alibaba Presentation
24 pages
Short Term Objectives in Business Plan
No ratings yet
Short Term Objectives in Business Plan
14 pages
Global Citizenship Education
No ratings yet
Global Citizenship Education
3 pages
Special Report: Strategic Planning Readiness-Assessment Checklist
No ratings yet
Special Report: Strategic Planning Readiness-Assessment Checklist
3 pages