0% found this document useful (0 votes)

22 views63 pages

Lecture 4

The document discusses machine learning concepts, focusing on KNN, linear regression, model evaluation, and techniques to avoid overfitting. It includes practical examples using Python's sklearn library, such as implementing KNN and linear regression, as well as methods for cross-validation and feature engineering. Additionally, it covers regularization techniques like Ridge and Lasso regression to improve model performance.

Uploaded by

Edoardo Maschio

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

22 views63 pages

Lecture 4

Uploaded by

Edoardo Maschio

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 63

Machine learning with pytho

ESCP-Paris 2021
Slides (or images, contents) adapted from D. Dligach, C. Müller, E.
Duchesnay, M.Defferrard, E. Eaton, S. Sankararaman and many others (who
,

made their course materials freely available online).

Anh-Phuong TA
Chief data scientist at Le Figaro CCM-Benchmark group
[email protected]

1
n

Exercise
Testing kNN with boston dataset
A little bit …
Today’s lecture
• KNN (last time)
• Linear regression
• Model evaluation
• How to avoid over tting
fi
KNN
from sklearn.neighbors import KNeighborsClassi er
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_iris
iris_dataset = load_iris()
X = iris_dataset.data
y = iris_dataset.target
X_train, X_test, y_train, y_test = train_test_split(X, y,
random_state=0)
knn = KNeighborsClassi er(n_neighbors=1)
knn. t(X_train, y_train)
y_pred = knn.predict(X_test)
print("Score: {:.2f}".format(np.mean(y_pred == y_test)))
print("Score: {:.2f}".format(knn.score(X_test, y_test)))
fi
fi
fi
Over tting & Under tting
fi
fi
Over tting & Under tting
fi
fi
Avoid over tting
• Reduce the number of features manually or do feature
selection
• Do a model selection.
• Use regularization (keep the features but reduce their
importance by setting small parameter values)
• Do a cross-validation to estimate the test error
.

fi
.

cross-validation

pro: more stable, more dat

con: slower
a

Cross-validation
Cross-validation
Cross-validation
GridSearchCV
GridSearchCV results
CV strategies

Strati ed: Ensure relative class frequencies in each fold re ect

relative class frequencies on the whole dataset.
fi
fl
Repeated KFold and LeaveOneOut
• LeaveOneOut : KFold(n_folds=n_samples) High
variance, takes a long tim
• Better: RepeatedKFold. Apply KFold or
Strati edKFold multiple times with shuf ed data.
Reduces variance!
fi
e

fl
Strati edShuf eSplit
fi
fl
Using Cross-Validation Generators
cross_validate Function
Feature engineering: scaling
Standard Scaler Example
from sklearn.preprocessing import StandardScaler, RobustScaler, MinMaxScaler, Normalize

Standard Scaler + pipeline

Pipeline
Categorical variables (credit: C.
Muller)
Ordinal encoding
One-Hot (Dummy) Encoding
One-Hot (Dummy) Encoding
One-Hot (Dummy) Encoding
Categorical columns with Pandas

Or you can use:

from sklearn.preprocessing import OneHotEncoder
Dealing with Missing Values
Among others, Imputation Methods

Mean / Media
kN
Regression model
Matrix factorization
•
•
•
•
N

Baseline: Dropping Columns

nan_columns = np.any(np.isnan(X_train), axis=0
X_drop_columns = X_train[:, ~nan_columns

And then, use X_drop_columns to train your model

Imputation: Median, Mean

Imputation: Median, Mean
Linear regression
• If your data:

Good to use linear regression, and

our goal is to nd:

Note that: if there are more than one variables

=> multiple linear regression
fi
Linear regression
• If your data:

Humm!!!
Or do some data transformations rst
fi
Lost/Cost function

It compares all the predictions against their actual

values and provides us with a score value
Training and Testing

=> f(x_i) is used interchangeably with h(x_i)

Training and Testing: linear
regression

=> z is used interchangeably with phi

Linear regression: loss
functions
Lost/Cost function
ML algorithms often de ne an objective functio
This function is optimized during learning
It is often a cost function we want to minimiz
Function J below learns weights as the sum of squared errors (SSE)
fi
e

Learning as optimization
The fundamental dif culty of machine learning

Picture was taken from some ML courses at Stanford

fi
How to optimize?
What is the gradient?
Gradient descent?
Gradient descent:
un intuition
Gradient descent:
un intuition
Gradient descent:
un intuition
Gradient descent
Gradient computation

We update all weights simultaneously:

Partial derivatives

Whiteboard!!!!
What should step size be

Stochastic gradient descent (SGD)

Avoid over tting

• Reduce the number of features manually or do feature
selection
• Do a model selection.
• Use regularization (keep the features but reduce their
importance by setting small parameter values)
• Do a cross-validation to estimate the test error
.

fi
.

Avoid over tting:

Regularization
Idea: regularized Empirical
Risk Minimizatio
fi
n

Ridge Regression (L2)

lasso (least absolute shrinkage
and selection operator) (L1)
Understanding L1 and L2
Penalties
Understanding L1 and L2
Penalties
Example
from sklearn.linear_model import Ridge, LinearRegression, Lass
from sklearn.datasets import load_bosto
boston = load_boston(
from sklearn.model_selection import train_test_spli
X, y = boston.data, boston.targe
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42
score = cross_val_score(LinearRegression(), X_train, y_train, cv=10
np.mean(score
from sklearn.model_selection import GridSearchC
param_grid = {'alpha': np.logspace(-3, 3, 13)
print(param_grid
grid = GridSearchCV(Ridge(), param_grid, cv=10, return_train_score=True,
iid=False
grid. t(X_train, y_train
print(grid.best_params_
print(grid.best_score_)
fi
)

L1 + L2 = Elastic Net

In sklearn
Grid-searching ElasticNet
Assignment 3

Lec4 Oct12 2022 PracticalNotes LinearRegression
No ratings yet
Lec4 Oct12 2022 PracticalNotes LinearRegression
34 pages
PS Notes (Machine Learning
No ratings yet
PS Notes (Machine Learning
14 pages
Linear Regression for Beginners
No ratings yet
Linear Regression for Beginners
36 pages
Scikit-Learn Python Cheat Sheet
100% (1)
Scikit-Learn Python Cheat Sheet
1 page
Lect 1
No ratings yet
Lect 1
24 pages
Skit Learn Cheatsheet
No ratings yet
Skit Learn Cheatsheet
11 pages
Predictive Maintenance
No ratings yet
Predictive Maintenance
66 pages
PW3 SupervisedLearning
No ratings yet
PW3 SupervisedLearning
10 pages
Data Preprocessing for ML Pipelines
No ratings yet
Data Preprocessing for ML Pipelines
68 pages
ML Lectures Summary 2
No ratings yet
ML Lectures Summary 2
52 pages
ML Python
No ratings yet
ML Python
11 pages
C2W3 Lab 01 Model Evaluation and Selection
No ratings yet
C2W3 Lab 01 Model Evaluation and Selection
21 pages
C2W3 Lab 01 Model Evaluation and Selection
No ratings yet
C2W3 Lab 01 Model Evaluation and Selection
21 pages
Data Mining Practicals
No ratings yet
Data Mining Practicals
22 pages
Regression Analysis
No ratings yet
Regression Analysis
11 pages
AI2025 Lecture02 Recording Slides
No ratings yet
AI2025 Lecture02 Recording Slides
52 pages
Machine Learning for Data Scientists
No ratings yet
Machine Learning for Data Scientists
41 pages
Scikit-Learn Classification Cheat Sheet
No ratings yet
Scikit-Learn Classification Cheat Sheet
1 page
Data Analysis and Machine Learning Essentials
No ratings yet
Data Analysis and Machine Learning Essentials
14 pages
ML PYQs
No ratings yet
ML PYQs
32 pages
Machine Learning
No ratings yet
Machine Learning
9 pages
Machine Learning Evaluation Guide
100% (1)
Machine Learning Evaluation Guide
504 pages
Machine Learning Laboratory Exercises
No ratings yet
Machine Learning Laboratory Exercises
16 pages
Dimensionality Reduction & Model Evaluation
No ratings yet
Dimensionality Reduction & Model Evaluation
80 pages
Python Machine Learning Guide
100% (2)
Python Machine Learning Guide
70 pages
Distributed Linear Regression Class Notes
No ratings yet
Distributed Linear Regression Class Notes
140 pages
Statistical Machine Learning Exam Guide
No ratings yet
Statistical Machine Learning Exam Guide
10 pages
Lecture Material 10
No ratings yet
Lecture Material 10
9 pages
Machine Learning: Engr. Ejaz Ahmad
No ratings yet
Machine Learning: Engr. Ejaz Ahmad
54 pages
Final ML
No ratings yet
Final ML
2 pages
Machine Learning With Python 2021
No ratings yet
Machine Learning With Python 2021
124 pages
3-2 Supervised Learning With Scikit-Learn - Chapter 2 Regression
No ratings yet
3-2 Supervised Learning With Scikit-Learn - Chapter 2 Regression
58 pages
Machine Learning Engineer Interview Preparation Guide
No ratings yet
Machine Learning Engineer Interview Preparation Guide
14 pages
Lecture 1 2022
No ratings yet
Lecture 1 2022
55 pages
Kaggle Competition Mastery Guide
100% (1)
Kaggle Competition Mastery Guide
74 pages
Enthought Python Machine Learning SciKit Learn Cheat Sheets 1 3 v1.0
No ratings yet
Enthought Python Machine Learning SciKit Learn Cheat Sheets 1 3 v1.0
3 pages
Supervised Learning Notes
No ratings yet
Supervised Learning Notes
7 pages
Lecture 7
No ratings yet
Lecture 7
29 pages
MLA TAB Lecture3
No ratings yet
MLA TAB Lecture3
70 pages
2IIG0 Cheat Sheet 1
No ratings yet
2IIG0 Cheat Sheet 1
2 pages
Lecture-18 - Evaluation Metrics For Different Model
No ratings yet
Lecture-18 - Evaluation Metrics For Different Model
27 pages
ML11 Generalization
No ratings yet
ML11 Generalization
40 pages
Lecture3 Upload
No ratings yet
Lecture3 Upload
28 pages
Lecture 2
No ratings yet
Lecture 2
66 pages
l05 Machine Learning
No ratings yet
l05 Machine Learning
34 pages
Hyperparameter Tuning Mits
No ratings yet
Hyperparameter Tuning Mits
17 pages
Machine Learning HC
No ratings yet
Machine Learning HC
4 pages
Lec 05
No ratings yet
Lec 05
54 pages
Python For Data Science IA 1 Programs
No ratings yet
Python For Data Science IA 1 Programs
14 pages
2 DataPreProcessing Code
No ratings yet
2 DataPreProcessing Code
46 pages
Machine Learning New
No ratings yet
Machine Learning New
8 pages
Regression
No ratings yet
Regression
56 pages
DAC ML Tutorial Final Deck
No ratings yet
DAC ML Tutorial Final Deck
150 pages
Pattern Recognition Letters: Haider Banka, Suresh Dara
No ratings yet
Pattern Recognition Letters: Haider Banka, Suresh Dara
7 pages
Volume6 Issue3 Paper10 2022
No ratings yet
Volume6 Issue3 Paper10 2022
6 pages
Mainreport 4
No ratings yet
Mainreport 4
27 pages
Eucalyptus Subgenera Classification with HyMap
100% (1)
Eucalyptus Subgenera Classification with HyMap
41 pages
DATA ANALYTICS Unit III
No ratings yet
DATA ANALYTICS Unit III
29 pages
K-Nearest Neighbor Algorithm Insights
No ratings yet
K-Nearest Neighbor Algorithm Insights
8 pages
House Price Prediction Short Synopsis With Block Diagram
No ratings yet
House Price Prediction Short Synopsis With Block Diagram
2 pages
Ebook Machine Learning Applications
No ratings yet
Ebook Machine Learning Applications
235 pages
Mini Project Report 2024-25-0
No ratings yet
Mini Project Report 2024-25-0
28 pages
Enhancing Regression Trees with Models
No ratings yet
Enhancing Regression Trees with Models
9 pages
Glossary of Statistical Terms
No ratings yet
Glossary of Statistical Terms
20 pages
COC257-Commercial Applications of Vehicle Image Classification
No ratings yet
COC257-Commercial Applications of Vehicle Image Classification
48 pages
Unit - 2 ML
No ratings yet
Unit - 2 ML
8 pages
Yip Et Al. - 2019 - Connectome-Based Prediction of Cocaine Abstinence
No ratings yet
Yip Et Al. - 2019 - Connectome-Based Prediction of Cocaine Abstinence
9 pages
PFE Book - Mass Analytics - 2022
No ratings yet
PFE Book - Mass Analytics - 2022
22 pages
Statistics for Risk Modeling Exam
No ratings yet
Statistics for Risk Modeling Exam
6 pages
Combinatorial Purged CV in Finance
No ratings yet
Combinatorial Purged CV in Finance
27 pages
Traffic Signal Violation Detection Through Computer Vision
No ratings yet
Traffic Signal Violation Detection Through Computer Vision
6 pages
Kishorekumar Mourougane
No ratings yet
Kishorekumar Mourougane
2 pages
A Comparative Study of Some Classification Algorithms Using and Algorithm
No ratings yet
A Comparative Study of Some Classification Algorithms Using and Algorithm
9 pages
Updated ML Digit Classification Report
No ratings yet
Updated ML Digit Classification Report
3 pages
Methodology and Evaluation in Sports Analytics: Challenges, Approaches, and Lessons Learned
No ratings yet
Methodology and Evaluation in Sports Analytics: Challenges, Approaches, and Lessons Learned
34 pages
Weka Data Processing and Analysis Guide
No ratings yet
Weka Data Processing and Analysis Guide
100 pages
Lecture#2. K Nearest Neighbors
No ratings yet
Lecture#2. K Nearest Neighbors
10 pages
Super Market Sales and Price Prediction Using AI
No ratings yet
Super Market Sales and Price Prediction Using AI
9 pages
April May 2024
No ratings yet
April May 2024
17 pages
Machine Learning MCQ Guide
100% (3)
Machine Learning MCQ Guide
2,520 pages
Student Name: Course: Machine Learning Group: E27-24 Date: 16.01.2025
No ratings yet
Student Name: Course: Machine Learning Group: E27-24 Date: 16.01.2025
10 pages
Create Cross Validation Rules FD Bi Template
No ratings yet
Create Cross Validation Rules FD Bi Template
12 pages
SDS Solution1
No ratings yet
SDS Solution1
26 pages

Lecture 4

Uploaded by

Lecture 4

Uploaded by

Machine learning with pytho

made their course materials freely available online).

pro: more stable, more dat

Strati ed: Ensure relative class frequencies in each fold re ect

Standard Scaler + pipeline

Or you can use:

Baseline: Dropping Columns

And then, use X_drop_columns to train your model

Imputation: Median, Mean

Good to use linear regression, and

Note that: if there are more than one variables

It compares all the predictions against their actual

=> f(x_i) is used interchangeably with h(x_i)

=> z is used interchangeably with phi

Picture was taken from some ML courses at Stanford

We update all weights simultaneously:

Stochastic gradient descent (SGD)

Stochastic gradient descent (SGD)

Avoid over tting

Avoid over tting:

Ridge Regression (L2)

You might also like