0% found this document useful (0 votes)

46 views9 pages

Data Preprocessing

The document outlines a comprehensive guide for data preprocessing and implementing various machine learning algorithms including K-NN, Decision Trees, Naive Bayes, Random Forest, and Linear Regression. It details steps such as importing libraries, handling missing values, encoding categorical data, splitting datasets into training and testing sets, and visualizing results. Each algorithm is illustrated with code snippets for training, predicting, and evaluating performance using confusion matrices and visualizations.

Uploaded by

Bharath Shivashankar

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

46 views9 pages

Data Preprocessing

Uploaded by

Bharath Shivashankar

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

Data Preprocessisng:-

1. Get Data Set

2. Import important libraries:-

import numpy as np :- for number calculations and array manupulation

import [Link] as plt:- for pictorial representation of results

import pandas as pd:- read and manupulate the data , for series operations

3. Import dataset:- (sir’s example)

[Link]/xls

dataset=pd.read_csv(‘[Link]’)

> create matrix of all independent variables(sir’s example)

x = [Link][:, :-1].values

> create matrix of dependent variables(sir’s example)
y = [Link][:, 3].values

4. Handaling missing values

taking care of missing data from :-
> from [Link] import Imputer (sklearn is a ML lib for multiple
jobs,
Imputer use to find the missing values
rememberer caps I)

> imputer = Imputer(missing_values =’NaN’,strategy = ’mean’, axis=0)
imputer = [Link](x[:,1:3])

>x[:,1:3] = [Link](x[:,1:3])

5. Categorical Data:-
Encoding Categorical Data:
#Encoding the independent variable:-
> from [Link] import LabelEncoder,OneHotEncoder
(LabelEncoder will give numbers to entities of same
category)

> labelencoder_x = LabelEncoder()
x[:,0] = labelencoder_x.fit_transform(x[:,0])(here it will enocde the first
column values as 0,1,2...)

> onehotencoder = OneHotEncoder(categorical_features=[0])

> x=onehotencoder.fit_transform(x).toarray() (to encode x in terms of o’s and
1’s and other values in
exponential form)
x

>labelencoder_y=LabelEncoder() (encoding y)
y = labelencoder_y.fit_transform(y)
6. Spliting Training and Test Data:-

> from sklearn.cross_validation import train_test_split
note:- (cross validation is library for spliting the whole data set in training and testing
data..... inside which we call the train and test
class for spliting the data)

>x_train,x_test,y_train,y_test = train_test_split(x,y,test_size=0.2,random_state = 0)
(splits the whole data set for 80% data for tarining, 20% data for testing,,
random state maintains the consistency in the train and test data,if not then
every time it takes duffrent set if values)

try to keep the train test in between the range of 20-30% as <20 results in
overfitting and more than 30 leads to error

7. Future scaling:- (is used to scale large values in small space.. like putting the two
numbers and the square of their diuffrence in the same graph)
(Note:- all values will be scaled between -1 to +1)

> from [Link] import Standard Scaler
sc_x = Standard Scaler
x_train = sc_x.fit_transform(x_train) #[Link]-- use only for training data
x_test = sc_x.transform(x_test)
## x_train=always a dependent variable
## standard scaler is a class that scales all the values based on volume of ,model...
## fit()- generate learning model parameters from training data (only makes
machine to learn) going to make the object ready
##transform()-- applied upon model to generate transform data set..

Mnote:_ fit_transform() can only be applied on standard scaler functions

**k-nn algorithm:-
from [Link] import KneighborsClassifier
classifier = KneighborsClassifier(n_neighbors=5, metric=’minkowski’, p=2)
[Link](X_train,Y_train)
-------till here machine if fit with trianing data and machines learns with training data----

## in sklearn neighbors is a library in which we have kneighbors classifiers

## kneighbors takes some values=== n-neighbors are number of neighbours... a prime
number
metrics == defines the type of method being used
p=2 means using euclidean distance
------ for testing and predictiong------
y_pred = [Link](X_test) ## predicts only on x_test values given before
y_pred

**making the confusion matrix----

from [Link] import confusion_matrix ## confusion_matrix is a fnc

cm = confusion_matrix(y_test,y_pred)
cm
gives out a confusion matrix with [TP,FP,FN,TN] format/....

*STEP 8:- Visualizing the Training and Test data set results

from [Link] import ListedColormap

x_set,y_set=x_train,y_train

x1,x2=
[Link]([Link](start=x_set[:,0].min()-1,stop=x_set[:,0].max()+1,step=0.01),[Link]
nge(start=x_set[:,1].min()-1,stop=x_set[:,1].max()+1,step=0.01))

[Link](x1,x2,[Link]([Link]([[Link](),[Link]()]).T).reshape([Link]),al
pha=0.75,cmap=ListedColormap((‘red’,’green’)))

[Link]([Link](),[Link]())
[Link]([Link](),[Link]())

for i,j in enumerate([Link](y_set)):

[Link](x_set[y_set==j,0],x_set[y_set==j,1],c=ListedColormap((‘red’,’green’))(i),label=j)
[Link](‘K-NN(Training set)’)
[Link](‘Age’)
[Link](‘Estimnated sAlary’)
[Link]()
[Link]()

**
*STEP 9:- Visualizing the Training and Test data set results

from [Link] import ListedColormap

x_set,y_set=x_train,y_train
x1,x2=
[Link]([Link](start=x_set[:,0].min()-1,stop=x_set[:,0].max()+1,step=0.01),[Link]
nge(start=x_set[:,1].min()-1,stop=x_set[:,1].max()+1,step=0.01))

[Link](x1,x2,[Link]([Link]([[Link](),[Link]()]).T).reshape([Link]),al
pha=0.75,cmap=ListedColormap((‘red’,’green’)))

[Link]([Link](),[Link]())
[Link]([Link](),[Link]())

for i,j in enumerate([Link](y_set)):

[Link](x_set[y_set==j,0],x_set[y_set==j,1],c=ListedColormap((‘red’,’green’))(i),label=j)
[Link](‘K-NN(Training set)’)
[Link](‘Age’)
[Link](‘Estimnated sAlary’)
[Link]()
[Link]()

**decision treee:--

dataset=pd.read_csv('Social_Network_Ads.csv')
x = [Link][:,[2,3]].values
y = [Link][:, 4].values

from sklearn.cross_validation import train_test_split

x_train,x_test,y_train,y_test = train_test_split(x,y,test_size=0.25,random_state = 0)

from [Link] import StandardScaler

sc_x = StandardScaler()
x_train = sc_x.fit_transform(x_train)
x_test = sc_x.transform(x_test)

from [Link] import DecisionTreeClassifier

classifier = DecisionTreeClassifier(criterion = 'entropy',random_state=0)
[Link](x_train,y_train)

y_pred = [Link](x_test)

from [Link] import confusion_matrix

cm = confusion_matrix(y_test,y_pred)
cm

training plot:-
from [Link] import ListedColormap
x_set,y_set=x_train,y_train

x1,x2=
[Link]([Link](start=x_set[:,0].min()-1,stop=x_set[:,0].max()+1,step=0.01),[Link]
nge(start=x_set[:,1].min()-1,stop=x_set[:,1].max()+1,step=0.01))

[Link](x1,x2,[Link]([Link]([[Link](),[Link]()]).T).reshape([Link]),al
pha = 0.75,cmap = ListedColormap(('red','green')))

[Link]([Link](),[Link]())
[Link]([Link](),[Link]())

for i,j in enumerate([Link](y_set)):

[Link](x_set[y_set==j,0],x_set[y_set==j,1],c=ListedColormap(('red','green'))(i),label=j)
[Link]('Decison Tree(Training set)')
[Link]('Age')
[Link]('Estimnated sAlary')
[Link]()
[Link]()

Test plot :--

from [Link] import ListedColormap

x_set,y_set=x_test,y_test

x1,x2=
[Link]([Link](start=x_set[:,0].min()-1,stop=x_set[:,0].max()+1,step=0.01),[Link]
nge(start=x_set[:,1].min()-1,stop=x_set[:,1].max()+1,step=0.01))

[Link](x1,x2,[Link]([Link]([[Link](),[Link]()]).T).reshape([Link]),al
pha = 0.75,cmap = ListedColormap(('red','green')))

[Link]([Link](),[Link]())
[Link]([Link](),[Link]())

from sklearn.cross_validation import train_test_split

x_train,x_test,y_train,y_test = train_test_split(x,y,test_size=0.25,random_state = 0)

from [Link] import StandardScaler

sc_x = StandardScaler()
x_train = sc_x.fit_transform(x_train)
x_test = sc_x.transform(x_test)

from sklearn.naive_bayes import GaussianNB

classifier = GaussianNB()
[Link](x_train,y_train)

y_pred = [Link](x_test)

from [Link] import confusion_matrix

cm = confusion_matrix(y_test,y_pred)
cm

training plot:-
from [Link] import ListedColormap

x_set,y_set=x_train,y_train

x1,x2=
[Link]([Link](start=x_set[:,0].min()-1,stop=x_set[:,0].max()+1,step=0.01),[Link]
nge(start=x_set[:,1].min()-1,stop=x_set[:,1].max()+1,step=0.01))

[Link](x1,x2,[Link]([Link]([[Link](),[Link]()]).T).reshape([Link]),al
pha = 0.75,cmap = ListedColormap(('red','green')))

[Link]([Link](),[Link]())
[Link]([Link](),[Link]())

x_set,y_set=x_test,y_test

x1,x2=
[Link]([Link](start=x_set[:,0].min()-1,stop=x_set[:,0].max()+1,step=0.01),[Link]
nge(start=x_set[:,1].min()-1,stop=x_set[:,1].max()+1,step=0.01))

[Link](x1,x2,[Link]([Link]([[Link](),[Link]()]).T).reshape([Link]),al
pha = 0.75,cmap = ListedColormap(('red','green')))

[Link]([Link](),[Link]())
[Link]([Link](),[Link]())

for i,j in enumerate([Link](y_set)):

[Link](x_set[y_set==j,0],x_set[y_set==j,1],c=ListedColormap(('red','green'))(i),label=j)
[Link]('Naive Bayes(Test set)')
[Link]('Age')
[Link]('Estimnated sAlary')
[Link]()
[Link]()

**Random forest
dataset=pd.read_csv('Social_Network_Ads.csv')
x = [Link][:,[2,3]].values
y = [Link][:, 4].values

from sklearn.cross_validation import train_test_split

x_train,x_test,y_train,y_test = train_test_split(x,y,test_size=0.25,random_state = 0)

from [Link] import StandardScaler

sc_x = StandardScaler()
x_train = sc_x.fit_transform(x_train)
x_test = sc_x.transform(x_test)

from [Link] import RandomForestClassifier

classifier = RandomForestClassifier(n_estimators = 10,criterion =
'entropy',random_state=0)
[Link](x_train,y_train)

y_pred = [Link](x_test)

from [Link] import confusion_matrix

cm = confusion_matrix(y_test,y_pred)
cm
from [Link] import ListedColormap

x_set,y_set=x_train,y_train

x1,x2=
[Link]([Link](start=x_set[:,0].min()-1,stop=x_set[:,0].max()+1,step=0.01),[Link]
nge(start=x_set[:,1].min()-1,stop=x_set[:,1].max()+1,step=0.01))

[Link](x1,x2,[Link]([Link]([[Link](),[Link]()]).T).reshape([Link]),al
pha = 0.75,cmap = ListedColormap(('red','green')))

[Link]([Link](),[Link]())
[Link]([Link](),[Link]())

for i,j in enumerate([Link](y_set)):

[Link](x_set[y_set==j,0],x_set[y_set==j,1],c=ListedColormap(('red','green'))(i),label=j)
[Link]('Naive Bayes(Training set)')
[Link]('Age')
[Link]('Estimnated sAlary')
[Link]()
[Link]()

from [Link] import ListedColormap

x_set,y_set=x_test,y_test

x1,x2=
[Link]([Link](start=x_set[:,0].min()-1,stop=x_set[:,0].max()+1,step=0.01),[Link]
nge(start=x_set[:,1].min()-1,stop=x_set[:,1].max()+1,step=0.01))

[Link](x1,x2,[Link]([Link]([[Link](),[Link]()]).T).reshape([Link]),al
pha = 0.75,cmap = ListedColormap(('red','green')))

[Link]([Link](),[Link]())
[Link]([Link](),[Link]())

for i,j in enumerate([Link](y_set)):

[Link](x_set[y_set==j,0],x_set[y_set==j,1],c=ListedColormap(('red','green'))(i),label=j)
[Link]('Naive Bayes(Test set)')
[Link]('Age')
[Link]('Estimnated sAlary')
[Link]()
[Link]()

Linear Regression:-
import numpy as np
import [Link] as plt
import pandas as pd

dataset=pd.read_csv('Salary_Data.csv')
x = [Link][:,:-1].values
y = [Link][:,1].values

from sklearn.cross_validation import train_test_split

x_train,x_test,y_train,y_test = train_test_split(x,y,test_size=0.25,random_state = 0)

from sklearn.linear_model import LinearRegression

regressor = LinearRegression()
[Link](x_train,y_train)

y_pred = [Link](x_test)

[Link](x_train,y_train, color='red')
[Link](x_train,[Link](x_train),color = 'blue')
[Link]('sal vs exp (Test set)')
[Link]('Age')
[Link]('Estimnated sAlary')
[Link]()
[Link]()

ML Manual With Outputs
No ratings yet
ML Manual With Outputs
30 pages
Shobit Sharma (2124399) ML Lab File PDF
No ratings yet
Shobit Sharma (2124399) ML Lab File PDF
19 pages
Machine Learning Assignment
No ratings yet
Machine Learning Assignment
7 pages
Linearregression SVM
No ratings yet
Linearregression SVM
3 pages
16BCB0126 VL2018195002535 Pe003
No ratings yet
16BCB0126 VL2018195002535 Pe003
40 pages
Unit2 ML Programs
No ratings yet
Unit2 ML Programs
7 pages
LAB-4 Report
No ratings yet
LAB-4 Report
21 pages
Python For Data Science IA 1 Programs
No ratings yet
Python For Data Science IA 1 Programs
14 pages
Simple Linear Regression
No ratings yet
Simple Linear Regression
11 pages
Python Code For KNN Classifier 1. Initial Message
No ratings yet
Python Code For KNN Classifier 1. Initial Message
7 pages
Scikit-Learn Python Cheat Sheet
100% (1)
Scikit-Learn Python Cheat Sheet
1 page
SVM K NN MLP With Sklearn Jupyter NoteBo
No ratings yet
SVM K NN MLP With Sklearn Jupyter NoteBo
22 pages
Document 4
No ratings yet
Document 4
3 pages
Ann Experiential Learning
No ratings yet
Ann Experiential Learning
43 pages
ML Codes
No ratings yet
ML Codes
9 pages
ML Cheatsheet
No ratings yet
ML Cheatsheet
4 pages
C2W3 Lab 01 Model Evaluation and Selection
No ratings yet
C2W3 Lab 01 Model Evaluation and Selection
21 pages
C2W3 Lab 01 Model Evaluation and Selection
No ratings yet
C2W3 Lab 01 Model Evaluation and Selection
21 pages
Scikit-Learn Python Cheat Sheet
100% (1)
Scikit-Learn Python Cheat Sheet
1 page
ML Algorithms
100% (1)
ML Algorithms
1 page
Machine Learning Lab Assignments
100% (2)
Machine Learning Lab Assignments
23 pages
Machine Learning Lab
No ratings yet
Machine Learning Lab
20 pages
Exp9 10
No ratings yet
Exp9 10
4 pages
Scikit-Learn Algorithm Overview
No ratings yet
Scikit-Learn Algorithm Overview
1 page
Scikit-Learn Python Cheat Sheet
No ratings yet
Scikit-Learn Python Cheat Sheet
1 page
Progress of GRADIENT BOOSTING ALGORITHM FOR ELECTRICITY THEFT DETECTION IN POWER UTILITIES
No ratings yet
Progress of GRADIENT BOOSTING ALGORITHM FOR ELECTRICITY THEFT DETECTION IN POWER UTILITIES
10 pages
Classification Review
No ratings yet
Classification Review
8 pages
Machine Learning Model Building
No ratings yet
Machine Learning Model Building
6 pages
Sample Code
No ratings yet
Sample Code
8 pages
ADS - Phase 3
No ratings yet
ADS - Phase 3
34 pages
ML Lab Manual
No ratings yet
ML Lab Manual
12 pages
ML Lab 01999676272
No ratings yet
ML Lab 01999676272
12 pages
Machine Learning Evaluation Guide
100% (1)
Machine Learning Evaluation Guide
504 pages
Lab On ML Print-Set-2022
No ratings yet
Lab On ML Print-Set-2022
10 pages
Professional Machine Learning
No ratings yet
Professional Machine Learning
67 pages
Case Study - Classifier
No ratings yet
Case Study - Classifier
5 pages
Machine Learning: Supervised /unsupervised
No ratings yet
Machine Learning: Supervised /unsupervised
33 pages
Python For Data Science IA 1 Programs
No ratings yet
Python For Data Science IA 1 Programs
14 pages
Aiml 5-8
No ratings yet
Aiml 5-8
19 pages
Linear Regression (Code)
No ratings yet
Linear Regression (Code)
9 pages
ML Lab
No ratings yet
ML Lab
29 pages
Project-4 (KNN CLASSIFICATION) (2) PRANAB
No ratings yet
Project-4 (KNN CLASSIFICATION) (2) PRANAB
2 pages
Cheat Sheet: Python For Data Science
100% (1)
Cheat Sheet: Python For Data Science
1 page
DM ML Practical
No ratings yet
DM ML Practical
13 pages
ML Lab Manual
No ratings yet
ML Lab Manual
17 pages
ML Functions
No ratings yet
ML Functions
12 pages
AI ML - Cycle 2 Programs
No ratings yet
AI ML - Cycle 2 Programs
15 pages
Mlda - Lab
No ratings yet
Mlda - Lab
35 pages
CP4252 Lab Manual
No ratings yet
CP4252 Lab Manual
13 pages
KNN Final
No ratings yet
KNN Final
4 pages
Machine Learning Cheatsheet
No ratings yet
Machine Learning Cheatsheet
5 pages
Codes For Project
No ratings yet
Codes For Project
8 pages
ML PDF
No ratings yet
ML PDF
30 pages
1
No ratings yet
1
13 pages
Data Modeling - Cheatsheet
No ratings yet
Data Modeling - Cheatsheet
9 pages
MlLabManualdocx 2024 09 04 22 02 58
No ratings yet
MlLabManualdocx 2024 09 04 22 02 58
19 pages
Aiml Ex 4-7
No ratings yet
Aiml Ex 4-7
8 pages
CASE 2-Reducing River Surface Water Flood Risk by Integrating Nature Based Solutions
No ratings yet
CASE 2-Reducing River Surface Water Flood Risk by Integrating Nature Based Solutions
3 pages
An Unexpected Party, JRR Tolkien
No ratings yet
An Unexpected Party, JRR Tolkien
4 pages
B47 - 10008 STD 6 Ins 012 R00
No ratings yet
B47 - 10008 STD 6 Ins 012 R00
70 pages
02 Bilge Pumping Systems: Manual Diaphragm Pumps
No ratings yet
02 Bilge Pumping Systems: Manual Diaphragm Pumps
24 pages
Group 2 Cations
50% (2)
Group 2 Cations
15 pages
Ages
No ratings yet
Ages
9 pages
Steam Boiler Specifications and Design
100% (1)
Steam Boiler Specifications and Design
17 pages
TAROM: Romania's Flag Carrier History
No ratings yet
TAROM: Romania's Flag Carrier History
8 pages
How To Calculate Your Destiny Number Vanessa Somuayina
No ratings yet
How To Calculate Your Destiny Number Vanessa Somuayina
2 pages
UPOU Job Openings: Evaluator & Clerk
No ratings yet
UPOU Job Openings: Evaluator & Clerk
1 page
CONFIDENTIAL - CV of Mr. Bahtra Insan Tarigan 25 June 2024
No ratings yet
CONFIDENTIAL - CV of Mr. Bahtra Insan Tarigan 25 June 2024
5 pages
Figma AI Beta for Designers
No ratings yet
Figma AI Beta for Designers
35 pages
Girl in 6e Torre A R
No ratings yet
Girl in 6e Torre A R
34 pages
GS - RS - Lite CENTUM VP Integration Package
No ratings yet
GS - RS - Lite CENTUM VP Integration Package
4 pages
Primary 6 Social Studies Guide
No ratings yet
Primary 6 Social Studies Guide
28 pages
A Presentation ON Jet Engine: Km. Shiva Katiyar
No ratings yet
A Presentation ON Jet Engine: Km. Shiva Katiyar
26 pages
Coconut-Lemon Beverage Optimization
No ratings yet
Coconut-Lemon Beverage Optimization
7 pages
Papers
No ratings yet
Papers
118 pages
Schedule Q
No ratings yet
Schedule Q
59 pages
Creating Sustainable Marketing Plan For A Vegan Bakery.
No ratings yet
Creating Sustainable Marketing Plan For A Vegan Bakery.
57 pages
Class 11 CS Mid-Term
No ratings yet
Class 11 CS Mid-Term
3 pages
Jamapsychiatry Kaul 2024 Oi 240015 1713460151.77667
No ratings yet
Jamapsychiatry Kaul 2024 Oi 240015 1713460151.77667
8 pages
Fusion of Modern and Ancient: Feldspathic/refractory Veneers Using Zirconia Porcelain
No ratings yet
Fusion of Modern and Ancient: Feldspathic/refractory Veneers Using Zirconia Porcelain
7 pages
Amazon V/S Flipkart: Name-Kaerin Roll No - 19bba05
No ratings yet
Amazon V/S Flipkart: Name-Kaerin Roll No - 19bba05
7 pages
Petroleum Geology of South Australia Complete
No ratings yet
Petroleum Geology of South Australia Complete
183 pages
ICC UK-Primatrade-Cash Against Data-Paper-V1-2
No ratings yet
ICC UK-Primatrade-Cash Against Data-Paper-V1-2
38 pages
Educating Professional Mathematicians
No ratings yet
Educating Professional Mathematicians
5 pages
Fitting Instructions: WIKO5000 Gooseneck (All Types and Sizes)
No ratings yet
Fitting Instructions: WIKO5000 Gooseneck (All Types and Sizes)
1 page
Unit Test 10 Mat 25-26 em
No ratings yet
Unit Test 10 Mat 25-26 em
5 pages
Financial Statements Overview
No ratings yet
Financial Statements Overview
9 pages