100% found this document useful (2 votes)

132 views

Tutorial 2 - Clustering

This document is a Jupyter notebook that explores different clustering algorithms including K-Means clustering, DBSCAN clustering, and agglomerative clustering. It loads and explores a driver dataset, applies K-Means clustering to identify 4 clusters, visualizes the clusters, performs normalization before applying K-Means again, and compares the results. It then applies DBSCAN clustering before and after normalization. Finally, it performs agglomerative clustering and dendrogram visualization to identify clusters in the normalized data.

Uploaded by

Gupta Akshay

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

100% found this document useful (2 votes)

132 views

Tutorial 2 - Clustering

Uploaded by

Gupta Akshay

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 6

14/09/2018 Tutorial 2 - Clustering

In [13]:

import numpy as np
import pandas as pd
from sklearn.cluster import KMeans
pd.set_option('display.float_format', lambda x: '%.3f' % x)
%matplotlib inline
import matplotlib.pyplot as plt

In [9]:

data = pd.read_csv("./driver_dataset.csv", sep='\t')

In [10]:

data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4000 entries, 0 to 3999
Data columns (total 3 columns):
Driver_ID 4000 non-null int64
Distance_Feature 4000 non-null float64
Speeding_Feature 4000 non-null float64
dtypes: float64(2), int64(1)
memory usage: 93.8 KB

In [11]:

data.describe()

Out[11]:

Driver_ID Distance_Feature Speeding_Feature

count 4000.000 4000.000 4000.000

mean 3423312447.500 76.042 10.721

std 1154.845 53.470 13.709

min 3423310448.000 15.520 0.000

25% 3423311447.750 45.248 4.000

50% 3423312447.500 53.330 6.000

75% 3423313447.250 65.632 9.000

max 3423314447.000 244.790 100.000

http://localhost:8888/notebooks/Documents/BITS%20Course/DM/Tut/TUT2/Piyush_TUT/Tutorial%202%20-%20Clustering.ipynb# 1/7
14/09/2018 Tutorial 2 - Clustering

In [26]:

plt.scatter(data.iloc[:,1:2], data.iloc[:,2:3])
plt.xlabel(data.columns.values[1])
plt.ylabel(data.columns.values[2])
plt.show()

In [28]:

wcss = []
for i in range(1,11):
kmeans = KMeans(n_clusters = i,init = 'k-means++',random_state = 0)
kmeans.fit(data)
wcss.append(kmeans.inertia_)
plt.plot(range(1,11),wcss)
plt.title('The Elbow Method')
plt.xlabel('Number of cluster')
plt.ylabel('WCSS')
plt.show()

In [52]:

kmeans = KMeans(n_clusters = 4,init = 'k-means++',random_state =0)

y_kmeans = kmeans.fit_predict(data)

http://localhost:8888/notebooks/Documents/BITS%20Course/DM/Tut/TUT2/Piyush_TUT/Tutorial%202%20-%20Clustering.ipynb# 2/7
14/09/2018 Tutorial 2 - Clustering

In [53]:

%matplotlib inline
plt.figsize=(40, 40)
plt.scatter(data.iloc[:,1],data.iloc[:,2], c=y_kmeans)

Out[53]:

<matplotlib.collections.PathCollection at 0x7f381ee64ba8>

In [47]:

from sklearn import preprocessing

#Performing Min_Max Normalization
min_max_scaler = preprocessing.MinMaxScaler()
np_scaled = min_max_scaler.fit_transform(data.iloc[:,1:])
dataN = pd.DataFrame(np_scaled)
dataN.head()

Out[47]:

0 1

0 0.243 0.280

1 0.161 0.250

2 0.214 0.270

3 0.175 0.220

4 0.170 0.250

In [50]:

kmeans = KMeans(n_clusters = 4,init = 'k-means++',random_state =0)

y2_kmeans = kmeans.fit_predict(dataN)

http://localhost:8888/notebooks/Documents/BITS%20Course/DM/Tut/TUT2/Piyush_TUT/Tutorial%202%20-%20Clustering.ipynb# 3/7
14/09/2018 Tutorial 2 - Clustering

In [59]:

%matplotlib inline
plt.scatter(data.iloc[:,1],data.iloc[:,2], c=y2_kmeans)

Out[59]:

<matplotlib.collections.PathCollection at 0x7f381c32eda0>

In [ ]:

#DBSCAN STARTS

In [78]:

from sklearn.cluster import DBSCAN

dbscan = DBSCAN(eps=0.1, metric='euclidean', min_samples=5)

In [79]:

dbsc = dbscan.fit(data)
dbsc.labels_

Out[79]:

array([-1, -1, -1, ..., -1, -1, -1])

http://localhost:8888/notebooks/Documents/BITS%20Course/DM/Tut/TUT2/Piyush_TUT/Tutorial%202%20-%20Clustering.ipynb# 4/7
14/09/2018 Tutorial 2 - Clustering

In [80]:

plt.scatter(data.iloc[:,1],data.iloc[:,2], c=dbsc.labels_)

Out[80]:

<matplotlib.collections.PathCollection at 0x7f38142e7550>

In [81]:

dbsc = dbscan.fit(dataN)
dbsc.labels_

Out[81]:

array([0, 0, 0, ..., 1, 1, 1])

In [82]:

plt.scatter(data.iloc[:,1],data.iloc[:,2], c=dbsc.labels_)

Out[82]:

<matplotlib.collections.PathCollection at 0x7f381437b198>

http://localhost:8888/notebooks/Documents/BITS%20Course/DM/Tut/TUT2/Piyush_TUT/Tutorial%202%20-%20Clustering.ipynb# 5/7
14/09/2018 Tutorial 2 - Clustering

In [66]:

model.labels_

Out[66]:

array([-1, -1, -1, ..., -1, -1, -1])

In [ ]:

#AGGLOMERATIVE STARTS

In [67]:

from sklearn.cluster import AgglomerativeClustering as AC

aggclus = AC(n_clusters = 4,affinity='euclidean',linkage='ward',compute_full_tree='
y_aggclus= aggclus.fit_predict(data.iloc[:,1:3])

In [68]:

y_aggclus

Out[68]:

array([3, 3, 3, ..., 1, 1, 1])

In [69]:

from scipy.cluster.hierarchy import dendrogram, linkage,cut_tree

from scipy.cluster.hierarchy import fcluster
k=4
linkage_matrix = linkage(dataN, "ward",metric="euclidean")
ddata=dendrogram(linkage_matrix,color_threshold=1.5)

In [83]:

ddata=dendrogram(linkage_matrix,color_threshold=1.5)
plt.figure(figsize=(5,7))

Out[83]:

<Figure size 360x504 with 0 Axes>

http://localhost:8888/notebooks/Documents/BITS%20Course/DM/Tut/TUT2/Piyush_TUT/Tutorial%202%20-%20Clustering.ipynb# 6/7

Module 2 Data Types, Operators, Variables Assignment
No ratings yet
Module 2 Data Types, Operators, Variables Assignment
4 pages
Nagareddy 18-Nov-2023
No ratings yet
Nagareddy 18-Nov-2023
20 pages
SMDM Project Report-Survi Ghura
100% (1)
SMDM Project Report-Survi Ghura
26 pages
Clustering Documentation R Code
100% (1)
Clustering Documentation R Code
9 pages
Basic Statistics (Module - 3)
No ratings yet
Basic Statistics (Module - 3)
9 pages
Network Analytics - Problem Statement
No ratings yet
Network Analytics - Problem Statement
4 pages
CRISP - DM - Business Understanding
No ratings yet
CRISP - DM - Business Understanding
17 pages
Name: Siti Mursyida Abdul Karim (Data Science Program) Topic: Assignment - EDA
100% (1)
Name: Siti Mursyida Abdul Karim (Data Science Program) Topic: Assignment - EDA
13 pages
20dit073 Jay Prajapati ML
No ratings yet
20dit073 Jay Prajapati ML
68 pages
K Mean Clustering 1
100% (1)
K Mean Clustering 1
12 pages
15 KNN - Problem Statement
0% (2)
15 KNN - Problem Statement
3 pages
Association Rules Ans
No ratings yet
Association Rules Ans
28 pages
ML Lab6.Ipynb - Colaboratory
100% (1)
ML Lab6.Ipynb - Colaboratory
5 pages
R - Assignment
No ratings yet
R - Assignment
2 pages
Day13 K Means Clustering
No ratings yet
Day13 K Means Clustering
4 pages
Radhika PCA - Problem Statement
No ratings yet
Radhika PCA - Problem Statement
3 pages
Text Mining Problem Statement
100% (1)
Text Mining Problem Statement
3 pages
Duplication - Typecasting-Problem Statement
100% (1)
Duplication - Typecasting-Problem Statement
3 pages
Multinomial Problem Statement
No ratings yet
Multinomial Problem Statement
28 pages
DS+C25 PGDDS+Masters
No ratings yet
DS+C25 PGDDS+Masters
13 pages
Day10 Mathematical Foundations
No ratings yet
Day10 Mathematical Foundations
4 pages
ML Assignemnt PDF
No ratings yet
ML Assignemnt PDF
21 pages
Exploratory Data Analysis
No ratings yet
Exploratory Data Analysis
22 pages
LDA KNN Logistic
100% (1)
LDA KNN Logistic
29 pages
Predictive Modelling
100% (1)
Predictive Modelling
58 pages
Data Mining Assignment: Sudhanva Saralaya
100% (1)
Data Mining Assignment: Sudhanva Saralaya
16 pages
Discretization Problem Statement
No ratings yet
Discretization Problem Statement
3 pages
Python For Data Analytics
No ratings yet
Python For Data Analytics
3 pages
Basic Statistics (Module - 3)
No ratings yet
Basic Statistics (Module - 3)
7 pages
Day12 Hierarchical Clustering
No ratings yet
Day12 Hierarchical Clustering
9 pages
Statistics and Probability
No ratings yet
Statistics and Probability
8 pages
Wholesale Custumer
100% (1)
Wholesale Custumer
32 pages
Project 5 - Cars
100% (1)
Project 5 - Cars
22 pages
Support Vector Machines Problem Statement
No ratings yet
Support Vector Machines Problem Statement
27 pages
Module 03 Assignment
100% (1)
Module 03 Assignment
13 pages
Why Do You Need To Scale Data in KNN: 3 Answers
No ratings yet
Why Do You Need To Scale Data in KNN: 3 Answers
1 page
Prathamesh Shukla SMDM Project 20.08.23
100% (1)
Prathamesh Shukla SMDM Project 20.08.23
34 pages
Anshul Dyundi Machine Learning July 2022
50% (2)
Anshul Dyundi Machine Learning July 2022
46 pages
Data Science & Business Analytics: Post Graduate Program in
No ratings yet
Data Science & Business Analytics: Post Graduate Program in
16 pages
Predictive Modelling - Linear Discriminant Analysis - Mentor Version - Jupyter Notebook
100% (1)
Predictive Modelling - Linear Discriminant Analysis - Mentor Version - Jupyter Notebook
25 pages
SQL - Basics
No ratings yet
SQL - Basics
25 pages
DataPreparation Outlier Treatment
100% (1)
DataPreparation Outlier Treatment
3 pages
8.dummy Variables
No ratings yet
8.dummy Variables
4 pages
Chapter 5 - Classification Problems
100% (1)
Chapter 5 - Classification Problems
25 pages
Assignment Module 6
No ratings yet
Assignment Module 6
2 pages
Rahulsharma - 03 12 23
No ratings yet
Rahulsharma - 03 12 23
25 pages
Answer Book (Ashish)
100% (1)
Answer Book (Ashish)
21 pages
Problem Statements:: Inferential Statistics
0% (1)
Problem Statements:: Inferential Statistics
5 pages
Machine Learning: Lecture 13: Model Validation Techniques, Overfitting, Underfitting
100% (2)
Machine Learning: Lecture 13: Model Validation Techniques, Overfitting, Underfitting
26 pages
Week 1 Quiz
100% (1)
Week 1 Quiz
28 pages
Machine Learning (Project5) PDF
100% (2)
Machine Learning (Project5) PDF
13 pages
Random Forest - US - Heart - Patients - Class
100% (1)
Random Forest - US - Heart - Patients - Class
24 pages
SMDM Project Report
100% (1)
SMDM Project Report
9 pages
CRISP DM Business Understanding Completed
No ratings yet
CRISP DM Business Understanding Completed
18 pages
Project Questions
No ratings yet
Project Questions
3 pages
Tutorial 8
No ratings yet
Tutorial 8
12 pages
KDD_WS_24_25_E4_Clustering_I
No ratings yet
KDD_WS_24_25_E4_Clustering_I
2 pages
DataEnggineering
No ratings yet
DataEnggineering
16 pages
Week 8 DS Practical (1)
No ratings yet
Week 8 DS Practical (1)
13 pages