0% found this document useful (0 votes)

121 views6 pages

Iris Dataset Analysis with KNN & K-Means

The document describes implementing various clustering and classification algorithms on an iris flower dataset. Functions are defined to read in the dataset, calculate distances between data points, perform k-nearest neighbors classification, and k-means clustering. KNN classification is demonstrated using different distance metrics. K-means clustering is also performed using different distance metrics to cluster the iris data into k=3 groups.

Uploaded by

no0r32200

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

121 views6 pages

Iris Dataset Analysis with KNN & K-Means

Uploaded by

no0r32200

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

dsm-3

December 19, 2023

0.1 1. Write afunction to read a data set and store it as a matrix

[201]: import pandas as pd
import numpy as np
from [Link] import distance
from collections import Counter

def read_dataset(filename):
df = pd.read_csv(filename)
matrix = df.to_numpy()
return matrix

csv_file = "[Link]"
dataset = read_dataset(csv_file)

[202]: # Print the matrix

print(dataset)

[[5.1 3.5 1.4 0.2 'Setosa']

[4.9 3.0 1.4 0.2 'Setosa']
[4.7 3.2 1.3 0.2 'Setosa']
[5.0 3.4 1.5 0.2 'Setosa']
[5.7 3.8 1.7 0.3 'Setosa']
[5.1 3.8 1.5 0.3 'Setosa']
[5.5 4.2 1.4 0.2 'Setosa']
[4.9 3.1 1.5 0.2 'Setosa']
[5.0 3.2 1.2 0.2 'Setosa']
[5.0 3.3 1.4 0.2 'Setosa']
[7.0 3.2 4.7 1.4 'Versicolor']
[6.9 3.1 4.9 1.5 'Versicolor']
[5.5 2.3 4.0 1.3 'Versicolor']
[6.5 2.8 4.6 1.5 'Versicolor']
[6.3 2.5 4.9 1.5 'Versicolor']
[6.0 3.4 4.5 1.6 'Versicolor']
[6.7 3.1 4.7 1.5 'Versicolor']
[6.3 2.3 4.4 1.3 'Versicolor']
[5.6 3.0 4.1 1.3 'Versicolor']
[5.1 2.5 3.0 1.1 'Versicolor']

1
[6.3 3.3 6.0 2.5 'Virginica']
[5.8 2.7 5.1 1.9 'Virginica']
[7.1 3.0 5.9 2.1 'Virginica']
[6.3 2.9 5.6 1.8 'Virginica']
[6.5 3.0 5.8 2.2 'Virginica']
[7.6 3.0 6.6 2.1 'Virginica']
[4.9 2.5 4.5 1.7 'Virginica']
[7.3 2.9 6.3 1.8 'Virginica']
[6.7 2.5 5.8 1.8 'Virginica']
[7.2 3.6 6.1 2.5 'Virginica']]

0.2 2.a Calculate Data mean for each attribute and represent it as a vector
[216]: def calculate_data_mean(filename):
df = pd.read_csv(filename)
mean_vector = [Link](numeric_only=True)

return mean_vector

csv_file = "[Link]"
mean_vector = calculate_data_mean(csv_file)
print("Mean Vector:")
print(mean_vector)

Mean Vector:
[Link] 5.95
[Link] 3.07
[Link] 3.86
[Link] 1.22
dtype: float64

0.3 2.b Calculate Manhattan distance between two data objects

[204]: def manhattan_distance(vec1, vec2):
dist = [Link]([Link]([Link](vec1) - [Link](vec2)))
return dist

0.4 2.c Calculate Euclidian distance between two data objects

[205]: # calculating Euclidean distance using [Link]()
def euclidean_distance(vec1, vec2):
dist = [Link](vec1 - vec2)
return dist

2
0.5 2.d Calculate Chebyshev distance between two data objects
[206]: def Chebychev_distance(vec1,vec2):
dist= [Link]([Link]([Link](vec1) - [Link](vec2)))
return dist

0.6 2.e Calculate Mahalanobis distance.

[207]: def mahalanobis_distance(data, x):
mean_vector = [Link]().values
cov_matrix = [Link]().values
inv_cov_matrix = [Link](cov_matrix)
x_minus_mean = x - mean_vector
mahalanobis_sq = [Link]([Link](x_minus_mean, inv_cov_matrix), x_minus_mean.
↪T)

mahalanobis_distance = [Link](mahalanobis_sq)
return mahalanobis_distance

iris_data = pd.read_csv('[Link]')
columns = ['[Link]', '[Link]', '[Link]', '[Link]']
iris_subset = iris_data[columns]

point = [Link]([5.0, 3.2, 1.4, 0.2]) # Example point

distance = mahalanobis_distance(iris_subset, point)
print("Mahalanobis Distance:", distance)

# ref [Link]

Mahalanobis Distance: 1.357839356712021

0.7 Write a separate function to implement the K-Nearest Neighbors classifi-

cation method using all the functions implemented in question(2) above
[209]: def knn_classify(data, labels, query_point, k, distance_metric):
distances = []
for i, row in [Link]():
if distance_metric == 'manhattan':
dist = manhattan_distance(row, query_point)
elif distance_metric == 'chebyshev':
dist = chebyshev(row, query_point)
elif distance_metric == 'euclidean':
dist = euclidean_distance(row, query_point)
elif distance_metric == 'mahalanobis':
dist = mahalanobis_distance(data, query_point)
else:
raise ValueError("Invalid distance metric. Supported options are␣
↪'manhattan', 'chebyshev', 'euclidean', and 'mahalanobis'.")

3
[Link]((dist, labels[i]))

[Link]()
k_nearest = distances[:k]
k_nearest_labels = [label for (_, label) in k_nearest]

most_common = Counter(k_nearest_labels).most_common(1)
predicted_label = most_common[0][0]

return predicted_label

iris_data = pd.read_csv('[Link]')
feature_columns = ['[Link]', '[Link]', '[Link]', '[Link]']
iris_features = iris_data[feature_columns]
iris_labels = iris_data['variety']
random_point = [Link]([6.1, 2.9, 4.7, 1.3])
k = 5 # Number of nearest neighbors to consider

distance_metrics = ['manhattan', 'chebyshev', 'euclidean', 'mahalanobis']

for metric in distance_metrics:

predicted_label = knn_classify(iris_features, iris_labels, random_point, k,␣
↪metric)

print(f"Predicted variety using {[Link]()} distance:␣

↪{predicted_label}")

Predicted variety using Manhattan distance: Versicolor

Predicted variety using Chebyshev distance: Versicolor
Predicted variety using Euclidean distance: Versicolor
Predicted variety using Mahalanobis distance: Setosa

0.8 Write a separate function to implement the K-means clustering method

using all the functions implemented in question (2) above
[214]: def initialize_centroids(data, k):
centroids = data[[Link](range([Link][0]), k, replace=False)]
return centroids

def assign_clusters(data, centroids, distance_metric):

cluster_labels = [Link]([Link][0], dtype=int)
for i, point in enumerate(data):
distances = []
if distance_metric == 'mahalanobis':
covariance_matrix = [Link](data.T)
for centroid in centroids:
[Link](mahalanobis_distance(point, centroid,␣
↪covariance_matrix))

4
elif distance_metric == 'manhattan':
for centroid in centroids:
[Link](manhattan_distance(point, centroid))
elif distance_metric == 'chebyshev':
for centroid in centroids:
[Link](chebyshev_distance(point, centroid))
elif distance_metric == 'euclidean':
for centroid in centroids:
[Link](euclidean_distance(point, centroid))
cluster_labels[i] = [Link](distances)
return cluster_labels

def update_centroids(data, cluster_labels, k):

centroids = []
for i in range(k):
cluster_data = data[cluster_labels == i]
centroid = [Link](cluster_data, axis=0)
[Link](centroid)
centroids = [Link](centroids)
return centroids

def kmeans(data, k, distance_metric='euclidean', max_iterations=100):

centroids = initialize_centroids(data, k)
for _ in range(max_iterations):
cluster_labels = assign_clusters(data, centroids, distance_metric)
new_centroids = update_centroids(data, cluster_labels, k)
if np.array_equal(centroids, new_centroids):
break
centroids = new_centroids
return cluster_labels, centroids

def euclidean_distance(vec1, vec2):

dist = [Link](vec1 - vec2)
return dist

def manhattan_distance(vec1, vec2):

dist = [Link]([Link](vec1 - vec2))
return dist

def chebyshev_distance(vec1, vec2):

dist = [Link]([Link](vec1 - vec2))
return dist

def mahalanobis_distance(vec1, vec2, covariance_matrix):

diff = vec1 - vec2
inv_covariance = [Link](covariance_matrix)
dist = [Link]([Link]([Link](diff, inv_covariance), diff.T))

5
return dist

iris_data = [Link]('[Link]', delimiter=',', skip_header=1, usecols=(0,␣

↪1, 2, 3))

k = 3
distance_metrics = ['mahalanobis', 'manhattan', 'chebyshev', 'euclidean']
for metric in distance_metrics:
cluster_labels, centroids = kmeans(iris_data, k, distance_metric=metric)
print(f"Distance Metric: {metric}")
print("Cluster Labels:")
print(cluster_labels)
print("Centroids:")
print(centroids)
print()

Distance Metric: mahalanobis

Cluster Labels:
[2 0 2 2 2 2 2 2 0 2 1 1 0 1 1 2 1 0 2 0 1 1 1 2 1 1 2 1 1 1]
Centroids:
[[5.36 2.66 2.8 0.82 ]
[6.76153846 2.97692308 5.49230769 1.86923077]
[5.31666667 3.34166667 2.53333333 0.68333333]]

Distance Metric: manhattan

Cluster Labels:
[0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 0 2 1 2 2 2 2 1 2 2 2]
Centroids:
[[5.09090909 3.36363636 1.57272727 0.3 ]
[6.13636364 2.80909091 4.58181818 1.5 ]
[6.875 3.025 6.0125 2.1 ]]

Distance Metric: chebyshev

Cluster Labels:
[0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 0 2 1 2 2 2 2 1 2 2 2]
Centroids:
[[5.09090909 3.36363636 1.57272727 0.3 ]
[6.13636364 2.80909091 4.58181818 1.5 ]
[6.875 3.025 6.0125 2.1 ]]

Distance Metric: euclidean

Cluster Labels:
[0 0 0 0 0 0 0 0 0 0 2 2 2 2 2 2 2 2 2 0 1 2 1 1 1 1 2 1 1 1]
Centroids:
[[5.09090909 3.36363636 1.57272727 0.3 ]
[6.875 3.025 6.0125 2.1 ]
[6.13636364 2.80909091 4.58181818 1.5 ]]

KNN and K-Means with Iris Dataset
No ratings yet
KNN and K-Means with Iris Dataset
6 pages
KNN and K-Means with Iris Dataset
No ratings yet
KNN and K-Means with Iris Dataset
7 pages
Assignment 4
No ratings yet
Assignment 4
9 pages
KNN Classifier Implementation in Python
No ratings yet
KNN Classifier Implementation in Python
8 pages
MLLab Manual
No ratings yet
MLLab Manual
24 pages
Wa0003
No ratings yet
Wa0003
16 pages
kNN Algorithm Implementation Guide
No ratings yet
kNN Algorithm Implementation Guide
6 pages
Lab4 KNN
No ratings yet
Lab4 KNN
9 pages
Apriori Algorithm
No ratings yet
Apriori Algorithm
12 pages
V
No ratings yet
V
8 pages
Machine Learning Lab
No ratings yet
Machine Learning Lab
33 pages
Implementing KNN Algorithm On The Iris Dataset
No ratings yet
Implementing KNN Algorithm On The Iris Dataset
7 pages
ML Programs
No ratings yet
ML Programs
14 pages
K-Means Clustering Python Guide
No ratings yet
K-Means Clustering Python Guide
3 pages
K-Means Clustering From Scratch
No ratings yet
K-Means Clustering From Scratch
3 pages
Mlalllabprgs
No ratings yet
Mlalllabprgs
17 pages
kNN and K-Means Python Implementations
No ratings yet
kNN and K-Means Python Implementations
25 pages
Minor Assignment 4
No ratings yet
Minor Assignment 4
17 pages
ML Experiment WithDataset
No ratings yet
ML Experiment WithDataset
23 pages
Strangers
No ratings yet
Strangers
8 pages
M PDF
No ratings yet
M PDF
13 pages
K-Means Clustering Experiment Guide
No ratings yet
K-Means Clustering Experiment Guide
6 pages
K-means++ Algorithm for Improved Clustering
No ratings yet
K-means++ Algorithm for Improved Clustering
5 pages
Argha's ML LAB - 240927 - 121838
No ratings yet
Argha's ML LAB - 240927 - 121838
13 pages
Machine Learning Lab Manual
No ratings yet
Machine Learning Lab Manual
26 pages
ML Journal External
No ratings yet
ML Journal External
14 pages
Titanic Shuffle Analysis in ML Lab
No ratings yet
Titanic Shuffle Analysis in ML Lab
24 pages
Machine Learning Lab Manual
No ratings yet
Machine Learning Lab Manual
9 pages
ML Labmanual
No ratings yet
ML Labmanual
33 pages
Machine Learning Programs
No ratings yet
Machine Learning Programs
10 pages
ML Short Code - Under Updating
No ratings yet
ML Short Code - Under Updating
4 pages
Decision Boundary Visualization in Python
No ratings yet
Decision Boundary Visualization in Python
7 pages
AIML Lab 10
No ratings yet
AIML Lab 10
4 pages
KNN Implementation on Iris Dataset
100% (1)
KNN Implementation on Iris Dataset
5 pages
K-Means Clustering Explained
No ratings yet
K-Means Clustering Explained
6 pages
KNN Distance Calculation Explained
No ratings yet
KNN Distance Calculation Explained
14 pages
Machine Learning Lab Manual
No ratings yet
Machine Learning Lab Manual
18 pages
2.3 Aiml Rishit
No ratings yet
2.3 Aiml Rishit
7 pages
ML Exp5 C36
No ratings yet
ML Exp5 C36
18 pages
k-Nearest Neighbors Explained
No ratings yet
k-Nearest Neighbors Explained
24 pages
1 Supervise Learning (KNN) (Solution) : 1.1 Distance Measuring in Machine Learning
No ratings yet
1 Supervise Learning (KNN) (Solution) : 1.1 Distance Measuring in Machine Learning
14 pages
Artificial Intelligence Lab 10
No ratings yet
Artificial Intelligence Lab 10
8 pages
KMeans Clustering Implementation in Python
No ratings yet
KMeans Clustering Implementation in Python
2 pages
Lab Extern L
No ratings yet
Lab Extern L
8 pages
Lab Manual ML
No ratings yet
Lab Manual ML
23 pages
Lab Assignment 1 - KNN
No ratings yet
Lab Assignment 1 - KNN
6 pages
ML - Datascience Manual
No ratings yet
ML - Datascience Manual
64 pages
KNN - Jupyter Notebook
No ratings yet
KNN - Jupyter Notebook
8 pages
Assignment - 2 (Set A)
No ratings yet
Assignment - 2 (Set A)
2 pages
K-means and KNN Algorithms Explained
No ratings yet
K-means and KNN Algorithms Explained
9 pages
KNN Classifier for Iris Image Classification
No ratings yet
KNN Classifier for Iris Image Classification
4 pages
Baidurya Debnath 4
No ratings yet
Baidurya Debnath 4
37 pages
Python Data Analysis with Iris Dataset
No ratings yet
Python Data Analysis with Iris Dataset
7 pages
PCA and Feature Extraction Techniques
No ratings yet
PCA and Feature Extraction Techniques
14 pages
University Clustering Analysis Results
No ratings yet
University Clustering Analysis Results
4 pages
KNN Final
No ratings yet
KNN Final
4 pages
Flynn Taxonomy and K-Means Clustering
No ratings yet
Flynn Taxonomy and K-Means Clustering
21 pages
Naïve Bayes and KNN Classifier Code
No ratings yet
Naïve Bayes and KNN Classifier Code
13 pages
Or Type in Your Web Browser
100% (5)
Or Type in Your Web Browser
351 pages
Bresenham's Line & 2D/3D Transformations
No ratings yet
Bresenham's Line & 2D/3D Transformations
1 page
Mathopoly PDF
No ratings yet
Mathopoly PDF
25 pages
Resolution of Forces
No ratings yet
Resolution of Forces
22 pages
2020 Tanzania Basic Math Exam
No ratings yet
2020 Tanzania Basic Math Exam
6 pages
Triple Integration
No ratings yet
Triple Integration
35 pages
Pink2010-14Extension Paper From The UKMT
No ratings yet
Pink2010-14Extension Paper From The UKMT
42 pages
Projection of Points and Straight Lines
No ratings yet
Projection of Points and Straight Lines
2 pages
Admission Test Paper For Mathematics (Year 5 Cam 4)
No ratings yet
Admission Test Paper For Mathematics (Year 5 Cam 4)
14 pages
History and Importance of Mathematics
No ratings yet
History and Importance of Mathematics
110 pages
SAT Geometry and Trigonometry
No ratings yet
SAT Geometry and Trigonometry
179 pages
Understanding Fourier Bandwidth and Sampling
No ratings yet
Understanding Fourier Bandwidth and Sampling
5 pages
MHT Cet Questions Physics (Circular Motion)
91% (11)
MHT Cet Questions Physics (Circular Motion)
4 pages
Class 9 Chapter 6 Worksheet Math Lines and Angles: Instructions
No ratings yet
Class 9 Chapter 6 Worksheet Math Lines and Angles: Instructions
12 pages
0607 w24 QP 21 Merged
No ratings yet
0607 w24 QP 21 Merged
44 pages
IX Class Math Mock Test 4
No ratings yet
IX Class Math Mock Test 4
4 pages
Xii Math Merged
No ratings yet
Xii Math Merged
11 pages
ISI B.Stat & B.Math 2014 Objective Paper - Problems & Solutions - Cheenta Academy
No ratings yet
ISI B.Stat & B.Math 2014 Objective Paper - Problems & Solutions - Cheenta Academy
6 pages
IGCSE Maths Practice Paper 2A
No ratings yet
IGCSE Maths Practice Paper 2A
36 pages
Dap An Chinh Thuc IMO 2010
No ratings yet
Dap An Chinh Thuc IMO 2010
15 pages
Trigonometric Formulas and Ratios
No ratings yet
Trigonometric Formulas and Ratios
5 pages
General Theory of Bending Moment
No ratings yet
General Theory of Bending Moment
8 pages
Straight Line in 3D
100% (1)
Straight Line in 3D
11 pages
Understanding Complex Numbers and Functions
No ratings yet
Understanding Complex Numbers and Functions
27 pages
Analytic Trigonometry Answer Key
No ratings yet
Analytic Trigonometry Answer Key
5 pages
Btech Sem 1 2 Btme 101 21 Engineering Graphics and Designn
No ratings yet
Btech Sem 1 2 Btme 101 21 Engineering Graphics and Designn
2 pages
Vector Resolution Basics
100% (1)
Vector Resolution Basics
21 pages
25 Vectors PDF
100% (1)
25 Vectors PDF
16 pages
Iterated Integrals and Fubini's Theorem
No ratings yet
Iterated Integrals and Fubini's Theorem
6 pages
2014 Calculus AB Free Response Questions (Answers and Explanations) 4
No ratings yet
2014 Calculus AB Free Response Questions (Answers and Explanations) 4
7 pages

Iris Dataset Analysis with KNN & K-Means

Uploaded by

Iris Dataset Analysis with KNN & K-Means

Uploaded by

dsm-3

December 19, 2023

0.1 1. Write afunction to read a data set and store it as a matrix

[202]: # Print the matrix

[[5.1 3.5 1.4 0.2 'Setosa']

0.3 2.b Calculate Manhattan distance between two data objects

0.4 2.c Calculate Euclidian distance between two data objects

0.6 2.e Calculate Mahalanobis distance.

point = [Link]([5.0, 3.2, 1.4, 0.2]) # Example point

Mahalanobis Distance: 1.357839356712021

0.7 Write a separate function to implement the K-Nearest Neighbors classifi-

distance_metrics = ['manhattan', 'chebyshev', 'euclidean', 'mahalanobis']

for metric in distance_metrics:

print(f"Predicted variety using {[Link]()} distance:␣

Predicted variety using Manhattan distance: Versicolor

0.8 Write a separate function to implement the K-means clustering method

def assign_clusters(data, centroids, distance_metric):

def update_centroids(data, cluster_labels, k):

def kmeans(data, k, distance_metric='euclidean', max_iterations=100):

def euclidean_distance(vec1, vec2):

def manhattan_distance(vec1, vec2):

def chebyshev_distance(vec1, vec2):

def mahalanobis_distance(vec1, vec2, covariance_matrix):

iris_data = [Link]('[Link]', delimiter=',', skip_header=1, usecols=(0,␣

Distance Metric: mahalanobis

Distance Metric: manhattan

Distance Metric: chebyshev

Distance Metric: euclidean

You might also like