0% found this document useful (0 votes)

10 views11 pages

Devesh

The document outlines practical exercises in data mining under the supervision of Dr. Bhavya Deep. It includes tasks such as data cleaning, pre-processing, applying the Apriori algorithm, using classification algorithms, and clustering with K-Means. Each section provides code examples and expected outputs for datasets, primarily focusing on the wine dataset.

Uploaded by

kavyachauhan374

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

10 views11 pages

Devesh

Uploaded by

kavyachauhan374

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 11

PRACTICAL RECORD FILE

DATA MINING
(Under the supervision of Dr. Bhavya Deep sir)

DEVESH MEENA
2302016
2nd YEAR 4th SEMESTER
BSC(H).COMPUTER SCIENCE
INDEX

Sr.
Practical Question sign
No.

Apply data cleaning techniques on any dataset (e.g., wine dataset). Techniques may include
1 handling missing values, outliers, inconsistent values. A set of validation rules can be prepared
based on the dataset and validations can be performed.

Apply data pre-processing techniques such as standardization/normalization, transformation,

2
aggregation, discretization/binarization, sampling etc. on any dataset.

Run Apriori algorithm to find frequent item sets and association rules on 2 real datasets and use
appropriate evaluation
a) Use minimum measures
support to compute
as 50% and minimumcorrectness
confidenceofasobtained
75%. patterns.
3
b) Use minimum support as 60% and minimum confidence as 60%.

Use Naive Bayes, K-Nearest, and Decision Tree classification algorithms and build classifiers on
any two datasets. Divide the dataset into training and test sets. Compare the accuracy of the
different classifiers under the following situations:
I. a) Training set = 75%, Test set = 25%.
b) Training set = 66.6%, Test set = 33.3%.
4
II. Training set is chosen by:
i) Hold-out method
ii) Random subsampling
iii) Cross-validation.
Compare the accuracy of the classifiers obtained. Data needs to be scaled to standard format.

Use Simple K-Means algorithm for clustering on any dataset. Compare the performance of clusters
5 by changing the parameters involved in the algorithm. Plot MSE computed after each iteration
using a line plot for any set of parameters.
Q1.Apply data cleaning techniques on any dataset (e,g, wine dataset). Techniques may include
handling missing values, outliers, inconsistent values. A set of validation rules can be prepared
based on the dataset and validations can be performed.

Code:
import pandas as pd

# 1. Load dataset (semicolon-delimited)

df = pd.read_csv("winequality-red.csv", sep=';')

# 2. for missing values

print("Missing values per column:\n", df.isna().sum())

# 3. Handle missing values (if any appear—this dataset has none by default)
df.fillna(df.mean(), inplace=True)

# 4. Normalize/standardize text columns

if 'type' in df.columns:
df['type'] = df['type'].str.lower()

print("\nPost-cleaning summary statistics:")

print(df.describe())
print("\nData cleaning completed.")

Output:
Q2.Apply data pre-processing techniques such as standardization/normalization, transformation,
aggregation, discretization/binarization, sampling etc. on any dataset

Code:
import pandas as pd
from sklearn.preprocessing import StandardScaler

# 1. Load dataset
df = pd.read_csv("winequality-red.csv", sep=';')

# 2. Select all numeric feature columns for scaling

numeric_cols = [c for c in df.columns if df[c].dtype in ['float64','int64'] and c != 'quality']

# 3. Initialize the scaler

scaler = StandardScaler()

# 4. Fit & transform the numeric features

scaled_array = scaler.fit_transform(df[numeric_cols])

# 5. Convert back to a DataFrame

df_scaled = pd.DataFrame(scaled_array, columns=numeric_cols)

# 6. Re-attach the target column

df_scaled['quality'] = df['quality']

print("Standardized feature summary:")

print(df_scaled.describe().loc[['mean','std']])

output:

Q3. . Run Apriori algorithm to find frequent item sets and association rules on 2 real datasets and
use appropriate evaluation measures to compute correctness of obtained patterns

a) Use minimum support as 50% and minimum confidence as 75%

b) Use minimum support as 60% and minimum confidence as 60 %

code:

import pandas as pd
from mlxtend.preprocessing import TransactionEncoder
from mlxtend.frequent_patterns import apriori, association_rules
# Load dataset
df = pd.read_csv("winequality-red.csv", sep=';')
# Discretize selected features
features = ['fixed acidity', 'volatile acidity', 'citric acid', 'residual sugar', 'alcohol']
for col in features:

q1 = df[col].quantile(0.25) q3 = df[col].quantile(0.75) bins = [df[col].min()-1,

q1, q3, df[col].max()+1] df[col + '_cat'] = pd.cut(df[col], bins=bins, labels=
['low', 'medium', 'high'])

transactions = df[[c + '_cat' for c in features]].astype(str).values.tolist()

# Encode transactions
te = TransactionEncoder()
te_ary = te.fit(transactions).transform(transactions)
df_trans = pd.DataFrame(te_ary, columns=te.columns_)

(a) Support ≥ 50%, Confidence ≥ 75%

itemsets_50 = apriori(df_trans, min_support=0.50, use_colnames=True)
rules_50 = association_rules(itemsets_50, metric="confidence", min_threshold=0.75)
print("Support ≥ 50%, Confidence ≥ 75%")
print(rules_50[['antecedents', 'consequents', 'support', 'confidence', 'lift']])

(b) Support ≥ 60%, Confidence ≥ 60%

itemsets_60 = apriori(df_trans, min_support=0.60, use_colnames=True)
rules_60 = association_rules(itemsets_60, metric="confidence", min_threshold=0.60)

print("Support ≥ 60%, Confidence ≥ 60%")

print(rules_60[['antecedents', 'consequents', 'support', 'confidence', 'lift']])

OUTPUT:
Q4.Use Naive bayes, K-nearest, and Decision tree classification algorithms and build classifiers on
any two datasets. Divide the data set into training and test set. Compare the accuracy of the
different classifiers under the following situations: I. a) Training set = 75% Test set = 25% b) Training
set = 66.6% (2/3rd of total), Test set = 33.3% II. Training set is chosen by i) hold out method ii)
Random subsampling iii) Cross-Validation. Compare the accuracy of the classifiers obtained. Data
needs to be scaled to standard format.

Code:

import pandas as pd
import numpy as np

from sklearn.datasets import load_iris, load_wine

from sklearn.model_selection import train_test_split, cross_val_score

from sklearn.preprocessing import StandardScaler

from sklearn.naive_bayes import GaussianNB
from sklearn.neighbors import KNeighborsClassifier

from sklearn.tree import DecisionTreeClassifier

from sklearn.metrics import accuracy_score

# Function to evaluate classifiers

def evaluate_models(X, y, dataset_name):

results = []

classifiers = {

'Naive Bayes': GaussianNB(),

'KNN': KNeighborsClassifier(),
'Decision Tree': DecisionTreeClassifier()
}

# Standardize features

scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# I.a) 75/25 split

X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.25, random_state=42)

for name, clf in classifiers.items():

clf.fit(X_train, y_train)
y_pred = clf.predict(X_test)

acc = accuracy_score(y_test, y_pred)

results.append((dataset_name, name, "75/25 Split", acc))

# I.b) 66.6/33.3 split

X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.333, random_state=42)

for name, clf in classifiers.items():

clf.fit(X_train, y_train)

y_pred = clf.predict(X_test)

acc = accuracy_score(y_test, y_pred)

results.append((dataset_name, name, "66.6/33.3 Split", acc))

# II.i) Hold Out Method

for name, clf in classifiers.items():

X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.3, random_state=0)

clf.fit(X_train, y_train)
acc = clf.score(X_test, y_test)

results.append((dataset_name, name, "Hold Out", acc))

# II.ii) Random Subsampling (avg of 5)

for name, clf in classifiers.items():
scores = []

for _ in range(5):

X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.3)

clf.fit(X_train, y_train)

scores.append(clf.score(X_test, y_test))

results.append((dataset_name, name, "Random Subsampling", np.mean(scores)))

# II.iii) Cross Validation (5-fold)

for name, clf in classifiers.items():

scores = cross_val_score(clf, X_scaled, y, cv=5)

results.append((dataset_name, name, "5-Fold CV", np.mean(scores)))

return results

# Load datasets
iris = load_iris()

wine = load_wine()
# Run evaluation

iris_results = evaluate_models(iris.data, iris.target, "Iris")

wine_results = evaluate_models(wine.data, wine.target, "Wine")

# Combine all results

combined_results = pd.DataFrame(iris_results + wine_results, columns=["Dataset", "Classifier",
"Evaluation Method", "Accuracy"])
print(combined_results)
output:
5.Use Simple K-means algorithm for clustering on any dataset. Compare the performance of
clusters by changing the parameters involved in the algorithm. Plot MSE computed after each
iteration using a line plot for any set of parameters.
Code:

import pandas as pd
import numpy as np

import matplotlib.pyplot as plt

from sklearn.cluster import KMeans

from sklearn.preprocessing import StandardScaler

from sklearn.datasets import load_wine

from sklearn.metrics import mean_squared_error

# Load the Wine dataset

wine = load_wine()
X = wine.data

# Standardize the dataset

scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# Function to run KMeans and collect MSE after each iteration

def kmeans_with_mse(X, n_clusters=3, max_iter=10):

mse_list = []

kmeans = KMeans(n_clusters=n_clusters, init='random', n_init=1, max_iter=1, random_state=42)

for i in range(max_iter):

kmeans.max_iter = i + 1 # Increase iterations step by step

kmeans.fit(X)
labels = kmeans.predict(X)
mse = mean_squared_error(X, kmeans.cluster_centers_[labels])

mse_list.append(mse)
return mse_list

# Parameters

clusters = 3
iterations = 10

# Run and collect MSEs

mse_values = kmeans_with_mse(X_scaled, n_clusters=clusters, max_iter=iterations)

# Plotting MSE vs Iterations

plt.figure(figsize=(8, 5))
plt.plot(range(1, iterations + 1), mse_values, marker='o', linestyle='-', color='blue')

plt.title(f'K-Means Clustering MSE vs Iterations (k={clusters})')

plt.xlabel('Iteration')

plt.ylabel('Mean Squared Error (MSE)')

plt.grid(True)

plt.tight_layout()
plt.show()

Output:

Books For Mrcog Part1
100% (3)
Books For Mrcog Part1
2 pages
SDB - Prefere 4116 (English)
No ratings yet
SDB - Prefere 4116 (English)
14 pages
Let's Understand The Concept
No ratings yet
Let's Understand The Concept
390 pages
Animal Nutrition MCQs
100% (2)
Animal Nutrition MCQs
10 pages
MLP Slides Merged
No ratings yet
MLP Slides Merged
480 pages
The Introduction of Western Education
88% (8)
The Introduction of Western Education
10 pages
Engine Assy of Volvo Tipper FMX-460 (TP-01198)
No ratings yet
Engine Assy of Volvo Tipper FMX-460 (TP-01198)
7 pages
EDS - Python Cheat Sheet
0% (1)
EDS - Python Cheat Sheet
3 pages
Irc 78 Draft LSM PDF
100% (2)
Irc 78 Draft LSM PDF
64 pages
CatBoost - An In-Depth Guide Python
No ratings yet
CatBoost - An In-Depth Guide Python
33 pages
Kaggle Course Notes
No ratings yet
Kaggle Course Notes
87 pages
Curriculim Vitae: Education Qualification:-Passport Details
No ratings yet
Curriculim Vitae: Education Qualification:-Passport Details
8 pages
SPM 4
No ratings yet
SPM 4
15 pages
Substructure
No ratings yet
Substructure
82 pages
Datamining 2
No ratings yet
Datamining 2
54 pages
Machine Learning Lab Manual
No ratings yet
Machine Learning Lab Manual
42 pages
Transmission Line Theory
No ratings yet
Transmission Line Theory
25 pages
ML Lab-1
No ratings yet
ML Lab-1
32 pages
22mid0187 ML Lab-5
No ratings yet
22mid0187 ML Lab-5
13 pages
Complete Taijiquan Theory of DR Yang Jwing Ming The Root of Taijiquan Jwing-Ming Yang PDF For All Chapters
No ratings yet
Complete Taijiquan Theory of DR Yang Jwing Ming The Root of Taijiquan Jwing-Ming Yang PDF For All Chapters
55 pages
Behavior Modification Principles and Procedures 5th Edition Miltenberger Test Bank - Download PDF
100% (5)
Behavior Modification Principles and Procedures 5th Edition Miltenberger Test Bank - Download PDF
39 pages
Data Science Lab Manual
No ratings yet
Data Science Lab Manual
32 pages
ModuleAr Merged
No ratings yet
ModuleAr Merged
42 pages
11.feature Selection, Extraction
No ratings yet
11.feature Selection, Extraction
38 pages
Lab Manual ML
No ratings yet
Lab Manual ML
23 pages
Submitted To: Submitted By: Group-3 2018-Arch-9/Isha Fatehullah 2018-ARCH-32/AZKA IHSAN
No ratings yet
Submitted To: Submitted By: Group-3 2018-Arch-9/Isha Fatehullah 2018-ARCH-32/AZKA IHSAN
66 pages
Ashwin Report
No ratings yet
Ashwin Report
18 pages
A Thesis Submitted in Partial Fulfilment of The Requirements For The Degree of
No ratings yet
A Thesis Submitted in Partial Fulfilment of The Requirements For The Degree of
58 pages
ML 3
No ratings yet
ML 3
24 pages
ML Shristi File
No ratings yet
ML Shristi File
49 pages
Project
No ratings yet
Project
16 pages
7 Data Science / Machine Learning Cheat Sheets in One
100% (1)
7 Data Science / Machine Learning Cheat Sheets in One
9 pages
CSC 240 HW 4
No ratings yet
CSC 240 HW 4
17 pages
MLLab Manual
No ratings yet
MLLab Manual
24 pages
Business Analytics 1 Ca 2
No ratings yet
Business Analytics 1 Ca 2
26 pages
AAM PR QB
No ratings yet
AAM PR QB
13 pages
ML Lab Exam Document
No ratings yet
ML Lab Exam Document
14 pages
Melbourne Ia
No ratings yet
Melbourne Ia
16 pages
Machine Learning Practice
No ratings yet
Machine Learning Practice
17 pages
ML PR
No ratings yet
ML PR
32 pages
Final ML File
No ratings yet
Final ML File
34 pages
Project Data Mining (AMAN YADAV)
No ratings yet
Project Data Mining (AMAN YADAV)
12 pages
United States Court of Appeals: For The Seventh Circuit
No ratings yet
United States Court of Appeals: For The Seventh Circuit
19 pages
Machine Learning Lab - Preprocessing
No ratings yet
Machine Learning Lab - Preprocessing
13 pages
A Methodology For Sustainable Management of Food W
No ratings yet
A Methodology For Sustainable Management of Food W
20 pages
DMT Cia2
No ratings yet
DMT Cia2
11 pages
Importing Libraries: Pandas PD Matplotlib - Pyplot PLT Numpy NP
No ratings yet
Importing Libraries: Pandas PD Matplotlib - Pyplot PLT Numpy NP
10 pages
ML Lab Codes
No ratings yet
ML Lab Codes
14 pages
Data Preprocessing Example Programs1
No ratings yet
Data Preprocessing Example Programs1
9 pages
Machine Learning Lab Assignment 1
No ratings yet
Machine Learning Lab Assignment 1
23 pages
Model Fine-Tuning - Hyperparameter Optimization
No ratings yet
Model Fine-Tuning - Hyperparameter Optimization
9 pages
1
No ratings yet
1
19 pages
ML LAB Mannual - Index
No ratings yet
ML LAB Mannual - Index
29 pages
Fem2063 - Data Analytics (December)
No ratings yet
Fem2063 - Data Analytics (December)
12 pages
Ramanlal Shorawala Public School
No ratings yet
Ramanlal Shorawala Public School
11 pages
Pravesh 6301
No ratings yet
Pravesh 6301
11 pages
SUBQUERIES
No ratings yet
SUBQUERIES
8 pages
5) Randomforest - Ipynb - Colaboratory
No ratings yet
5) Randomforest - Ipynb - Colaboratory
12 pages
Task 2 - Lesson 2 - PARTS OF A SENTENCE
No ratings yet
Task 2 - Lesson 2 - PARTS OF A SENTENCE
8 pages
Pimsleur - Mandarin Chinese II - Reading Booklet
100% (2)
Pimsleur - Mandarin Chinese II - Reading Booklet
63 pages
1
No ratings yet
1
13 pages
ML Lab
No ratings yet
ML Lab
14 pages
S6 - Data Mining Lab Experiments (Except 1)
No ratings yet
S6 - Data Mining Lab Experiments (Except 1)
6 pages
Mini Project Report
No ratings yet
Mini Project Report
12 pages
ANP Midterm #1 Review Answer Key
No ratings yet
ANP Midterm #1 Review Answer Key
7 pages
EX - NO:3: Algorithm
No ratings yet
EX - NO:3: Algorithm
11 pages
221IT027 DA Lab3
No ratings yet
221IT027 DA Lab3
5 pages
Exercise#9 Instructions 2021
No ratings yet
Exercise#9 Instructions 2021
5 pages
Slip
No ratings yet
Slip
5 pages
Wine Quality Prediction Using Machine Learning
No ratings yet
Wine Quality Prediction Using Machine Learning
10 pages
RANDOM FOREST (Binary Classification)
No ratings yet
RANDOM FOREST (Binary Classification)
5 pages
# Tommy Trojan # ITP 449 Fall 2021 # Final Project # Q1
No ratings yet
# Tommy Trojan # ITP 449 Fall 2021 # Final Project # Q1
6 pages
ML Codes
No ratings yet
ML Codes
9 pages
Mini Project With Output
No ratings yet
Mini Project With Output
8 pages
Program 5
No ratings yet
Program 5
3 pages
All-Star Sports - Winter Season
No ratings yet
All-Star Sports - Winter Season
12 pages
Decision Trees
No ratings yet
Decision Trees
2 pages
Water - Acidity
No ratings yet
Water - Acidity
2 pages
Ma Auditor Independence Letter Sample Commission 201x
No ratings yet
Ma Auditor Independence Letter Sample Commission 201x
2 pages
Practical04.ipynb - Colab
No ratings yet
Practical04.ipynb - Colab
2 pages
Materi Bahasa Inggris XI Writing
No ratings yet
Materi Bahasa Inggris XI Writing
2 pages
Unit 6 Pyspark - MLlib
No ratings yet
Unit 6 Pyspark - MLlib
6 pages
Pyspark MLlib
No ratings yet
Pyspark MLlib
4 pages
Persuasion Map
No ratings yet
Persuasion Map
1 page
Ipv6 Cheat Sheet
No ratings yet
Ipv6 Cheat Sheet
2 pages
Đề thi thử vào 10 môn tiếng anh 2022
No ratings yet
Đề thi thử vào 10 môn tiếng anh 2022
2 pages
Lor Ead-510-Site Budget Categories Template and Reflection
100% (1)
Lor Ead-510-Site Budget Categories Template and Reflection
5 pages
Revisiting Structural Family Therapy
No ratings yet
Revisiting Structural Family Therapy
2 pages
DATA MINING and MACHINE LEARNING: CLUSTER ANALYSIS and kNN CLASSIFIERS. Examples with MATLAB
From Everand
DATA MINING and MACHINE LEARNING: CLUSTER ANALYSIS and kNN CLASSIFIERS. Examples with MATLAB
César Pérez López
No ratings yet
DATA MINING AND MACHINE LEARNING. PREDICTIVE TECHNIQUES: REGRESSION, GENERALIZED LINEAR MODELS, SUPPORT VECTOR MACHINE AND NEURAL NETWORKS
From Everand
DATA MINING AND MACHINE LEARNING. PREDICTIVE TECHNIQUES: REGRESSION, GENERALIZED LINEAR MODELS, SUPPORT VECTOR MACHINE AND NEURAL NETWORKS
César Pérez López
No ratings yet

Devesh

Uploaded by

Devesh

Uploaded by

PRACTICAL RECORD FILE

Apply data pre-processing techniques such as standardization/normalization, transformation,

# 1. Load dataset (semicolon-delimited)

# 2. for missing values

# 4. Normalize/standardize text columns

print("\nPost-cleaning summary statistics:")

# 2. Select all numeric feature columns for scaling

# 3. Initialize the scaler

# 4. Fit & transform the numeric features

# 5. Convert back to a DataFrame

# 6. Re-attach the target column

print("Standardized feature summary:")

a) Use minimum support as 50% and minimum confidence as 75%

q1 = df[col].quantile(0.25) q3 = df[col].quantile(0.75) bins = [df[col].min()-1,

transactions = df[[c + '_cat' for c in features]].astype(str).values.tolist()

(a) Support ≥ 50%, Confidence ≥ 75%

(b) Support ≥ 60%, Confidence ≥ 60%

print("Support ≥ 60%, Confidence ≥ 60%")

print(rules_60[['antecedents', 'consequents', 'support', 'confidence', 'lift']])

from sklearn.datasets import load_iris, load_wine

from sklearn.preprocessing import StandardScaler

from sklearn.tree import DecisionTreeClassifier

# Function to evaluate classifiers

def evaluate_models(X, y, dataset_name):

'Naive Bayes': GaussianNB(),

# I.a) 75/25 split

X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.25, random_state=42)

acc = accuracy_score(y_test, y_pred)

# I.b) 66.6/33.3 split

X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.333, random_state=42)

acc = accuracy_score(y_test, y_pred)

results.append((dataset_name, name, "66.6/33.3 Split", acc))

# II.i) Hold Out Method

X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.3, random_state=0)

results.append((dataset_name, name, "Hold Out", acc))

# II.ii) Random Subsampling (avg of 5)

X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.3)

results.append((dataset_name, name, "Random Subsampling", np.mean(scores)))

# II.iii) Cross Validation (5-fold)

for name, clf in classifiers.items():

scores = cross_val_score(clf, X_scaled, y, cv=5)

results.append((dataset_name, name, "5-Fold CV", np.mean(scores)))

iris_results = evaluate_models(iris.data, iris.target, "Iris")

wine_results = evaluate_models(wine.data, wine.target, "Wine")

# Combine all results

import matplotlib.pyplot as plt

from sklearn.preprocessing import StandardScaler

from sklearn.metrics import mean_squared_error

# Load the Wine dataset

# Standardize the dataset

# Function to run KMeans and collect MSE after each iteration

kmeans = KMeans(n_clusters=n_clusters, init='random', n_init=1, max_iter=1, random_state=42)

kmeans.max_iter = i + 1 # Increase iterations step by step

# Run and collect MSEs

mse_values = kmeans_with_mse(X_scaled, n_clusters=clusters, max_iter=iterations)

# Plotting MSE vs Iterations

plt.title(f'K-Means Clustering MSE vs Iterations (k={clusters})')

plt.ylabel('Mean Squared Error (MSE)')

You might also like