0% found this document useful (0 votes)

4 views23 pages

Machine Learning Lab Assignment 2

The document contains multiple assignments involving machine learning techniques, including SVM and KNN classification, as well as data manipulation using pandas. It provides code snippets for each task, detailing steps such as data loading, preprocessing, model training, and evaluation. Additionally, it includes practice questions on data structures and handling missing values in datasets.

Uploaded by

tarlanavikas12

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

4 views23 pages

Machine Learning Lab Assignment 2

Uploaded by

tarlanavikas12

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

You are on page 1/ 23

ASSIGNMENT

1.SVM Classification on News Dataset

Code:
#SVM classification on News Dataset
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.svm import SVC
from sklearn.metrics import
accuracy_score,classification_report,confusion_matrix
from sklearn.preprocessing import StandardScaler
from scipy.sparse import hstack
#Load the dataset
file_path = "Google News.csv"
df = pd.read_csv(file_path)#encoding='ISO-8859-1'
#Drop missing values
df=df.dropna()
#Extract features and labels
X_text =
df[['title','publisher','date','keyword','country']].astype(str).agg(''.join,axis=1)
y = df['category']
#Convert text to numerical features using TF-IDF
vectorizer = TfidfVectorizer(stop_words='english',max_features=5000)
X_tfidf=vectorizer.fit_transform(X_text)
#Standardize the TF-IDF features
scaler = StandardScaler(with_mean=False)
X_tfidf_scaled=scaler.fit_transform(X_tfidf)
#Split into training and testing sets(80%train,20%test)
X_train,X_test,y_train,y_test=train_test_split(X_tfidf_scaled,y,test_size=0.2,ran
dom_state=42)
#Train SVM model
svm_model=SVC(kernel='linear',random_state=42)
svm_model.fit(X_train,y_train)
#Predict on test data
y_pred=svm_model.predict(X_test)
#Evaluate modell performance
accuracy=accuracy_score(y_test,y_pred)
report=classification_report(y_test,y_pred,zero_division=1)
#Compute confusion matrix
conf_matrix=confusion_matrix(y_test,y_pred)
#Plot confusion matrix
plt.figure(figsize=(10,7))
sns.heatmap(conf_matrix,annot=True,fmt='d',cmap='Blues',xticklabels=np.uniq
ue(y),yticklabels=np.unique(y))
plt.xlabel('Predicted Label')
plt.ylabel('Confusion Matrix')
plt.show()
#Print the results
print(f"Accuracy: {accuracy:.4f}")
print("Classification Report:")
print(report)

Dataset:

Input:
Output:
2.KNN Classification with Decision Boundary
Code:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import confusion_matrix,classification_report

#Load Dataset
df=pd.read_csv("student_pass.csv")

#Split into features (X) and target (y)

X = df[['Hours_Studied','Sleep_Hours']] #Features
y = df['Exam_Score'].map({'Fail':0,'Pass':1})

X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.2,random_state=4
2)
#Train KNN model(K=3)
knn = KNeighborsClassifier(n_neighbors=3)
knn.fit(X_train,y_train)

#Predict on test data

y_pred=knn.predict(X_test)
cm=confusion_matrix(y_test,y_pred)
print("Confusion Matrix:\n",cm)
print("\nClassification Report:\n",classification_report(y_test,y_pred))

#Plotting the decision boundary

plt.figure(figsize=(10,6))

#Create a mesh grid for decision boundary

x_min,x_max=X["Hours_Studied"].min()-1,X["Hours_Studied"].max()+1
y_min,y_max=X["Sleep_Hours"].min()-1,X["Sleep_Hours"].max()+1
xx,yy=np.meshgrid(np.linspace(x_min,x_max,100),np.linspace(y_min,y_max,10
0))

#Predict for each point in the grid

Z=knn.predict(np.c_[xx.ravel(),yy.ravel()])
Z=Z.reshape(xx.shape)

#Plot the decision boundary using contour

plt.contourf(xx,yy,Z,alpha=0.3,cmap='coolwarm')

#Scatter plot of training data

sns.scatterplot(x=X_train["Hours_Studied"],y=X_train["Sleep_Hours"],hue=y_tr
ain,palette={0:'red',1:'green'},s=100,edgecolor='black')

#Scatter plot of test data

sns.scatterplot(x=X_test["Hours_Studied"],y=X_test["Sleep_Hours"],hue=y_pre
d,marker='s',palette={0:'orange',1:'blue'},s=150,edgecolor='black')

#Labels and title

plt.xlabel("Hours Studied")
plt.ylabel("Sleep Hours")
plt.title("KNN Classification with Decision Boundary")
plt.legend(title="Legend",labels=["Fail(Train)","Pass(Train)","Fail(Test)","Pass(Te
st)"])
plt.grid(True)
plt.show()
Dataset:

Input:
Output:
3.Practice Questions
3(a)
Code:
import pandas as pd
#Creating a series from a list
data = [10,20,30,40,50]
series1 = pd.Series(data)
print(series1)

Input:

Output:

3(b)
Code:
#Creating a pandas dataframe
import pandas as pd
#creating a dataframe froom a dictionary
data={
'Name':['Alice','Bob','Charlie'],
'Age':[25,30,35],
'Salary':[50000,60000,70000]
}
df=pd.DataFrame(data)
print(df)
Input:
Output:

3(c)
Code:
#From a list of lists
data = [
['Alice',25,50000],
['Bob',30,60000],
['Charlie',35,70000]
]
df = pd.DataFrame(data,columns=['Name','Age','Salary'])
print(df)
Input:

Output:
3(d)
Code:
#missing values
import pandas as pd
import numpy as np
#creating a dataset with some missing values
data = {
'Name': ['Alice','Bob','Charlie','David','Emma'],
'Age': [25,np.nan,30,35,np.nan],
'Salary': [50000,60000,np.nan,80000,75000],
'Department': ['HR','IT',np.nan,'Finance','IT']
}
df = pd.DataFrame(data)
print("Original Dataset with Missing Values:")
print(df)
Input:

Output:
3(e)
Code:
print("Missing Values in Each Column:")
print(df.isnull().sum()) #count missing values in each column
Input:

Output:

3(f)
Code:
import pandas as pd
import numpy as np
#Fill missing Age with the mean age
df['Age'].fillna(df['Age'].mean(),inplace=True)

#Fill missing salary with the median salary

df['Salary'].fillna(df['Salary'].median(),inplace=True)

#Fill missing department with the most frequent vzlue(mode)

df['Department'].fillna(df['Department'].mode()[0],inplace=True)

print("Dataset After filling missing values")

print(df)
Input:
Output:

3(g)
Code:
import pandas as pd
from sklearn.preprocessing import MinMaxScaler
#minmax normalization
#sample data
data = np.array([[1,2],[3,4],[5,6],[7,8]])
#initialize the scaler
scaler = MinMaxScaler()
#fit and transform the data
print(data)
normalized_data = scaler.fit_transform(data)
print("Normalized Data (Min-Max Scaling)")
print(normalized_data)
Input:
Output:

3(h)
Code:
import pandas as pd
import numpy as np

#dictionary
data={
'Name':['Geek1','Geek2','Geek3','Geek4'],
'Salary':[18000,20000,15000,35000]
}
#create a dataframe
data = pd.DataFrame(data,
columns=['Name',
'Salary'])
#show the dataframe
data
data['logarithm_base2'] = np.log2(data['Salary'])
#Show the dataframe
print(data)
Input:

Output:

3(i)
Code:
import pandas as pd
import numpy as np

#sample dataset
data = [50,60,70,80,90,100]

#convert to Pandas DataFrame

df = pd.DataFrame(data,columns=['Values'])
#compute mean and standard deviation
mean = df['Values'].mean()
std_dev = df['Values'].std()

#Apply Z-score normalization

df['Z-Score'] = (df['Values']-mean)/std_dev

#display the results

print(df)
Input:

Output:
4. Naïve Bayes Classification
Code:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import
accuracy_score,classification_report,confusion_matrix
#Sample weather Dataset
data = pd.read_csv("weather.csv")
df=pd.DataFrame(data)
#Encoding categorical features
label_enc=LabelEncoder()
df['Outlook'] = label_enc.fit_transform(df['Outlook']) #Convert
#'Sunny','Rain' etc. to numbets
df['Wind'] = label_enc.fit_transform(df['Wind']) #Covert 'Yes'
#No' to 1,0
df['Humidity'] = label_enc.fit_transform(df['Humidity']) #Convert 'Yes'
df['Temperature'] = label_enc.fit_transform(df['Humidity'])
#Splitting features and target
X=df[['Outlook','Temperature','Humidity','Wind']]
y=df['PlayTennis']
#Train test split
X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.3,random_state=4
2)
#Train Naive Bayes Classifier
model=GaussianNB()
model.fit(X_train,y_train)
#Predictions
y_pred=model.predict(X_test)
#Evaluate Model
print("Accuracy:",accuracy_score(y_test,y_pred))
print("Confusion Matrix:\n",confusion_matrix(y_test,y_pred))
print("Classification Report:\n",classification_report(y_test,y_pred))
Dataset:

Input:
Output:
5.EM-Model
Code:
#EM-Model
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.mixture import GaussianMixture
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import confusion_matrix,accuracy_score

#Load dataset
df = pd.read_csv("student_data.csv")
#Extraxt features(Math Score, Science Score)
X = df[["Math_Score","Science_Score"]].values
y_true = df["Category"].values #True labels(0 or 1)

#Standardize data for better clustering

scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

#Apply Gaussian Mixture Model(EM Algorithm)

gmm =
GaussianMixture(n_components=2,covariance_type='full',random_state=42)
gmm.fit(X_scaled)
y_pred=gmm.predict(X_scaled) #Predicted clusters
#Adjust cluster labels to match true labels
if np.mean(y_pred[y_true==1])< np.mean(y_pred[y_true==0]):
y_pred = 1-y_pred #swap labels if necessary
#Compute Accuracy & Confusion Matrix
accuracy = accuracy_score(y_true,y_pred)
conf_matrix = confusion_matrix(y_true,y_pred)
print("Accuracy:",accuracy)
print("Confusion Matrix:\n",conf_matrix)

#Plot the clusters

plt.figure(figsize=(8,6))
plt.scatter(X[:,0],X[:,1],c=y_pred,cmap='coolwarm',edgecolors='k',s=100)
plt.xlabel("Math Score")
plt.ylabel("Science Score")
plt.title("Student Clusters using EM(GMM)")
plt.colorbar(label="Cluster Label")
plt.show()
Dataset:
Input:
Output:

LS1 Eng. Modules With Worksheets (Figure of Speech)
100% (5)
LS1 Eng. Modules With Worksheets (Figure of Speech)
12 pages
Characteristics of Virtualized Environment
No ratings yet
Characteristics of Virtualized Environment
12 pages
Abhiml ML File
No ratings yet
Abhiml ML File
74 pages
Manual
No ratings yet
Manual
48 pages
DA lab
No ratings yet
DA lab
27 pages
MACHINE LEARNING manual
No ratings yet
MACHINE LEARNING manual
36 pages
PW2 DataCleaning
No ratings yet
PW2 DataCleaning
6 pages
Machine Exercise 3 (1)
No ratings yet
Machine Exercise 3 (1)
22 pages
Dwdm-Lab Manual
No ratings yet
Dwdm-Lab Manual
39 pages
Data Pre Processing
No ratings yet
Data Pre Processing
2 pages
Machine Learning Lab
No ratings yet
Machine Learning Lab
43 pages
Data Analytics lab manual
No ratings yet
Data Analytics lab manual
47 pages
DataAnalytics Lab Manual (1)
No ratings yet
DataAnalytics Lab Manual (1)
35 pages
DA PROGRAM UPTO 6 (1)
No ratings yet
DA PROGRAM UPTO 6 (1)
20 pages
Handling Missing Values in A Real-Time Dataset During
No ratings yet
Handling Missing Values in A Real-Time Dataset During
5 pages
Machine File
No ratings yet
Machine File
27 pages
DA_Programs
No ratings yet
DA_Programs
44 pages
22K61A0654_2_sasi_auto
No ratings yet
22K61A0654_2_sasi_auto
24 pages
Lab File
No ratings yet
Lab File
96 pages
Lecture Material 10
No ratings yet
Lecture Material 10
9 pages
Dmdw-Lab Manual
No ratings yet
Dmdw-Lab Manual
61 pages
Ap Python
No ratings yet
Ap Python
12 pages
Jashan ML
No ratings yet
Jashan ML
20 pages
Data Analysis: Data Preparation
No ratings yet
Data Analysis: Data Preparation
9 pages
Term 1 IP AK
No ratings yet
Term 1 IP AK
6 pages
FDS RECORD-1-4
No ratings yet
FDS RECORD-1-4
18 pages
Data Preprocessing 1
No ratings yet
Data Preprocessing 1
6 pages
Data_preprocessing_example_programs1
No ratings yet
Data_preprocessing_example_programs1
9 pages
Data Preprocessing 2
No ratings yet
Data Preprocessing 2
5 pages
Name: Muhammad Sarfraz Seat: EP1850086 Section: A Course Code: 514 Course Name: Data Warehousing and Data Mining
No ratings yet
Name: Muhammad Sarfraz Seat: EP1850086 Section: A Course Code: 514 Course Name: Data Warehousing and Data Mining
39 pages
ModuleAr Merged
No ratings yet
ModuleAr Merged
42 pages
EDA - Exploratory Data Analysis
No ratings yet
EDA - Exploratory Data Analysis
16 pages
DS Practical
No ratings yet
DS Practical
30 pages
Rainfall Prediction using Machine Learning
No ratings yet
Rainfall Prediction using Machine Learning
9 pages
Unit 4_Working With Graphs _python
No ratings yet
Unit 4_Working With Graphs _python
49 pages
Building Good Training Sets UNIT 1 PART2
No ratings yet
Building Good Training Sets UNIT 1 PART2
46 pages
Kartik mlp 4-9prg (1)
No ratings yet
Kartik mlp 4-9prg (1)
10 pages
Train
No ratings yet
Train
17 pages
ML Book Notes
No ratings yet
ML Book Notes
9 pages
Ilovepdf Merged (2) Merged
No ratings yet
Ilovepdf Merged (2) Merged
65 pages
data science practicals
No ratings yet
data science practicals
47 pages
ML JOURNAL
No ratings yet
ML JOURNAL
53 pages
Python Basics Refresher
No ratings yet
Python Basics Refresher
19 pages
Department of Computer Engineering Academic Term: June-Nov 2021
No ratings yet
Department of Computer Engineering Academic Term: June-Nov 2021
6 pages
ML Final Prac
No ratings yet
ML Final Prac
47 pages
HIV Regression Source Code
No ratings yet
HIV Regression Source Code
26 pages
Data Mining Using Python Manual
No ratings yet
Data Mining Using Python Manual
69 pages
Dav Lab Manual
No ratings yet
Dav Lab Manual
28 pages
100 Days of Machine Learning
No ratings yet
100 Days of Machine Learning
14 pages
Openlab1
No ratings yet
Openlab1
17 pages
ML LAB manual-1
No ratings yet
ML LAB manual-1
33 pages
Practical File IP
No ratings yet
Practical File IP
27 pages
Project paarth (1) (1)
No ratings yet
Project paarth (1) (1)
21 pages
Machine Learning Record VR19
No ratings yet
Machine Learning Record VR19
46 pages
Lab 08 - Data Preprocessing
No ratings yet
Lab 08 - Data Preprocessing
9 pages
Document (4)-1
No ratings yet
Document (4)-1
15 pages
Data Mining Lab 03
No ratings yet
Data Mining Lab 03
10 pages
221IT027_DA_lab3 (2)
No ratings yet
221IT027_DA_lab3 (2)
5 pages
Answers Practical File
No ratings yet
Answers Practical File
19 pages
Wa0012.
No ratings yet
Wa0012.
30 pages
AAM_pr_QB
No ratings yet
AAM_pr_QB
13 pages
Computer Engineering Laboratory Solution Primer
From Everand
Computer Engineering Laboratory Solution Primer
Karan Bhandari
No ratings yet
Calculus for Engineers Lab Report
No ratings yet
Calculus for Engineers Lab Report
39 pages
Modern Physics Lab 10 Experiments
No ratings yet
Modern Physics Lab 10 Experiments
75 pages
Digital Logic Design Lab 1
No ratings yet
Digital Logic Design Lab 1
7 pages
Supply Chain Management System Documentation
No ratings yet
Supply Chain Management System Documentation
31 pages
Umbrella Rental Vending Machine Documentation
No ratings yet
Umbrella Rental Vending Machine Documentation
23 pages
Air Drawing App Using Computer Vision Documentation
No ratings yet
Air Drawing App Using Computer Vision Documentation
25 pages
Air Drawing App Using Computer Vision Presentation
No ratings yet
Air Drawing App Using Computer Vision Presentation
12 pages
C CPP Language Complete Practice Assignment
No ratings yet
C CPP Language Complete Practice Assignment
63 pages
Empower Illiterate UML SRS Document
No ratings yet
Empower Illiterate UML SRS Document
14 pages
Online Exam Registration System UML SRS Document
No ratings yet
Online Exam Registration System UML SRS Document
14 pages
E Ticketing System UML SRS Document
No ratings yet
E Ticketing System UML SRS Document
11 pages
UNIT 9 Psychology and Employment
No ratings yet
UNIT 9 Psychology and Employment
10 pages
Hawthorne Experiment
No ratings yet
Hawthorne Experiment
16 pages
Grammar Quiz
No ratings yet
Grammar Quiz
6 pages
Organisational Behaviour and Human Resource Management
100% (1)
Organisational Behaviour and Human Resource Management
2 pages
Batch Upload For DSpace
No ratings yet
Batch Upload For DSpace
5 pages
Activity Design INSET
No ratings yet
Activity Design INSET
9 pages
Management File Logbook
No ratings yet
Management File Logbook
125 pages
LPS 2
No ratings yet
LPS 2
4 pages
History Paper 1 Question Booklet HLSL
No ratings yet
History Paper 1 Question Booklet HLSL
5 pages
Thesis Ebe 2006 Desta S PDF
No ratings yet
Thesis Ebe 2006 Desta S PDF
239 pages
Lab Manual Artificial Intelligence and Neural Network
No ratings yet
Lab Manual Artificial Intelligence and Neural Network
3 pages
Epekto NG Paninigarilyo Sa Kabataan Thesis
100% (1)
Epekto NG Paninigarilyo Sa Kabataan Thesis
5 pages
L6 Slides – Computing systems – Y8
No ratings yet
L6 Slides – Computing systems – Y8
14 pages
Creating a Customer Experience Centric Startup 1st Edition Thomas Suwelack pdf download
No ratings yet
Creating a Customer Experience Centric Startup 1st Edition Thomas Suwelack pdf download
76 pages
Enneagram Personality Test
0% (1)
Enneagram Personality Test
2 pages
New Text Document
No ratings yet
New Text Document
2 pages
Communication Book Level AA
No ratings yet
Communication Book Level AA
84 pages
The Big Awesome Book of PDF
No ratings yet
The Big Awesome Book of PDF
1 page
NCEES Exams Registration Steps - SCE
100% (1)
NCEES Exams Registration Steps - SCE
3 pages
AI Ass 2
No ratings yet
AI Ass 2
32 pages
Gr 11 Prepared Oral 2024
No ratings yet
Gr 11 Prepared Oral 2024
2 pages
Paul Goodman and The Political Dimensions of Gestalt Therapy Taylor Stoehr
No ratings yet
Paul Goodman and The Political Dimensions of Gestalt Therapy Taylor Stoehr
17 pages
Jammu Gazzete11th Class
No ratings yet
Jammu Gazzete11th Class
257 pages
Informatics Practices/Economics/ Psychology Information Technology/ Yoga/Early Childhood Education and Care / Financial Markets Management
No ratings yet
Informatics Practices/Economics/ Psychology Information Technology/ Yoga/Early Childhood Education and Care / Financial Markets Management
8 pages
Cantoral Diego
No ratings yet
Cantoral Diego
162 pages
EAB Unit 2 Mindmap
No ratings yet
EAB Unit 2 Mindmap
1 page
English B1 Leadership World - Gotovo
No ratings yet
English B1 Leadership World - Gotovo
4 pages