0% found this document useful (0 votes)

10 views4 pages

Datacleaning Py

Uploaded by

rakshithasai22

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

10 views4 pages

Datacleaning Py

Uploaded by

rakshithasai22

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

Data Cleaning and Preprocessing with Pandas

Step 1

import pandas as pd

# Load the dataset

url = '[Link]

df = pd.read_csv(url)

# Display the first few rows of the dataset

[Link]()

Step 2: Inspect the Data

# Display the summary statistics of the dataset

[Link]()

# Check for missing values

[Link]().sum()

Step 3: Handle Missing Values

# Fill missing values in the 'Age' column with the median age

df['Age'].fillna(df['Age'].median(), inplace=True)

# Fill missing values in the 'Embarked' column with the most frequent value (mode)

df['Embarked'].fillna(df['Embarked'].mode()[0], inplace=True)

# Drop the 'Cabin' column as it has too many missing values

[Link]('Cabin', axis=1, inplace=True)

Step 4: Convert Categorical Variables

# Convert the 'Sex' column to numerical values: 0 for 'male' and 1 for 'female'

df['Sex'] = df['Sex'].map({'male': 0, 'female': 1})

# Create dummy variables for the 'Embarked' column

df = pd.get_dummies(df, columns=['Embarked'], drop_first=True)

Step 5: Feature Engineering

# Create a new column 'FamilySize' by adding 'SibSp' and 'Parch' columns

df['FamilySize'] = df['SibSp'] + df['Parch']

Step 6: Drop Unnecessary Columns

# Drop the 'Name', 'Ticket', and 'SibSp' columns as they are not needed for analysis

[Link](['Name', 'Ticket', 'SibSp'], axis=1, inplace=True)

Step 7: Save the Cleaned Data

# Save the cleaned dataset to a new CSV file

df.to_csv('cleaned_titanic.csv', index=False)

Complete Script in a Jupyter Notebook

import pandas as pd

# Load the dataset

url = '[Link]

df = pd.read_csv(url)

# Display the first few rows of the dataset

print("First few rows of the dataset:")

print([Link]())

# Display the summary statistics of the dataset

print("\nSummary statistics of the dataset:")

print([Link]())

# Check for missing values

print("\nMissing values in the dataset:")

print([Link]().sum())

# Fill missing values in the 'Age' column with the median age

df['Age'].fillna(df['Age'].median(), inplace=True)

# Fill missing values in the 'Embarked' column with the most frequent value (mode)

df['Embarked'].fillna(df['Embarked'].mode()[0], inplace=True)

# Drop the 'Cabin' column as it has too many missing values

[Link]('Cabin', axis=1, inplace=True)

# Convert the 'Sex' column to numerical values: 0 for 'male' and 1 for 'female'

df['Sex'] = df['Sex'].map({'male': 0, 'female': 1})

# Create dummy variables for the 'Embarked' column

df = pd.get_dummies(df, columns=['Embarked'], drop_first=True)

# Create a new column 'FamilySize' by adding 'SibSp' and 'Parch' columns

df['FamilySize'] = df['SibSp'] + df['Parch']

# Drop the 'Name', 'Ticket', and 'SibSp' columns as they are not needed for analysis

[Link](['Name', 'Ticket', 'SibSp'], axis=1, inplace=True)

# Save the cleaned dataset to a new CSV file

df.to_csv('cleaned_titanic.csv', index=False)

print("\nData cleaning and preprocessing completed. Cleaned data saved to 'cleaned_titanic.csv'.")

Titanic Data Preprocessing Guide
No ratings yet
Titanic Data Preprocessing Guide
2 pages
Pandas Data Imputation Guide
No ratings yet
Pandas Data Imputation Guide
12 pages
Assignment 2
No ratings yet
Assignment 2
5 pages
3 Practical
No ratings yet
3 Practical
2 pages
Dsbda Lab - 1 - 1736243987425
No ratings yet
Dsbda Lab - 1 - 1736243987425
10 pages
Data Cleaning
No ratings yet
Data Cleaning
13 pages
Data Preprocessing - 241024 - 215531
No ratings yet
Data Preprocessing - 241024 - 215531
40 pages
Titanic Dataset Preprocessing Guide
No ratings yet
Titanic Dataset Preprocessing Guide
5 pages
Data Mining Lab 03
No ratings yet
Data Mining Lab 03
10 pages
LOGISTIC - REGRESSION - Jupyter Notebook
No ratings yet
LOGISTIC - REGRESSION - Jupyter Notebook
18 pages
ML Dataset Performance
No ratings yet
ML Dataset Performance
11 pages
ML 3
No ratings yet
ML 3
9 pages
Advance Python
No ratings yet
Advance Python
5 pages
Attiq Ahmad Afsar Mid Exam
No ratings yet
Attiq Ahmad Afsar Mid Exam
8 pages
Cleaning Data in Python
No ratings yet
Cleaning Data in Python
8 pages
Titanic Survival Prediction Guide
No ratings yet
Titanic Survival Prediction Guide
16 pages
Project Report
No ratings yet
Project Report
7 pages
Essential Steps in Data Cleaning
No ratings yet
Essential Steps in Data Cleaning
17 pages
Dspracticalexternak 23 Aug
No ratings yet
Dspracticalexternak 23 Aug
8 pages
Assignment
No ratings yet
Assignment
14 pages
Part A Assignment 6
No ratings yet
Part A Assignment 6
28 pages
AE II Simulation File PDF
No ratings yet
AE II Simulation File PDF
32 pages
Dealing With Missing Data - Jupyter Notebook
No ratings yet
Dealing With Missing Data - Jupyter Notebook
9 pages
Data Preprocessing Example Programs1
No ratings yet
Data Preprocessing Example Programs1
9 pages
Titanic
No ratings yet
Titanic
22 pages
Import Import As Import As: #Default To CSV
No ratings yet
Import Import As Import As: #Default To CSV
6 pages
A09Ass01 - Jupyter Notebook
No ratings yet
A09Ass01 - Jupyter Notebook
8 pages
???? ???????????? ???? ??????
No ratings yet
???? ???????????? ???? ??????
63 pages
Titanic Survival Prediction
No ratings yet
Titanic Survival Prediction
5 pages
Dataset Visualization Basic Ml-1
No ratings yet
Dataset Visualization Basic Ml-1
12 pages
Pandas - Data Manipulation and Analysis Library - Educative
No ratings yet
Pandas - Data Manipulation and Analysis Library - Educative
7 pages
Titanic Survival Prediction Model
100% (1)
Titanic Survival Prediction Model
7 pages
Python For Data Analysis
No ratings yet
Python For Data Analysis
28 pages
Experiment 1
No ratings yet
Experiment 1
2 pages
Data Preparation and Analysis Guide
No ratings yet
Data Preparation and Analysis Guide
8 pages
Prac3 23bme053
No ratings yet
Prac3 23bme053
5 pages
SML - Lab03 - Colab
No ratings yet
SML - Lab03 - Colab
11 pages
Data Cleaning by Manish Batra 1697684636
No ratings yet
Data Cleaning by Manish Batra 1697684636
30 pages
Assignment 30 3
No ratings yet
Assignment 30 3
3 pages
Data Cleaning Techniques in Python
No ratings yet
Data Cleaning Techniques in Python
12 pages
Data Cleaningin ML
No ratings yet
Data Cleaningin ML
15 pages
LP II Practical
No ratings yet
LP II Practical
5 pages
Aim: Predicting The Survival of Titanic Passengers
No ratings yet
Aim: Predicting The Survival of Titanic Passengers
20 pages
Titanic ML for Data Scientists
No ratings yet
Titanic ML for Data Scientists
36 pages
BD WPS2
No ratings yet
BD WPS2
11 pages
Data Cleaning Techniques in Python
No ratings yet
Data Cleaning Techniques in Python
5 pages
Pyt Manual 1
No ratings yet
Pyt Manual 1
85 pages
Data Preprocessing and Cleaning For Machine Learning
No ratings yet
Data Preprocessing and Cleaning For Machine Learning
16 pages
Sakina Assign1 Batch3
No ratings yet
Sakina Assign1 Batch3
8 pages
7 8 - Missing Value Handling
No ratings yet
7 8 - Missing Value Handling
4 pages
5-Demonstrate Missing Value Analysis Using Sample Data.-06!01!2025
No ratings yet
5-Demonstrate Missing Value Analysis Using Sample Data.-06!01!2025
2 pages
ML - Preprocessing - Introduction
No ratings yet
ML - Preprocessing - Introduction
14 pages
Pandas Workshop: Data Analysis Guide
No ratings yet
Pandas Workshop: Data Analysis Guide
13 pages
DSBDA Assignment 2
No ratings yet
DSBDA Assignment 2
7 pages
22IZ023 Nikhil - Exercise 5 - Data Preprocessing
No ratings yet
22IZ023 Nikhil - Exercise 5 - Data Preprocessing
4 pages
Its232 250
No ratings yet
Its232 250
10 pages
Digital Journalism Curriculum Level - 6
No ratings yet
Digital Journalism Curriculum Level - 6
92 pages
Cfinap Modern Bronchure (8.5 X 11 In) (8.5 X 11 In) (8.5 X 11 In)
No ratings yet
Cfinap Modern Bronchure (8.5 X 11 In) (8.5 X 11 In) (8.5 X 11 In)
8 pages
SQL Cheat Sheet
No ratings yet
SQL Cheat Sheet
7 pages
Gamification Boosts Speaking Skills
No ratings yet
Gamification Boosts Speaking Skills
5 pages
DDR3 Memory Qualified Vendors List
No ratings yet
DDR3 Memory Qualified Vendors List
1 page
ML Interview Guide: Roles & Prep
No ratings yet
ML Interview Guide: Roles & Prep
159 pages
Complete 5 Steps To A 5: AP Computer Science Principles, 2nd Edition Julie Schacht Sway PDF For All Chapters
100% (5)
Complete 5 Steps To A 5: AP Computer Science Principles, 2nd Edition Julie Schacht Sway PDF For All Chapters
40 pages
Practical Research Second Quarter Exam
100% (10)
Practical Research Second Quarter Exam
8 pages
Airline Reservation System
No ratings yet
Airline Reservation System
3 pages
Core Abap Notes
No ratings yet
Core Abap Notes
38 pages
Advertisement - MGP 2025
No ratings yet
Advertisement - MGP 2025
1 page
Introduction of ER Model
No ratings yet
Introduction of ER Model
20 pages
Chapter 1 Revised
No ratings yet
Chapter 1 Revised
13 pages
Madhumitha Muthu: ETL & Data Analyst Profile
No ratings yet
Madhumitha Muthu: ETL & Data Analyst Profile
2 pages
Sharepoint BDC: John C. Von Rosen Blue Sphere Solutions
No ratings yet
Sharepoint BDC: John C. Von Rosen Blue Sphere Solutions
22 pages
Academic Writing Guide Part 2 - Assignment Types
No ratings yet
Academic Writing Guide Part 2 - Assignment Types
26 pages
Barcode Scanner Module User Manual: Perface
No ratings yet
Barcode Scanner Module User Manual: Perface
93 pages
DP-900 Dumps Microsoft Azure Data Fundamentals
50% (2)
DP-900 Dumps Microsoft Azure Data Fundamentals
10 pages
TVET Training Challenges in Addis Ababa
No ratings yet
TVET Training Challenges in Addis Ababa
15 pages
SAP JVM Perm Space Memory Analysis
No ratings yet
SAP JVM Perm Space Memory Analysis
9 pages
A Study On Intern's Experience and Struggle During Internship
No ratings yet
A Study On Intern's Experience and Struggle During Internship
13 pages
IRCTC Reservation System Report
No ratings yet
IRCTC Reservation System Report
5 pages
Howto Game Wizard Scripts
No ratings yet
Howto Game Wizard Scripts
4 pages
Cloud File Storage Website
No ratings yet
Cloud File Storage Website
10 pages
Tableau Interview Preparation: Q. What Are Some of The Complex Dashboards That You Developed
No ratings yet
Tableau Interview Preparation: Q. What Are Some of The Complex Dashboards That You Developed
3 pages
The Linux File System Structure Explained
No ratings yet
The Linux File System Structure Explained
5 pages
Financial Evaluation of Nepal Rastriya Bank.
No ratings yet
Financial Evaluation of Nepal Rastriya Bank.
34 pages
Master of Science in Project Management: Copperbelt University
No ratings yet
Master of Science in Project Management: Copperbelt University
30 pages
Pengaruh Biaya Produksi Terhadap Laba Usaha Puding Lamota
No ratings yet
Pengaruh Biaya Produksi Terhadap Laba Usaha Puding Lamota
6 pages

Datacleaning Py

Uploaded by

Datacleaning Py

Uploaded by

Data Cleaning and Preprocessing with Pandas

# Load the dataset

# Display the first few rows of the dataset

Step 2: Inspect the Data

# Display the summary statistics of the dataset

# Check for missing values

Step 3: Handle Missing Values

# Drop the 'Cabin' column as it has too many missing values

[Link]('Cabin', axis=1, inplace=True)

Step 4: Convert Categorical Variables

df['Sex'] = df['Sex'].map({'male': 0, 'female': 1})

# Create dummy variables for the 'Embarked' column

df = pd.get_dummies(df, columns=['Embarked'], drop_first=True)

Step 5: Feature Engineering

# Create a new column 'FamilySize' by adding 'SibSp' and 'Parch' columns

df['FamilySize'] = df['SibSp'] + df['Parch']

Step 6: Drop Unnecessary Columns

[Link](['Name', 'Ticket', 'SibSp'], axis=1, inplace=True)

Step 7: Save the Cleaned Data

# Save the cleaned dataset to a new CSV file

Complete Script in a Jupyter Notebook

# Load the dataset

# Display the first few rows of the dataset

# Display the summary statistics of the dataset

print("\nSummary statistics of the dataset:")

# Check for missing values

print("\nMissing values in the dataset:")

# Drop the 'Cabin' column as it has too many missing values

[Link]('Cabin', axis=1, inplace=True)

df['Sex'] = df['Sex'].map({'male': 0, 'female': 1})

# Create dummy variables for the 'Embarked' column

df = pd.get_dummies(df, columns=['Embarked'], drop_first=True)

# Create a new column 'FamilySize' by adding 'SibSp' and 'Parch' columns

df['FamilySize'] = df['SibSp'] + df['Parch']

[Link](['Name', 'Ticket', 'SibSp'], axis=1, inplace=True)

print("\nData cleaning and preprocessing completed. Cleaned data saved to 'cleaned_titanic.csv'.")

You might also like