0% found this document useful (0 votes)

5 views

EDA (2)

The document provides examples of various data manipulation techniques using pandas in Python, including merging DataFrames, reshaping data with hierarchical indexing, detecting and removing duplicates, and handling missing values. It also covers data transformation techniques such as renaming indexes, discretization and binning, and random sampling. Each section includes code snippets demonstrating the respective techniques.

Uploaded by

hemanthboni18

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

5 views

EDA (2)

Uploaded by

hemanthboni18

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

You are on page 1/ 7

10)

a) Merging DataFrames

import pandas as pd

# Creating two DataFrames

df1 = pd.DataFrame({'ID': [1, 2, 3], 'Name': ['Alice', 'Bob', 'Charlie']})

df2 = pd.DataFrame({'ID': [1, 2, 4], 'Score': [85, 90, 78]})

# Merging on 'ID' column

merged_df = pd.merge(df1, df2, on='ID', how='inner') # Inner Join

print(merged_df)

b) Reshaping with Hierarchical Indexing

# Creating a MultiIndex DataFrame

import pandas as pd

data = {

'Category': ['A', 'A', 'B', 'B'],

'Year': [2022, 2023, 2022, 2023],

'Value': [10, 15, 20, 25] }

df = pd.DataFrame(data)

reshaped_df = df.pivot_table(index='Category', columns='Year', values='Value')

print(reshaped_df)

Data Duplication

# Detecting duplicates

print(df.duplicated())

# Removing duplicates

import pandas as pd

data = {'ID': [1, 2, 3, 1, 4], 'Value': ['A', 'B', 'C', 'A', 'D']}
df = pd.DataFrame(data)

duplicates = df[df.duplicated(subset=['ID'], keep=False)]

print(duplicates)

d) Replacing Values

import pandas as pd

data = {

'Category': ['A', 'A', 'B', 'B'],

'Year': [2022, 2023, 2022, 2023],

'Value': [10, 15, 20, 25]

df = pd.DataFrame(data)

reshaped_df = df.pivot_table(index='Category', columns='Year', values='Value')

print(reshaped_df)

11) Apply different missing data handling techniques

a) NAN values in mathematical operations

import pandas as pd

import numpy as np

data = {'Values': [10, np.nan, 20, 30, np.nan]}

s = pd.Series(data['Values'])

print("Original Series:\n", s)

# Sum (NaN ignored)

total = s.sum()

print("\nSum:", total)

# Mean (NaN ignored)

average = s.mean()

print("Mean:", average)
# Count (non-NaN values)

count = s.count()

print("Count:", count)

# Max (NaN ignored)

maximum = s.max()

print("Max:", maximum)

b) Filling in missing values

import pandas as pd

import numpy as np

data = {'A': [1, np.nan, 3], 'B': [4, 5, np.nan]}

df = pd.DataFrame(data)

print("Original:\n", df)

# Fill NaN in column 'A' with 0

df['A'] = df['A'].fillna(0)

# Fill NaN in column 'B' with the mean of 'B'

df['B'] = df['B'].fillna(df['B'].mean())

print("\nFilled:\n", df)

c) Forward and backward filling of missing values

import pandas as pd

import numpy as np

data = {'A': [1, np.nan, 3, np.nan, 5]}

df = pd.DataFrame(data)

print("Original:\n", df)

# Forward fill

ffilled = df.fillna(method='ffill')

print("\nForward filled:\n", ffilled)

# Backward fill
bfilled = df.fillna(method='bfill')

print("\nBackward filled:\n", bfilled)

d) Filling with index values

import pandas as pd

import numpy as np

data = {'A': [1, np.nan, 3, np.nan]}

df = pd.DataFrame(data)

print("Original:\n", df)

# Fill NaN with index

for i in range(len(df)):

if pd.isna(df.loc[i, 'A']):

df.loc[i, 'A'] = i

print("\nFilled with index:\n", df)

e) Interpolation of missing values

import pandas as pd

import numpy as np

data = {'A': [1, np.nan, 3, np.nan, 5]}

df = pd.DataFrame(data)

print("Original:\n", df)

# Linear interpolation

interpolated = df.interpolate()

print("\nInterpolated:\n", interpolated)

12) Apply different data transformation techniques

a) Renaming axis indexes

import pandas as pd

data = {'A': [1, 2, 3], 'B': [4, 5, 6]}

df = pd.DataFrame(data, index=['x', 'y', 'z'])

print("Original:\n", df)

# Rename columns

df_renamed_cols = df.rename(columns={'A': 'New_A', 'B': 'New_B'})

print("\nRenamed columns:\n", df_renamed_cols)

# Rename index

df_renamed_index = df.rename(index={'x': 'one', 'z': 'three'})

print("\nRenamed index:\n", df_renamed_index)

# Rename both

df_renamed_both = df.rename(columns={'A': 'a'}, index={'y': '2'})

print("\nRenamed both:\n", df_renamed_both)

b) Discretization and Binning

import pandas as pd

ages = pd.Series([22, 35, 48, 61, 28])

# Equal-width bins

bins = [20, 40, 60, 80]

age_bins = pd.cut(ages, bins)

print("Equal-width bins:\n", age_bins)

# Equal-frequency bins

age_qbins = pd.qcut(ages, 2)

print("\nEqual-frequency bins:\n", age_qbins)

NOTE:

Key Differences:

1) pd.cut() (Equal-Width):

Creates bins with equal-width ranges (e.g., 20-40, 40-60).

The number of elements in each bin may vary.

2) pd.qcut() (Equal-Frequency):

Creates bins with approximately equal numbers of elements.

The width of the bins may vary.

c) Permutation and random sampling

import pandas as pd

data = {'A': [1, 2, 3, 4, 5], 'B': ['a', 'b', 'c', 'd', 'e']}

df = pd.DataFrame(data)

print("Original:\n", df)

# Permute rows

permuted_df = df.sample(frac=1).reset_index(drop=True)

print("\nPermuted:\n", permuted_df)

# Random sample (3 rows)

sampled_df = df.sample(n=3)

print("\nSampled:\n", sampled_df)

NOTE: Output (will vary due to randomness)

data.reset_index(inplace=True)

print(data)

Pandas Cheat Sheet PDF
67% (3)
Pandas Cheat Sheet PDF
1 page
SAMPLE MastercamX9 Beginner TrainingTutorial
No ratings yet
SAMPLE MastercamX9 Beginner TrainingTutorial
56 pages
EXP-3
No ratings yet
EXP-3
10 pages
Unit3_3) Pandas.ipynb - Colab
No ratings yet
Unit3_3) Pandas.ipynb - Colab
11 pages
Pandas
No ratings yet
Pandas
44 pages
3rd Semester DDM AI DAA DEV Print Pages For Spiral Record 25-1-24 - Removed
No ratings yet
3rd Semester DDM AI DAA DEV Print Pages For Spiral Record 25-1-24 - Removed
28 pages
Document (4)
No ratings yet
Document (4)
15 pages
Data Analysis 6060
No ratings yet
Data Analysis 6060
6 pages
Python Cheat Sheets
97% (33)
Python Cheat Sheets
11 pages
Practical File Questions With Answers
No ratings yet
Practical File Questions With Answers
7 pages
Document (4)-1
No ratings yet
Document (4)-1
15 pages
1.5
No ratings yet
1.5
39 pages
EDP-3[2]
No ratings yet
EDP-3[2]
16 pages
pandas_merged
No ratings yet
pandas_merged
2 pages
IP Practic MINE
No ratings yet
IP Practic MINE
30 pages
Class 12 Practical File
No ratings yet
Class 12 Practical File
29 pages
exp3 python (1)
No ratings yet
exp3 python (1)
15 pages
Pandas Cheat Sheet
100% (2)
Pandas Cheat Sheet
6 pages
Series and Pandas Methods
No ratings yet
Series and Pandas Methods
5 pages
python interviews
No ratings yet
python interviews
154 pages
DMT Function
No ratings yet
DMT Function
10 pages
12 Pandas
No ratings yet
12 Pandas
9 pages
Panas Short Notes
No ratings yet
Panas Short Notes
4 pages
12 Pandas
100% (1)
12 Pandas
21 pages
DA lab
No ratings yet
DA lab
27 pages
Assignment 7
No ratings yet
Assignment 7
1 page
Commands SQL, Python (BASICS)
No ratings yet
Commands SQL, Python (BASICS)
7 pages
Chapter 2 Python Pandas - II
No ratings yet
Chapter 2 Python Pandas - II
19 pages
Data Science Cheat Sheet: KEY Imports
100% (1)
Data Science Cheat Sheet: KEY Imports
1 page
Data_Cleaning
No ratings yet
Data_Cleaning
22 pages
Ilovepdf Merged (2) Merged
No ratings yet
Ilovepdf Merged (2) Merged
65 pages
Pandas - Datastructures
No ratings yet
Pandas - Datastructures
19 pages
Lab File
No ratings yet
Lab File
96 pages
IP Practical File - Reference
No ratings yet
IP Practical File - Reference
98 pages
Pandas Cheat Sheet
100% (1)
Pandas Cheat Sheet
2 pages
Pandas Cheat Sheet
No ratings yet
Pandas Cheat Sheet
2 pages
Dataframe
No ratings yet
Dataframe
19 pages
Ip Project
No ratings yet
Ip Project
27 pages
Python Amit
No ratings yet
Python Amit
11 pages
Programs of Python Pandas
No ratings yet
Programs of Python Pandas
15 pages
Python Practical Questions
No ratings yet
Python Practical Questions
13 pages
DSP_Lec6
No ratings yet
DSP_Lec6
10 pages
PRACTICALS
No ratings yet
PRACTICALS
52 pages
PRACTICAL FILE IP - Copy (1)
No ratings yet
PRACTICAL FILE IP - Copy (1)
27 pages
Rapids Cheatsheet
100% (1)
Rapids Cheatsheet
2 pages
Content Pandas Cheat Sheet
No ratings yet
Content Pandas Cheat Sheet
9 pages
Ip Practice Test (14in)
No ratings yet
Ip Practice Test (14in)
9 pages
Python Course Cheat Sheet
No ratings yet
Python Course Cheat Sheet
30 pages
XII_LIST OF PRACTICALS_With answers.docx
No ratings yet
XII_LIST OF PRACTICALS_With answers.docx
20 pages
Code explanation for date types
No ratings yet
Code explanation for date types
8 pages
23bet10114 Naman Gupta Assignment-1
No ratings yet
23bet10114 Naman Gupta Assignment-1
17 pages
Pandas Part-2
No ratings yet
Pandas Part-2
9 pages
Pandas Cheat Sheet Final
No ratings yet
Pandas Cheat Sheet Final
1 page
Pandas: Import
100% (1)
Pandas: Import
13 pages
Data Cleaning in Python
No ratings yet
Data Cleaning in Python
6 pages
Python Cheat Sheet Code Academy
100% (1)
Python Cheat Sheet Code Academy
1 page
09_Pandas slides
No ratings yet
09_Pandas slides
33 pages
The Essential R Reference
From Everand
The Essential R Reference
Mark Gardener
No ratings yet
Profound Python Data Science
From Everand
Profound Python Data Science
Onder Teker
No ratings yet
Computer Engineering Laboratory Solution Primer
From Everand
Computer Engineering Laboratory Solution Primer
Karan Bhandari
No ratings yet
Advanced C Concepts and Programming: First Edition
From Everand
Advanced C Concepts and Programming: First Edition
Gayatri
3/5 (1)
LS-DYNA Keyword Manual
No ratings yet
LS-DYNA Keyword Manual
4,064 pages
Ultimate Guide To Adruino Serial Plotter
No ratings yet
Ultimate Guide To Adruino Serial Plotter
10 pages
Swanimp
No ratings yet
Swanimp
35 pages
An5342 Error Correction Code Ecc Management For Internal Memories Protection On stm32h7 Series Stmicroelectronics
No ratings yet
An5342 Error Correction Code Ecc Management For Internal Memories Protection On stm32h7 Series Stmicroelectronics
15 pages
String Handling in C PDF
100% (1)
String Handling in C PDF
3 pages
EC-241 Object-Oriented Programming
No ratings yet
EC-241 Object-Oriented Programming
33 pages
Renfert Catalog En
No ratings yet
Renfert Catalog En
156 pages
Fortinet Passguide Nse4 - fgt-70 Braindumps 2023-Jun-10 by Kennedy 83q Vce
No ratings yet
Fortinet Passguide Nse4 - fgt-70 Braindumps 2023-Jun-10 by Kennedy 83q Vce
21 pages
C# Classes Syntax Steps
No ratings yet
C# Classes Syntax Steps
1 page
Dell PowerEdge 12Gbps SAS HBA
No ratings yet
Dell PowerEdge 12Gbps SAS HBA
2 pages
Dctech: Check Billing System (An Industry Analysis of Lagmay Inc: Project Management Best Practices and Challenges)
No ratings yet
Dctech: Check Billing System (An Industry Analysis of Lagmay Inc: Project Management Best Practices and Challenges)
27 pages
Silverlight Chart
No ratings yet
Silverlight Chart
127 pages
Rr410506 Fault Tolerant Systems
No ratings yet
Rr410506 Fault Tolerant Systems
8 pages
My PHP Regex Cheat Sheet
No ratings yet
My PHP Regex Cheat Sheet
3 pages
Factsheet Expedite Your Ai Career Resilience in 2024
No ratings yet
Factsheet Expedite Your Ai Career Resilience in 2024
14 pages
DLMS/COSEM - A Metering Communication Protocol Based On IEC 62056 Series of Standards
No ratings yet
DLMS/COSEM - A Metering Communication Protocol Based On IEC 62056 Series of Standards
16 pages
Module 1 Css g12 1st Sem Week 1 3
No ratings yet
Module 1 Css g12 1st Sem Week 1 3
42 pages
X Japan
0% (1)
X Japan
2 pages
Fullstack-Developer_20240527123203_40
No ratings yet
Fullstack-Developer_20240527123203_40
11 pages
Raspberry Pi Pico Pinout r0.3 CIRCUITSTATE Electronics
No ratings yet
Raspberry Pi Pico Pinout r0.3 CIRCUITSTATE Electronics
1 page
THM labs
No ratings yet
THM labs
12 pages
Biostar B450MH Spec
No ratings yet
Biostar B450MH Spec
7 pages
Coursera Course
No ratings yet
Coursera Course
6 pages
Downloaded From
No ratings yet
Downloaded From
1 page
Windows Server 2016 KMS Server - NT IT Tech
No ratings yet
Windows Server 2016 KMS Server - NT IT Tech
2 pages
Unit 2: Like Comment Share Reading
No ratings yet
Unit 2: Like Comment Share Reading
5 pages
Comparing SAP Analytics Cloud and Microsoft Power BI - Datavard
No ratings yet
Comparing SAP Analytics Cloud and Microsoft Power BI - Datavard
13 pages
Cambridge International General Certificate of Secondary Education
No ratings yet
Cambridge International General Certificate of Secondary Education
8 pages
Create A Lightbox Gallery With Standard Bootstrap Components. - by Diego Vogel - Medium
No ratings yet
Create A Lightbox Gallery With Standard Bootstrap Components. - by Diego Vogel - Medium
6 pages

EDA (2)

Uploaded by

EDA (2)

Uploaded by

10)

# Creating two DataFrames

df1 = pd.DataFrame({'ID': [1, 2, 3], 'Name': ['Alice', 'Bob', 'Charlie']})

df2 = pd.DataFrame({'ID': [1, 2, 4], 'Score': [85, 90, 78]})

# Merging on 'ID' column

merged_df = pd.merge(df1, df2, on='ID', how='inner') # Inner Join

b) Reshaping with Hierarchical Indexing

'Category': ['A', 'A', 'B', 'B'],

'Year': [2022, 2023, 2022, 2023],

'Value': [10, 15, 20, 25] }

reshaped_df = df.pivot_table(index='Category', columns='Year', values='Value')

duplicates = df[df.duplicated(subset=['ID'], keep=False)]

'Category': ['A', 'A', 'B', 'B'],

'Year': [2022, 2023, 2022, 2023],

'Value': [10, 15, 20, 25]

reshaped_df = df.pivot_table(index='Category', columns='Year', values='Value')

11) Apply different missing data handling techniques

a) NAN values in mathematical operations

data = {'Values': [10, np.nan, 20, 30, np.nan]}

# Sum (NaN ignored)

# Mean (NaN ignored)

# Max (NaN ignored)

b) Filling in missing values

data = {'A': [1, np.nan, 3], 'B': [4, 5, np.nan]}

# Fill NaN in column 'A' with 0

# Fill NaN in column 'B' with the mean of 'B'

c) Forward and backward filling of missing values

data = {'A': [1, np.nan, 3, np.nan, 5]}

print("\nForward filled:\n", ffilled)

print("\nBackward filled:\n", bfilled)

d) Filling with index values

data = {'A': [1, np.nan, 3, np.nan]}

# Fill NaN with index

print("\nFilled with index:\n", df)

e) Interpolation of missing values

data = {'A': [1, np.nan, 3, np.nan, 5]}

12) Apply different data transformation techniques

a) Renaming axis indexes

data = {'A': [1, 2, 3], 'B': [4, 5, 6]}

df = pd.DataFrame(data, index=['x', 'y', 'z'])

df_renamed_cols = df.rename(columns={'A': 'New_A', 'B': 'New_B'})

print("\nRenamed columns:\n", df_renamed_cols)

df_renamed_index = df.rename(index={'x': 'one', 'z': 'three'})

print("\nRenamed index:\n", df_renamed_index)

df_renamed_both = df.rename(columns={'A': 'a'}, index={'y': '2'})

print("\nRenamed both:\n", df_renamed_both)

b) Discretization and Binning

ages = pd.Series([22, 35, 48, 61, 28])

bins = [20, 40, 60, 80]

age_bins = pd.cut(ages, bins)

print("Equal-width bins:\n", age_bins)

print("\nEqual-frequency bins:\n", age_qbins)

Creates bins with equal-width ranges (e.g., 20-40, 40-60).

The number of elements in each bin may vary.

Creates bins with approximately equal numbers of elements.

The width of the bins may vary.

c) Permutation and random sampling

# Random sample (3 rows)

NOTE: Output (will vary due to randomness)

You might also like