Python Cheat Sheet For Data Analysis

This document provides a cheat sheet for performing data analysis in Python. It covers topics like data loading, wrangling, exploration, normalization, modeling and validation. Specific functions and code snippets are presented for tasks like handling missing data, correlations, grouping, regression analysis and cross validation.

Uploaded by

Abdullah amin

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

278 views2 pages

Python Cheat Sheet For Data Analysis

Uploaded by

Abdullah amin

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

Python Cheat Sheet for Data Analysis

Data Loading Data Wrangling Exploratory Data Analysis

Complete data frame correlation
Read CSV dataset Replace missing data with frequency
[Link]()
# load without header MostFrequentEntry =
df = pd.read_csv(<CSV path>, header = None) df[‘attribute_name’].value_counts().idxmax() Specific attribute correlation
# load using first row as header df[[‘attribute1’,’attribute2’,...]].corr()
df = pd.read_csv(<CSV path>, header = 0) df[‘attribute_name’].replace([Link],MostFrequentEntry
, inplace=True) Scatter plot
Print first few entries from matlplotlib import pyplot as plt
Replace missing data with mean [Link](df[[‘attribute_1’]], df[[‘attribute_2’]])
#n=number of entries; default 5
[Link](n) AverageValue= Regression plot
df[‘attribute’].astype(<data_type>).mean(axis=0) import seaborn as sns
Print last few entries [Link](x=‘attribute_1’,y=‘attribute_2’, data=df)
df[‘attribute’].replace([Link], AverageValue,
#n=number of entries; default 5 inplace=True) Box plot
[Link](n) import seaborn as sns
Fix the data types [Link](x=‘attribute_1’,y=‘attribute_2’, data=df)
Assign header names
df[[‘attribute1’, ‘attribute2’, ...]] = Grouping by attributes
[Link] = headers df[[‘attribute1’, ‘attribute2’, df_group = df[[‘attribute_1’,’attribute_2’,...]]
...]].astype(‘data_type’)
Replace “?” with NaN #data_type can be int, float, char, etc. GroupBy statements
# Group by a single attribute
df = [Link](“?”, [Link]) Data normalization df_group = df_group.groupby(['attribute_1'],
as_index=False).mean()
df[‘attribute_name’] =
Retrieve data types df[‘attribute_name’]/df[‘attribute_name’].max() # Group by multiple attributes
[Link] df_group = df_group.groupby(['attribute_1',
Binning 'attribute_2'],as_index=False).mean()
Retrieve statistical description bins = [Link](min(df[‘attribute_name’]), Pivot tables
max(df[‘attribute_name’],n) grouped_pivot =
# default use
# n is the number of bins needed df_group.pivot(index='attribute_1',columns='attribute
[Link]()
# include all attributes _2')
GroupNames = [‘Group1’,’Group2’,’Group3’,...]
[Link](include=”all”)
Pseudocolor plot
df['binned_attribute_name'] =
Retrieve data set summary [Link](df['attribute_name'], bins, labels=GroupNames, from matlplotlib import pyplot as plt
include_lowest=True) [Link](grouped_pivot, cmap='RdBu')
[Link]()
Pearson Coefficient and p-value
Change column name
Save data frame to csv from scipy import stats
[Link](columns={‘old_name’:’new_name’}, pearson_coef,p_value=[Link](df[’attribute_1’]
df.to_csv(<output CSV path>) inplace=True) , df['attribute_2'])

Indicator variables
dummy_variable = pd.get_dummies(df[‘attribute_name’])

df = [Link]([df, dummy_variable],axis = 1)

Python Cheat Sheet for Data Analysis
Model Development Pipeline
lre=LinearRegression()
from [Link] import Pipeline
Linear regression from [Link] import StandardScaler Rcross =
from sklearn.linear_model import LinearRegression Input=[('scale',StandardScaler()), ('polynomial', cross_val_score(lre,x_data[['attribute_1']],y_data,cv
lr = LinearRegression() PolynomialFeatures(include_bias=False)), =n)
('model',LinearRegression())] # n indicates number of times, or folds, for which
Train linear regression model the cross validation is to be done
X = df[[‘attribute_1’, ‘attribute_2’, ...]] pipe=Pipeline(Input)
Y = df['target_attribute'] Mean = [Link]()
[Link](X,Y) Z = [Link](float) Std_dev = [Link]()
[Link](Z,y)
Generate output predictions ypipe=[Link](Z) Cross-validation prediction
from sklearn.model_selection import cross_val_score
Y_hat = [Link](X) R2 value
Identify the coefficient and intercept # For linear regression model from sklearn.linear_model import LinearRegression
X = df[[‘attribute_1’, ‘attribute_2’, ...]]
coeff = lr.coef_ Y = df['target_attribute'] lre=LinearRegression()
intercept = lr.intercept_
Residual plot [Link](X,Y) yhat = cross_val_predict(lre,x_data[[‘attribute_1’]],
R2_score = [Link](X,Y) y_data,cv=4)
import seaborn as sns
[Link](x=df[[‘attribute_1’]], # For polynomial regression model Ridge regression and prediction
y=df[[‘attribute_2’]]) from [Link] import r2_score from sklearn.linear_model import Ridge
Distribution plot pr=PolynomialFeatures(degree=2)
f = [Link](x, y, n)
import seaborn as sns p = np.poly1d(f) x_train_pr=pr.fit_transform(x_train[[‘attribute_1’,
[Link](df['attribute_name'], hist=False) R2_score = r2_score(y, p(x)) ‘attribute_2’, ...]])
# can include other parameters like color, label,
etc. MSE value x_test_pr=pr.fit_transform(x_test[[‘attribute_1’,
from [Link] import mean_squared_error ‘attribute_2’, ...]])
Polynomial regression mse = mean_squared_error(Y, Yhat)
f = [Link](x, y, n) RidgeModel=Ridge(alpha=1)
#creates the polynomial features of order n Model Evaluation and Refinement [Link](x_train_pr, y_train)
yhat = [Link](x_test_pr)
p = np.poly1d(f) Split data for training and testing
#p becomes the polynomial model used to generate the from sklearn.model_selection import train_test_split Grid search
predicted output
from sklearn.model_selection import GridSearchCV
y_data = df[‘target_attribute’]
Y_hat = p(x) from sklearn.linear_model import Ridge
x_data=[Link]('target_attribute',axis=1)
# Y_hat is the predicted output
parameters= [{'alpha': [0.001,0.1,1, 10, 100, 1000,
x_train, x_test, y_train, y_test =
Multi-variate polynomial regression 10000, ...]}]
train_test_split(x_data, y_data, test_size=0.10,
from [Link] import PolynomialFeatures random_state=1)
RR=Ridge()
Cross-validation score Grid1 = GridSearchCV(RR, parameters1,cv=4)
Z = df[[‘attribute_1’,’attribute_2’,...]]
pr=PolynomialFeatures(degree=n) from sklearn.model_selection import cross_val_score [Link](x_data[[‘attribute_1’, ‘attribute_2’,
Z_pr=pr.fit_transform(Z) ...]], y_data)
from sklearn.linear_model import LinearRegression
BestRR=Grid1.best_estimator_

[Link](x_test[[‘attribute_1’, ‘attribute_2’,
...]], y_te

EDA Assignment
No ratings yet
EDA Assignment
15 pages
Pandas Cheat Sheet PDF
67% (3)
Pandas Cheat Sheet PDF
1 page
Pandas Data Wrangling Cheat Sheet
100% (2)
Pandas Data Wrangling Cheat Sheet
6 pages
Python Interview Questions
No ratings yet
Python Interview Questions
8 pages
EDA Cheat Sheet
No ratings yet
EDA Cheat Sheet
7 pages
Pandas Interview Prep Guide
No ratings yet
Pandas Interview Prep Guide
5 pages
Usharani Bhimavarapu Jude D
100% (1)
Usharani Bhimavarapu Jude D
349 pages
EDA With Pandas
No ratings yet
EDA With Pandas
8 pages
Data Analyst Cheatsheet - For - Kuhtfe
No ratings yet
Data Analyst Cheatsheet - For - Kuhtfe
6 pages
PySpark SQL Basics Cheat Sheet
No ratings yet
PySpark SQL Basics Cheat Sheet
1 page
SQL Functions
100% (1)
SQL Functions
16 pages
Data Science Portfolio For Success
No ratings yet
Data Science Portfolio For Success
100 pages
Pyspark Interview 1738079940
No ratings yet
Pyspark Interview 1738079940
6 pages
Dataframe in Pandas - Cheatsheet
No ratings yet
Dataframe in Pandas - Cheatsheet
8 pages
Customer Data Analysis & Feature Engineering
No ratings yet
Customer Data Analysis & Feature Engineering
35 pages
Pandas Data Manipulation Extended CheatSheet 1731972219
No ratings yet
Pandas Data Manipulation Extended CheatSheet 1731972219
9 pages
Cleaning Dirty Data With Pandas & Python - DevelopIntelligence Blog PDF
No ratings yet
Cleaning Dirty Data With Pandas & Python - DevelopIntelligence Blog PDF
8 pages
New Ebook Guide To AI Data Science
No ratings yet
New Ebook Guide To AI Data Science
50 pages
Pandas DataFrame Basics Guide
No ratings yet
Pandas DataFrame Basics Guide
41 pages
Data Mini Proj
100% (2)
Data Mini Proj
44 pages
Churn For Bank Customers
No ratings yet
Churn For Bank Customers
28 pages
Vector Spaces: Definitions and Examples
No ratings yet
Vector Spaces: Definitions and Examples
94 pages
Data Science Cheat Sheet: KEY Imports
100% (1)
Data Science Cheat Sheet: KEY Imports
1 page
100 SQL Questions With Real Examples-2
No ratings yet
100 SQL Questions With Real Examples-2
16 pages
Data Engineering Course Overview
No ratings yet
Data Engineering Course Overview
15 pages
25+ Python Challenging Programming Exercises
No ratings yet
25+ Python Challenging Programming Exercises
24 pages
Python Interview Questions 1653100147
No ratings yet
Python Interview Questions 1653100147
24 pages
Python Data Science: Pandas & ML Basics
100% (1)
Python Data Science: Pandas & ML Basics
41 pages
SQL JOINs and UNION Tutorial
No ratings yet
SQL JOINs and UNION Tutorial
82 pages
Skyess Spark Syllabus
No ratings yet
Skyess Spark Syllabus
12 pages
Data Analytics Test
No ratings yet
Data Analytics Test
10 pages
Union Bank Interview
No ratings yet
Union Bank Interview
30 pages
Data Science Interview Stats Guide
No ratings yet
Data Science Interview Stats Guide
39 pages
Exploratory Data Analysis (Eda) With Pandas: (Cheatsheet)
No ratings yet
Exploratory Data Analysis (Eda) With Pandas: (Cheatsheet)
7 pages
Practical Data Science
No ratings yet
Practical Data Science
121 pages
Python Variables and Operations Guide
No ratings yet
Python Variables and Operations Guide
105 pages
Understanding Decision Trees in Classification
100% (1)
Understanding Decision Trees in Classification
58 pages
Database Management Systems by Raghu Ramakrishnan: Special Features of Book
No ratings yet
Database Management Systems by Raghu Ramakrishnan: Special Features of Book
3 pages
AI & ML Cheat Sheets Collection
100% (1)
AI & ML Cheat Sheets Collection
24 pages
AI & ML Interview Preparation
No ratings yet
AI & ML Interview Preparation
15 pages
Python Cheet Sheet
No ratings yet
Python Cheet Sheet
2 pages
Keras Deep Learning Cheat Sheet
No ratings yet
Keras Deep Learning Cheat Sheet
1 page
Data Ingestion and Reshaping Guide
100% (1)
Data Ingestion and Reshaping Guide
2 pages
Python Pandas: 12 Data Manipulation Techniques
100% (2)
Python Pandas: 12 Data Manipulation Techniques
19 pages
Cheat Sheet Modeldeploy
No ratings yet
Cheat Sheet Modeldeploy
2 pages
Data Analysis W Pandas
No ratings yet
Data Analysis W Pandas
4 pages
Pipeline for Linear Regression Model
No ratings yet
Pipeline for Linear Regression Model
2 pages
Regression Analysis Cheat Sheet
No ratings yet
Regression Analysis Cheat Sheet
9 pages
Zerox Ready
No ratings yet
Zerox Ready
21 pages
Data Analysis for Beginners
No ratings yet
Data Analysis for Beginners
8 pages
ML Complete Notes Hridoy
No ratings yet
ML Complete Notes Hridoy
5 pages
Program
No ratings yet
Program
10 pages
(Feature Engineering) (Extended-Cheatsheet)
100% (1)
(Feature Engineering) (Extended-Cheatsheet)
9 pages
ML Lab Codes
No ratings yet
ML Lab Codes
14 pages
ML Manual
No ratings yet
ML Manual
18 pages
Data Science Record - 05
No ratings yet
Data Science Record - 05
20 pages
Machine Learning Lab Assignment 1
No ratings yet
Machine Learning Lab Assignment 1
23 pages
Advanced Machine Learning Course Guide
No ratings yet
Advanced Machine Learning Course Guide
36 pages
Python Data Science Cheat Sheet
0% (1)
Python Data Science Cheat Sheet
3 pages
1
No ratings yet
1
13 pages
Course Outline ME-221 Engineering Materials - Revised Aug 2019
No ratings yet
Course Outline ME-221 Engineering Materials - Revised Aug 2019
2 pages
Industrial Mechanical Engineering in The Bozen-Bolzano Region (Trentino-Alto Adige)
No ratings yet
Industrial Mechanical Engineering in The Bozen-Bolzano Region (Trentino-Alto Adige)
6 pages
Course Outline ME-113 Engineering Mechanics I Statics
No ratings yet
Course Outline ME-113 Engineering Mechanics I Statics
1 page
Formal Exchange Agreements (Erasmus+)
No ratings yet
Formal Exchange Agreements (Erasmus+)
3 pages
Words Hassan
No ratings yet
Words Hassan
4 pages
Impact Testing Requirements For Structural Steels
No ratings yet
Impact Testing Requirements For Structural Steels
3 pages
MSC Cis Aa Concept As25
No ratings yet
MSC Cis Aa Concept As25
1 page
Bando Di Concorso A.A. 2024.25 - ENG
No ratings yet
Bando Di Concorso A.A. 2024.25 - ENG
47 pages
Trees and Plants
No ratings yet
Trees and Plants
59 pages
Radiation II
No ratings yet
Radiation II
36 pages
Manifolds Detailed
No ratings yet
Manifolds Detailed
9 pages
2 Days Sharan Forest
No ratings yet
2 Days Sharan Forest
2 pages
Pipe Data
No ratings yet
Pipe Data
2 pages
Storage Tanks (Final)
No ratings yet
Storage Tanks (Final)
68 pages
Tobacco & Alcohol
No ratings yet
Tobacco & Alcohol
62 pages
Lug Fea
No ratings yet
Lug Fea
7 pages
Template
No ratings yet
Template
4 pages
Cleaning
No ratings yet
Cleaning
52 pages
Overview of Pumps System
No ratings yet
Overview of Pumps System
185 pages
3 Growth Productivity
No ratings yet
3 Growth Productivity
44 pages
Theory of Consumer Behavior
No ratings yet
Theory of Consumer Behavior
11 pages
Asmeviiipresentation Rev 151211115615
No ratings yet
Asmeviiipresentation Rev 151211115615
282 pages
Certificate Flange
No ratings yet
Certificate Flange
1 page
Lecture 3
No ratings yet
Lecture 3
35 pages
Legends & Symbol
100% (1)
Legends & Symbol
7 pages
Fire
No ratings yet
Fire
52 pages
Template
No ratings yet
Template
4 pages
Selection Criteria of Pumps 1
No ratings yet
Selection Criteria of Pumps 1
20 pages
Specimen Dimensions For - Testing
No ratings yet
Specimen Dimensions For - Testing
1 page
Intro to Computers: A Guide
No ratings yet
Intro to Computers: A Guide
68 pages
Factoring Flow Chart
No ratings yet
Factoring Flow Chart
1 page
Numerical Analysis - Lecture 3: Mathematical Tripos Part IB: Lent 2010
No ratings yet
Numerical Analysis - Lecture 3: Mathematical Tripos Part IB: Lent 2010
2 pages
Types of Bifurcations in Dynamics
No ratings yet
Types of Bifurcations in Dynamics
20 pages
Report zc16014 hl16236 dg15844
No ratings yet
Report zc16014 hl16236 dg15844
11 pages
Unit 2 Test 2019
No ratings yet
Unit 2 Test 2019
2 pages
(Mae 384) (Student Notes) Exam 1 - Equation Sheet
No ratings yet
(Mae 384) (Student Notes) Exam 1 - Equation Sheet
2 pages
A Robust Least Squares Support Vector Machine For Regression and Classification With Noise
No ratings yet
A Robust Least Squares Support Vector Machine For Regression and Classification With Noise
13 pages
1) I Introduction To Structural Dynamics SDOF - Short Version
100% (2)
1) I Introduction To Structural Dynamics SDOF - Short Version
35 pages
ODE Assignment: Singular Points & Solutions
No ratings yet
ODE Assignment: Singular Points & Solutions
1 page
Phase Portraits of Linear Systems
No ratings yet
Phase Portraits of Linear Systems
7 pages
G10 Math Q2 - Week 1 - Polynomial Functions
50% (2)
G10 Math Q2 - Week 1 - Polynomial Functions
14 pages
LAG Sample Written Exam
No ratings yet
LAG Sample Written Exam
2 pages
19ecs234 - Design and Analysis of Algorithms
No ratings yet
19ecs234 - Design and Analysis of Algorithms
4 pages
Nonlinear Regression Part 1
No ratings yet
Nonlinear Regression Part 1
47 pages
Math 9 Summative Test and Performance Task 1 1
No ratings yet
Math 9 Summative Test and Performance Task 1 1
2 pages
Anna University:: Chennai 600025
No ratings yet
Anna University:: Chennai 600025
56 pages
Write The Indicated Letter of The Quadratic Function in The Form y A (X - H) + K Into The Box That Corresponds To Its Equivale
No ratings yet
Write The Indicated Letter of The Quadratic Function in The Form y A (X - H) + K Into The Box That Corresponds To Its Equivale
1 page
Notes Topics 1.9-1.10 Rational Functions Va and Holes AP PC
No ratings yet
Notes Topics 1.9-1.10 Rational Functions Va and Holes AP PC
2 pages
Polynomial Class 9th
No ratings yet
Polynomial Class 9th
12 pages
4D - Runge - Kutta and Adaptive Step Size
No ratings yet
4D - Runge - Kutta and Adaptive Step Size
14 pages
Nastran Optimization User Guide
No ratings yet
Nastran Optimization User Guide
704 pages
Power System Analysis - EE3501 - Hand Written College Notes - Unit 3 - Symmetrical Fault Analysis-2
No ratings yet
Power System Analysis - EE3501 - Hand Written College Notes - Unit 3 - Symmetrical Fault Analysis-2
27 pages
المراجعة التسويقية وأهميتها في تحسين الأداء التسويقي للمؤسسة الخدمية دراسة حالة مؤسسة اتصالات الجزائر الوحدة العملية للاتصالات ورقلة
No ratings yet
المراجعة التسويقية وأهميتها في تحسين الأداء التسويقي للمؤسسة الخدمية دراسة حالة مؤسسة اتصالات الجزائر الوحدة العملية للاتصالات ورقلة
25 pages
Allsolvers Using GAMS
No ratings yet
Allsolvers Using GAMS
614 pages
CFD Discretization Techniques
No ratings yet
CFD Discretization Techniques
29 pages
Overview of Finite Element Method
No ratings yet
Overview of Finite Element Method
13 pages
Computer-Aided Math with GNU Octave
100% (1)
Computer-Aided Math with GNU Octave
4 pages
C Prog
No ratings yet
C Prog
9 pages
Linear Algebra and Its Applications - D. C. Lay
100% (1)
Linear Algebra and Its Applications - D. C. Lay
71 pages
1st Year Math
No ratings yet
1st Year Math
1 page