Cheat Sheet: Python For Data Science

This document provides a cheat sheet on using Python and the Scikit-learn library for machine learning. It summarizes the main steps in a machine learning workflow including loading and preparing data, choosing a model and training/testing it, tuning hyperparameters, and evaluating performance. Key estimators for supervised, unsupervised and dimensionality reduction techniques are listed.

Uploaded by

Shishir Ray

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

100% found this document useful (1 vote)

660 views1 page

Cheat Sheet: Python For Data Science

Uploaded by

Shishir Ray

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 1

P Y T H O N F O R D ATA Working On Model

SCIENCE Model Choosing Train-Test

Data
C H E AT S H E E T Supervised Learning Estimator:
• Linear Regression:
• Naive Bayes:
>>> from sklearn.naive_bayes import
GaussianNB
Unsupervised Learning Estimator:
• Principal Component Analysis (PCA):
>>> from sklearn.decomposition import
Supervised:
>>> from sklearn.linear_model import >>>new_ lr.fit(X, y)
LinearRegression >>> new_gnb = GaussianNB() PCA
>>> knn.fit(X_train, y_train)
• KNN:
Python Scikit-Learn >>> new_lr =
LinearRegression(normalize=True) >>> from sklearn import neighbors
>>>
>>> new_pca= PCA(n_components=0.95)
• K Means:
>>> from sklearn.cluster import KMeans
>>>new_svc.fit(X_train, y_train)
Unsupervised :
• Support Vector Machine: >>> k_means.fit(X_train)
>>> from sklearn.svm import SVC knn=neighbors.KNeighborsClassifier(n_ne >>> k_means = KMeans(n_clusters=5,
random_state=0) >>> pca_model_fit =
>>> new_svc = SVC(kernel='linear') ighbors=1)
new_pca.fit_transform(X_train)
Introduction
Scikit-learn:“sklearn" is a machine learning library for the Python programming language.
Simple and efficient tool for data mining, Data analysis and Machine Learning. Post-Processing
Importing Convention - import sklearn

Preprocessing Prediction Model Tuning

Supervised: Grid Search: Randomized Parameter Optimization:

>>> y_predict = >>> from sklearn.grid_search import GridSearchCV >>> from sklearn.grid_search import RandomizedSearchCV
Data Loading Train-Test new_svc.predict(np.random.random((3,5))) >>> params = {"n_neighbors": np.arange(1,3), "metric": >>> params = {"n_neighbors": range(1,5), "weights":
• Using NumPy: >>> y_predict = new_lr.predict(X_test) ["euclidean", "cityblock"]} ["uniform", "distance"]}
Data >>> y_predict = knn.predict_proba(X_test) >>> grid = GridSearchCV(estimator=knn, >>> rsearch = RandomizedSearchCV(estimator=knn,
>>>import numpy as np param_grid=params) param_distributions=params, cv=4, n_iter=8, random_state=5)
>>>a=np.array([(1,2,3,4),(7,8,9,10)],dtype=int) >>> grid.fit(X_train, y_train) >>> rsearch.fit(X_train, y_train)
>>>data = np.loadtxt('file_name.csv', >>>from sklearn.model_selection Unsupervised:
>>> y_pred = k_means.predict(X_test) >>> print(grid.best_score_) >>> print(rsearch.best_score_)
delimiter=',') import train_test_split
• Using Pandas:
>>> print(grid.best_estimator_.n_neighbors)

>>>import pandas as pd >>> X_train, X_test, y_train, y_test =

>>>df=pd.read_csv file_name.csv ,header=0) train_test_split(X,y,random_state=0) Evaluate Performance
Classification: Regression: Clustering: Cross-validation:
Data Preparation 1. Confusion Matrix: 1. Mean Absolute Error:
>>> from sklearn.metrics import mean_absolute_error
1. Homogeneity: >>> from
>>> from sklearn.metrics import >>> from sklearn.metrics import sklearn.cross_validation

• Standardization • Normalization
confusion_matrix homogeneity_score import cross_val_score
>>> print(confusion_matrix(y_test, >>> y_true = [3, -0.5, 2] >>> homogeneity_score(y_true, >>>
>>>from sklearn.preprocessing import >>>from sklearn.preprocessing import y_pred)) >>> mean_absolute_error(y_true, y_predict) y_predict) print(cross_val_score(knn,
StandardScaler Normalizer 2. Accuracy Score: 2. Mean Squared Error: 2. V-measure: X_train, y_train, cv=4))
>>>get_names = df.columns >>> knn.score(X_test, y_test) >>> from sklearn.metrics import mean_squared_error >>> from sklearn.metrics import >>>
>>>pd.read_csv("File_name.csv")
>>>scaler = >>> from sklearn.metrics import >>> mean_squared_error(y_test, y_predict) v_measure_score print(cross_val_score(new_
>>>x_array = np.array(df[ Column1 ]
preprocessing.StandardScaler() accuracy_score 3. R² Score : >>> metrics.v_measure_score(y_true, lr, X, y, cv=2))
#Normalize Column1
>>>scaled_df = scaler.fit_transform(df) >>> accuracy_score(y_test, y_pred) >>> from sklearn.metrics import r2_score y_predict)
>>>normalized_X =
>>>scaled_df = >>> r2_score(y_true, y_predict)
preprocessing.normalize([x_array])
pd.DataFrame(scaled_df,
columns=get_names)m
FURTHERMORE:
Python for Data Science Certification Training Course

Multivariate Linear Regression
100% (1)
Multivariate Linear Regression
46 pages
Unsupervised Machine Learning in Python
100% (1)
Unsupervised Machine Learning in Python
89 pages
Python Cheet Sheet PDF
100% (1)
Python Cheet Sheet PDF
8 pages
Ai Cheat Sheet Machine Learning With Python Cheat Sheet
100% (4)
Ai Cheat Sheet Machine Learning With Python Cheat Sheet
2 pages
Final ML File
No ratings yet
Final ML File
34 pages
MachineLearningNotes PDF
100% (1)
MachineLearningNotes PDF
299 pages
Grammar & Beyond 2 Essentials PDF
0% (1)
Grammar & Beyond 2 Essentials PDF
30 pages
Wave110 Dash RS
86% (7)
Wave110 Dash RS
110 pages
data preprocessing
No ratings yet
data preprocessing
9 pages
Scikit Learn
No ratings yet
Scikit Learn
17 pages
R-Python Numpy 101 Exercises. Skyrocket Your Python Skill 2020
100% (1)
R-Python Numpy 101 Exercises. Skyrocket Your Python Skill 2020
162 pages
Chapter 5.3-Mulitple Linear Regression
No ratings yet
Chapter 5.3-Mulitple Linear Regression
26 pages
Deep Learning CNN
100% (1)
Deep Learning CNN
22 pages
Statquest Gentle Introduction To Rna Seq
100% (1)
Statquest Gentle Introduction To Rna Seq
188 pages
machine-learning-assignment (1)
No ratings yet
machine-learning-assignment (1)
7 pages
machine learning lab
No ratings yet
machine learning lab
20 pages
Statistics in Details
100% (2)
Statistics in Details
283 pages
Scikit Learn Cheat Sheet Python
No ratings yet
Scikit Learn Cheat Sheet Python
1 page
Scikit-Learn Cheat Sheet Python For Data Science: Preprocessing The Data Evaluate Your Model's Performance
100% (1)
Scikit-Learn Cheat Sheet Python For Data Science: Preprocessing The Data Evaluate Your Model's Performance
1 page
Scikit Learn Docs PDF
100% (3)
Scikit Learn Docs PDF
2,204 pages
Lab Week 7
No ratings yet
Lab Week 7
3 pages
ML Notes
100% (2)
ML Notes
125 pages
Scikit - Notes ML
100% (2)
Scikit - Notes ML
12 pages
Advanced Data Analytics Using Python - Unit II
No ratings yet
Advanced Data Analytics Using Python - Unit II
57 pages
Machine Learning Hands-On
100% (1)
Machine Learning Hands-On
18 pages
ML Cheatsheet
No ratings yet
ML Cheatsheet
4 pages
Machine Learning
100% (5)
Machine Learning
56 pages
Dental Radiography and Radiology
100% (3)
Dental Radiography and Radiology
16 pages
Machine Learning and Linear Regression
100% (1)
Machine Learning and Linear Regression
55 pages
21 Machine Learning Using Scikit Learn Ipynb Colaboratory PDF
100% (1)
21 Machine Learning Using Scikit Learn Ipynb Colaboratory PDF
23 pages
ENG 202: Computers and Engineering Object Oriented Programming in PYTHON
No ratings yet
ENG 202: Computers and Engineering Object Oriented Programming in PYTHON
56 pages
Scikit-Learn Cheat Sheet
No ratings yet
Scikit-Learn Cheat Sheet
1 page
Python DataScience Cheat-Sheet
100% (1)
Python DataScience Cheat-Sheet
7 pages
Pandas Data Analysis Handbook
No ratings yet
Pandas Data Analysis Handbook
55 pages
Numpy Complete Material
No ratings yet
Numpy Complete Material
19 pages
7 Data Science / Machine Learning Cheat Sheets in One
100% (1)
7 Data Science / Machine Learning Cheat Sheets in One
9 pages
A Comprehensive Statistics Cheat Sheet For Data Science 1685659812
No ratings yet
A Comprehensive Statistics Cheat Sheet For Data Science 1685659812
39 pages
Python Seaborn Cheat Sheet
100% (1)
Python Seaborn Cheat Sheet
1 page
Data Science Cheatsheet
100% (1)
Data Science Cheatsheet
5 pages
Scikit-Learn Cheat Sheet
No ratings yet
Scikit-Learn Cheat Sheet
1 page
8 Best Python Cheat Sheets For Beginners and Intermediate Learners
100% (1)
8 Best Python Cheat Sheets For Beginners and Intermediate Learners
17 pages
ML Interview Questions and Answers
100% (1)
ML Interview Questions and Answers
25 pages
Mat Plot Lib
No ratings yet
Mat Plot Lib
44 pages
Viral Video Clips Original
No ratings yet
Viral Video Clips Original
3 pages
Mat540 Homework Wk3 HW
0% (1)
Mat540 Homework Wk3 HW
2 pages
Pandas Visualisation
No ratings yet
Pandas Visualisation
27 pages
Scikit-Learn: Scikit-Learn Is An Open Source Python Library That
100% (1)
Scikit-Learn: Scikit-Learn Is An Open Source Python Library That
1 page
Python For Data Science Cheat Sheet: Scikit-Learn Create Your Model Evaluate Your Model's Performance
100% (1)
Python For Data Science Cheat Sheet: Scikit-Learn Create Your Model Evaluate Your Model's Performance
1 page
Cheat Sheet - Machine Learning - Data Science Interview PDF
No ratings yet
Cheat Sheet - Machine Learning - Data Science Interview PDF
16 pages
Time-Based Architecture
No ratings yet
Time-Based Architecture
1 page
NumPy Essentials - Sample Chapter
50% (2)
NumPy Essentials - Sample Chapter
16 pages
Python With Data Science
No ratings yet
Python With Data Science
102 pages
Scikit Learn
No ratings yet
Scikit Learn
25 pages
7 Time Series Datasets For Machine Learning
No ratings yet
7 Time Series Datasets For Machine Learning
8 pages
ML Practical File
100% (2)
ML Practical File
43 pages
Deep Learning Cheatsheet
No ratings yet
Deep Learning Cheatsheet
5 pages
STOPAQ
No ratings yet
STOPAQ
8 pages
Statistical Machine Learning
100% (1)
Statistical Machine Learning
12 pages
Data Structures and Algorithms (DSA) in Python - Self Paced
No ratings yet
Data Structures and Algorithms (DSA) in Python - Self Paced
4 pages
PythonGuide V1.2.9
100% (2)
PythonGuide V1.2.9
2 pages
Main Burner: Operation
No ratings yet
Main Burner: Operation
8 pages
Premier Single Zone Service Manual
No ratings yet
Premier Single Zone Service Manual
90 pages
IFR CYYC To CYVR
No ratings yet
IFR CYYC To CYVR
12 pages
Migrating Big Data Analytics
No ratings yet
Migrating Big Data Analytics
16 pages
Data Science Cheat Sheet: KEY Imports
100% (1)
Data Science Cheat Sheet: KEY Imports
1 page
WIKA Industrial - Gases
No ratings yet
WIKA Industrial - Gases
32 pages
Digiestate is one of India’s leading real estate digital marketing agencies
No ratings yet
Digiestate is one of India’s leading real estate digital marketing agencies
49 pages
Scope - CC-2390
No ratings yet
Scope - CC-2390
45 pages
For Professional Results: Digital Videocassette Recorder
No ratings yet
For Professional Results: Digital Videocassette Recorder
9 pages
Python Data Analysis For Newbies Numpypandasmatplotlibscikit Learnkeras
No ratings yet
Python Data Analysis For Newbies Numpypandasmatplotlibscikit Learnkeras
95 pages
Data Analysis With Pandas - Introduction To Pandas Cheatsheet - Codecademy PDF
No ratings yet
Data Analysis With Pandas - Introduction To Pandas Cheatsheet - Codecademy PDF
3 pages
CH # 7 Separator & Slug Catcher
100% (1)
CH # 7 Separator & Slug Catcher
15 pages
Orthographic Views
No ratings yet
Orthographic Views
29 pages
Towards An Engineering Process For Developing Accesible Software
No ratings yet
Towards An Engineering Process For Developing Accesible Software
6 pages
Frtool - The User's Guide: Frequency Response Controller Design Tool
No ratings yet
Frtool - The User's Guide: Frequency Response Controller Design Tool
21 pages
Keras Cheat Sheet Python
No ratings yet
Keras Cheat Sheet Python
1 page
APsystems Microinverter DS3D-L For Brazil Datasheet - Rev1.0 - 2022!08!03
No ratings yet
APsystems Microinverter DS3D-L For Brazil Datasheet - Rev1.0 - 2022!08!03
2 pages
UW Code
No ratings yet
UW Code
6 pages
Lyrics Finder 11 - Help File
No ratings yet
Lyrics Finder 11 - Help File
2 pages
Adastra CM30B, CM60B User Manual
No ratings yet
Adastra CM30B, CM60B User Manual
8 pages
3D Laparoscopy EinsteinVision - Brochure
No ratings yet
3D Laparoscopy EinsteinVision - Brochure
8 pages
Drawing Circuit Diagrams For Text Books
No ratings yet
Drawing Circuit Diagrams For Text Books
4 pages
Volvo DVR
No ratings yet
Volvo DVR
3 pages
Anna University - 2007: B.E/B.Tech Model Examination (Aeronautical Engineering) Time-3Hour MARK-100 Answer All Questions
No ratings yet
Anna University - 2007: B.E/B.Tech Model Examination (Aeronautical Engineering) Time-3Hour MARK-100 Answer All Questions
2 pages
Linear3 Vs Linear5 en
No ratings yet
Linear3 Vs Linear5 en
1 page
Conv. v. Nonconv
No ratings yet
Conv. v. Nonconv
3 pages
s590 t4 Maintenance Chart
No ratings yet
s590 t4 Maintenance Chart
1 page
DASA Scheme Colleges
No ratings yet
DASA Scheme Colleges
2 pages
Django 1.0 Template Development
From Everand
Django 1.0 Template Development
Scott Newman
No ratings yet
Effective Amazon Machine Learning
From Everand
Effective Amazon Machine Learning
Alexis Perrier
No ratings yet

Cheat Sheet: Python For Data Science

Uploaded by

Cheat Sheet: Python For Data Science

Uploaded by

P Y T H O N F O R D ATA Working On Model

SCIENCE Model Choosing Train-Test

Preprocessing Prediction Model Tuning

>>>import pandas as pd >>> X_train, X_test, y_train, y_test =

You might also like