Coding Final Study Guide Notes

Uploaded by

antadiiagne

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

20 views3 pages

Coding Final Study Guide Notes

Uploaded by

antadiiagne

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

Lecture 5: Stats & Probability Lecture 7: Hypothesis Testing

Population vs Sample Central Limit Theorem

population: all possible values that could’ve been collected Distro of sample mean as sample size increases → approaches normal
sample: each singular data point actually collected Small N: sampling distro resembles original pop distro
rand num gen: pop= range of values that could’ve been, Moderate N (8): distro smooths, clusters toward true pop.mean (bell)
sample =values gen Large N >30: distro approaches normal
Calculate Stats & Discuss their Meaning Distro of raw data → approaches original pop distro
if np.mean & np.median = similar → distribution is not skewed Drawing Random Samples
np.std(name, ddof=1): measurements +/- std away from mean
range: np.max() - np.min() if large relative to mean → outliers
scipystats.mode: helpful if data = discrete values, unhelpful if
data= decimaled Manipulating Random Sample
scipystats.skew: negative means tail to left, positive =tail to right Np.random.rand(N): draws from uniform distro with default interval [0, 1]
scipystats.kurtosis(name, fisher=False): 3 = normal, <3 = flatter 0.5 * np.random.rand(N): multiply by decimal make interval smaller [0, 0.5]
(platykurtic), >3 =peaked (leptokurtic) 6.0 + np.random.rand(N): add a number shifts interval [6, 7]
Plotting Histogram w/ Correct Bins Calculate Bounds for 99% Confidence Interval:

Occurrence Probability for Theoretical Distros:

Prob that sample from norm distro w/mean 6.5 will be > than
5.5:

Performing Hypothesis Test for 2 : comparing 2 slices within dataset

Sampling Distribution, Sample Size & Number of Samples:

Population distr: total set of measurements
Sample distr of sample mean: distr of means collected from
diff samples
Number of Samples = # sets of data → increasing will make
distro converge at normal, no effect on mean
Sample size = # of measurements w/in each set → increasing
will make sample distro narrower & decrease uncertainty of
mean SEM = sigma/sqrt(n)
Practice Problems:
select data along specific coordinate values →sel()
timeseries = temp.mean(dim=('lon','lat'))
Best way to select data at specific lon & lat:
ds.temperature.sel(lat=34.05, lon=-118.25, method="nearest")
plot time-averaged spatial heatmap using temp variable from ds:
ds.temperature.mean(dim="time").plot()
“The t-stat x > the crit value y at a 90% significance level. At this sig level,
ds = xr.open_dataset(“path”) we reject the null hypothesis that noon mean pH is similar or < in the
morning and adopt the alt hypo that pH > in the afternoon”
Lecture 6: Time Series Analysis Lecture 7: Hypothesis Testing Continued
Fitting Polynomial Functions to Data: SubPlot Sample Distr of Sample Mean @ Sample Sizes:

Overfitting: model too complex & captures noise → poor generalization
to new data.
Underfitting: model too simple & fails to capture true pattern

Linear Interpolation:

easy to implement & no extreme oscillations, use on sparse data points
Spline Interpolation:

Lecture 8: Multi-Dimensional Data Analysis

Same as linear, add cubic argument to 3rd code line
Use when data has natural continuous variation & need smooth curve

Global Fit & Applied to a Value:

Extrapolation:
interp.interp1d(x, y, bounds_error=False, fille_value=”extrapolate”
How Polynomial Functions Fit Data to Curves: (LSR)
1 specify function form (polynomial, exponential, constant)
2 guess initial values for constants in function
3 define squared error residual metric quantifying mismatch between
observed data & current function values
4 use algorithm to change coefficient values to minimize error metric→
finds least-square solution best fitting data
Quality of Functional Fit Quality:
improves when quantity of data points increases or noise decreases
Higher order fits have extreme oscillations between data points, even if
data seems perfectly matched by a higher order fit → default is to
choose SIMPLEST fit matching data → less prone to high frequency
oscillations Using Xarray.plot(), .contour, etc.
Calculate Correlation Coefficient between Datasets:

always linear relationship, >0.7 strong, 0.3-0.7 moderate, <0.3 weak
2 independent datasets can still have strong correlation, indicating they
are impacted by a common 3rd variable
Other
Ddof: If pop std → Ddof = 1/n, if sample std → Ddof = 1/(n-1)
-matrices in format (#rows, #columns)
Calculating Degrees of Freedom
For confidence interval→ dof = n-1
For 2-sample t-test→ dof =n1+n2−2

Data Handling in Data Science
No ratings yet
Data Handling in Data Science
76 pages
Data Modeling: Interpolation & Regression
No ratings yet
Data Modeling: Interpolation & Regression
38 pages
Probability and Statistics Course Guide
No ratings yet
Probability and Statistics Course Guide
5 pages
Sampling Techniques and Standard Error
No ratings yet
Sampling Techniques and Standard Error
33 pages
Data Science Fundamentals Explained
No ratings yet
Data Science Fundamentals Explained
44 pages
CS-3361-Data-science-lab Manual
No ratings yet
CS-3361-Data-science-lab Manual
36 pages
SciPy Data Fitting Guide
No ratings yet
SciPy Data Fitting Guide
10 pages
Data Mining & Analysis Guide
No ratings yet
Data Mining & Analysis Guide
148 pages
Machine Learning Lab Word 12-1-2025. Document
No ratings yet
Machine Learning Lab Word 12-1-2025. Document
68 pages
Complete Data Science Questions
No ratings yet
Complete Data Science Questions
5 pages
DA Manual - Part B
No ratings yet
DA Manual - Part B
13 pages
Master Statistics for Analyst Interviews
No ratings yet
Master Statistics for Analyst Interviews
47 pages
Data Analysis for Beginners
No ratings yet
Data Analysis for Beginners
8 pages
Data Science Practical Guide
No ratings yet
Data Science Practical Guide
26 pages
Data Analytics Course (IIFT MBA) Full Course Summary - 27072023
No ratings yet
Data Analytics Course (IIFT MBA) Full Course Summary - 27072023
253 pages
PDF Sampling and Statistics Workshop
No ratings yet
PDF Sampling and Statistics Workshop
10 pages
DSBDA Practicals
No ratings yet
DSBDA Practicals
16 pages
Data Science: Data Wrangling Guide
No ratings yet
Data Science: Data Wrangling Guide
41 pages
Statistical Methods For Data Science
100% (2)
Statistical Methods For Data Science
406 pages
Statistical Functions and Data Visualization
No ratings yet
Statistical Functions and Data Visualization
42 pages
Unit 1,2
No ratings yet
Unit 1,2
17 pages
Data Analysis and Visualization Techniques
No ratings yet
Data Analysis and Visualization Techniques
16 pages
Matplotlib Implementation in Python
No ratings yet
Matplotlib Implementation in Python
20 pages
Data Science and Analtics Laboratory
No ratings yet
Data Science and Analtics Laboratory
21 pages
Univariate Regression and Data Subsampling
No ratings yet
Univariate Regression and Data Subsampling
36 pages
Statistics for Engineers Overview
100% (1)
Statistics for Engineers Overview
195 pages
ML (Sudhanshu)
No ratings yet
ML (Sudhanshu)
24 pages
Confidence and Credential Intervals Explained
No ratings yet
Confidence and Credential Intervals Explained
15 pages
Logistic Regression Overview
No ratings yet
Logistic Regression Overview
4 pages
Datascience Lab
No ratings yet
Datascience Lab
24 pages
Random Variable
No ratings yet
Random Variable
10 pages
Nac PDF
No ratings yet
Nac PDF
23 pages
DS Lab Manual Lovesh 1
No ratings yet
DS Lab Manual Lovesh 1
15 pages
Python Data Visualization with Seaborn
No ratings yet
Python Data Visualization with Seaborn
8 pages
Ad3411 - Data Science and Analytics Laboratory
No ratings yet
Ad3411 - Data Science and Analytics Laboratory
26 pages
Data Science and Analtics Laboratory
No ratings yet
Data Science and Analtics Laboratory
21 pages
Statistics Applications in Engineering
No ratings yet
Statistics Applications in Engineering
28 pages
Machine Learning Practical Exercises
No ratings yet
Machine Learning Practical Exercises
29 pages
Data Science Distributions & Models
50% (2)
Data Science Distributions & Models
5 pages
Data Visualization Tools in Python
No ratings yet
Data Visualization Tools in Python
33 pages
Python Libraries for Time Series Analysis
No ratings yet
Python Libraries for Time Series Analysis
13 pages
Data and Visual Analytics Lab Manual
No ratings yet
Data and Visual Analytics Lab Manual
20 pages
Data Sci HW1
No ratings yet
Data Sci HW1
8 pages
DS Chapter - 2
No ratings yet
DS Chapter - 2
73 pages
Data Science and Statistics for Engineers
No ratings yet
Data Science and Statistics for Engineers
153 pages
Assignment 02
No ratings yet
Assignment 02
6 pages
Ad3411-Data Science and Analytics Laboratory
No ratings yet
Ad3411-Data Science and Analytics Laboratory
27 pages
Maths 1
No ratings yet
Maths 1
31 pages
Full Stack Data Science with Python
No ratings yet
Full Stack Data Science with Python
15 pages
Exploratory Data Analysis in Python
No ratings yet
Exploratory Data Analysis in Python
40 pages
Data Science Overview at TEKS Academy
No ratings yet
Data Science Overview at TEKS Academy
26 pages
Python Code for Central Tendency
No ratings yet
Python Code for Central Tendency
28 pages
Python Programs
No ratings yet
Python Programs
7 pages
Data Science Practicals
No ratings yet
Data Science Practicals
47 pages
Statistics for Engineers Lecture Notes
No ratings yet
Statistics for Engineers Lecture Notes
216 pages
4.5-Bootstrap Variations
No ratings yet
4.5-Bootstrap Variations
25 pages
ML Lab
No ratings yet
ML Lab
12 pages
Lecture 10
No ratings yet
Lecture 10
19 pages
PRML Exercise Solutions Guide
No ratings yet
PRML Exercise Solutions Guide
87 pages
Uppp 146 PS3
No ratings yet
Uppp 146 PS3
8 pages
Econ Midterm
No ratings yet
Econ Midterm
4 pages
Spillers - Mamas Baby Papas Maybe
No ratings yet
Spillers - Mamas Baby Papas Maybe
19 pages
pnv4 Murillo 22untimely Dispatch 2422
No ratings yet
pnv4 Murillo 22untimely Dispatch 2422
9 pages
Data-Driven Inter-Turn Short Circuit Fault Detection in Induction Machines
No ratings yet
Data-Driven Inter-Turn Short Circuit Fault Detection in Induction Machines
14 pages
Seasonal Adjustment of Short-Term Statistics Using X-12-Arima and X13 in Jdemetra+
No ratings yet
Seasonal Adjustment of Short-Term Statistics Using X-12-Arima and X13 in Jdemetra+
22 pages
Time Series EDA for Data Analysts
No ratings yet
Time Series EDA for Data Analysts
20 pages
Camm Be 5e PPT Ch09 03-14-23 PC - Final
No ratings yet
Camm Be 5e PPT Ch09 03-14-23 PC - Final
42 pages
Statistical Bed Capacity Planning in Hospitals
No ratings yet
Statistical Bed Capacity Planning in Hospitals
14 pages
Transformers in Finance
No ratings yet
Transformers in Finance
27 pages
@DataScience - Ir - 111 Essential Concepts For Data Scientists
No ratings yet
@DataScience - Ir - 111 Essential Concepts For Data Scientists
14 pages
Q1W2 Lesson 1.6
No ratings yet
Q1W2 Lesson 1.6
7 pages
Statistcs - Exam Blueprints 3
No ratings yet
Statistcs - Exam Blueprints 3
10 pages
SAP R/3 Forecasting Module Overview
No ratings yet
SAP R/3 Forecasting Module Overview
34 pages
Pigeon Pea Arima
No ratings yet
Pigeon Pea Arima
6 pages
Market Models A Guide To Financial Data Analysis by Carol
No ratings yet
Market Models A Guide To Financial Data Analysis by Carol
2 pages
Time Series Analysis for Mathematics Degree
No ratings yet
Time Series Analysis for Mathematics Degree
53 pages
UNIT-2 Time Series and Index Number
No ratings yet
UNIT-2 Time Series and Index Number
8 pages
PFE Book - Mass Analytics - 2022
No ratings yet
PFE Book - Mass Analytics - 2022
22 pages
Univariate Stationary Time Series Models
No ratings yet
Univariate Stationary Time Series Models
18 pages
Review & Perspective For Distance Based Trajectory Clustering
No ratings yet
Review & Perspective For Distance Based Trajectory Clustering
10 pages
ETSformer: Time-Series Forecasting Transformer
No ratings yet
ETSformer: Time-Series Forecasting Transformer
18 pages
Srex5002 (Notes On) Research Methodology Tools Techniques, Research Publication and Ethics (For PH.D Scholars Based 2020 Syllabus)
No ratings yet
Srex5002 (Notes On) Research Methodology Tools Techniques, Research Publication and Ethics (For PH.D Scholars Based 2020 Syllabus)
161 pages
Mpande Vone Monica Final Year Project Document
No ratings yet
Mpande Vone Monica Final Year Project Document
54 pages
SSTP Posters 2024
No ratings yet
SSTP Posters 2024
47 pages
Interactive WDI Dashboard Using R
No ratings yet
Interactive WDI Dashboard Using R
5 pages
Chapter 1 - Introduction To Forecasting: Powerpoint Presentation To Accompany
No ratings yet
Chapter 1 - Introduction To Forecasting: Powerpoint Presentation To Accompany
29 pages
Advanced Econometrics: Based On The Textbook by Verbeek: A Guide To Modern Econometrics
No ratings yet
Advanced Econometrics: Based On The Textbook by Verbeek: A Guide To Modern Econometrics
27 pages
Human Brain Mapping - 2005 - Patel - A Bayesian Approach To Determining Connectivity of The Human Brain
No ratings yet
Human Brain Mapping - 2005 - Patel - A Bayesian Approach To Determining Connectivity of The Human Brain
10 pages
Chapter 4
No ratings yet
Chapter 4
11 pages
1 04 Missing Data and Outliers
No ratings yet
1 04 Missing Data and Outliers
16 pages
ARIMAX Forecasting for Trincomalee Paddy
No ratings yet
ARIMAX Forecasting for Trincomalee Paddy
5 pages
Seifert 2018
No ratings yet
Seifert 2018
12 pages
Business Data Analysis for Profit Optimization
No ratings yet
Business Data Analysis for Profit Optimization
11 pages

Coding Final Study Guide Notes

Uploaded by

Coding Final Study Guide Notes

Uploaded by

Lecture 5: Stats & Probability Lecture 7: Hypothesis Testing

Population vs Sample Central Limit Theorem

Occurrence Probability for Theoretical Distros:

Sampling Distribution, Sample Size & Number of Samples:​

Global Fit & Applied to a Value:​

You might also like

Sampling Distribution, Sample Size & Number of Samples:

Global Fit & Applied to a Value: