Understanding Loss & Regularization in Deep Learning

The document discusses the concepts of underfitting and overfitting in deep learning, highlighting the importance of finding the right model complexity. It covers various techniques for loss functions, regularization methods, and strategies like dropout and early stopping to improve model generalization. Additionally, it provides practical tasks for experimenting with these concepts using specific datasets.

Uploaded by

rexar38710

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

58 views19 pages

Understanding Loss & Regularization in Deep Learning

Uploaded by

rexar38710

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

Understanding

Loss &
Regularization in
Deep Learning
Presented by:
Dr. Pandiyaraju V
Abishek Karthik
Sreya Mynampatti
What Are Underfitting &
Overfitting?
Models can either underfit (learn too little) or overfit (learn too
much and memorize). Both are issues in building reliable
models.
• Underfitting: Model is too simple to capture patterns.
• Overfitting: Model learns noise and performs poorly on
unseen data.
• Caused by improper architecture, too little or too much
training, or lack of regularization.
• Goal: Find the sweet spot — just right model complexity.
What is Underfitting?

Underfitting happens when the model cannot learn the

underlying trend of the data.
• Model is too shallow or linear for complex data.
• High bias – makes strong assumptions, ignores important
signals.
• Training and validation loss both remain high.
• Often fixed by increasing model complexity or training time.
📌 Think: "Model didn’t even try hard enough."
Why Does Overfitting
Happen?
Overfitting makes a model memorize training data rather than
learn general patterns.
• Too many parameters (deep/wide model) on small data.
• Trained too long without checks.
• Noisy or unbalanced datasets.
• Lack of regularization techniques.
📌 Think: Memorization vs Understanding.
What is Loss Function?
• The loss function tells us how wrong the model's prediction is.
It’s the core metric that we minimize during training.
• Measures the difference between predicted and actual
values.
• Helps update weights via backpropagation.
• Lower the loss → better the model performance.
📌 Example:
Mean Squared Error (MSE):
• Binary Cross-Entropy:
Types of Loss Functions
Different tasks use different loss functions depending on output
type.
• MSE – For regression problems.
• MAE (Mean Absolute Error) – Less sensitive to outliers.
• Binary Cross-Entropy – For binary classification.
• Categorical Cross-Entropy – For multi-class classification.
📌 Choose loss based on the task (regression or classification).
How Loss Drives Learning
(Backprop Recap)
Loss is used to calculate gradients and update model weights.
• Forward pass: model makes predictions.
• Compute loss between predicted and actual.
• Backward pass: gradients of loss w.r.t. weights are calculated.
• Optimizer adjusts weights to reduce loss.
What is Regularization?
Regularization is a technique to prevent overfitting and improve
generalization.
• Adds constraints or penalties to the model.
• Helps avoid learning too complex patterns or noise.
• Encourages simpler models that perform better on unseen
data.
📌 Key idea: add “discipline” to the learning process.
L1 and L2 Regularization
Both add penalties to the loss function but in different ways.
• L1 Regularization (Lasso): adds absolute value of weights

→ Encourages sparsity (some weights become zero).

• L2 Regularization (Ridge): adds squared weights

→ Shrinks weights smoothly, avoids large weights.

📌 Use L1 for feature selection, L2 for smooth generalization.
Dropout Regularization
Dropout is a simple yet powerful technique used during training.
It randomly disables neurons to avoid co-dependence.
• Forces redundancy in learning.
• Reduces risk of overfitting.
• Dropout rate = probability a neuron is turned off.
• Common in dense layers of neural networks.
Early Stopping
Sometimes, more training does more harm than good.
Early stopping halts training when performance on validation
data starts declining.
• Monitors validation loss.
• Stops training before overfitting kicks in.
• Saves compute time and avoids degrading model.
• Often paired with checkpoints (best model saving).
Batch Normalization
BatchNorm improves training speed and model stability.
It normalizes layer outputs to prevent internal covariate shifts.
• Normalizes inputs across each batch.
• Speeds up convergence.
• Slight regularization effect.
• Often placed after fully connected or conv layers.
📌 Helps with vanishing/exploding gradients.
Data Augmentation
Data augmentation generates more training data from existing
samples.
This helps generalize better to unseen inputs.
• Apply transformations: rotate, zoom, flip, shift, crop.
• Improves robustness to real-world variations.
• Common in computer vision tasks.
• Simulates unseen inputs without collecting new data.
Summary – Tackling
Overfitting
Let’s recap what we’ve learned so far about regularization
techniques.
These methods help build reliable models.
• Reduce model complexity (fewer neurons/layers).
• Add dropout in training.
• Use L1/L2 to control weights.
• Apply early stopping when val loss increases.
• Normalize inputs with BatchNorm.
• Expand data using augmentation.
📌 Combine methods for stronger generalization.
When to Use What?
There’s no one-size-fits-all — choose techniques based on your
task and data.
Here’s a rough guide:
• Small dataset → data augmentation + L2 regularization.
• Large model → dropout + L1 regularization.
• Noisy data → early stopping + robust loss (like MAE).
📌 Always watch validation metrics to avoid overfitting.
Your Takeaway
Training a deep model is not just about reducing error — it’s
about generalizing well.
A well-regularized model is both accurate and resilient.
• Don’t just memorize – learn patterns.
• Regularization is key to real-world deployment.
• Always monitor both training and validation curves.
🧠 Good models make good guesses on new data.
Code Time – Try it Yourself!
Let’s experiment with training and regularization in action!
📎
[Link]
O92O5PQLqcqmc8?usp=sharing

• Try training without regularization.

• Add L2 or dropout – observe changes in loss/accuracy.
• Use early stopping or BatchNorm and compare results.
Challenging Task
• Task 1: Image Classification with CIFAR-10 Dataset
• Train two artificial neural networks (ANNs) on the CIFAR-10 dataset using mini-
• batch gradient descent. Apply hyperparameter tuning to both models, using
• different regularization techniques for each. Evaluate the model'
• s performance
• with visualizations of loss and accuracy, and display with reasoning as to which
• model performed better.

• Task 2: Predicting House Prices with the Boston Housing Dataset

• Implement an artificial neural network (ANN) for regression on the Boston
• Housing dataset, applying minibatch gradient descent, hyperparameter tuning,
• and various regularization techniques. Assess the model using Mean Squared
• Error and visualize training progress.
• Dataset link: [Link]

Week 10
No ratings yet
Week 10
69 pages
DL Class3
No ratings yet
DL Class3
28 pages
UNIT-II Regularization in Deep Learning
No ratings yet
UNIT-II Regularization in Deep Learning
24 pages
DL 3 Regularization
No ratings yet
DL 3 Regularization
50 pages
Regularization & Hyperparameters in Deep Learning
No ratings yet
Regularization & Hyperparameters in Deep Learning
50 pages
Deep Learning Regularization Techniques
No ratings yet
Deep Learning Regularization Techniques
64 pages
Regularization Techniques in Deep Learning
No ratings yet
Regularization Techniques in Deep Learning
27 pages
Regularization and Normalization
No ratings yet
Regularization and Normalization
29 pages
Regularization Techniques in CNNs
No ratings yet
Regularization Techniques in CNNs
75 pages
L1, L2andBatchnormalization (1) T1754749408264
No ratings yet
L1, L2andBatchnormalization (1) T1754749408264
9 pages
DL Unit 1
No ratings yet
DL Unit 1
5 pages
NNDL Notes
No ratings yet
NNDL Notes
73 pages
Unit 4
No ratings yet
Unit 4
35 pages
Neural Network Regularization Techniques
No ratings yet
Neural Network Regularization Techniques
16 pages
What Is Regularization.
No ratings yet
What Is Regularization.
10 pages
Deep Learning: Batch Normalization & Overfitting
No ratings yet
Deep Learning: Batch Normalization & Overfitting
15 pages
Hyperparameters
No ratings yet
Hyperparameters
15 pages
Regularization Techniques in Neural Networks
No ratings yet
Regularization Techniques in Neural Networks
13 pages
Deep Learning: Stability & Regularization
No ratings yet
Deep Learning: Stability & Regularization
45 pages
Regularization
No ratings yet
Regularization
74 pages
18-Deep Learning Frameworks - Data Augmentation - Under-Fitting Vs Over-Fitting-22!08!2024
No ratings yet
18-Deep Learning Frameworks - Data Augmentation - Under-Fitting Vs Over-Fitting-22!08!2024
5 pages
Deep Neural Network Regularization Techniques
No ratings yet
Deep Neural Network Regularization Techniques
53 pages
Deep Learning Regularization Guide
No ratings yet
Deep Learning Regularization Guide
77 pages
Lecture 1 Part II
No ratings yet
Lecture 1 Part II
24 pages
Understanding Regularization Techniques
No ratings yet
Understanding Regularization Techniques
32 pages
Supervised Learning: Overfitting & Techniques
No ratings yet
Supervised Learning: Overfitting & Techniques
22 pages
Regularization
No ratings yet
Regularization
3 pages
Deep Neural Networks
No ratings yet
Deep Neural Networks
26 pages
Training Neural Netwok: Data Set
No ratings yet
Training Neural Netwok: Data Set
35 pages
Deep Learning Regularization Strategies
No ratings yet
Deep Learning Regularization Strategies
35 pages
Unit 1 Regularization
No ratings yet
Unit 1 Regularization
44 pages
12-Regularization For Deep Learning-17!08!2024
No ratings yet
12-Regularization For Deep Learning-17!08!2024
51 pages
Underfitting Overfitting
No ratings yet
Underfitting Overfitting
38 pages
Practical Deep Learning Techniques
No ratings yet
Practical Deep Learning Techniques
30 pages
Regularization For Neural Networks 1718966083
No ratings yet
Regularization For Neural Networks 1718966083
9 pages
BACK PROPAGATION and REGULATION, BATCH NORMALIZATION
No ratings yet
BACK PROPAGATION and REGULATION, BATCH NORMALIZATION
20 pages
DL Module 2
No ratings yet
DL Module 2
8 pages
Regularization Techniques in Deep Learning
No ratings yet
Regularization Techniques in Deep Learning
93 pages
Regularization Techniques in Machine Learning
No ratings yet
Regularization Techniques in Machine Learning
46 pages
Regularization Techniques in Machine Learning
No ratings yet
Regularization Techniques in Machine Learning
19 pages
Mod 4
No ratings yet
Mod 4
65 pages
Deep Learning Neural Network Optimization
No ratings yet
Deep Learning Neural Network Optimization
18 pages
Neural Networks: A Beginner's Guide
No ratings yet
Neural Networks: A Beginner's Guide
23 pages
465-Lecture 10-11
No ratings yet
465-Lecture 10-11
79 pages
Deep Learning Module 2 Important Topics PYQs
No ratings yet
Deep Learning Module 2 Important Topics PYQs
30 pages
Regularization in Machine Learning
No ratings yet
Regularization in Machine Learning
17 pages
Neural Network Regularization Techniques
No ratings yet
Neural Network Regularization Techniques
13 pages
Regularization Techniques in Deep Learning
No ratings yet
Regularization Techniques in Deep Learning
19 pages
Understanding Overfitting and Underfitting
No ratings yet
Understanding Overfitting and Underfitting
132 pages
5m DL Answers
No ratings yet
5m DL Answers
12 pages
A Quick Guide On Basic Regularization Methods For Neural Networks - by Jaime Durán - Yottabytes - Medium
No ratings yet
A Quick Guide On Basic Regularization Methods For Neural Networks - by Jaime Durán - Yottabytes - Medium
9 pages
1.2 Overfitting Under Fitting and Cross Validation and Confusion Matrix
No ratings yet
1.2 Overfitting Under Fitting and Cross Validation and Confusion Matrix
17 pages
Backpropagation and Overfitting in Neural Networks
No ratings yet
Backpropagation and Overfitting in Neural Networks
33 pages
Unit Ii
No ratings yet
Unit Ii
8 pages
Dataset Augmentation
No ratings yet
Dataset Augmentation
30 pages
Regularization Techniques in Deep Learning
No ratings yet
Regularization Techniques in Deep Learning
11 pages
Deep Learning Regularization Techniques
No ratings yet
Deep Learning Regularization Techniques
36 pages
Flight Itinerary: Aberdeen to Cairo
No ratings yet
Flight Itinerary: Aberdeen to Cairo
2 pages
CA Inter May 2024: Key Questions
No ratings yet
CA Inter May 2024: Key Questions
8 pages
Processor Generations
No ratings yet
Processor Generations
2 pages
Road Alignment
100% (1)
Road Alignment
17 pages
Instruction Manual: HD 6600C - HD 6605C
No ratings yet
Instruction Manual: HD 6600C - HD 6605C
38 pages
Aagadu Movie Review
No ratings yet
Aagadu Movie Review
2 pages
Systems Completion Lead Profile
No ratings yet
Systems Completion Lead Profile
8 pages
Quinabigan Elementary School
No ratings yet
Quinabigan Elementary School
3 pages
Energy Balance
No ratings yet
Energy Balance
7 pages
List Liquidity Provider Per Security 20221017
No ratings yet
List Liquidity Provider Per Security 20221017
39 pages
Hershey's ERP Implementation Failure Analysis
100% (1)
Hershey's ERP Implementation Failure Analysis
31 pages
Setup Actions Setup - Actions - in - Shipping - Transactionsin Shipping Transactions
No ratings yet
Setup Actions Setup - Actions - in - Shipping - Transactionsin Shipping Transactions
3 pages
CV Mohamed Abrahim
No ratings yet
CV Mohamed Abrahim
2 pages
Business Organizations and Ethics Explained
No ratings yet
Business Organizations and Ethics Explained
35 pages
PUSH (Exercises Tables - Best WO - My WO)
No ratings yet
PUSH (Exercises Tables - Best WO - My WO)
7 pages
Samsung Phone Consumer Behavior Study
No ratings yet
Samsung Phone Consumer Behavior Study
65 pages
Social Responsibilities Class11
No ratings yet
Social Responsibilities Class11
7 pages
Payroll Timekeeping System
50% (2)
Payroll Timekeeping System
94 pages
MTP Law May 2025 Series 1
No ratings yet
MTP Law May 2025 Series 1
20 pages
G12 Humss Reviewer
No ratings yet
G12 Humss Reviewer
14 pages
Final TRAININGPROPOSAL 20225 Day Division Training Workshop On High Impact Teaching in The Digital Era Education in The Virtual Environment 1 1
No ratings yet
Final TRAININGPROPOSAL 20225 Day Division Training Workshop On High Impact Teaching in The Digital Era Education in The Virtual Environment 1 1
10 pages
AI in Education Personalized Learning Systems and Their Impact On Student Performance and Engagement
No ratings yet
AI in Education Personalized Learning Systems and Their Impact On Student Performance and Engagement
15 pages
Bookkeeper Honoraria Actual 2023 With Proposed Increase 2024
No ratings yet
Bookkeeper Honoraria Actual 2023 With Proposed Increase 2024
2 pages
PPTs Unit I
No ratings yet
PPTs Unit I
88 pages
The Cellular Basis of Reproduction and Inheritance: Chapter Objectives
No ratings yet
The Cellular Basis of Reproduction and Inheritance: Chapter Objectives
17 pages
Airdrop Physics and Long Jump Analysis
No ratings yet
Airdrop Physics and Long Jump Analysis
13 pages
Sea CErase
No ratings yet
Sea CErase
48 pages
The Lord of The Rings-Strategy Battle Game
100% (3)
The Lord of The Rings-Strategy Battle Game
69 pages
Company Profile
No ratings yet
Company Profile
14 pages
Pythagorean Real World
No ratings yet
Pythagorean Real World
2 pages

Understanding Loss & Regularization in Deep Learning

Uploaded by

Understanding Loss & Regularization in Deep Learning

Uploaded by

Understanding

Underfitting happens when the model cannot learn the

→ Encourages sparsity (some weights become zero).

→ Shrinks weights smoothly, avoids large weights.

• Try training without regularization.

• Task 2: Predicting House Prices with the Boston Housing Dataset

You might also like