0% found this document useful (0 votes)

468 views35 pages

FDP Day1

This document provides an introduction to data mining and machine learning. It discusses how data mining is used to extract useful patterns from large datasets. Common data mining tasks include prediction, classification, clustering, and anomaly detection. It also introduces machine learning as a field that allows computers to learn from data without being explicitly programmed. Major topics in data preprocessing like data cleaning, normalization, and dimensionality reduction are covered. Finally, it distinguishes between supervised, unsupervised, and reinforcement learning algorithms.

Uploaded by

yadavsticky5108

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPT, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

468 views35 pages

FDP Day1

Uploaded by

yadavsticky5108

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPT, PDF, TXT or read online on Scribd

You are on page 1/ 35

Fundamentals of

Data Mining
and
Machine Learning

Dr.B.Santhosh Kumar,
Associate Professor,
G. Pulla Reddy Engineering College(Autonomous),
Kurnool.
Introduction
What is Data Mining?

 The significant extraction of implicit, previously unknown and

potentially useful information from data.

 Data mining is the process of automatically discovering useful

information in large data repositories
Applications
 Banking: loan/credit card approval
 predict good customers based on old customers

 Customer relationship management

 identify those who are likely to leave for a competitor.

 Targeted marketing
 identify likely responders to promotions

 Fraud detection: telecommunications, financial transactions

 from an online stream of event identify fraudulent events
Applications(continued)

 Medicine: disease outcome, effectiveness of treatments

 analyze patient disease history: find relationship between
diseases

 Website/store design and promotion

 find affinity of visitor to pages and modify layout
Attribute
Types of Attributes
Data Mining Tasks
 Predictive tasks : Predict the value of a particular
attribute based on the values of other attributes.

 Descriptive tasks : Here, the objective is to derive

patterns (clusters and anomalies) that summarize the
underlying relationships in data.
Examples of Classification
Association Analysis
Cluster Analysis
Anomaly Detection
 The task of identifying observations whose characteristics
are significantly different from rest of the data. Such
observations are called anomalies or outliers.

 Ex: Credit card fraud detection, network intrusions,

unusual patterns of disease.
Machine Learning

 Machine Learning is the science of programming computers

so they can learn from data.

 Machine Learning is the field of study that gives computers

the ability to learn without being explicitly programmed.

 A computer program is said to learn from experience E with

respect to some task T and some performance measure P, if
its performance on T, as measured by P, improves with
experience E.
Example
 Spam filter is a Machine Learning program that can learn to
flag spam given examples of spam emails (e.g., flagged by
users) and examples of regular (nonspam, also called “ham”)
emails.
 The examples that the system uses to learn are called the
training set. Each training example is called a training instance
(or sample).
 In this case, the task T is to flag spam for new emails, the
experience E is the training data, and the performance measure
P needs to be defined; for example, you can use the ratio of
correctly classified emails.
 This particular performance measure is called accuracy and it is
often used in classification tasks.
Major Tasks in Data Preprocessing
 Data cleaning
 Fill in missing values, smooth noisy data, identify or remove
outliers, and resolve inconsistencies
 Data integration
 Integration of multiple databases, data cubes, or files

 Data reduction
 Dimensionality reduction
 Data compression

 Data transformation
 Normalization
Forms of Data Preprocessing

20
Data Cleaning
 Data in the Real World Is Dirty: Lots of potentially
incorrect data, e.g., instrument faulty, human or
computer error, transmission error
 incomplete: lacking attribute values, lacking certain
attributes of interest
 e.g., Occupation=“ ” (missing data)

 noisy: containing noise, errors, or outliers

 e.g., Salary=“−10” or Salary=“NaN” (an error)
21
Normalization
 Min-max normalization: to [new_minA, new_maxA]
v  minA
v'  (new _ maxA  new _ minA)  new _ minA
maxA  minA
 Ex. Let income range 12,000 to 98,000 normalized to [0.0, 1.0]. Then
73,600  12,000
73,600 is mapped to (1.0  0)  0  0.716
98,000  12,000
 Z-score normalization (μ: mean, σ: standard deviation):
v  A
v' 
 A

73,600  54,000
 1.225
 Ex. Let μ = 54,000, σ = 16,000. Then 16,000
 Normalization by decimal scaling
v
v'  j Where j is the smallest integer such that Max(|ν’|) < 1
10
22
The Traditional Approach
Use of Machine Learning
Automatic Adaptation
Machine Learning helps Humans
Learn
Types of Machine Learning Algorithms
Supervised learning

Examples: K-Nearest Neighbors, Linear Regression, Logistic Regression,

Support Vector Machines (SVMs) , Decision Trees and Random Forests
Classification
Regression
Unsupervised learning
Data is unlabeled

Examples: Clustering -- k-Means, Hierarchical Cluster Analysis (HCA),

Visualization and dimensionality reduction -- Principal Component Analysis
(PCA), Anomaly detection, Association rule learning -- Apriori
Reinforcement Learning

Data Mining - Discretization
100% (1)
Data Mining - Discretization
5 pages
LS1.1 - V4 Desired Properties of Big Data Systems
No ratings yet
LS1.1 - V4 Desired Properties of Big Data Systems
4 pages
Database Management System Kcs 501 1
No ratings yet
Database Management System Kcs 501 1
2 pages
Perspectives and Issues in Deep Learning.
No ratings yet
Perspectives and Issues in Deep Learning.
8 pages
Part B Questions
No ratings yet
Part B Questions
3 pages
Jntu Kakinada - M.tech - Mathematical Foundations of Computer Science Sup FR 28
No ratings yet
Jntu Kakinada - M.tech - Mathematical Foundations of Computer Science Sup FR 28
2 pages
Web Lab Manual
No ratings yet
Web Lab Manual
45 pages
ML Decode
No ratings yet
ML Decode
130 pages
Mining Frequent Itemset-Association Analysis
No ratings yet
Mining Frequent Itemset-Association Analysis
59 pages
Data & Info Security Q&A Guide
No ratings yet
Data & Info Security Q&A Guide
5 pages
AIML Course File
No ratings yet
AIML Course File
31 pages
Pai QB R23
No ratings yet
Pai QB R23
6 pages
Advanced English Communication Skills Lab
No ratings yet
Advanced English Communication Skills Lab
42 pages
Data Warehousing and Data Mining Syllabus
No ratings yet
Data Warehousing and Data Mining Syllabus
1 page
Ai Notes Jntuk r20 Unit 1
No ratings yet
Ai Notes Jntuk r20 Unit 1
17 pages
CS6659 AI UNIT 1 Notes
100% (8)
CS6659 AI UNIT 1 Notes
47 pages
CS8492-Database Management Systems
No ratings yet
CS8492-Database Management Systems
15 pages
VTU Notes on Automata Theory
No ratings yet
VTU Notes on Automata Theory
4 pages
CS8091 Bigdata Analytics Lessonplan With Date
No ratings yet
CS8091 Bigdata Analytics Lessonplan With Date
11 pages
UNIT 2 (Model Selection & Model Evaluation)
No ratings yet
UNIT 2 (Model Selection & Model Evaluation)
6 pages
DS GTU Study Material Presentations Unit-1
No ratings yet
DS GTU Study Material Presentations Unit-1
14 pages
Aecs Lab Manual Final - 2019-20
No ratings yet
Aecs Lab Manual Final - 2019-20
101 pages
CS8691: Artificial Intelligence Course Plan
No ratings yet
CS8691: Artificial Intelligence Course Plan
9 pages
Machine Learning Basics: Lecture Slides For Chapter 5 of Deep Learning Ian Goodfellow
No ratings yet
Machine Learning Basics: Lecture Slides For Chapter 5 of Deep Learning Ian Goodfellow
85 pages
UNIT 1 INTRODUCTION TO BIGDATA by MIT
No ratings yet
UNIT 1 INTRODUCTION TO BIGDATA by MIT
12 pages
R22-M.tech Curriculum and Syllabus
No ratings yet
R22-M.tech Curriculum and Syllabus
85 pages
Cs3452 Theory of Computation
No ratings yet
Cs3452 Theory of Computation
43 pages
Unit 4 AI
No ratings yet
Unit 4 AI
27 pages
Apriori Algorithm
No ratings yet
Apriori Algorithm
3 pages
Sri Indu College CSE Syllabus Overview
No ratings yet
Sri Indu College CSE Syllabus Overview
25 pages
CSE Lab Manual: Database Management System
No ratings yet
CSE Lab Manual: Database Management System
73 pages
Data Exploration and Visualization - AD3301 - Important Questions With Answer - Unit 2 - Visualizing Using Matplotlib
No ratings yet
Data Exploration and Visualization - AD3301 - Important Questions With Answer - Unit 2 - Visualizing Using Matplotlib
8 pages
DBMS Relational Calculus
No ratings yet
DBMS Relational Calculus
9 pages
Experiment-7: Implementation of K-Means Clustering Algorithm
No ratings yet
Experiment-7: Implementation of K-Means Clustering Algorithm
3 pages
DM Unit 3
No ratings yet
DM Unit 3
39 pages
Ai Ee Fit 2024 Jan Makaut Sem
100% (2)
Ai Ee Fit 2024 Jan Makaut Sem
2 pages
Data Structures Tutorial Guide
No ratings yet
Data Structures Tutorial Guide
2 pages
AI Unit 1.
No ratings yet
AI Unit 1.
15 pages
Lec-1 ML Intro
No ratings yet
Lec-1 ML Intro
15 pages
DBMS Previous Year Question Paper
No ratings yet
DBMS Previous Year Question Paper
3 pages
AI 22MCA262 2023-June
100% (1)
AI 22MCA262 2023-June
2 pages
FCCP University Question Paper
No ratings yet
FCCP University Question Paper
11 pages
ML Unit-4
No ratings yet
ML Unit-4
40 pages
Database System Development Lifecycle
No ratings yet
Database System Development Lifecycle
22 pages
CS3401-ALGORITHMS QB Original
No ratings yet
CS3401-ALGORITHMS QB Original
51 pages
DVRP Lab Manual
No ratings yet
DVRP Lab Manual
46 pages
Implementing the FIND-S Algorithm in Python
No ratings yet
Implementing the FIND-S Algorithm in Python
3 pages
Aiml Unit 4
No ratings yet
Aiml Unit 4
26 pages
Soft Computing SYLLABUS
100% (1)
Soft Computing SYLLABUS
2 pages
Storage Technologies Notes
No ratings yet
Storage Technologies Notes
48 pages
Unit 3
No ratings yet
Unit 3
62 pages
Unit - II: Recurrent Neural Network
No ratings yet
Unit - II: Recurrent Neural Network
75 pages
AI & Applications Study Guide BCA
100% (1)
AI & Applications Study Guide BCA
78 pages
Hive Lecture Notes
100% (1)
Hive Lecture Notes
17 pages
HCI Designer Career Exploration Guide
100% (1)
HCI Designer Career Exploration Guide
2 pages
ML Lect1
100% (1)
ML Lect1
51 pages
Overview of Machine Learning Concepts
No ratings yet
Overview of Machine Learning Concepts
18 pages
Introduction To Data Mining
No ratings yet
Introduction To Data Mining
6 pages
Unit I 1
No ratings yet
Unit I 1
203 pages
Data Mining & BI Course Guide
No ratings yet
Data Mining & BI Course Guide
25 pages
Discrete-Time Fourier Transform Explained
No ratings yet
Discrete-Time Fourier Transform Explained
36 pages
Fast Fourier Transform: XK Xne K N
No ratings yet
Fast Fourier Transform: XK Xne K N
44 pages
FIR Filters Explained
No ratings yet
FIR Filters Explained
72 pages
DFT and DFS in Digital Signal Processing
No ratings yet
DFT and DFS in Digital Signal Processing
49 pages
Differential and Integral Calculus - N Piskunov
80% (10)
Differential and Integral Calculus - N Piskunov
896 pages
AQAR Autonomous Data Template April 2020
No ratings yet
AQAR Autonomous Data Template April 2020
105 pages
169x1a0253 ML
No ratings yet
169x1a0253 ML
5 pages
Faculty Event Participation Summary
No ratings yet
Faculty Event Participation Summary
3 pages
Academic Achievements Summary
No ratings yet
Academic Achievements Summary
1 page
179X1A0249 ML B Sec
No ratings yet
179X1A0249 ML B Sec
2 pages
IARE Brochure 2019
No ratings yet
IARE Brochure 2019
64 pages
Abstract
No ratings yet
Abstract
1 page
Academic Calendar Overview 2025
No ratings yet
Academic Calendar Overview 2025
1 page
Vol. 1 - PG.1
No ratings yet
Vol. 1 - PG.1
175 pages
Academic Calendar 2013-14 Schedule
No ratings yet
Academic Calendar 2013-14 Schedule
1 page
AI Data Acquisition Guide
No ratings yet
AI Data Acquisition Guide
9 pages
Benefits Pitfalls FINAL
No ratings yet
Benefits Pitfalls FINAL
6 pages
WDPI Public Schools Administrative Salary Report
0% (1)
WDPI Public Schools Administrative Salary Report
52 pages
JAIN University Project Report Sample - Complete Guidance & Support
No ratings yet
JAIN University Project Report Sample - Complete Guidance & Support
65 pages
Chance Year 5
No ratings yet
Chance Year 5
14 pages
English Reading Barriers in Dhaka
No ratings yet
English Reading Barriers in Dhaka
60 pages
Modified Module 2-DM
No ratings yet
Modified Module 2-DM
107 pages
5680 13838 1 PB
No ratings yet
5680 13838 1 PB
5 pages
Bls Decrypted
100% (2)
Bls Decrypted
264 pages
AI Meal Prediction With Expense Tracker
No ratings yet
AI Meal Prediction With Expense Tracker
56 pages
MongoDB: High-Performance Document Database
No ratings yet
MongoDB: High-Performance Document Database
12 pages
Course Title: Data Mining: Ashutosh Pandey 9873027274 (Whatsapp) Ashutosh - Pandey@wilp - Bits-Pilani - Ac.in
No ratings yet
Course Title: Data Mining: Ashutosh Pandey 9873027274 (Whatsapp) Ashutosh - Pandey@wilp - Bits-Pilani - Ac.in
8 pages
Informatica Question & Answer Set
80% (5)
Informatica Question & Answer Set
124 pages
Dhruv RDBMS PRACTICAL 2
No ratings yet
Dhruv RDBMS PRACTICAL 2
16 pages
DataStage Installation Guide
No ratings yet
DataStage Installation Guide
12 pages
9 - Ict - T2 - Revsion Material - MS - 2022-23
No ratings yet
9 - Ict - T2 - Revsion Material - MS - 2022-23
5 pages
Final Job Description 1TmvRJw
No ratings yet
Final Job Description 1TmvRJw
7 pages
11 Features Every Monitoring & Evaluation Software Should Have - TolaData
No ratings yet
11 Features Every Monitoring & Evaluation Software Should Have - TolaData
2 pages
Impact of A Broken Family To School Aged Children
100% (2)
Impact of A Broken Family To School Aged Children
10 pages
BMM Layer New Features-OBIEE11g
No ratings yet
BMM Layer New Features-OBIEE11g
31 pages
Monitoring and Evaluation I Notes
No ratings yet
Monitoring and Evaluation I Notes
14 pages
Information Sheet 2023-2 Add-Drop
No ratings yet
Information Sheet 2023-2 Add-Drop
18 pages
Twitter Data Extraction with Flume
No ratings yet
Twitter Data Extraction with Flume
2 pages
Smart Food Monitoring System Based On IoT and Machine Learning
No ratings yet
Smart Food Monitoring System Based On IoT and Machine Learning
6 pages
Gaurav Resume Data Science
No ratings yet
Gaurav Resume Data Science
1 page
DBMS Assignment
No ratings yet
DBMS Assignment
8 pages
MySQL Commands Cheat Sheet by PhoenixNAP
No ratings yet
MySQL Commands Cheat Sheet by PhoenixNAP
1 page
Ccs341 DW Notes All 5 Units
100% (1)
Ccs341 DW Notes All 5 Units
159 pages
Reporting Format Guide Version 2.2
No ratings yet
Reporting Format Guide Version 2.2
192 pages

FDP Day1

Uploaded by

FDP Day1

Uploaded by

Fundamentals of

 The significant extraction of implicit, previously unknown and

 Data mining is the process of automatically discovering useful

 Customer relationship management

 Fraud detection: telecommunications, financial transactions

 Medicine: disease outcome, effectiveness of treatments

 Website/store design and promotion

 Descriptive tasks : Here, the objective is to derive

 Ex: Credit card fraud detection, network intrusions,

 Machine Learning is the science of programming computers

 Machine Learning is the field of study that gives computers

 A computer program is said to learn from experience E with

 noisy: containing noise, errors, or outliers

Examples: K-Nearest Neighbors, Linear Regression, Logistic Regression,

Examples: Clustering -- k-Means, Hierarchical Cluster Analysis (HCA),

You might also like