Data Quality

The document discusses data quality, defining it through factors such as accuracy, consistency, and integrity. It also addresses issues like noisy data, outliers, missing values, and duplicate data, explaining their implications and methods for measurement and handling. Key strategies for managing data quality include consistency checks, imputation for missing values, and identifying and removing duplicates.

Uploaded by

Jaya Vishnu Priya

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

828 views14 pages

Data Quality

Uploaded by

Jaya Vishnu Priya

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

You are on page 1/ 14

Data Quality

1 .What is data quality

Data quality measures the condition of your data,
using factors such as accuracy, consistency , integrity,
usability.
2. How do measure data quality?
• Consistency: When one piece of data is stored in
multiple locations, do they have the same values?
• Accuracy: Does the data accurately describes the
properties of the object it is meant to model?
• Relevance: Is the data appropriate to support the
objective?
• Existence: Does the organization have the right data?
• Integrity: How accurate are the relationships between
data elements and data sets?
• Validity: Are the values acceptable?
Noisy data
• Noisy data is meaningless data.
• It includes any data that cannot be understood and
interpreted correctly by machines, such as
unstructured text.
• Noisy data unnecessarily increases the amount of
storage space and can affect the results of any data
mining analysis.
• Noisy data is data that contains errors, outliers, or
missing values that can make it difficult to find patterns
or trends in the data. Noisy data can be caused by
human error, measurement error, or data processing
errors.
Outliers
What is Outliers?
• Outliers are a very important aspect of Data
Analysis.
• An outlier is one that appears to deviate
markedly from other members of the sample
in which it occurs.
• It is extensively used in many application domains
such as
-Fraud detection for credit cards, Insurance, and
Healthcare
-Telecom fraud detection
-Intrusion detection in cyber-security,
-Medical analysis
-Fault detection in safety-critical systems
• Outliers can be classified into three categories:
• 1. Global Outlier (or point outliers): A global outlier
is a data point that has a value that is significantly
higher or lower than the rest of the data in a set.
• For example, Intrusion detection in computer
networks.
• 2.Contextual outliers:- Contextual outliers are data
points that are significantly different from other
data points within a specific context. They are also
known as conditional outliers.
• Attributes of data objects should be divided into
two groups
⦁ Contextual attributes: defines the context, e.g.,
time & location
⦁ Behavioral attributes: characteristics of the object,
used in outlier evaluation, e.g., temperature
• 3. Collective outliers: If a collection of data points is
anomalous with respect to the entire data set, it is
termed as a collective outlier
Missing values
• Missing data are defined as not available
values, and that would be meaningful if
observed.

• Missing data can be anything from missing

sequence, incomplete feature, files missing,
information incomplete, data entry error etc.
Why Do They Happen?
• Data might not be collected or recorded for certain variables.
• People might skip questions in surveys or forms.
Common Ways to Handle Missing Values:
• Remove Missing Data:
– Delete rows with missing values.
• Fill Missing Data (Imputation):
– Replace missing values with the mean, median, or mode (for
numbers).
– For categories, replace with the most common value.
• Use a Placeholder:
– Fill missing values with something like 0, "Unknown", or "NA".
• Leave It:
– Some algorithms can handle missing values directly without filling
them in.
• Example:
Name Age Salary
Alice 25 50000
Bob 60000
Carol 30
Dave 28 45000
Bob’s age is missing.
Carol’s salary is missing.
You can:
Remove Bob and Carol’s rows.
Fill Bob's age with the average age (e.g., 27.5).
Fill Carol’s salary with the average salary (e.g., 55000).
Duplicate Data
Duplicate data is when the same information appears
more than once in a dataset.

Why is it a Problem?
• It can lead to incorrect analysis and wrong
conclusions.
• It slows down processing and analysis.
Causes of Duplicate Data:
• Mistakes during data entry.
• Merging data from different sources without
checking.
• System errors or bugs.
How to Handle It:
• Identify duplicates using tools like Excel, Python, or
SQL.
• Remove duplicates by filtering or deleting repeated
entries.
• Set up rules to prevent duplicate entries during
data input.

Topic 3 Data Quality
No ratings yet
Topic 3 Data Quality
4 pages
Da Unit-2
No ratings yet
Da Unit-2
23 pages
Data Analytics Data Visualization Unit V
No ratings yet
Data Analytics Data Visualization Unit V
12 pages
Data Mining Notes Jntuh Compress
No ratings yet
Data Mining Notes Jntuh Compress
62 pages
Unit 1 DataScience
No ratings yet
Unit 1 DataScience
105 pages
Data Analytics III I
No ratings yet
Data Analytics III I
86 pages
Computer Networks JNTUH Unit1 Notes
No ratings yet
Computer Networks JNTUH Unit1 Notes
6 pages
UNIT-III Lecture Notes
No ratings yet
UNIT-III Lecture Notes
18 pages
IDS-Unit 3
No ratings yet
IDS-Unit 3
142 pages
States, State Graphs, and Transition Testing: Unit Iv
No ratings yet
States, State Graphs, and Transition Testing: Unit Iv
42 pages
Proposal Distribution
No ratings yet
Proposal Distribution
8 pages
Unit-I (Data Analytics)
No ratings yet
Unit-I (Data Analytics)
22 pages
Data Mining Unit-IV
No ratings yet
Data Mining Unit-IV
37 pages
ML Unit-3
No ratings yet
ML Unit-3
23 pages
ML Unit 4
No ratings yet
ML Unit 4
50 pages
Understanding Blue Property Assumptions
No ratings yet
Understanding Blue Property Assumptions
27 pages
Dbms Lab Manual II Cse II Sem
No ratings yet
Dbms Lab Manual II Cse II Sem
58 pages
Data Mining Unit-1 Notes
No ratings yet
Data Mining Unit-1 Notes
18 pages
Chap 11 12 - Practical Methodology and Applications - Heechul Lim
100% (1)
Chap 11 12 - Practical Methodology and Applications - Heechul Lim
60 pages
Da Unit-5
100% (1)
Da Unit-5
19 pages
Introduction to Machine Learning Concepts
50% (2)
Introduction to Machine Learning Concepts
52 pages
ML Unit-1
100% (1)
ML Unit-1
15 pages
Data Analytics - Unit 5 (22IT513PE)
100% (1)
Data Analytics - Unit 5 (22IT513PE)
46 pages
Data Analytics Unit-I
No ratings yet
Data Analytics Unit-I
25 pages
DATA ANAYTICS Notes UNIT4
100% (1)
DATA ANAYTICS Notes UNIT4
45 pages
CS3361 - Data Science Laboratory
No ratings yet
CS3361 - Data Science Laboratory
31 pages
Path, Path Products and Regular Expressions - G9
No ratings yet
Path, Path Products and Regular Expressions - G9
37 pages
ML Unit-5
No ratings yet
ML Unit-5
14 pages
STM Viva Que
100% (2)
STM Viva Que
54 pages
Unit II: Data Analytics Overview
100% (1)
Unit II: Data Analytics Overview
17 pages
FIoT Unit 04
100% (1)
FIoT Unit 04
65 pages
Cse Flat Digital Notes Full 2020 21
No ratings yet
Cse Flat Digital Notes Full 2020 21
195 pages
IDS Unit-1-Handwritten
No ratings yet
IDS Unit-1-Handwritten
39 pages
Divide and Conquer Algorithms Overview
No ratings yet
Divide and Conquer Algorithms Overview
45 pages
Write C Programs To Illustrate The Following IPC Mechanisms: A) Pipes
No ratings yet
Write C Programs To Illustrate The Following IPC Mechanisms: A) Pipes
6 pages
SSL Architecture
No ratings yet
SSL Architecture
3 pages
3.5 Optimal Merge Patterns
No ratings yet
3.5 Optimal Merge Patterns
9 pages
Optimal Binary Search Tree
100% (2)
Optimal Binary Search Tree
8 pages
4.data Mining - Pattern Mining in Multilevel, Multidimensional Space, Rare and Negative Patterns
No ratings yet
4.data Mining - Pattern Mining in Multilevel, Multidimensional Space, Rare and Negative Patterns
14 pages
Ids Unit 5 Final
No ratings yet
Ids Unit 5 Final
25 pages
Unit-4object Segmentation Regression Vs Segmentation Supervised and Unsupervised Learning Tree Building Regression Classification Overfitting Pruning and Complexity Multiple Decision Trees
No ratings yet
Unit-4object Segmentation Regression Vs Segmentation Supervised and Unsupervised Learning Tree Building Regression Classification Overfitting Pruning and Complexity Multiple Decision Trees
25 pages
STM Question Paper R18
No ratings yet
STM Question Paper R18
2 pages
Good and Bad State Graphs in Testing
No ratings yet
Good and Bad State Graphs in Testing
31 pages
DM Unit 5
No ratings yet
DM Unit 5
47 pages
Unit V Graphical Models
No ratings yet
Unit V Graphical Models
23 pages
R23-DWDM Syllabus
No ratings yet
R23-DWDM Syllabus
5 pages
Guarded Commands
No ratings yet
Guarded Commands
9 pages
DAA Notes
No ratings yet
DAA Notes
126 pages
Unit-1 ML
No ratings yet
Unit-1 ML
19 pages
BLUE Property in Data Analytics
No ratings yet
BLUE Property in Data Analytics
2 pages
Unit-III (Data Analytics)
50% (2)
Unit-III (Data Analytics)
15 pages
Information Security Notes Jntuh
No ratings yet
Information Security Notes Jntuh
96 pages
Web and Social Media Analytics Unit 2
No ratings yet
Web and Social Media Analytics Unit 2
23 pages
STM Unit 3 Notes
No ratings yet
STM Unit 3 Notes
36 pages
Unit 2 Machine Learning Notes
100% (1)
Unit 2 Machine Learning Notes
25 pages
KRR Unit 1
No ratings yet
KRR Unit 1
26 pages
Vtu 7TH Sem Cse/ise Data Warehousing & Data Mining Notes 10cs755/10is74
94% (18)
Vtu 7TH Sem Cse/ise Data Warehousing & Data Mining Notes 10cs755/10is74
70 pages
Network Layer: Design & Routing
No ratings yet
Network Layer: Design & Routing
32 pages
UNIT-2 ML Notes
No ratings yet
UNIT-2 ML Notes
15 pages
Data Cleaning Essentials
No ratings yet
Data Cleaning Essentials
42 pages
Diogan ?: Pocbng
No ratings yet
Diogan ?: Pocbng
12 pages
Presentation Number - 1: Dielectric Constant Based Sensors
No ratings yet
Presentation Number - 1: Dielectric Constant Based Sensors
11 pages
Dielectric Constant Based Sensors
No ratings yet
Dielectric Constant Based Sensors
11 pages
Sindhu Nic
No ratings yet
Sindhu Nic
6 pages
Anomaly Detection Using Unsupervised Learning
No ratings yet
Anomaly Detection Using Unsupervised Learning
11 pages
Nic PPT 4-1
No ratings yet
Nic PPT 4-1
11 pages
Scope of Neurocomputing
No ratings yet
Scope of Neurocomputing
11 pages
Service Level Agreements in Cloud Computing
No ratings yet
Service Level Agreements in Cloud Computing
10 pages
NLP EXP 3 (A) - Word Analysis
No ratings yet
NLP EXP 3 (A) - Word Analysis
2 pages
Word Generation in NLP with Bigram Model
No ratings yet
Word Generation in NLP with Bigram Model
2 pages
NLP Exp 6
No ratings yet
NLP Exp 6
1 page
NLP Exp 8
No ratings yet
NLP Exp 8
2 pages
Installing NLTK: A Quick Guide
No ratings yet
Installing NLTK: A Quick Guide
5 pages
Multiprotocol Label Switching - Routing and Applications
No ratings yet
Multiprotocol Label Switching - Routing and Applications
12 pages
NLP Exp 4
No ratings yet
NLP Exp 4
2 pages
Graph Coloring in Design and Analysis of Algorithms
No ratings yet
Graph Coloring in Design and Analysis of Algorithms
12 pages
Weather App UI Design Report in Flutter
No ratings yet
Weather App UI Design Report in Flutter
21 pages
Understanding Cost Estimate Accuracy
No ratings yet
Understanding Cost Estimate Accuracy
5 pages
Validation of Alternative Microbial Methods
No ratings yet
Validation of Alternative Microbial Methods
5 pages
STP 480-1970
No ratings yet
STP 480-1970
281 pages
Writing, Speaking (Ielts Band Descriptor)
No ratings yet
Writing, Speaking (Ielts Band Descriptor)
3 pages
A Student S Guide To Data and Error Analysis 1st Edition Herman J. C. Berendsen Full Access
No ratings yet
A Student S Guide To Data and Error Analysis 1st Edition Herman J. C. Berendsen Full Access
62 pages
Ferozi Physics 9th CH 01 Notes
No ratings yet
Ferozi Physics 9th CH 01 Notes
6 pages
ISO 500002 Spanish
No ratings yet
ISO 500002 Spanish
35 pages
Management Science-Midterm
No ratings yet
Management Science-Midterm
21 pages
Uncertainties and Error
No ratings yet
Uncertainties and Error
19 pages
Science & Moral Education Lesson Plans
No ratings yet
Science & Moral Education Lesson Plans
16 pages
(TP0A004) Accuracy of Metering Versus Tank Gauging of Vessel Delivered Petroleum Liquids
No ratings yet
(TP0A004) Accuracy of Metering Versus Tank Gauging of Vessel Delivered Petroleum Liquids
4 pages
Data Annotation Specialist CV
No ratings yet
Data Annotation Specialist CV
2 pages
Business Research Methods: Chetna Chauhan
No ratings yet
Business Research Methods: Chetna Chauhan
70 pages
Astm B499-2009
100% (1)
Astm B499-2009
5 pages
BA - Group02 - SecB-final Final
No ratings yet
BA - Group02 - SecB-final Final
14 pages
FUTA DENNIS Daguwor K Theis Final Final
No ratings yet
FUTA DENNIS Daguwor K Theis Final Final
145 pages
AutoCAD Notes
100% (1)
AutoCAD Notes
87 pages
Errors in Measurement
100% (1)
Errors in Measurement
2 pages
Bridge Hydraulics: Afflux Prediction
No ratings yet
Bridge Hydraulics: Afflux Prediction
10 pages
NADCA Standards
No ratings yet
NADCA Standards
8 pages
Density Measurement of Beverages Experiment
No ratings yet
Density Measurement of Beverages Experiment
4 pages
Quality Assurance Procedures Manual - Super Rock 2011
No ratings yet
Quality Assurance Procedures Manual - Super Rock 2011
25 pages
Costa Et Al 2013. Quantitative Evaluation of Besifloxacin
No ratings yet
Costa Et Al 2013. Quantitative Evaluation of Besifloxacin
9 pages
508A Supplement SA 3-30-22
No ratings yet
508A Supplement SA 3-30-22
58 pages
Accounting Measurement Insights
No ratings yet
Accounting Measurement Insights
8 pages
Dinesh Paper On Diabetes Mellitus (9%)
No ratings yet
Dinesh Paper On Diabetes Mellitus (9%)
8 pages
UV-Vis Analysis of Cold Medicine Ingredients
No ratings yet
UV-Vis Analysis of Cold Medicine Ingredients
9 pages
Energy Theft Detection Method
No ratings yet
Energy Theft Detection Method
6 pages
Module 4 - MEL Training Slides
No ratings yet
Module 4 - MEL Training Slides
29 pages
Hopper v2 2nd PDF
No ratings yet
Hopper v2 2nd PDF
41 pages

Data Quality

Uploaded by

Data Quality

Uploaded by

Data Quality

1 .What is data quality

• Missing data can be anything from missing

You might also like