0% found this document useful (0 votes)

316 views2 pages

DataCamp - Data Engineer

A data engineer gathers data from different sources, optimizes databases for analysis, and removes corrupt data to make a data scientist's job easier. A data engineer develops scalable data architectures using tools like databases, data processing frameworks, and scheduling tools to extract, transform, and load data through a pipeline. Major cloud providers that can be used for data storage, computation, and databases are AWS, Azure, and Google Cloud.

Uploaded by

evolutionjourney.id

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

316 views2 pages

DataCamp - Data Engineer

Uploaded by

evolutionjourney.id

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

Data Engineer

Intro - What is Data Engineering?

It comes the data engineer
 Data scattered
 Not optimized for analyses
 Legacy coding is causing corrupt data
Data Engineer to the rescue!

Data engineers: making your life easier

 Gather data from different sources
 Optimized database for analyses
 Removed corrupt data
Data scientist’s life got way easier!

Definition of job
An engineer that develops, constructs, tests, and maintains architectures such as databases and large-scale
processing systems.
 Processing large amounts of data
 Use clusters of machines

Data engineer vs Data scientist

Data Engineer Data Scientist
Develop scalable data architecture Mining data for patterns
Streamline data acquisition Statistical modelling
Set up processes to bring together data Predictive models using machine learning
Clean up corrupt data Monitor business processes
Well versed in cloud technology Clean outliers in data

Intro - Tools of the data engineer

Databases
 Hold large amounts of data
 Support application
 Other databases are used for analyses

Processing
 Clean data
 Aggregate data
 Join data
-Data engineer understand the abstractions

Scheduling
 Plan jobs with specific intervals
 Resolve dependency requirements of jobs

Existing tools: example

 Databases: MySQL, PostgreSQL, etc
 Processing: Spark, Hive, etc
 Scheduling: Apache AirFlow, Oozie, etc. Or using simple Bash tools: Cron

Intro - A data pipeline

To sum everything up, you can think of the data engineering pipeline through this diagram. It extracts all data
through connections with several databases, transforms it using a cluster computing framework like Spark, and loads
it into an analytical database. Also, everything is scheduled to run in a specific order through a scheduling framework
like Airflow. A small side note here is that the sources can be external APIs or other file formats too. We'll see this in
the exercises.
----------------------------------------> Scheduling (Apache AirFlow) ---------------------------------------->
SQL(Accounting) -----------------> Processing (Apache Spark) -----------------> SQL(Analitycs)
SQL(Online Stone)
No SQL(Catalog)

Intro - Cloud Providers

Data processing in the cloud
Clusters of machines required
Problem: self-host data-center
 Cover electrical and maintenance costs
 Peaks vs Quiet moments: hard to optimize
Solution: use the cloud

Data storage in the cloud

Reliability is required
Problem: self-host data-center
 Disaster will strike
 Need different geographical locations
Solution: use the cloud

The big three: AWS, Azure & Google

AWS: 32% market share in 2018
Azure: 17% market share in 2018
Google: 10% market share in 2018

Storage
Upload files, e.g. storing product images
Services
 AWS S3
 Azure Blob Storage
 Google Cloud Storage

Computation
Perform calculations, e.g. hosting a web server
Services
 AWS EC2
 Azure Virtual Machines
 Google Compute Engine

Databases
Hold structured information
Services
 AWS RDS
 Azure SQL Database
 Google Cloud SQL

100 Data Engineering QUESTIONS ANSWERS
No ratings yet
100 Data Engineering QUESTIONS ANSWERS
59 pages
Introduction To Data Engineering
No ratings yet
Introduction To Data Engineering
13 pages
Introduction To Data Engineering
100% (2)
Introduction To Data Engineering
23 pages
Data Engineering For Machine Learning Pipelines From Python Libraries To ML P
100% (2)
Data Engineering For Machine Learning Pipelines From Python Libraries To ML P
582 pages
Complete Data Engineering Roadmap With Resources
No ratings yet
Complete Data Engineering Roadmap With Resources
16 pages
Data Engineering Vs Data Science
No ratings yet
Data Engineering Vs Data Science
2 pages
Data Engineer Roadmap 2025
No ratings yet
Data Engineer Roadmap 2025
4 pages
Big Book of Data Engineering 3rd Edition 1 27 2025
100% (1)
Big Book of Data Engineering 3rd Edition 1 27 2025
126 pages
An Introduction To Data Engineering
No ratings yet
An Introduction To Data Engineering
2 pages
Data Engineering Basics Guide
100% (1)
Data Engineering Basics Guide
81 pages
Lecture 1.1 - Introduction To DE
No ratings yet
Lecture 1.1 - Introduction To DE
27 pages
5 Top Job Roles Explained
No ratings yet
5 Top Job Roles Explained
8 pages
Data Engineering
No ratings yet
Data Engineering
6 pages
Introduction to Data Engineering
No ratings yet
Introduction to Data Engineering
30 pages
A - Learning - Oreilly.com-Preface Data Engineering With AWS
No ratings yet
A - Learning - Oreilly.com-Preface Data Engineering With AWS
6 pages
Data Engineering: Key Roles & Trends
No ratings yet
Data Engineering: Key Roles & Trends
3 pages
Data Engineering UNIT 1
100% (1)
Data Engineering UNIT 1
16 pages
Data Engineering Unit-1
No ratings yet
Data Engineering Unit-1
16 pages
Data Engineering Career Guide
100% (2)
Data Engineering Career Guide
14 pages
Data Engineering 101
No ratings yet
Data Engineering 101
1 page
Data Engineering Training Technology Agnostic Foundations
No ratings yet
Data Engineering Training Technology Agnostic Foundations
50 pages
Data Engineering UNIT-1
100% (1)
Data Engineering UNIT-1
14 pages
What Is Data Engineering?: Think
No ratings yet
What Is Data Engineering?: Think
13 pages
2024 07 Eb Big Book of Data Engineering 3rd Edition
100% (2)
2024 07 Eb Big Book of Data Engineering 3rd Edition
125 pages
Introduction To Data Engineering
100% (1)
Introduction To Data Engineering
6 pages
What It Takes To Be A Data Engineer
No ratings yet
What It Takes To Be A Data Engineer
2 pages
Data Engineer Path Career
No ratings yet
Data Engineer Path Career
1 page
Data Engineering Top 100 Questions
No ratings yet
Data Engineering Top 100 Questions
59 pages
Data Engineering UNIT-1
No ratings yet
Data Engineering UNIT-1
5 pages
Lecture 3 Data Engineering Concepts, Processes, and Tools
No ratings yet
Lecture 3 Data Engineering Concepts, Processes, and Tools
2 pages
5 Ferilion Labs Handbook Data Engg
No ratings yet
5 Ferilion Labs Handbook Data Engg
12 pages
Essentials of Data engineeringByMukeshSaini
No ratings yet
Essentials of Data engineeringByMukeshSaini
30 pages
Data Engineering
No ratings yet
Data Engineering
14 pages
Data Engineering Overview and Tools
No ratings yet
Data Engineering Overview and Tools
34 pages
Data Engineering Roadmap Guide
No ratings yet
Data Engineering Roadmap Guide
3 pages
Daniel Beach - Introduction To Data Engineering-Leanpub - Com (2022)
100% (1)
Daniel Beach - Introduction To Data Engineering-Leanpub - Com (2022)
172 pages
Data Engineeing 1 Pages 2
No ratings yet
Data Engineeing 1 Pages 2
14 pages
Data Engineering
No ratings yet
Data Engineering
144 pages
OD M2 Building A Data Lake
No ratings yet
OD M2 Building A Data Lake
59 pages
Data Engineering Report Final
No ratings yet
Data Engineering Report Final
56 pages
Data Engineering Nanodegree Program Syllabus
33% (3)
Data Engineering Nanodegree Program Syllabus
15 pages
Data Engineering For Everyone 1
No ratings yet
Data Engineering For Everyone 1
79 pages
Data Engineering Life Cycle
No ratings yet
Data Engineering Life Cycle
5 pages
Big Book of Data Engineering 2nd Edition Final
100% (1)
Big Book of Data Engineering 2nd Edition Final
97 pages
Unit 1 Introduction To Data Engineering
No ratings yet
Unit 1 Introduction To Data Engineering
32 pages
Evolution of Data Engineering in Modern Software D
No ratings yet
Evolution of Data Engineering in Modern Software D
15 pages
Data Engg
No ratings yet
Data Engg
19 pages
Data Engineering Course Outline
No ratings yet
Data Engineering Course Outline
3 pages
Airflow Techtonic Template
No ratings yet
Airflow Techtonic Template
18 pages
The Evolving Role of The Data Engineer
No ratings yet
The Evolving Role of The Data Engineer
61 pages
100 Dataengineering Interview Questions TRRaveendra 1694654407
No ratings yet
100 Dataengineering Interview Questions TRRaveendra 1694654407
58 pages
Data Engineering Notes Expanded
No ratings yet
Data Engineering Notes Expanded
2 pages
Data Engineering Glossary for Beginners
No ratings yet
Data Engineering Glossary for Beginners
2 pages
Data Processing Systems Design Guide
No ratings yet
Data Processing Systems Design Guide
67 pages
Building Data Lakes on Google Cloud
No ratings yet
Building Data Lakes on Google Cloud
60 pages
Deeplearning - Ai Deeplearning - Ai
No ratings yet
Deeplearning - Ai Deeplearning - Ai
91 pages
Chapter 1 What Is Data Engineering PDF
No ratings yet
Chapter 1 What Is Data Engineering PDF
79 pages
BNWAS
No ratings yet
BNWAS
4 pages
REVENUE MEMORANDUM CIRCULAR NO. 14-2015 Issued On April 6, 2015 Prescribes
No ratings yet
REVENUE MEMORANDUM CIRCULAR NO. 14-2015 Issued On April 6, 2015 Prescribes
1 page
Topic To Be Discussed: Early Uprising Against British Rule
No ratings yet
Topic To Be Discussed: Early Uprising Against British Rule
2 pages
Classic Bike Guide - January 2015 UK
100% (2)
Classic Bike Guide - January 2015 UK
124 pages
Teso Okwenyu Constitution
No ratings yet
Teso Okwenyu Constitution
22 pages
Lagrange Multiplier Test for Panel Data
No ratings yet
Lagrange Multiplier Test for Panel Data
41 pages
Rigel Cot14
No ratings yet
Rigel Cot14
2 pages
Miele H 6700 BM Parts Pricing List
No ratings yet
Miele H 6700 BM Parts Pricing List
6 pages
Wilo Pump Selection Guide 2021
No ratings yet
Wilo Pump Selection Guide 2021
88 pages
FDA ESubmitter Frequently Asked Questions 0
No ratings yet
FDA ESubmitter Frequently Asked Questions 0
10 pages
TRF Rose 2025
No ratings yet
TRF Rose 2025
3 pages
AtlasFramed Dimensions-RevA
No ratings yet
AtlasFramed Dimensions-RevA
9 pages
Employee Turnover in Singapore
80% (5)
Employee Turnover in Singapore
42 pages
FP Coding and Robotics CAPS Final 2025
No ratings yet
FP Coding and Robotics CAPS Final 2025
132 pages
EU Guidelines for Abnormal Road Transport
100% (1)
EU Guidelines for Abnormal Road Transport
61 pages
Real Estate Sales Strategies
No ratings yet
Real Estate Sales Strategies
10 pages
Lesson Plan 4th Sem Owk
No ratings yet
Lesson Plan 4th Sem Owk
88 pages
Craniotomy Surgery For Treatment of Brain Tumour in India
No ratings yet
Craniotomy Surgery For Treatment of Brain Tumour in India
4 pages
Investment Basics for Beginners
No ratings yet
Investment Basics for Beginners
9 pages
Present Worth Analysis of Investment Alternatives
No ratings yet
Present Worth Analysis of Investment Alternatives
4 pages
Inherently Safer Process Checklist
No ratings yet
Inherently Safer Process Checklist
6 pages
Art Education in Schools Level A Review of Studies
No ratings yet
Art Education in Schools Level A Review of Studies
7 pages
Mag b550m Mortar
No ratings yet
Mag b550m Mortar
1 page
ICICI Bank Financial Analysis Guide
No ratings yet
ICICI Bank Financial Analysis Guide
8 pages
103 IC MCQ Question Bank Unit 5
No ratings yet
103 IC MCQ Question Bank Unit 5
12 pages
Student Portal
No ratings yet
Student Portal
1 page
Review Questions - Bit III
No ratings yet
Review Questions - Bit III
5 pages
Unreadable Document Analysis
No ratings yet
Unreadable Document Analysis
3 pages
ENTREP-9 - 2nd Q
No ratings yet
ENTREP-9 - 2nd Q
25 pages
2100 4016
No ratings yet
2100 4016
16 pages

DataCamp - Data Engineer

Uploaded by

DataCamp - Data Engineer

Uploaded by

Data Engineer

Intro - What is Data Engineering?

Data engineers: making your life easier

Data engineer vs Data scientist

Intro - Tools of the data engineer

Existing tools: example

Intro - A data pipeline

Intro - Cloud Providers

Data storage in the cloud

The big three: AWS, Azure & Google

You might also like