0% found this document useful (0 votes)

28 views3 pages

Big Data Assignment

The document outlines a series of assignments focused on big data analytics, including a pipeline for predicting student academic performance, sentiment analysis of social media using Apache Pig, a comparative analysis of Pig vs Hive for retail sales, and smart city sensor data analysis. It details the objectives, data ingestion methods, processing techniques, and tool justifications for each assignment. The emphasis is on utilizing various big data technologies like Apache NiFi, Hive, and Kafka for efficient data handling and analysis.

Uploaded by

vibishan.anandhan.m

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

28 views3 pages

Big Data Assignment

Uploaded by

vibishan.anandhan.m

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

You are on page 1/ 3

Big Data Assignment Solutions

Question 1 — Big Data Pipeline for Student Academic Performance Prediction

(50 marks)

Problem statement & objectives:

Goal: predict or identify students at risk of failing by analyzing heterogeneous student data
(attendance, internal marks, lab performance, assignment scores, demographics, prior
history) stored as CSV / JSON / XML across multiple sources.
Deliverable: a pipeline to ingest, clean, integrate, run large-scale analytics and produce a
ranked list of at-risk students plus features for further ML modeling.

Data ingestion & schema / ETL design:

Sources: CSV, JSON, XML
Ingestion: Apache NiFi / Flume to HDFS
Cleaning & Normalization: unify schema, fill missing keys, normalize IDs and timestamps,
store curated datasets in Parquet/ORC formats.

Using MapReduce or Hive to identify students at risk:

HiveQL to compute aggregates and risk scores.
MapReduce for custom parsing if necessary.
Hive preferred for simplicity and integration with BI tools.

Data structures & partitioning:

Columnar formats (Parquet/ORC) for analytics, partition by time or department, bucketing
by student_id for joins.

Tool justification:
Hive for SQL-style analytics, MapReduce for custom logic.
HBase for low-latency profile lookups, NiFi/Flume/Kafka for ingestion.

Question 2 — Social Media Sentiment Analysis using Apache Pig (50 marks)

Problem & data understanding:

Goal: classify tweets/comments as positive, negative, or neutral for brand sentiment
tracking.
Data: unstructured text, noisy, multilingual.

Processing with Apache Pig:

Steps: ingestion, cleaning, tokenization, stopword removal, lexicon join, sentiment scoring,
aggregation.
Pig handles tokenization with TOKENIZE, filtering with FILTER, and aggregation with
GROUP.

Sample Pig Latin script:

REGISTER 'sentiment_udfs.py' USING jython AS s_udf;
... (script omitted for brevity; includes cleaning, tokenization, lexicon join, scoring,
classification).

Pig vs RDBMS:
Pig better for large, semi-structured, batch workloads.
RDBMS better for small, structured, low-latency queries.

Question 3 — Comparative Analysis – Pig vs Hive for Retail Sales Analytics (50
marks)

Dataset: sales.csv, products.csv, customers.csv.

Tasks: top-selling products, monthly revenue trends.

Pig approach: procedural ETL with JOIN, GROUP, SUM, ORDER, LIMIT.
Hive approach: SQL queries with GROUP BY, ORDER BY, LIMIT.

Comparison:
Pig excels in ETL and complex record transformations.
Hive excels in declarative analytics and BI integration.
Recommendation: Hive for retail analytics due to SQL expressiveness and optimizer
performance.
Question 4 — Smart City Sensor Data Analysis (50 marks)

Architecture:
Sensors -> Kafka/NiFi -> HDFS/Time-series DB -> Spark Streaming/Flink ->
Hive/Elasticsearch/Grafana.

Data ingestion:
Kafka for real-time, NiFi/Flume for batch.
Partition Kafka by sensor_id or region.

Data cleaning:
Missing value imputation, outlier removal, time alignment, calibration.

Real-time vs Batch:
Real-time for alerts (traffic congestion, pollution spikes).
Batch for long-term trends, model training.

Algorithm selection:
Linear-time algorithms for streaming, scalable partitioning, approximation for latency
trade-offs.

Big Data Computing - Week-5
No ratings yet
Big Data Computing - Week-5
3 pages
Big Data With Hadoop & Spark - VII
No ratings yet
Big Data With Hadoop & Spark - VII
3 pages
Int 421
No ratings yet
Int 421
2 pages
Big Data Acquisition and Analysis Course
No ratings yet
Big Data Acquisition and Analysis Course
4 pages
Big Data Analytics - Notes
No ratings yet
Big Data Analytics - Notes
13 pages
CSET 371 Course File
No ratings yet
CSET 371 Course File
81 pages
Week - 5
No ratings yet
Week - 5
7 pages
Comparing Pig, Hive, and Spark in Hadoop
No ratings yet
Comparing Pig, Hive, and Spark in Hadoop
10 pages
Dsbdal Te It Manual
No ratings yet
Dsbdal Te It Manual
86 pages
Bda 23
No ratings yet
Bda 23
12 pages
Bda Notes Jntuk R20 Unit 4
100% (1)
Bda Notes Jntuk R20 Unit 4
14 pages
Big Data and Hadoop Assignment Guide
No ratings yet
Big Data and Hadoop Assignment Guide
5 pages
BTL Bigdata
No ratings yet
BTL Bigdata
5 pages
ESE BDA CE SOT PDPU May 2024
No ratings yet
ESE BDA CE SOT PDPU May 2024
3 pages
Bda Assignment II
No ratings yet
Bda Assignment II
2 pages
End Sem Paper
No ratings yet
End Sem Paper
4 pages
Unit 5
No ratings yet
Unit 5
14 pages
Assignment II
No ratings yet
Assignment II
1 page
Bda Pre QP
No ratings yet
Bda Pre QP
4 pages
3 Hours / 70 Marks: Instructions
100% (1)
3 Hours / 70 Marks: Instructions
2 pages
Big Data Question Bank
No ratings yet
Big Data Question Bank
5 pages
BDA Lesson Plan Final
No ratings yet
BDA Lesson Plan Final
20 pages
Bda Summer 2024 Solution
No ratings yet
Bda Summer 2024 Solution
26 pages
Units 5
No ratings yet
Units 5
3 pages
Big Data Course Overview and Tools
No ratings yet
Big Data Course Overview and Tools
4 pages
6th Sem - Big Data - IsE
No ratings yet
6th Sem - Big Data - IsE
5 pages
Course Outline of CSE 761 Big Data Analytics
No ratings yet
Course Outline of CSE 761 Big Data Analytics
3 pages
Bigdata
No ratings yet
Bigdata
3 pages
Introduction of Subject
No ratings yet
Introduction of Subject
28 pages
Course Pack BDA
No ratings yet
Course Pack BDA
6 pages
Big Data Solutions for Diverse Industries
No ratings yet
Big Data Solutions for Diverse Industries
2 pages
CT 2
No ratings yet
CT 2
8 pages
Big Data Answers All Sets
No ratings yet
Big Data Answers All Sets
6 pages
BDDA - Course Outline
No ratings yet
BDDA - Course Outline
3 pages
Big Data Analytics Coursework Guide
No ratings yet
Big Data Analytics Coursework Guide
7 pages
U20 - Bda QB-1
No ratings yet
U20 - Bda QB-1
6 pages
Bigdata and Hadoop
No ratings yet
Bigdata and Hadoop
39 pages
DSA Practical Index
No ratings yet
DSA Practical Index
3 pages
Bda 3
No ratings yet
Bda 3
1 page
Big Data Presentation
No ratings yet
Big Data Presentation
13 pages
AT3 202110 FinalVersion
No ratings yet
AT3 202110 FinalVersion
8 pages
Big Data Analytics 2023 Solution
No ratings yet
Big Data Analytics 2023 Solution
17 pages
BIG DATA Class 1 1741496163
No ratings yet
BIG DATA Class 1 1741496163
108 pages
EoDA Open QA Batch 1
No ratings yet
EoDA Open QA Batch 1
1 page
KCS061 Big Data
No ratings yet
KCS061 Big Data
2 pages
Asit Kumar Das - M5 SPARK
No ratings yet
Asit Kumar Das - M5 SPARK
24 pages
Big Data Qpapers
No ratings yet
Big Data Qpapers
4 pages
Big Data Analytics with Spark: Python vs Scala
No ratings yet
Big Data Analytics with Spark: Python vs Scala
8 pages
Ese Bda
No ratings yet
Ese Bda
28 pages
Big Data
No ratings yet
Big Data
6 pages
Big Data Analytics Question Bank
No ratings yet
Big Data Analytics Question Bank
3 pages
Hadoop vs Spark in Big Data Analytics
No ratings yet
Hadoop vs Spark in Big Data Analytics
8 pages
Pig and Hive Case Studies
No ratings yet
Pig and Hive Case Studies
7 pages
BATCH12
No ratings yet
BATCH12
32 pages
Hive Pig Sample Question
No ratings yet
Hive Pig Sample Question
4 pages
Applications Using Pig
No ratings yet
Applications Using Pig
2 pages
Data Analytics Chapter 5
No ratings yet
Data Analytics Chapter 5
14 pages
SQL Quick Study Guide
No ratings yet
SQL Quick Study Guide
2 pages
Mca Course File in Python
No ratings yet
Mca Course File in Python
55 pages
Web Proposal for Veg Restaurant
No ratings yet
Web Proposal for Veg Restaurant
2 pages
Google Dorks and Pagodo Usage Guide
No ratings yet
Google Dorks and Pagodo Usage Guide
2 pages
(QUESTIONS) Sup Exam Object-Oriented Programming With Java (Wed, 7 July 2024)
No ratings yet
(QUESTIONS) Sup Exam Object-Oriented Programming With Java (Wed, 7 July 2024)
4 pages
2.2 P&id
No ratings yet
2.2 P&id
1 page
Game Engine Runtime Architecture
No ratings yet
Game Engine Runtime Architecture
38 pages
Simatic S5100u
No ratings yet
Simatic S5100u
552 pages
Data Structures and C Programming Concepts
No ratings yet
Data Structures and C Programming Concepts
24 pages
Nvidia's AI Shift and Market Impact
No ratings yet
Nvidia's AI Shift and Market Impact
9 pages
Honeywell DCS EPKS Training Module - Part3
No ratings yet
Honeywell DCS EPKS Training Module - Part3
500 pages
Explained: The NSE Co-Location Case Investigation, and What SEBI's New Order Means
No ratings yet
Explained: The NSE Co-Location Case Investigation, and What SEBI's New Order Means
2 pages
Basic Concepts of Web Designing
No ratings yet
Basic Concepts of Web Designing
21 pages
Automatic Tank Gauging System PDF
No ratings yet
Automatic Tank Gauging System PDF
2 pages
Udf102 PDF
No ratings yet
Udf102 PDF
122 pages
CALYPSO Preset Brochure EN PDF
No ratings yet
CALYPSO Preset Brochure EN PDF
5 pages
Boomerang BB: Reward Your Curiosity
No ratings yet
Boomerang BB: Reward Your Curiosity
1 page
CR Troubleshooting Activex Viewer
No ratings yet
CR Troubleshooting Activex Viewer
31 pages
AIB - American Institute of Baking - Wikipedia
No ratings yet
AIB - American Institute of Baking - Wikipedia
1 page
MRSE Brochure EWSimulation
No ratings yet
MRSE Brochure EWSimulation
19 pages
Phase 1 Akash
No ratings yet
Phase 1 Akash
10 pages
(R4A) EX C60 - C70 Parts List - For Serial Prefix
No ratings yet
(R4A) EX C60 - C70 Parts List - For Serial Prefix
7 pages
Multimedia Final Exam
No ratings yet
Multimedia Final Exam
3 pages
Oracle Joins Explained with Examples
No ratings yet
Oracle Joins Explained with Examples
16 pages
Dlcoa - May - 2023 (Rev-2019-C Scheme)
No ratings yet
Dlcoa - May - 2023 (Rev-2019-C Scheme)
1 page
Installation Guide
No ratings yet
Installation Guide
89 pages
DSC (Dataloggin and Supervisory Control Module)
100% (1)
DSC (Dataloggin and Supervisory Control Module)
16 pages
Assignment #1 Paper #5 - Resilience Distributed Systems - A White Paper
No ratings yet
Assignment #1 Paper #5 - Resilience Distributed Systems - A White Paper
12 pages
Engineering Final Year
No ratings yet
Engineering Final Year
22 pages
Gesmundo, John Erroll o
No ratings yet
Gesmundo, John Erroll o
5 pages

Big Data Assignment

Uploaded by

Big Data Assignment

Uploaded by

Big Data Assignment Solutions

Question 1 — Big Data Pipeline for Student Academic Performance Prediction

Problem statement & objectives:

Data ingestion & schema / ETL design:

Using MapReduce or Hive to identify students at risk:

Data structures & partitioning:

Problem & data understanding:

Processing with Apache Pig:

Sample Pig Latin script:

Dataset: sales.csv, products.csv, customers.csv.

You might also like