Analysing Data Using Unix Tools

Uploaded by

sangameshmp10

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

257 views10 pages

Analysing Data Using Unix Tools

Uploaded by

sangameshmp10

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

You are on page 1/ 10

Analysing data using unix tools

• Analyzing data using Unix command-line tools

is a powerful and efficient approach,
especially for handling large text-based
datasets.
• These tools allow you to process, filter,
transform, and summarize data directly from
the terminal, often eliminating the need for
more complex software.
Core Unix Tools for Data Analysis

• These foundational tools are typically pre-installed

on Unix-like systems and can be combined to
perform complex data manipulations:
• cat: Concatenates and displays file contents.
• head / tail: Displays the beginning or end of files,
useful for previewing data.
• grep: Searches for patterns using regular
expressions.
• cut: Extracts specific columns from structured data.
sort: Sorts lines in files.
uniq: Removes duplicate lines, often used after
sort.
wc: Counts lines, words, and characters.
find: Searches for files in a directory hierarchy.
awk: A versatile language for pattern scanning
and processing.
sed: Stream editor for filtering and
transforming text.
• By chaining these tools with pipes (|), you can create powerful
one-liners for data processing.
For example, to count unique entries in a specific column:
cut -d',' -f2 data.csv | sort | uniq -c | sort –nr

This command extracts the second column from a CSV file, counts
unique occurrences, and sorts them in descending order.

• cut -d',' -f2 data.csv:

– cut extracts specific fields from each line of a file.
– -d',' sets the delimiter to a comma, suitable for CSV files.
– -f2 selects the second field (column).
This command outputs the second column from data.csv.
• sort:
– Sorts the extracted column alphabetically.
– Necessary for uniq to correctly identify duplicate lines, as it
only removes adjacent duplicates.
• uniq -c:
– uniq filters out repeated lines that are adjacent.
– -c prefixes each line with the number of times it occurred.
This step counts the occurrences of each unique entry in the
second column.
• sort -nr:
– sort again, this time with options:
• -n sorts numerically.
• -r reverses the sort order (descending).
Advanced Command-Line Tools

• Beyond the basic utilities, several specialized tools enhance

data analysis capabilities:
• jq: Processes JSON data, allowing for filtering, transformation,
and formatting.
• q: Executes SQL-like queries on CSV/TSV files directly from the
command line.
• dsq: Runs SQL queries on various data formats, including JSON
and Excel.
• csvkit: A suite of tools for converting and processing CSV files.
• gnuplot: Generates 2D and 3D plots from data, useful for
visualization.
These tools can be combined with standard Unix utilities to
create complex data processing pipelines.
data.csv
• id,name,score
• 1,Alice,85
• 2,Bob,90
• 3,Alice,78
• 4,Charlie,92
• 5,Bob,88
cut -d',' -f2 data.csv | sort | uniq -c | sort -nr

Output:
2 Alice
2 Bob
1 Charlie
1 name
• Note: The line 1 name appears because the
header row is included. To exclude headers, you
can use:
tail -n +2 data.csv | cut -d',' -f2 | sort | uniq -c | sort -nr
• tail: Outputs the last part of files.
• -n +2: Specifies the starting line number for
output. The +2 indicates that output should
begin from line 2.

Hadoop I/O for Data Engineers
No ratings yet
Hadoop I/O for Data Engineers
36 pages
Web Engineering Models
100% (1)
Web Engineering Models
20 pages
Mapreduce Types and Formats
No ratings yet
Mapreduce Types and Formats
65 pages
HDFS Command Line Cheat Sheet
No ratings yet
HDFS Command Line Cheat Sheet
26 pages
AI Problem Solving and Search Methods
No ratings yet
AI Problem Solving and Search Methods
18 pages
MapReduce for Data Engineers
No ratings yet
MapReduce for Data Engineers
28 pages
Big Data Analytics
No ratings yet
Big Data Analytics
131 pages
Unit 3 Topic 9 Hadoop Archives
No ratings yet
Unit 3 Topic 9 Hadoop Archives
32 pages
Hadoop: The Definitive Guide Unit 2 Part 2: Hadoop I/O
No ratings yet
Hadoop: The Definitive Guide Unit 2 Part 2: Hadoop I/O
26 pages
Unit V Big Data Analytics
No ratings yet
Unit V Big Data Analytics
47 pages
15.python OS Module
100% (1)
15.python OS Module
14 pages
Unit 4 Session 1
No ratings yet
Unit 4 Session 1
17 pages
B.tech Viii Bda Chapter 3
No ratings yet
B.tech Viii Bda Chapter 3
21 pages
Unit V Notes
No ratings yet
Unit V Notes
39 pages
Unit 3 Big Data MCQ AKTU: Royal Brinkman Gartenbaubedarf
No ratings yet
Unit 3 Big Data MCQ AKTU: Royal Brinkman Gartenbaubedarf
17 pages
Hive Query Language
No ratings yet
Hive Query Language
33 pages
Tables Taguchi
0% (1)
Tables Taguchi
10 pages
Python Data Cleaning with Pandas
No ratings yet
Python Data Cleaning with Pandas
11 pages
Data Mining Week 2 Assignment Overview
No ratings yet
Data Mining Week 2 Assignment Overview
4 pages
BDA Unit 5 HIVE HBASE
No ratings yet
BDA Unit 5 HIVE HBASE
33 pages
PF Lab 4 Summer
No ratings yet
PF Lab 4 Summer
5 pages
Hadoop Tutorial - YDN
No ratings yet
Hadoop Tutorial - YDN
14 pages
DBMS Full Notes
No ratings yet
DBMS Full Notes
49 pages
Unit 1
No ratings yet
Unit 1
8 pages
Relational Algebra Exercises for Supplier and Part Queries
No ratings yet
Relational Algebra Exercises for Supplier and Part Queries
22 pages
Big Data Analytics - Lecture Slides
No ratings yet
Big Data Analytics - Lecture Slides
72 pages
BigInsights and BigSheets Introduction
100% (1)
BigInsights and BigSheets Introduction
3 pages
Python Case Study Questions With Answers
No ratings yet
Python Case Study Questions With Answers
6 pages
Data Mining Knowledge Representation
No ratings yet
Data Mining Knowledge Representation
19 pages
Unit 1 Bda Complete Notes
No ratings yet
Unit 1 Bda Complete Notes
15 pages
DSV Module-3
No ratings yet
DSV Module-3
24 pages
Bangladeshi Flower ID via ML Techniques
100% (1)
Bangladeshi Flower ID via ML Techniques
16 pages
Trainer PPT Python Modules and Libraries
No ratings yet
Trainer PPT Python Modules and Libraries
30 pages
Understanding Data Models and ER Concepts
No ratings yet
Understanding Data Models and ER Concepts
24 pages
3-1 Bigdata (Spark)
No ratings yet
3-1 Bigdata (Spark)
3 pages
Unsupervised Learning: Clustering Algorithms
No ratings yet
Unsupervised Learning: Clustering Algorithms
13 pages
Big Data Stream Processing Guide
No ratings yet
Big Data Stream Processing Guide
22 pages
BDA Lab ManuaL
No ratings yet
BDA Lab ManuaL
83 pages
ADS & A Unit-5 Study Material
No ratings yet
ADS & A Unit-5 Study Material
50 pages
Jntu Mca Linux Lab Programs
No ratings yet
Jntu Mca Linux Lab Programs
23 pages
Circular Linked List Program in C
100% (1)
Circular Linked List Program in C
3 pages
Unit-3 DWDM
No ratings yet
Unit-3 DWDM
11 pages
ADBMS Lab Manual
No ratings yet
ADBMS Lab Manual
33 pages
DBMS SQL Practice Questions Shivani
No ratings yet
DBMS SQL Practice Questions Shivani
10 pages
Unit-1 Java Notes
No ratings yet
Unit-1 Java Notes
21 pages
Heap Sort - Javatpoint
No ratings yet
Heap Sort - Javatpoint
16 pages
Query Processing: Cost and Optimization
No ratings yet
Query Processing: Cost and Optimization
25 pages
C Programming Quiz
100% (1)
C Programming Quiz
39 pages
Unit 5
No ratings yet
Unit 5
40 pages
Describe The Functions and Features of HDP
100% (2)
Describe The Functions and Features of HDP
16 pages
Facets of Data
No ratings yet
Facets of Data
6 pages
Hive Querying and Data Storage
No ratings yet
Hive Querying and Data Storage
1 page
Database Management System Lab Tasks
0% (1)
Database Management System Lab Tasks
5 pages
RDBMS 12 Question Answer
No ratings yet
RDBMS 12 Question Answer
31 pages
Flajolet-Martin Algorithm for Distinct Count
No ratings yet
Flajolet-Martin Algorithm for Distinct Count
23 pages
Unit Ii
No ratings yet
Unit Ii
20 pages
R Language
No ratings yet
R Language
59 pages
Unit 3
100% (1)
Unit 3
22 pages
Token Separation & Parsing Guide
82% (11)
Token Separation & Parsing Guide
47 pages
Command Line Tricks For Data Scientists - Kade Killary - Medium
No ratings yet
Command Line Tricks For Data Scientists - Kade Killary - Medium
16 pages
Project Description
No ratings yet
Project Description
5 pages
Smart Traffic Presentation Flow
No ratings yet
Smart Traffic Presentation Flow
2 pages
Portfolio Project Interview Explanation
No ratings yet
Portfolio Project Interview Explanation
2 pages
EY Techathon6 Executive Summary Sangamesh Pattanashetti
No ratings yet
EY Techathon6 Executive Summary Sangamesh Pattanashetti
5 pages
Autonomous Predictive Maintenance and Service Scheduling
No ratings yet
Autonomous Predictive Maintenance and Service Scheduling
5 pages
Baltzan BDT 10e Ch01
No ratings yet
Baltzan BDT 10e Ch01
30 pages
(Download) The Lego Neighborhood Book: Build Your Own Town! - Online
No ratings yet
(Download) The Lego Neighborhood Book: Build Your Own Town! - Online
1 page
Advantages of Database Management System: Disadvantages of Database Management Systems
No ratings yet
Advantages of Database Management System: Disadvantages of Database Management Systems
3 pages
Overview of Database Management Systems
No ratings yet
Overview of Database Management Systems
48 pages
I. Overview of Informatics and Nursing Informatics Informatics
No ratings yet
I. Overview of Informatics and Nursing Informatics Informatics
25 pages
Human Values, Ethics, and Design
100% (1)
Human Values, Ethics, and Design
30 pages
CSSE2204. Chapter1. Power Point Slides
No ratings yet
CSSE2204. Chapter1. Power Point Slides
27 pages
Qlik View
0% (1)
Qlik View
247 pages
Dbms Lab Manual II Cse II Sem
No ratings yet
Dbms Lab Manual II Cse II Sem
58 pages
(李航) A short introduction to learning to rank
No ratings yet
(李航) A short introduction to learning to rank
9 pages
System Analysis and Design
No ratings yet
System Analysis and Design
7 pages
Module 1
No ratings yet
Module 1
54 pages
A Combined Mining Based Framework For Predicting Telecommunications Customer Payment Behaviors
No ratings yet
A Combined Mining Based Framework For Predicting Telecommunications Customer Payment Behaviors
9 pages
Salesforce Certified Agentforce - 8
100% (1)
Salesforce Certified Agentforce - 8
5 pages
One View by AKTU SDC Team
No ratings yet
One View by AKTU SDC Team
2 pages
Data Classification
No ratings yet
Data Classification
4 pages
SQL Practical Queries and Functions
No ratings yet
SQL Practical Queries and Functions
28 pages
RAG Vs FineTuning Secure SRS
No ratings yet
RAG Vs FineTuning Secure SRS
4 pages
預覽"JCR-Web 4.5 Journal Information"
No ratings yet
預覽"JCR-Web 4.5 Journal Information"
4 pages
Data Analytics in Accounting Informtion Systems
No ratings yet
Data Analytics in Accounting Informtion Systems
28 pages
Abhishek Library Science PDF Form
No ratings yet
Abhishek Library Science PDF Form
11 pages
Business Model Canvas - Comprehensive Real Examples
No ratings yet
Business Model Canvas - Comprehensive Real Examples
7 pages
HURIDOCS DocCentre Draft English
No ratings yet
HURIDOCS DocCentre Draft English
50 pages
DH Logger
100% (1)
DH Logger
15 pages
Ais-Reporting Paliwanag
No ratings yet
Ais-Reporting Paliwanag
13 pages
Knime: Presented By-Jaimini Solanki Suchita Mishra Stuti Smart
No ratings yet
Knime: Presented By-Jaimini Solanki Suchita Mishra Stuti Smart
7 pages
Database Management Systems Lab CSE2004: FAT Lab Examination - DEC 2021
No ratings yet
Database Management Systems Lab CSE2004: FAT Lab Examination - DEC 2021
6 pages
Data Preprocessing
No ratings yet
Data Preprocessing
8 pages
OnePager - Tier 1 Automotive OEM
No ratings yet
OnePager - Tier 1 Automotive OEM
2 pages
Top 5 Data Engineering Tool
No ratings yet
Top 5 Data Engineering Tool
2 pages

Analysing Data Using Unix Tools

Uploaded by

Analysing Data Using Unix Tools

Uploaded by

Analysing data using unix tools

• Analyzing data using Unix command-line tools

• These foundational tools are typically pre-installed

• cut -d',' -f2 data.csv:

• Beyond the basic utilities, several specialized tools enhance

You might also like