100% found this document useful (1 vote)

115 views

Salary Prediction LinearRegression

The document presents a linear regression model to predict salary based on years of experience. It loads and explores the dataset, prepares the data by separating features and target, trains a linear regression model on 80% of the data, tests it on the remaining 20%, and achieves a high R2 score of 92.78% when comparing predicted vs actual salaries on the test data. Finally, it plots the actual and predicted salaries to visualize the model performance.

Uploaded by

Yagnesh Vyas

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

100% found this document useful (1 vote)

115 views

Salary Prediction LinearRegression

Uploaded by

Yagnesh Vyas

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 7

hf66etmrt

June 7, 2023

1 Predicting Salary according to Years of experience :

1.0.1 Importing necessary libraries

[66]: import numpy as np

import pandas as pd
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score

1.0.2 Loading the dataset

[25]: data = pd.read_csv('data.csv') # Loading the dataset and displaying the first 5␣
↪rows

data.head(5)

[25]: YearsExperience Salary

0 1.1 39343.0
1 1.3 46205.0
2 1.5 37731.0
3 2.0 43525.0
4 2.2 39891.0

1.0.3 Exploring the Dataset

[31]: data.shape # Dataset contains 30 rows and 2 columns.

[31]: (30, 2)

[32]: data.info() # Checking information about the datset like columns, Non_null␣
↪values, datatypes.

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 30 entries, 0 to 29
Data columns (total 2 columns):
# Column Non-Null Count Dtype

1
--- ------ -------------- -----
0 YearsExperience 30 non-null float64
1 Salary 30 non-null float64
dtypes: float64(2)
memory usage: 608.0 bytes

[29]: data.describe()

[29]: YearsExperience Salary

count 30.000000 30.000000
mean 5.313333 76003.000000
std 2.837888 27414.429785
min 1.100000 37731.000000
25% 3.200000 56720.750000
50% 4.700000 65237.000000
75% 7.700000 100544.750000
max 10.500000 122391.000000

The describe() function is a convenient method in pandas that provides a statistical summary of a
DataFrame or Series. It calculates various descriptive statistics for each numerical column in the
dataset, including count, mean, standard deviation, minimum value, 25th percentile (Q1), median
(50th percentile or Q2), 75th percentile (Q3), and maximum value.

[33]: data.isnull().sum() # Checking if the datset contains any null values.

[33]: YearsExperience 0
Salary 0
dtype: int64

[40]: num_duplicates = data.duplicated().sum() # Checking if there is any duplicate␣

↪rows in the dataset.

if num_duplicates > 0:
print(f"The dataset contains {num_duplicates} duplicate values.")
data = data.drop_duplicates()
print("Dropped duplicates.")
print("Number of Duplicate Values after dropping :",num_duplicates)
else:
print("The dataset doesn't contain any duplicate values.")

The dataset doesn't contain any duplicate values.

1.0.4 Preparing the data

[50]: X = data.iloc[:,:-1] # Independent feature

X.head(5)

2
[50]: YearsExperience
0 1.1
1 1.3
2 1.5
3 2.0
4 2.2

[53]: Y = data.iloc[:,-1] # Dependent feature

Y.head(5)

[53]: 0 39343.0
1 46205.0
2 37731.0
3 43525.0
4 39891.0
Name: Salary, dtype: float64

1.0.5 Plotting the data to a look of the data distribution

[54]: plt.scatter(X,Y)
plt.title("Salary according to Experience")
plt.xlabel("Salary")
plt.ylabel("Years of experience")

[54]: Text(0, 0.5, 'Years of experience')

3
1.0.6 Splitting the dataset into train and test

[56]: X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.33,␣

↪random_state=51)

[57]: print(X_train.shape)
print(X_test.shape)
print(Y_train.shape)
print(Y_test.shape)

(20, 1)
(10, 1)
(20,)
(10,)

1.0.7 Training the model

[58]: linear = LinearRegression()

[59]: linear.fit(X_train, Y_train)

4
[59]: LinearRegression()

1.0.8 Checking intercept and coeficient(slope)

[60]: linear.coef_

[60]: array([9523.14578831])

[61]: linear.intercept_

[61]: 24006.035761469633

1.0.9 Testing the model

[62]: Y_pred = linear.predict(X_test)

[64]: Y_pred

[64]: array([106857.40411979, 54480.10228407, 38290.75444394, 102095.83122563,

54480.10228407, 115428.23532927, 70669.4501242 , 80192.59591251,
36386.12528628, 81144.91049134])

[65]: Y_test

[65]: 24 109431.0
8 64445.0
2 37731.0
23 113812.0
7 54445.0
27 112635.0
15 67938.0
18 81363.0
1 46205.0
19 93940.0
Name: Salary, dtype: float64

[70]: score = r2_score(Y_test, Y_pred)

print(f"Score: {score *100}")

Score: 92.78148083974355

1.0.10 Plotting the graph

[79]: # Plotting the scatter plot of actual data points
plt.scatter(X_test, Y_test, color='blue', label='Actual')

# Plotting the predicted line

5
plt.plot(X_test, Y_pred, color='red', linewidth=2, label='Predicted')

plt.title("Salary Prediction")
plt.xlabel("Salary")
plt.ylabel("Years of experience")
plt.legend()

plt.show()

Startup India List of Incubators PDF
100% (1)
Startup India List of Incubators PDF
10 pages
Handout9 Trees Bagging Boosting
100% (1)
Handout9 Trees Bagging Boosting
23 pages
The Essential R Reference
From Everand
The Essential R Reference
Mark Gardener
No ratings yet
Importing Libraries: Import As Import As Import As From Import As From Import From Import Import
100% (1)
Importing Libraries: Import As Import As Import As From Import As From Import From Import Import
11 pages
Matlab Python Xref
No ratings yet
Matlab Python Xref
17 pages
Day 5 Supervised Technique-Decision Tree For Classification PDF
100% (1)
Day 5 Supervised Technique-Decision Tree For Classification PDF
58 pages
K Means Clustering
100% (1)
K Means Clustering
10 pages
Oop Assignment
No ratings yet
Oop Assignment
16 pages
Introduction To Data Visualization in Python
No ratings yet
Introduction To Data Visualization in Python
16 pages
Sajjad DS
100% (2)
Sajjad DS
97 pages
Oil Export Indonesia
100% (1)
Oil Export Indonesia
12 pages
Loading The Dataset: 'Churn - Modelling - CSV'
No ratings yet
Loading The Dataset: 'Churn - Modelling - CSV'
6 pages
Forecast
No ratings yet
Forecast
82 pages
Columbia Seaborn Tutorial
No ratings yet
Columbia Seaborn Tutorial
12 pages
ML Algorithms
100% (1)
ML Algorithms
1 page
Data Visualisation Using Pyplot
No ratings yet
Data Visualisation Using Pyplot
20 pages
Introduction To Python and Computer Programming 1704298503
No ratings yet
Introduction To Python and Computer Programming 1704298503
44 pages
Solutions To Pandas Basic Questions
No ratings yet
Solutions To Pandas Basic Questions
1 page
Python Date Time
No ratings yet
Python Date Time
6 pages
Pandas Guide
No ratings yet
Pandas Guide
64 pages
Figure Style and Scale: Darkgrid Whitegrid Dark White Ticks Darkgrid
No ratings yet
Figure Style and Scale: Darkgrid Whitegrid Dark White Ticks Darkgrid
15 pages
R For MATLAB Users - Mathesaurus
No ratings yet
R For MATLAB Users - Mathesaurus
12 pages
Time Series Summary
100% (1)
Time Series Summary
23 pages
Financial Analytics With Python
100% (1)
Financial Analytics With Python
40 pages
Data Pre-Processing (Pandas)
No ratings yet
Data Pre-Processing (Pandas)
19 pages
An Overview of Practical Time Series Forecasting Using Pytho
No ratings yet
An Overview of Practical Time Series Forecasting Using Pytho
30 pages
C2M2 - Assignment: 1 Risk Models Using Tree-Based Models
100% (1)
C2M2 - Assignment: 1 Risk Models Using Tree-Based Models
38 pages
Mat Plot Lib
No ratings yet
Mat Plot Lib
44 pages
Essentials of Machine Learning Algorithms (With Python and R Codes) PDF
100% (1)
Essentials of Machine Learning Algorithms (With Python and R Codes) PDF
20 pages
File Handling in Python
No ratings yet
File Handling in Python
25 pages
Time Series Analysis - An Introduction
No ratings yet
Time Series Analysis - An Introduction
38 pages
Project
No ratings yet
Project
18 pages
Python (3) Leaflet: Roland Becker December 16, 2020
No ratings yet
Python (3) Leaflet: Roland Becker December 16, 2020
15 pages
Pandas
100% (1)
Pandas
1,131 pages
Regression Project
100% (1)
Regression Project
60 pages
Python Classes Objects PDF
No ratings yet
Python Classes Objects PDF
8 pages
Exploratory Data Analysis (Eda) With Pandas: (Cheatsheet)
No ratings yet
Exploratory Data Analysis (Eda) With Pandas: (Cheatsheet)
7 pages
The Poster Child of Open Source Business
No ratings yet
The Poster Child of Open Source Business
35 pages
Python Libraries Cheat Sheets
No ratings yet
Python Libraries Cheat Sheets
6 pages
Presentation GPT 4
100% (1)
Presentation GPT 4
25 pages
Heart: Our "Goal" Predict The Presence of Heart Disease in The Patient
100% (1)
Heart: Our "Goal" Predict The Presence of Heart Disease in The Patient
73 pages
Numerical Analysis For Engineer - 1
No ratings yet
Numerical Analysis For Engineer - 1
18 pages
Classification Problems
100% (1)
Classification Problems
25 pages
Pandas Cheat Sheet
No ratings yet
Pandas Cheat Sheet
2 pages
Data Analysis With Pandas - Introduction To Pandas Cheatsheet - Codecademy PDF
No ratings yet
Data Analysis With Pandas - Introduction To Pandas Cheatsheet - Codecademy PDF
3 pages
Advanced Data Analytics Using Python - Unit II
No ratings yet
Advanced Data Analytics Using Python - Unit II
57 pages
Unit 4 Basics of Feature Engineering
100% (1)
Unit 4 Basics of Feature Engineering
33 pages
Heart Disease Prediction - Jupyter Notebook
100% (1)
Heart Disease Prediction - Jupyter Notebook
9 pages
Unit II Visualizing Using Matplotlib
No ratings yet
Unit II Visualizing Using Matplotlib
24 pages
Regression Analysis
100% (2)
Regression Analysis
9 pages
Scikit-Learn Cheat Sheet Python For Data Science: Preprocessing The Data Evaluate Your Model's Performance
100% (1)
Scikit-Learn Cheat Sheet Python For Data Science: Preprocessing The Data Evaluate Your Model's Performance
1 page
Risk Return Summery
100% (1)
Risk Return Summery
85 pages
Banking Credit Risk Analysis With Naive Bayes Approach and Cox Proportional Hazard
No ratings yet
Banking Credit Risk Analysis With Naive Bayes Approach and Cox Proportional Hazard
6 pages
Course Title: Data Pre-Processing and Visualization
100% (2)
Course Title: Data Pre-Processing and Visualization
11 pages
Assignment No - 6-1
100% (1)
Assignment No - 6-1
3 pages
Linear - Regression - Ipynb - Colaboratory
No ratings yet
Linear - Regression - Ipynb - Colaboratory
4 pages
Simple Linear Regression
No ratings yet
Simple Linear Regression
7 pages
Regression Demo
No ratings yet
Regression Demo
8 pages
Simple Linear Regression
No ratings yet
Simple Linear Regression
4 pages
Simple Linear Regression
No ratings yet
Simple Linear Regression
4 pages
Experiment No.8
No ratings yet
Experiment No.8
5 pages
LLM ML Interview Q
No ratings yet
LLM ML Interview Q
43 pages
ISO 27001 Mindmaps
100% (1)
ISO 27001 Mindmaps
6 pages
Py 4 DS
No ratings yet
Py 4 DS
95 pages
NUmpy Interview Q
No ratings yet
NUmpy Interview Q
3 pages
DataCleaning Techniques
No ratings yet
DataCleaning Techniques
20 pages
And Concept of Research: Presenter Name
No ratings yet
And Concept of Research: Presenter Name
10 pages
Frontline Management Training PDF
No ratings yet
Frontline Management Training PDF
9 pages
MP Front End Requirements
No ratings yet
MP Front End Requirements
7 pages
What Part Does Religion Play in Gender Roles at Work?: Why Faith Belongs in Your Workplace
No ratings yet
What Part Does Religion Play in Gender Roles at Work?: Why Faith Belongs in Your Workplace
14 pages
Meaning & Nature of Research: UNIT 1.1
No ratings yet
Meaning & Nature of Research: UNIT 1.1
13 pages
Lalchandani NH Thesis BM
No ratings yet
Lalchandani NH Thesis BM
305 pages
Reliability and Validity of Q
No ratings yet
Reliability and Validity of Q
6 pages
Introduction To Probability With Texas Hold em Examples 1st Schoenberg Solution Manual
No ratings yet
Introduction To Probability With Texas Hold em Examples 1st Schoenberg Solution Manual
3 pages
Torsional Moments
No ratings yet
Torsional Moments
16 pages
Journal of Non-Newtonian Fluid Mechanics: Paulo R. de Souza Mendes, Roney L. Thompson
No ratings yet
Journal of Non-Newtonian Fluid Mechanics: Paulo R. de Souza Mendes, Roney L. Thompson
8 pages
(Oct. 13, Part 1) Individual Risk Model
No ratings yet
(Oct. 13, Part 1) Individual Risk Model
16 pages
24-25 CBSE 10 Maths (Stan) Booklet Solutions
No ratings yet
24-25 CBSE 10 Maths (Stan) Booklet Solutions
30 pages
LECTURE 5 & 6 - successive differentiation
No ratings yet
LECTURE 5 & 6 - successive differentiation
6 pages
ECE331L Lecture 05 Bipolar Junction Transistors 2
100% (1)
ECE331L Lecture 05 Bipolar Junction Transistors 2
40 pages
Vectors and Rotations in 3 Dimensions Ve
No ratings yet
Vectors and Rotations in 3 Dimensions Ve
98 pages
QTT201 Syllabus
No ratings yet
QTT201 Syllabus
2 pages
Lecture 6 - Constrained Motion and Relative Velocity
No ratings yet
Lecture 6 - Constrained Motion and Relative Velocity
27 pages
Basic Terms in Geometry
No ratings yet
Basic Terms in Geometry
18 pages
Set JPP
No ratings yet
Set JPP
38 pages
FE Mechanical Specs
No ratings yet
FE Mechanical Specs
4 pages
Statistical Mechanics
No ratings yet
Statistical Mechanics
15 pages
In The Fig Given Below, The Number of Zeroes of The Polynomial F (X) Is
No ratings yet
In The Fig Given Below, The Number of Zeroes of The Polynomial F (X) Is
4 pages
Clean TDD Cheat Sheet V1.2
No ratings yet
Clean TDD Cheat Sheet V1.2
1 page
First Quarter - Module 3 Week 3
No ratings yet
First Quarter - Module 3 Week 3
14 pages
Ce 8403 Applied Hydraulic Engineering Question Bank: S. No Questions Year Unit IV - Turbines Part A
No ratings yet
Ce 8403 Applied Hydraulic Engineering Question Bank: S. No Questions Year Unit IV - Turbines Part A
9 pages
Construction of Real Numbers
No ratings yet
Construction of Real Numbers
5 pages
Ordinary Differential Equations
No ratings yet
Ordinary Differential Equations
7 pages
Trigonometry Sheet 1
No ratings yet
Trigonometry Sheet 1
29 pages
Load Transfer From Matrix To Fiber
No ratings yet
Load Transfer From Matrix To Fiber
10 pages
Lecture Notes For Chapter 7 Introduction To Data Mining, 2 Edition
No ratings yet
Lecture Notes For Chapter 7 Introduction To Data Mining, 2 Edition
108 pages
Wind Tunnel Test
100% (1)
Wind Tunnel Test
32 pages
Detailed Open Channel Hydraulics
100% (3)
Detailed Open Channel Hydraulics
404 pages
Theano Lasagne Keras-Marcelo
No ratings yet
Theano Lasagne Keras-Marcelo
27 pages
Chapter Six 6. Production and Cost Analysis 6.1 Production Function
100% (1)
Chapter Six 6. Production and Cost Analysis 6.1 Production Function
15 pages
Sap MM Iq
100% (2)
Sap MM Iq
56 pages
Pol Sci 105 Chapter 2
No ratings yet
Pol Sci 105 Chapter 2
7 pages
(eBook PDF) Fundamentals of Electric Circuits 7th Edition instant download
100% (1)
(eBook PDF) Fundamentals of Electric Circuits 7th Edition instant download
51 pages

Salary Prediction LinearRegression

Uploaded by

Salary Prediction LinearRegression

Uploaded by

hf66etmrt

1 Predicting Salary according to Years of experience :

[66]: import numpy as np

1.0.2 Loading the dataset

[25]: YearsExperience Salary

1.0.3 Exploring the Dataset

[31]: data.shape # Dataset contains 30 rows and 2 columns.

[29]: YearsExperience Salary

[33]: data.isnull().sum() # Checking if the datset contains any null values.

[40]: num_duplicates = data.duplicated().sum() # Checking if there is any duplicate␣

The dataset doesn't contain any duplicate values.

1.0.4 Preparing the data

[50]: X = data.iloc[:,:-1] # Independent feature

[53]: Y = data.iloc[:,-1] # Dependent feature

1.0.5 Plotting the data to a look of the data distribution

[54]: Text(0, 0.5, 'Years of experience')

[56]: X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.33,␣

1.0.7 Training the model

[58]: linear = LinearRegression()

[59]: linear.fit(X_train, Y_train)

1.0.8 Checking intercept and coeficient(slope)

1.0.9 Testing the model

[62]: Y_pred = linear.predict(X_test)

[64]: array([106857.40411979, 54480.10228407, 38290.75444394, 102095.83122563,

[70]: score = r2_score(Y_test, Y_pred)

1.0.10 Plotting the graph

# Plotting the predicted line

You might also like