R语言 logistic regression model预测泰坦尼克号生还情况

该博客介绍了使用R语言进行逻辑回归模型构建,预测泰坦尼克号乘客的生还情况。内容包括数据读取、数据清洗、模型训练、模型评估,以及绘制混淆矩阵和ROC曲线来分析模型的预测能力。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

昨天data mining的作业是使用logistics regression model和SVM model预测泰坦尼克号生还情况。设计到了logistics regression model,SVM model, confusion matrix的画法,ROC curve and AUC。

实验数据

数据网址:http://biostat.mc.vanderbilt.edu/wiki/Main/DataSets
下载其中的 titanic3.csv 作为实验数据。
数据的属性如下
pclass:Passenger Class (1 = 1st; 2 = 2nd; 3 = 3rd)
survived:Survival (0 = No; 1 = Yes)
name:Name
sex:Sexage
Agesibsp:Number of Siblings/Spouses Aboard
parch:Number of Parents/Children Aboard
ticket:Ticket Number
fare:Passenger Fare
cabin:Cabin
embarked:Port of Embarkation(C = Cherbourg; Q = Queenstown; S = Southampton)
boat:Lifeboat
body:Body
Identification:Number
home.dest:Home/Destination

读入数据

在读入前我们需要注意到数据集里有很多的缺失值,这些缺失值有两种情况:NA 和 空值,其中空值相当于c(“”),为了后期处理方便,我们在读入的时候将缺失值全部用NA替代。

titanic = read.csv("C:/Users/Administrator/Desktop/titanic3.csv",head = T,na.strings=c(""));

读入以后,我们将数据集分割为80%的training set 和%20 的test set。为了确保每次分割都相同,我们需要设置seed为1(set.seed(1))。

set.seed(1);
training = titanic[sort(sample(nrow(titanic),0.8*nrow(titanic),replace=F)),];
set.seed(1);
test = titanic[-sample(nrow(titanic),0.8*nrow(titanic),replace=F),];
数据清洗

由于我们作业的要求是清洗在分割

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值