Logistic-Regression:对泰坦尼克号数据执行Logistic回归资源-CSDN下载

共4个文件

ipynb：2个

csv：1个

md：1个

需积分: 50 102 浏览量 2021-04-14 16:43:51 上传评论 1 收藏 338KB ZIP 举报

**Logistic回归是一种广泛应用的统计学方法，常用于预测离散型输出，如二分类问题。在本案例中，我们将探讨如何使用Logistic回归来分析泰坦尼克号的数据集，以此预测乘客是否能够幸存。** 泰坦尼克号灾难是20世纪初期最著名的海难之一，这次事故的数据集经常被用作机器学习模型训练的实例，因为它包含了大量可预测的特征，如年龄、性别、票价等。Logistic回归在此的应用旨在基于这些特征构建一个模型，该模型能够预测乘客的生存概率。我们需要导入相关的Python库，如`pandas`用于数据处理，`numpy`进行数值计算，以及`sklearn`中的`LogisticRegression`类来实现Logistic回归模型。在Jupyter Notebook环境中，我们可以通过以下代码导入这些库： ```python import pandas as pd import numpy as np from sklearn.linear_model import LogisticRegression from sklearn.model_selection import train_test_split from sklearn.metrics import accuracy_score, confusion_matrix, classification_report ``` 接下来，加载泰坦尼克号的数据集，通常包括两个文件：`train.csv`（训练数据）和`test.csv`（测试数据）。使用`pandas`的`read_csv`函数读取数据，并查看数据的基本信息： ```python train_data = pd.read_csv('Logistic-Regression-master/train.csv') test_data = pd.read_csv('Logistic-Regression-master/test.csv') print(train_data.head()) ``` 在预处理阶段，我们需要处理缺失值、转换类别变量为数值类型（如性别）以及创建有用的特征（如家庭大小、是否有同伴）。例如： ```python train_data['Age'].fillna(train_data['Age'].mean(), inplace=True) train_data['Embarked'].fillna(train_data['Embarked'].mode()[0], inplace=True) # 将性别转换为数值 train_data['Sex'] = train_data['Sex'].map({'male': 0, 'female': 1}) # 创建新特征 train_data['FamilySize'] = train_data['SibSp'] + train_data['Parch'] train_data['IsAlone'] = 1 - (train_data['SibSp'] + train_data['Parch'] > 0) ``` 然后，我们定义特征和目标变量，将数据集分为训练集和测试集，并构建Logistic回归模型： ```python X_train = train_data.drop(['Survived', 'PassengerId'], axis=1) y_train = train_data['Survived'] X_test = test_data.drop(['PassengerId'], axis=1) X_train, X_val, y_train, y_val = train_test_split(X_train, y_train, test_size=0.2, random_state=42) logistic_model = LogisticRegression() logistic_model.fit(X_train, y_train) ``` 评估模型性能，我们可以使用训练集和验证集上的准确率、混淆矩阵和分类报告： ```python y_pred_train = logistic_model.predict(X_train) y_pred_val = logistic_model.predict(X_val) print("Training Set Accuracy:", accuracy_score(y_train, y_pred_train)) print("Validation Set Accuracy:", accuracy_score(y_val, y_pred_val)) print("Confusion Matrix:\n", confusion_matrix(y_val, y_pred_val)) print("\nClassification Report:\n", classification_report(y_val, y_pred_val)) ``` 使用训练好的模型对测试数据集进行预测，并将结果保存到CSV文件中，以供提交： ```python test_preds = logistic_model.predict(X_test) submission = pd.DataFrame({'PassengerId': test_data['PassengerId'], 'Survived': test_preds}) submission.to_csv('submission.csv', index=False) ``` 在这个过程中，我们不仅学会了如何使用Logistic回归进行二分类预测，还了解了数据预处理、特征工程和模型评估的关键步骤。通过调整模型参数、尝试不同的特征组合或使用其他机器学习算法，可以进一步优化模型的性能。

资源推荐

资源详情

资源评论