前回はタイタニックデータセットをpandasに読み込んで、その概要を調べた後、性別と生存率、または旅客クラスと生存率に関連があるかどうかなどを見てみました。このとき、欠損値を含む列('Cabin'列)などについてはそのままにしていました。今回はこのような列をどう処理すればよいのかや、機械的な処理が簡単になるように性別や旅客クラスを数値データに変換する方法などを見ていきます。このような作業のことを「前処理」と呼びます。前処理はデータセットを機械学習やディープラーニングで適切に取り扱えるようにするための重要なステップですが、今回はその練習のようなものです。 取り掛かる前に、タイタニックデータセットの内容をDataFrameオブジェクトに読み込んでおきましょう(タイタニックデータセットは前回同様にpandasのGitHubリポジトリからダウンロードしました)。
![[pandas超入門]データセットの前処理をしてみよう](https://cdn-ak-scissors.b.st-hatena.com/image/square/f5e54c38802a02528dc87196faf2c90ebc419992/height=288;version=1;width=512/https%3A%2F%2Fsiteproxy.ruqli.workers.dev%3A443%2Fhttps%2Fimage.itmedia.co.jp%2Fait%2Farticles%2F2409%2F20%2Fcover_news040.png)