[B! Python][前処理][機械学習] misshikiのブックマーク

misshiki id:misshiki

Pythonと前処理と機械学習に関するmisshikiのブックマーク (2)

［pandas超入門］データセットの前処理をしてみよう
前回はタイタニックデータセットをpandasに読み込んで、その概要を調べた後、性別と生存率、または旅客クラスと生存率に関連があるかどうかなどを見てみました。このとき、欠損値を含む列（'Cabin'列）などについてはそのままにしていました。今回はこのような列をどう処理すればよいのかや、機械的な処理が簡単になるように性別や旅客クラスを数値データに変換する方法などを見ていきます。このような作業のことを「前処理」と呼びます。前処理はデータセットを機械学習やディープラーニングで適切に取り扱えるようにするための重要なステップですが、今回はその練習のようなものです。取り掛かる前に、タイタニックデータセットの内容をDataFrameオブジェクトに読み込んでおきましょう（タイタニックデータセットは前回同様にpandasのGitHubリポジトリからダウンロードしました）。
misshiki 2024/09/20
“欠損値の扱い方、不要な列の削除、カテゴリカルデータのエンコーディングなど、前処理の仕方”

Python

前処理

機械学習
リンク
Pythonでのランダムオーバーサンプリング（Random Over Sampling）とその実装 - Qiita
はじめに不均衡なクラス分布を持つデータセットは、機械学習のタスクでよく遭遇します。例えば、クレジットカード詐欺の検出では、正常な取引（ネガティブクラス）と詐欺取引（ポジティブクラス）の間で極端な不均衡があります。このような状況では、多数クラスの学習が優先され、少数クラスの学習が十分に行われないことがあります。これに対する対策の一つとして、ランダムオーバーサンプリングがあります。ランダムオーバーサンプリングとは？ランダムオーバーサンプリングは、少数クラスのサンプルをランダムに複製してデータセットに追加することで、クラス間の不均衡を解消する手法です。これにより、クラス間のサンプル数の差を減らし、モデルが少数クラスを無視することを防ぎます。ただし、ランダムオーバーサンプリングは過学習を引き起こす可能性があることに注意が必要です。なぜなら、同じサンプルを何度も複製することで、モデルが特定の
misshiki 2023/07/18
“ランダムオーバーサンプリングは、少数クラスのサンプルをランダムに複製してデータセットに追加することで、クラス間の不均衡を解消する手法です。”

Python

機械学習

前処理
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx