[B! Python][前処理] misshikiのブックマーク

［pandas超入門］データセットの前処理をしてみよう

前回はタイタニックデータセットをpandasに読み込んで、その概要を調べた後、性別と生存率、または旅客クラスと生存率に関連があるかどうかなどを見てみました。このとき、欠損値を含む列（'Cabin'列）などについてはそのままにしていました。今回はこのような列をどう処理すればよいのかや、機械的な処理が簡単になるように性別や旅客クラスを数値データに変換する方法などを見ていきます。このような作業のことを「前処理」と呼びます。前処理はデータセットを機械学習やディープラーニングで適切に取り扱えるようにするための重要なステップですが、今回はその練習のようなものです。取り掛かる前に、タイタニックデータセットの内容をDataFrameオブジェクトに読み込んでおきましょう（タイタニックデータセットは前回同様にpandasのGitHubリポジトリからダウンロードしました）。

misshiki 2024/09/20

“欠損値の扱い方、不要な列の削除、カテゴリカルデータのエンコーディングなど、前処理の仕方”

リンク

［pandas超入門］欠損値とその処理

前回はpandasのDataFrameオブジェクトをNumPyの多次元配列やPythonのリスト、辞書、JSON形式のオブジェクトに変換する方法を紹介しました。今回は、pandasでデータを処理する際には必ずと言っていいほど目にする「欠損値」とその扱いについて見ていきます。欠損値とは欠損値とは、取得したデータに含まれる「何らかの理由で存在していないデータ」のことです。何かのデータを計測しているときに本来は得られるはずの値がセンサーの誤動作により1つだけ取得できなかったとか、データの伝送時にノイズが入ったためにデータがきちんと読み取れなかったとか、理由はいろいろと考えられますが、あるべきデータがないという状況はよくあり、データを処理する際にはそれらについても考慮する必要があります。ここでは簡単な例として、次のコードでCSVファイルを作成し、それをDataFrameオブジェクトに読み込ん

misshiki 2024/08/23

“欠損値かどうかの判定方法、欠損値が行や列に含まれているかを確認する方法、それら数をカウントする方法、欠損値を含む行や列を削除したり置き換えたりする方法を紹介”

リンク

［pandas超入門］DataFrameの情報（形状、要素数、要素のデータ型など）を調べてみよう

前回はpandasのDataFrameオブジェクトの生成とloc属性／iloc属性と軸ラベル／インデックスを組み合わせて要素を選択する方法について話しました。今回はDataFrameオブジェクトに関するさまざまな情報を調べたり、別の種類のオブジェクトに変換したりするのに使える属性やメソッドを紹介していきます。 DataFrameオブジェクトの要素の型／形状／次元数などを調べるには本連載の第1回ではheadメソッドなどを紹介しましたが、ここではまずDataFrameオブジェクトそのものについての情報、例えばどんな種類のデータを格納しているのかや、その形状（何行何列のデータなのか）などを調べる方法を紹介します。ここでは以下に示すコードで生成したDataFrameオブジェクトを例に取りましょう。 df = pd.DataFrame([{'name': 'kawasaki', 'age': 80

misshiki 2024/05/24

“DataFrameオブジェクト自体に関する情報を調べたり、これを他のオブジェクトに変換したりするのに使えるものを紹介”

リンク

PandasからPolarsへ移行した方がいいのか - Qiita

Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? なぜこの記事を書くのか皆さん、データ解析を行う際にどのようなライブラリを用いているでしょうか。おそらく大半の人はpandasを使っているのではないでしょうか。私もpandas使ってます。簡単だよね(´・ω・｀) しかし、業務でバカクソでけえデータを読み込もうとしたときに、読み込み時間がとんでもなくかかったり、メモリ不足でそもそも読み込めもしないことが起きていました。読み込みにメモリ食われすぎて他の作業ができずに待機した挙句、燃え尽きたかのようにノーパソのファンが止まると同時にメモリ不足のエラーが出たときには切れ散らかします。（

misshiki 2024/04/18

“生物としてもパンダは白熊に勝てないのは明らかであって、PolarsとPandasを比較しても圧倒的な速度の差があり、ライブラリとしての性能もPolarsが圧勝しています。”

リンク

pandas高速化の新星、FireDucksに迫る｜FireDucks

本記事はFireDucksユーザー記事シリーズの第1弾です．本記事はBell様に執筆して頂きました．データ処理と分析をする際に、多くの方がPythonを使ていると思います。中でも、PandasライブラリはPythonを用いたデータ処理においてなくてはならないものになっています。Pandasには便利な関数が多数あり、複雑なデータセットを効率的に処理・分析することができます。しかし、Pandasの使用にあたっては、大規模なデータセットを扱う際にパフォーマンスが課題になることがあります。特に、データの読み込みや変換、集約などの処理を行う際、処理時間が問題となることが少なくありません。このような背景から、色々な手段を用いてより高速に処理を行う方法が試みられてきました。 NECが開発した「FireDucks」は、データ処理の世界に新たな風を吹き込んでいます。FireDucksは、PandasのA

misshiki 2024/04/08

“NECが開発した「FireDucks」は、PandasのAPIをベースにしつつ、内部処理の最適化を図ることで、大幅なパフォーマンス向上を実現することを目指したライブラリです。”

リンク

PolarsとPanderaで実現する高速でロバストなデータ処理

Practical Tips for Bootstrapping Information Extraction Pipelines

misshiki 2024/04/01

全15ページのスライド資料。

リンク

新しいデータ処理ライブラリの学習はもう不要！ Python 初学者のための Ibis 100 本ノック - Qiita

Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? Information 2024/7/24： Ibis-Polars vs Native Polars Ibis-Polars と Native Polars の処理速度の比較記事を書かれている方がおりました。 Ibis 経由で Polars を使用しても Polars と処理速度に大きな差がないことを示していました。 ibis-frameworkでPolarsとSQLをつかってみた 2024/1/14： Kaggle notebook for Ibis Kaggle で Ibis を使用するための Sample Notebook を用

misshiki 2024/01/09

“Ibis という、Python の統合データ処理ライブラリを効率的に学ぶためのコンテンツとして「 Python 初学者のための Ibis 100 本ノック」を作成したので公開します。”

リンク

Pythonデータ分析実践ハンドブック　実務で使えるデータ加工のテクニック - インプレスブックス

■寺田学（てらだまなぶ）［担当：第1章、第2章（「parquet形式」除く）、第7章（Pythonを使った文字列処理）、第8章（Pillowを使った画像の加工）、付録A・B］ Python Web関係の業務を中心にコンサルティングや構築を株式会社CMSコミュニケーションズ代表取締役として手がけている。ほかにも、一般社団法人PyCon JP Association理事や一般社団法人Python エンジニア育成推進協会顧問理事を務める。 Pythonをはじめとした技術話題を扱うPodcast「terapyon channel」https://podcast.terapyon.net/を配信中。共著『見て試してわかる機械学習アルゴリズムの仕組み機械学習図鑑』『Pythonによるあたらしいデータ分析の教科書第2版』（いずれも翔泳社）、監修『スラスラわかるPython 第2版』（翔泳社）、監

misshiki 2023/09/14

“発売日2023/9/22”

リンク

pandasライブラリ活用入門[第2版] データクリーニング/前処理など一連の分析プロセスをマスター! - インプレスブックス

pandasで効率的なデータ操作と可視化を実践！解釈しやすい形にデータセットを変更できる― データの取り込みからデータ解析をスムーズに進めるためのPythonライブラリとしてpandasが用意されています。本書では、pandasなどを使ったデータ分析全体の基本手法を網羅的にカバー。巻末では、Python周辺の基本を確認できます。初中級レベルの方がコードを試しながら理解を深めたり、おぼろげな知識について確認したりすることで、基礎技術の定着やスキルアップが図れる一冊です。※本書は『Pandas for Everyone, 2nd Edition』の翻訳書です。目次を見る

misshiki 2023/09/13

“発売日2023/9/14”

リンク

Pythonでのランダムオーバーサンプリング（Random Over Sampling）とその実装 - Qiita

はじめに不均衡なクラス分布を持つデータセットは、機械学習のタスクでよく遭遇します。例えば、クレジットカード詐欺の検出では、正常な取引（ネガティブクラス）と詐欺取引（ポジティブクラス）の間で極端な不均衡があります。このような状況では、多数クラスの学習が優先され、少数クラスの学習が十分に行われないことがあります。これに対する対策の一つとして、ランダムオーバーサンプリングがあります。ランダムオーバーサンプリングとは？ランダムオーバーサンプリングは、少数クラスのサンプルをランダムに複製してデータセットに追加することで、クラス間の不均衡を解消する手法です。これにより、クラス間のサンプル数の差を減らし、モデルが少数クラスを無視することを防ぎます。ただし、ランダムオーバーサンプリングは過学習を引き起こす可能性があることに注意が必要です。なぜなら、同じサンプルを何度も複製することで、モデルが特定の

misshiki 2023/07/18

“ランダムオーバーサンプリングは、少数クラスのサンプルをランダムに複製してデータセットに追加することで、クラス間の不均衡を解消する手法です。”

リンク

時系列データを前処理する際のPython逆引きメモ - EurekaMoments

機械学習のための「前処理」入門作者:足立悠リックテレコムAmazon 目的データ分析の仕事をする中で最も扱う機会が多いのが時系列データだと思います。その中で欠損値を扱ったり、統計を取ったり、特徴量を作り出したりするのですが、毎回やり方を忘れてググっているので、上記の書籍を読んでこういった前処理の方法をいつでも確認できるようにメモしておこうと思います。目次目的目次日時のデータをdatetime型に変換する最初の日時からの経過時間を計算する各データの統計量を計算する欠損値の確認と補完経過時間の単位を変換するデータフレーム結合する基準日時からの経過時間を計算する重複した行を削除する特定のデータ列をインデックスにする部分的時系列を抽出して統計量を計算するデータフレームの各列をリストにして結合する不均衡データから教師データを作成するデータの読み込みと可視

misshiki 2022/09/21

リンク

はてなブックマーク

タグ

関連タグで絞り込む (4)

Pythonと前処理に関するmisshikiのブックマーク (11)

お知らせ

今週のはてなブックマーク数ランキング（2025年5月第4週）

今週のはてなブックマーク数ランキング（2025年5月第3週）

今週のはてなブックマーク数ランキング（2025年5月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス