タグ

decisiontreeに関するmanabouのブックマーク (5)

  • XGBoost論文を丁寧に解説する(1) - Qiita

    はじめに 勾配ブーストを用いた決定木(GBDT)によるクラス分類や回帰はデータ分析コンペでも非常によく使われています。 その中でも2016年に出されたXGBoostはLightGBMと並びよく使われている手法です。 性能が良いことで有名なXGBoost, LightGBMですが、モデル内部でどのような処理が行われているかよくわかっていなかったので論文を読んでみました。 式変形の省略が多く、またイメージしづらい箇所もあり、読みづらかったのですが 一度イメージできれば割とあっさり理解できます。 その体験を踏まえて、イメージ図を多く取り入れながらXGBoostの論文を(途中まで)丁寧に解説します。 XGBoost: A Scalable Tree Boosting System 論文 この記事で述べること データの入出力 XGBoostの木構造 損失関数とboosting 木構造の学習(spli

    XGBoost論文を丁寧に解説する(1) - Qiita
  • 【Pythonで決定木 & Random Forest】タイタニックの生存者データを分析してみた - Np-Urのデータ分析教室

    前回まで、決定木・ランダムフォレストの理論について勉強しました。 www.randpy.tokyo www.randpy.tokyo 今回はPythonで実際に動かしていきたいと思います。扱うのは、タイタニック号の生存者データです。性別や年齢など、どんな要素が生存率に影響を与えていたのか、分析してみます。 なお、Pythonによる決定木・ランダムフォレスト のコード例は、以下の書籍にも記載されてますので、参考にしてみてください。 Pythonと実データで遊んで学ぶ データ分析講座 作者: 梅津雄一,中野貴広出版社/メーカー: シーアンドアール研究所発売日: 2019/08/10メディア: 単行(ソフトカバー)この商品を含むブログを見る これは、kaggleという世界的なデータ分析コンペティションで提供されているサンプルデータですので、ご存知の方も多く少し面白みには欠けますが、決定木とラン

    【Pythonで決定木 & Random Forest】タイタニックの生存者データを分析してみた - Np-Urのデータ分析教室
  • Python: scikit-learn で決定木 (Decision Tree) を試してみる - CUBE SUGAR CONTAINER

    今回は機械学習アルゴリズムの一つである決定木を scikit-learn で試してみることにする。 決定木は、その名の通り木構造のモデルとなっていて、分類問題ないし回帰問題を解くのに使える。 また、決定木自体はランダムフォレストのような、より高度なアルゴリズムのベースとなっている。 使うときの API は scikit-learn が抽象化しているので、まずは軽く触ってみるところから始めよう。 決定木がどんな構造を持ったモデルなのかは最後にグラフで示す。 また、決定木自体は回帰問題にも使えるけど、今回は分類問題だけにフォーカスしている。 使った環境は次の通り。 $ sw_vers ProductName: Mac OS X ProductVersion: 10.12.4 BuildVersion: 16E195 $ python --version Python 3.5.3 下準備 まずは

    Python: scikit-learn で決定木 (Decision Tree) を試してみる - CUBE SUGAR CONTAINER
  • FastBDTでの高速化 - Negative/Positive Thinking

    はじめに 勾配ブースティング木の高速化はどうすればいいだろうと調べていたら、arxivで流れているのを見かけたのでメモ。 FastBDT: A speed-optimized and cache-friendly implementation of stochastic gradient-boosted decision trees for multivariate classification https://arxiv.org/abs/1609.06119 https://github.com/thomaskeck/FastBDT Stochastic Gradient Boosted Decision Tree(SGBDT) 勾配ブースティングの各イテレーションで、学習データから非復元抽出でサンプリングしたデータを用いる https://statweb.stanford.edu/~j

    FastBDTでの高速化 - Negative/Positive Thinking
  • Treasure Data に蓄積した行動履歴から決定木を使ってユーザの継続要因を調べる | GMOメディア エンジニアブログ

    こんにちは、ベガルタ仙台サポーターのCSMです。 職は (たぶん) サーバ/インフラエンジニアです。 ※ CSM: 認定スクラムマスター 私はプリ画像というサービスを運営するコミュニティ事業部にインフラ・運用担当として所属しているのですが、今回はこのプリ画像ユーザの継続要因を決定木分析で調べてみたお話をします。 経緯部内のチャットツールで下記のような課題が挙がっていました。 施策を考える上で、継続率が高いユーザはなぜ継続率が高いのか知りたい 各アクションの日次件数は取れているが、そのアクションをしたユーザーの継続率の変化を追えてないので追う何回やれば継続率が高いのか、集計できないか検索1回だけだと継続率低いけど、5回やれば高い!とかがわかれば、より具体的なアプローチができそう例) Facebookは初日に友達7人以上と繋がると、その後の継続率がかなり高くなるよくある課題だと思います。 こ

  • 1