皆さんこんにちは 機械学習チーム YAMALEXチームの@tereka114です。最近、寒いので、鍋を中心に食べて生きています。 検証段階でも、規模の大きなデータを扱う機会が増えてきて、Pandasのメモリ消費量が厳しいと感じてきたので、その削減や効率化のテクニックまとめたいと思いました。 有名なものからマイナーなものまで、思いつく限り書いてみます。 そもそもなぜ、Pandasのメモリ削減技術が必要なのか 準備 Pandasのメモリ削減 1. 型修正 2. 逐次読み込み 3. 読み込み時の型指定 4. 逐次読み込み&集約 5. 不要なものを読み込まない 6. 不要なカラム/DataFrameを消す 番外編:そもそもPandasを利用しない 最後に そもそもなぜ、Pandasのメモリ削減技術が必要なのか Pandasで扱うデータの多くのファイルはCSV,Parquet, JSON(JSONL
An Eye on your system Glances is a cross-platform system monitoring tool written in Python. View on GitHub CPU Memory Load Process list Network interface Disk I/O IRQ / Raid Sensors Filesystem (and folders) Container (Docker and Podman supported) Monitor Alert System info Uptime Quicklook (CPU, MEM, LOAD) Cross-platform Written in Python, Glances will run on almost any plaftorm : GNU/Linux, FreeBS
EngineeringPyflame: Uber Engineering’s Ptracing Profiler for PythonSeptember 27, 2016 / Global At Uber, we make an effort to write efficient backend services to keep our compute costs low. This becomes increasingly important as our business grows; seemingly small inefficiencies are greatly magnified at Uber’s scale. We’ve found flame graphs to be an effective tool for understanding the CPU and mem
ログ可視化ツールの 3 点セット、Fluentd + Elasticsearch5 + Kibana5 を試すメモ 5 回目。前回は Elasticsearch に登録されてから一定期間を過ぎたログを自動的に削除するところをやりました。 これまでの状態で Elasticsearch をしばらく動作させていると、Kibana が応答しなくなる現象が発生しました。調べてみると Kibana ではなく Elasticsearch がメモリ不足で落ちている様子。Elasticsearch を動作させているマシンのメモリは 2GB。 低スペックのサーバでも動作させられるように Elasticsearch のメモリ使用量を減らす方法を調べました。 目次 Elasticsearch のデフォルトのメモリ使用量は 2GB くらい Java VM のヒープサイズを調整する インデックスのキャッシュ量を調整す
自分の中のプログラミングの常識というものは、ときどき現実のハードウェアに合わせて調節しないといけない。ハードウェアが進歩し続けているので、コンピュータで簡単にできることと相対的に難しいことのバランスが変化し続けているからだ。ここでは特にストレージにフォーカスして書こうと思う。 昔はメモリが相対的にとても貴重な資源だったので多くのプログラマがメモリを節約することに血道を上げていた。例えばWindowsの初期の頃に設計されたデータ構造には、メモリをバイト単位ででもいいから節約したいという意図の痕跡がいまでも多く見受けられる。DRAMの次に速い記憶装置はHDDだったので、メモリが足りなくなればHDDにデータを保存せざるを得ないのだが、DRAMとHDDのランダムアクセスの速度差は、机の上の本の開いているページを見るのと、その本をAmazonで注文して到着するのを待つのと同じくらいのスケールで違うの
今日はPython (Pandas)で高速にCSVを読むことに挑戦したいと思います。 Kaggleに参加するたびに、イライラしていたので各実装の白黒はっきりさせようと思います。 R使いが羨ましいなぁと思う第一位がCSV読込が簡単に並列出来て速いことなので、 なんとかGILのあるPythonでも高速に読み込みたいと思います。 ただ、この検証ではコーディング量が多いものは検証しません。 CSV読込は頻出するので、フットワークの軽さが重要です。(オレオレライブラリ嫌い) Pickleは早いけど。。。 結論はDask使おう! 検証環境 データ 速度検証 pandas.read_csv() pandas.read_csv() (dtype指定) pandas.read_csv() (gzip圧縮) numpy.genfromtxt() pandas.read_csv() (chunksize指定 +
Older versions of this plugin may not be safe to use. Please review the following warnings before using an older version: XML External Entity Processing Vulnerability Clickjacking vulnerability CSRF vulnerability Summary Monitoring plugin: Monitoring of Jenkins itself with JavaMelody. Open the report (or http://yourhost/monitoring) after installation. Features summarizedCharts of memory, cpu, syst
"aka motsu-nabe" by chatani 概要 冬の寒さも一段と厳しくなってまいりました。おでんや鍋が恋しくなる季節です。 さて、最近ようやっと一仕事が終わりまして、長ったらしい記事が書けるようになりました。ですので、今回は2011年にTPAMIで発表された、近似最近傍探索についての論文『Product quantization for nearest neighbor search』について簡単に紹介したいと思います。 この論文は2011年に発表された、最近傍探索アルゴリズムの決定打です。シンプルな理論でありながら既存手法を打ち破るほどの強力な性能を有し、速度も非常に高速、かつ省メモリなのでスマートフォンに載せ、リアルタイムで動作させることも可能です。 以前この手法はCV勉強会@関東で紹介されたらしいのですが、具体的に紹介しているページは(最近すぎるので当たり前ですが)現在
はじめに linuxのメモリ利用容量(空き容量)の考え方 linuxのメモリ利用容量/空き容量の計算方法 ■RHEL7 【freeコマンドとmeminfoの図解】 【計算方法】 freeコマンド表示例 /proc/meminfo表示例 ■RHEL6 【freeコマンドとmeminfoの図解】 【計算方法】 freeコマンド表示例 /proc/meminfo表示例 ■RHEL5以前 【freeコマンドとmeminfoの図解】 【計算方法】 freeコマンド表示例 /proc/meminfo表示例 蛇足 その1:無名ページとファイルページ その2:図解の内容のツッコミ その3:RHEL6の計算 その4:Inactiveを空き領域とすることは間違い。 はじめに linuxサーバを利用する上で何時も頭を悩ますものの一つが、メモリ利用状況の評価(メモリ利用率)ではないでしょうか。私も悩みます。そこで
Intellij IDEAさんとかWebStormさんとかAppCodeさんとかIDE立ち上げまくると8GBメモリあっても足りなくなります(´・ω・`) メモリを900MBぐらい確保してるのに200MBしか使ってというのが大半なので最大値を指定したい。 前に調べたときはplistに書いてたんだけど、更新とかで上書きされたりするから下記ファイルのほうがいいらしい。 ~/Library/Preferences/<appFolder>/idea.vmoptions こんな感じで。 -Xms512m -Xmx512m -XX:MaxPermSize=256m -XX:ReservedCodeCacheSize=64m -XX:+UseCodeCacheFlushing -XX:+UseCompressedOops IDEAさんを再起動する。Max512MB指定してるのになんかオーバーしてる。Per
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く