Download free for 30 days
Sign in
Upload
Language (EN)
Support
Business
Mobile
Social Media
Marketing
Technology
Art & Photos
Career
Design
Education
Presentations & Public Speaking
Government & Nonprofit
Healthcare
Internet
Law
Leadership & Management
Automotive
Engineering
Software
Recruiting & HR
Retail
Sales
Services
Science
Small Business & Entrepreneurship
Food
Environment
Economy & Finance
Data & Analytics
Investor Relations
Sports
Spiritual
News & Politics
Travel
Self Improvement
Real Estate
Entertainment & Humor
Health & Medicine
Devices & Hardware
Lifestyle
Change Language
Language
English
Español
Português
Français
Deutsche
Cancel
Save
EN
Uploaded by
Kouhei Sutou
897 views
Apache Arrow
Apache Arrowの2018年11月現在の最新情報を紹介します。特に、Ruby関連の部分を紹介します。
Technology
◦
Read more
0
Save
Share
Embed
Embed presentation
Download
Download to read offline
1
/ 46
2
/ 46
3
/ 46
4
/ 46
5
/ 46
6
/ 46
7
/ 46
8
/ 46
9
/ 46
10
/ 46
11
/ 46
12
/ 46
13
/ 46
14
/ 46
15
/ 46
16
/ 46
17
/ 46
18
/ 46
19
/ 46
20
/ 46
21
/ 46
22
/ 46
23
/ 46
24
/ 46
25
/ 46
26
/ 46
27
/ 46
28
/ 46
29
/ 46
30
/ 46
31
/ 46
32
/ 46
33
/ 46
34
/ 46
35
/ 46
36
/ 46
37
/ 46
38
/ 46
39
/ 46
40
/ 46
41
/ 46
42
/ 46
43
/ 46
44
/ 46
45
/ 46
46
/ 46
More Related Content
PDF
Apache Arrow 1.0 - A cross-language development platform for in-memory data
by
Kouhei Sutou
PDF
Apache Arrow
by
Kouhei Sutou
PDF
Apache Arrow 2019
by
Kouhei Sutou
PDF
Apache Arrow - データ処理ツールの次世代プラットフォーム
by
Kouhei Sutou
PDF
Apache Arrow Flight – ビッグデータ用高速データ転送フレームワーク #dbts2021
by
Kouhei Sutou
PDF
Apache Arrow - A cross-language development platform for in-memory data
by
Kouhei Sutou
PDF
Rubyと仕事と自由なソフトウェア
by
Kouhei Sutou
PDF
Spark Streamingを活用したシステムの検証結果と設計時のノウハウ
by
Future Of Data Japan
Apache Arrow 1.0 - A cross-language development platform for in-memory data
by
Kouhei Sutou
Apache Arrow
by
Kouhei Sutou
Apache Arrow 2019
by
Kouhei Sutou
Apache Arrow - データ処理ツールの次世代プラットフォーム
by
Kouhei Sutou
Apache Arrow Flight – ビッグデータ用高速データ転送フレームワーク #dbts2021
by
Kouhei Sutou
Apache Arrow - A cross-language development platform for in-memory data
by
Kouhei Sutou
Rubyと仕事と自由なソフトウェア
by
Kouhei Sutou
Spark Streamingを活用したシステムの検証結果と設計時のノウハウ
by
Future Of Data Japan
What's hot
PDF
Run Spark on EMRってどんな仕組みになってるの?
by
Satoshi Noto
PDF
AWS Black Belt Techシリーズ Amazon CloudSearch
by
Amazon Web Services Japan
PDF
Sparkパフォーマンス検証
by
BrainPad Inc.
PPTX
研究用途でのAWSの利用事例と機械学習について
by
Yasuhiro Matsuo
PDF
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)
by
Noritaka Sekiyama
PDF
Deep Dive into Spark SQL with Advanced Performance Tuning
by
Takuya UESHIN
PDF
Amazon Elastic MapReduceやSparkを中心とした社内の分析環境事例とTips
by
yuichi_komatsu
PDF
AWS Black Belt Tech Webinar 2016 〜 Amazon CloudSearch & Amazon Elasticsearch ...
by
Amazon Web Services Japan
PDF
ソーシャルゲームのEMR活用事例
by
知教 本間
PDF
Running Apache Spark on AWS
by
Noritaka Sekiyama
PPTX
Amazon Athena で実現する データ分析の広がり
by
Amazon Web Services Japan
PPTX
20111215_第1回EMR勉強会発表資料
by
Kotaro Tsukui
PPTX
Hive on Spark の設計指針を読んでみた
by
Recruit Technologies
PDF
Tez on EMRを試してみた
by
Satoshi Noto
PDF
20191211_Apache_Arrow_Meetup_Tokyo
by
Kohei KaiGai
PDF
Is spark streaming based on reactive streams?
by
chibochibo
PDF
Apache ArrowのRubyバインディングをGObject Introspectionで
by
Kouhei Sutou
PDF
Sparkストリーミング検証
by
BrainPad Inc.
PDF
NetflixにおけるPresto/Spark活用事例
by
Amazon Web Services Japan
PDF
Machine Learning on AWS
by
Amazon Web Services Japan
Run Spark on EMRってどんな仕組みになってるの?
by
Satoshi Noto
AWS Black Belt Techシリーズ Amazon CloudSearch
by
Amazon Web Services Japan
Sparkパフォーマンス検証
by
BrainPad Inc.
研究用途でのAWSの利用事例と機械学習について
by
Yasuhiro Matsuo
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)
by
Noritaka Sekiyama
Deep Dive into Spark SQL with Advanced Performance Tuning
by
Takuya UESHIN
Amazon Elastic MapReduceやSparkを中心とした社内の分析環境事例とTips
by
yuichi_komatsu
AWS Black Belt Tech Webinar 2016 〜 Amazon CloudSearch & Amazon Elasticsearch ...
by
Amazon Web Services Japan
ソーシャルゲームのEMR活用事例
by
知教 本間
Running Apache Spark on AWS
by
Noritaka Sekiyama
Amazon Athena で実現する データ分析の広がり
by
Amazon Web Services Japan
20111215_第1回EMR勉強会発表資料
by
Kotaro Tsukui
Hive on Spark の設計指針を読んでみた
by
Recruit Technologies
Tez on EMRを試してみた
by
Satoshi Noto
20191211_Apache_Arrow_Meetup_Tokyo
by
Kohei KaiGai
Is spark streaming based on reactive streams?
by
chibochibo
Apache ArrowのRubyバインディングをGObject Introspectionで
by
Kouhei Sutou
Sparkストリーミング検証
by
BrainPad Inc.
NetflixにおけるPresto/Spark活用事例
by
Amazon Web Services Japan
Machine Learning on AWS
by
Amazon Web Services Japan
Similar to Apache Arrow
PDF
RubyもApache Arrowでデータ処理言語の仲間入り
by
Kouhei Sutou
PDF
プログラマー
by
Kouhei Sutou
PDF
Rabbit
by
Masahiro Tomita
PDF
Ruby開発が教えてくれたこと
by
yukihiro_matz
PDF
Matz presentation for Fukuoka Ruby Days 2010
by
Ruby Business Commons
PDF
Ruby紹介
by
Masahiro Tomita
PDF
リーダブルコードを読んだ後
by
Kouhei Sutou
PDF
MySQL/Ruby終了のお知らせ
by
Masahiro Tomita
PDF
Groonga族2016
by
Kouhei Sutou
PDF
実践リーダブルコードの概要
by
Kouhei Sutou
PDF
組込み向けRuby処理系mrubyの可能性
by
Salesforce Developers Japan
PDF
PGroongaの実装
by
Kouhei Sutou
RubyもApache Arrowでデータ処理言語の仲間入り
by
Kouhei Sutou
プログラマー
by
Kouhei Sutou
Rabbit
by
Masahiro Tomita
Ruby開発が教えてくれたこと
by
yukihiro_matz
Matz presentation for Fukuoka Ruby Days 2010
by
Ruby Business Commons
Ruby紹介
by
Masahiro Tomita
リーダブルコードを読んだ後
by
Kouhei Sutou
MySQL/Ruby終了のお知らせ
by
Masahiro Tomita
Groonga族2016
by
Kouhei Sutou
実践リーダブルコードの概要
by
Kouhei Sutou
組込み向けRuby処理系mrubyの可能性
by
Salesforce Developers Japan
PGroongaの実装
by
Kouhei Sutou
More from Kouhei Sutou
PDF
RubyKaigi 2022 - Fast data processing with Ruby and Apache Arrow
by
Kouhei Sutou
PDF
RubyKaigi Takeout 2021 - Red Arrow - Ruby and Apache Arrow
by
Kouhei Sutou
PDF
Apache Arrowフォーマットはなぜ速いのか
by
Kouhei Sutou
PDF
Redmine検索の未来像
by
Kouhei Sutou
PDF
Better CSV processing with Ruby 2.6
by
Kouhei Sutou
PDF
MySQL・PostgreSQLだけで作る高速あいまい全文検索システム
by
Kouhei Sutou
PDF
MySQL 8.0でMroonga
by
Kouhei Sutou
PDF
My way with Ruby
by
Kouhei Sutou
PDF
Red Data Tools
by
Kouhei Sutou
PDF
Mroongaの高速全文検索機能でWordPress内のコンテンツを有効活用!
by
Kouhei Sutou
PDF
MariaDBとMroongaで作る全言語対応超高速全文検索システム
by
Kouhei Sutou
PDF
PGroonga 2 – Make PostgreSQL rich full text search system backend!
by
Kouhei Sutou
PDF
PGroonga 2 - PostgreSQLでの全文検索の決定版
by
Kouhei Sutou
PDF
PostgreSQLとPGroongaで作るPHPマニュアル高速全文検索システム
by
Kouhei Sutou
PDF
Improve extension API: C++ as better language for extension
by
Kouhei Sutou
PDF
PGroonga & Zulip
by
Kouhei Sutou
PDF
MySQL・PostgreSQLだけで作る高速でリッチな全文検索システム
by
Kouhei Sutou
PDF
全文検索でRedmineをさらに活用!
by
Kouhei Sutou
PDF
MySQL・PostgreSQL上で動かす全文検索エンジン「Groonga」セミナー
by
Kouhei Sutou
PDF
PHPでPostgreSQLとPGroongaを使って高速日本語全文検索!
by
Kouhei Sutou
RubyKaigi 2022 - Fast data processing with Ruby and Apache Arrow
by
Kouhei Sutou
RubyKaigi Takeout 2021 - Red Arrow - Ruby and Apache Arrow
by
Kouhei Sutou
Apache Arrowフォーマットはなぜ速いのか
by
Kouhei Sutou
Redmine検索の未来像
by
Kouhei Sutou
Better CSV processing with Ruby 2.6
by
Kouhei Sutou
MySQL・PostgreSQLだけで作る高速あいまい全文検索システム
by
Kouhei Sutou
MySQL 8.0でMroonga
by
Kouhei Sutou
My way with Ruby
by
Kouhei Sutou
Red Data Tools
by
Kouhei Sutou
Mroongaの高速全文検索機能でWordPress内のコンテンツを有効活用!
by
Kouhei Sutou
MariaDBとMroongaで作る全言語対応超高速全文検索システム
by
Kouhei Sutou
PGroonga 2 – Make PostgreSQL rich full text search system backend!
by
Kouhei Sutou
PGroonga 2 - PostgreSQLでの全文検索の決定版
by
Kouhei Sutou
PostgreSQLとPGroongaで作るPHPマニュアル高速全文検索システム
by
Kouhei Sutou
Improve extension API: C++ as better language for extension
by
Kouhei Sutou
PGroonga & Zulip
by
Kouhei Sutou
MySQL・PostgreSQLだけで作る高速でリッチな全文検索システム
by
Kouhei Sutou
全文検索でRedmineをさらに活用!
by
Kouhei Sutou
MySQL・PostgreSQL上で動かす全文検索エンジン「Groonga」セミナー
by
Kouhei Sutou
PHPでPostgreSQLとPGroongaを使って高速日本語全文検索!
by
Kouhei Sutou
Apache Arrow
1.
Apache Arrow Powered
by Rabbit 2.2.2 Apache Arrow 須藤功平 株式会社クリアコード RubyData Tokyo Meetup 2018-11-17
2.
Apache Arrow Powered
by Rabbit 2.2.2 Apache Arrow 各種言語で使える インメモリー データ処理 プラットフォーム
3.
Apache Arrow Powered
by Rabbit 2.2.2 提供するもの 高速なデータフォーマット✓ 高速なデータ処理ロジック 各プロダクトで個別に実装するより 一緒にいいものを実装して共有しよう! ✓ ✓ 効率的なデータ交換処理✓ ...✓
4.
Apache Arrow Powered
by Rabbit 2.2.2 利用例 高速なデータ処理ロジック Apache Arrow提供 高速なデータフォーマット 効率的なデータ交換処理 分散処理ツール コーディネーター ワーカー データ収集 ツール データ前処理 ツール クエリー 実行エンジン 可視化 ツール ワーカー ワーカー
5.
Apache Arrow Powered
by Rabbit 2.2.2 大事にすること1 効率的なデータ交換
6.
Apache Arrow Powered
by Rabbit 2.2.2 前提 イマドキの データ処理システムは 単一コンポーネントで 完結しない
7.
Apache Arrow Powered
by Rabbit 2.2.2 複数コンポーネント メリット: コンポーネント毎に適した言語を使える✓ ✓ デメリット: データ交換が増える(オーバーヘッド)✓ ✓
8.
Apache Arrow Powered
by Rabbit 2.2.2 データ交換コスト シリアライズコスト✓ 転送コスト✓ デシリアライズコスト✓
9.
Apache Arrow Powered
by Rabbit 2.2.2 コスト例:JSON シリアライズコスト [1] -#to_json-> "[1]" 転送コスト -output#write-> -input#read-> デシリアライズコスト "[1]" -JSON.parse-> [1]
10.
Apache Arrow Powered
by Rabbit 2.2.2 コスト比較例:JSON n = 1000000 numbers = n.times.to_a JSON.dump(numbers, json_file) JSON.load(json_file)
11.
Apache Arrow Powered
by Rabbit 2.2.2 コスト比較例:Apache Arrow n = 1000000 numbers = Arrow::Int32Array.new(numbers) arrow_table = Arrow::Table.new("number" => numbers) arrow_table.save(arrow_path) Arrow::Table.load(arrow_path)
12.
Apache Arrow Powered
by Rabbit 2.2.2 コスト比較例 実行時間 JSON比 JSON 0.099秒 1 Apache Arrow 0.002秒 1/50
13.
Apache Arrow Powered
by Rabbit 2.2.2 データ交換コストの影響 コンポーネント数と正の相関 コンポーネントが増えると無視できない✓ ✓ データ量と正の相関 データが多くなると無視できない✓ ✓
14.
Apache Arrow Powered
by Rabbit 2.2.2 まとめ イマドキのデータ処理システムで 大量データを処理するなら データ交換コストを無視できない ✓ Apache Arrowはデータ交換コストが低い 仕組みは後述✓ ✓
15.
Apache Arrow Powered
by Rabbit 2.2.2 大事にすること2 各種言語で使えること
16.
Apache Arrow Powered
by Rabbit 2.2.2 各種言語 Java, C++, Python, C, Ruby, Lua, JavaScript, Go, Rust, MATLAB, R, C#
17.
Apache Arrow Powered
by Rabbit 2.2.2 イマドキのデータ処理システム コンポーネント毎に適した言語を採用 採用言語でApache Arrowを使えないと システムでApache Arrowを使えない ✓ ✓ Apache Arrowに対応していれば コンポーネントでその言語を採用しやすい Railsが活きるコンポーネントでRubyを使うとか✓ ✓
18.
Apache Arrow Powered
by Rabbit 2.2.2 実現方法 ネイティブ実装 Java, C++, JavaScript, Go, Rust, C#✓ メリット:扱いやすい(インストールが楽とか)✓ ✓ C++実装のバインディング Python, C, Ruby, Lua, MATLAB, R✓ メリット:高速・実装の共有✓ ✓
19.
Apache Arrow Powered
by Rabbit 2.2.2 まとめ Apache Arrowは各種言語で使える Rubyと他の言語でのデータ交換が楽になる✓ ✓ Ruby実装はC++実装のバインディング 速い・豊富な機能(C++実装はすごく進んでいる)✓ ✓
20.
Apache Arrow Powered
by Rabbit 2.2.2 大事にすること3 速いこと
21.
Apache Arrow Powered
by Rabbit 2.2.2 速さが必要な理由 大量のデータを 処理するためポイント:大量データ前提の設計
22.
Apache Arrow Powered
by Rabbit 2.2.2 速いデータフォーマット パースせずに使えるデータフォーマット メモリー上で効率よく扱える並びでデータを配置✓ パースしなくてよいし、そのまま使っても速い✓ ✓ 既存のデータの並びと互換性あり 例:NumPyの数値配列と互換✓ 互換性があるとゼロコピーで使える✓ ✓
23.
Apache Arrow Powered
by Rabbit 2.2.2 速いデータ処理 SIMD・キャッシュメモリー・マルチコアで 高速化 データをアライン・局所化・リードオンリーに✓ ✓ 高速な式評価器 式:column1 + column2みたいなやつ ifとかも使える ✓ Gandiva:式をJITコンパイルして実行✓ ✓
24.
Apache Arrow Powered
by Rabbit 2.2.2 データ処理例:Ruby n = 100000 ruby_table = n.times.collect do { "number1" => rand, "number2" => rand, } end ruby_table.collect do |record| record["number1"] + record["number2"] end
25.
Apache Arrow Powered
by Rabbit 2.2.2 データ処理例:Numo::NArray n = 100000 numo_number1 = Numo::DFloat.new(n).rand numo_number2 = Numo::DFloat.new(n).rand numo_number1 + numo_number2
26.
Apache Arrow Powered
by Rabbit 2.2.2 データ処理例:Gandiva n = 100000 arrow_number1 = Arrow::DoubleArray.new(n.times.collect {rand}) arrow_number2 = Arrow::DoubleArray.new(n.times.collect {rand}) arrow_table = Arrow::Table.new("number1" => arrow_number1, "number2" => arrow_number2)
27.
Apache Arrow Powered
by Rabbit 2.2.2 データ処理例:Gandiva # 次のリリースまでにいい感じに書けるようにする予定 schema = arrow_table.schema expression = Gandiva::Expression.new("add", [schema[:number1], schema[:number2]], Arrow::Field.new("sum", :double)) projector = Gandiva::Projector.new(schema, [expression]) arrow_table.each_record_batch do |record_batch| projector.evaluate(record_batch) end
28.
Apache Arrow Powered
by Rabbit 2.2.2 データ処理例 実行時間 Ruby比 Ruby 0.010247秒 1 Numo::NArray 0.000158秒 1/67 Gandiva 0.000459秒 1/25 Numo::NArrayがすごくがんばっている
29.
Apache Arrow Powered
by Rabbit 2.2.2 速いデータ交換 同一マシン上での交換 メモリーファイルシステム上に置いてmmap✓ Plasma:データ共有サーバーを動かしてIPC Inter-Process Communication ✓ ✓ 別マシン上での交換 Arrow Flight:gRPCベースのRPCフレームワーク✓ ✓
30.
Apache Arrow Powered
by Rabbit 2.2.2 GPUで速い Plasma:GPU対応✓ RAPIDS:NVIDIAのGPUをデータサイエンスで 活用するためのプロジェクト libgdf:Apache Arrowフォーマットのデータを GPUで扱うデータフレームライブラリー Rubyバインディングはまだない ✓ ✓
31.
Apache Arrow Powered
by Rabbit 2.2.2 まとめ Apache Arrowは速い 速いデータフォーマット✓ 速いデータ処理(もっと速くなるはず)✓ 速いデータ交換✓ ✓ 今後、GPUももっと活用していく✓
32.
Apache Arrow Powered
by Rabbit 2.2.2 Apache Arrowのこれから例 データフォーマットの 相互変換強化
33.
Apache Arrow Powered
by Rabbit 2.2.2 相互変換:Apache Parquet # Apache Arrow→Apache Parquet arrow_table.save("data.parquet") # Apache Parquet→Apache Arrow Arrow::Table.load("data.parquet")
34.
Apache Arrow Powered
by Rabbit 2.2.2 相互変換:Feather # Apache Arrow→Feather arrow_table.save("data.feather") # Feather→Apache Arrow Arrow::Table.load("data.feather")
35.
Apache Arrow Powered
by Rabbit 2.2.2 相互変換:Apache ORC # Apache ORC→Apache Arrow Arrow::Table.load("data.orc")
36.
Apache Arrow Powered
by Rabbit 2.2.2 相互変換:CSV # Apache Arrow→CSV arrow_table.save("data.csv") # CSV→Apache Arrow Arrow::Table.load("data.csv")
37.
Apache Arrow Powered
by Rabbit 2.2.2 CSV読み込み例 # 標準ライブラリー(Ruby実装) CSV.foreach(path) {|row| row} # 拡張ライブラリー Ccsv.foreach(path) {|row| row} # C++実装 Arrow::Table.load(path, use_threads: true)
38.
Apache Arrow Powered
by Rabbit 2.2.2 CSV読み込み時間 実行時間 csv比 csv 0.818315秒 1 ccsv 0.064988秒 1/13 Apache Arrow 0.009030秒 1/90
39.
Apache Arrow Powered
by Rabbit 2.2.2 相互変換:Rubyオブジェクト Rubyバインディング限定 # Active Record→Apache Arrow User.all.to_arrow # Numo::NArray→Apache Arrow narray.to_arrow # NMatrix→Apache Arrow matrix.to_arrow
40.
Apache Arrow Powered
by Rabbit 2.2.2 相互変換の今後 JSON→Apache Arrow✓ Apache Avro→Apache Arrow✓
41.
Apache Arrow Powered
by Rabbit 2.2.2 Apache Arrowのこれから(もっと) RDBMS連携強化 PostgreSQL・MySQLでの実行結果を Apache Arrowフォーマットで返す ✓ ✓ テンソルサポート強化✓ ...✓
42.
Apache Arrow Powered
by Rabbit 2.2.2 Rubyバインディングの今後 Plasma対応✓ GandivaバインディングのAPIをいい感じに✓ バインディングフレームワークの高速化✓ 一緒に開発しようぜ!
43.
Apache Arrow Powered
by Rabbit 2.2.2 Apache ArrowとRubyまわりの今後 libgdfのRubyバインディング開発✓ gumath/xnd/ndtypesとの連携✓ 一緒に開発しようぜ!
44.
Apache Arrow Powered
by Rabbit 2.2.2 おしらせ1 コード懇親会(今日の懇親会)✓ 興味がでてきたプロダクトのコードを 一緒に触ってみよう! ✓ 開発に参加したくなるかも!✓ https://github.com/speee/code-party/tree/ master/rubydata-tokyo-meetup-2018
45.
Apache Arrow Powered
by Rabbit 2.2.2 おしらせ2 OSS Gate東京ミートアップ for Red Data Tools in Speee ✓ 2018-11-20 19:30-(来週の火曜日)✓ Red Data Toolsメンバーが開発する集まり✓ https://speee.connpass.com/event/105237/
46.
Apache Arrow Powered
by Rabbit 2.2.2 おしらせ3 Apache Arrow東京ミートアップ2018✓ 2018-12-08 13:30-✓ 目的:開発者を増やす 対象プロダクト:Apache Arrow、Red Data Tools、 Ruby/Numo、SciRubyなど ✓ ✓ https://speee.connpass.com/event/103514/
Download