[B! mapreduce] manabouのブックマーク

manabou id:manabou

mapreduceに関するmanabouのブックマーク (45)

「まさに逆転の発想だ！」福岡県宇美町が新型コロナウイルスワクチン接種会場で動きの遅い高齢者のために導入した方法が画期的で全国で広まって欲しい！
知念実希人【公式】 @MIKITO_777 やはり、1日100万回の接種を何とか達成しないといけませんね。現在は30万回強。まだまだ、大規模接種会場やかかりつけ医での接種が十分に始まっていない状態なので、目標は十分に達成可能だと思います。頑張りましょう！ a.msn.com/01/ja-jp/BB1gM… 2021-05-16 20:22:01
manabou 2021/05/17
hadoop

mapreduce

work

life

communication

health
リンク
「Hadoopの時代は終わった」の意味を正しく理解する - 科学と非科学の迷宮
Hadoopの時代は終わった、という言説をたまに見かけるようになりました。もちろん終わってなどいません。しかし、Hadoopとその取り巻く環境が変化したのは事実です。本記事では、この変化が何なのかを明らかにし、その上で、なぜHadoopの時代は終わったという主張が実態を正しく表していないのかを説明していきます。 DISCLAIMER 私はHadoopを中心としたデータ基盤を取り扱うベンダー、Clouderaの社員です。中立的に書くよう努めますが、所属組織によって発生するバイアスの完全な排除を保証することはできません。以上をご了承の上、読み進めてください。要約データ基盤は、Hadoopの登場により非常に安価となり、今まででは不可能だった大量のデータを取り扱えるようになりました。 Hadoopは、NoSQLブームの中、処理エンジンであるMapReduceとストレージであるHDFSが
manabou 2017/08/07
hadoop

mapreduce

spark

cloudera
リンク
TensorFlow Paper 感想
当方機械学習素人につき大して興味はなかったものの、実は Jeff Dean 案件だと気付き whitepaper くらいは読むことにした。ぎもん: Jeff Dean といえば MapReduce や GFS を作った Google の神話級プログラマ。そんな分散インフラの達人がなぜまた深層学習に手を出したのだろう。わかったこと: TensorFlow は、行列(というかテンソル)に特化したデータフロー・プログラミングの分散実行処理系だった。データフロー・プログラミングとは、データを受け取り何か計算して結果を誰かに渡す、という単位のオブジェクト(ノード、カーネルなどと呼ぶ)をつなぎ合わせてグラフをつくり、より大きな計算を表現する抽象化のパターン。最近はリアクティブの文脈で目にすることが増えた。そして MapReduce/Hadoop も今はデータフローの枠組みでコードを書くことが多
manabou 2016/06/09
tensorflow

mapreduce

cpu

gpu
リンク
ElixirのOTPでMapReduce処理を実装する | DevelopersIO
Elixirには複数プロセスを使ってアプリケーションを簡単に実装するためのフレームワークであるOTPが用意されています。 OTPを使うとプロセス間のメッセージ通信やエラー時の再起動処理、プロセスの状態管理が非常に簡単に実装できます。今回はOTPを使ってMapReduceのプログラムを実装してみます。 MapReduce Apache Lucene MapReduceの仕組みが利用されているソフトウェアをご紹介します。 LuceneはJavaで実装されている全文検索エンジンで、Elasticsearchの内部でも使われています。このLuceneですが、MapReduceの仕組みを使って単語の出現場所のインデックスを生成しています(Luceneの作者は最初、Lispで実装を試したそうです)。今回はこのMapReduceで文書のインデックスを生成する処理をElixirで実装してみます。 (
manabou 2015/12/25
elixir

otp

mapreduce
リンク
DMMゲームのログ解析~Parquetについて~ - DMM.comラボエンジニアブログ
こんにちは、オンラインゲームのバックエンド、KPIシステムを担当していますマサヨシです。先日に引き続き【DMMオンラインゲームで実際に実装しているログとKPI】に関してご紹介する第2回です。 DMMゲームのログ解析~ログ収集と解析の概要~ 第2回はログを実装する際に利用している"Parquet"についてご紹介します。 Parquetとは？こちらは"Parquet"と書くのですが、「パーケイ」と読みます。 Parquetは何かというと、CSVやJSONのようにDBのレコードを格納できるデータフォーマットです。 Parquetはデータフォーマットの中でもカラムナーストレージフォーマットと呼ばれるもので、列方向にデータを格納しています。そのためカラムへのアクセスが速く、特にSELECT,WHERE,GROUP BYの使用時に効果的です。また、同じカラムには似たようなデータが格納されている
manabou 2015/09/08
parquet

tsv

csv

gzip

mapreduce

fluentd
リンク
Spark／MapReduceの機械学習ライブラリ比較検証
2015/5/21 Hadoopソースコードリーディング第19回におけるリクルートテクノロジーズ堀越による発表資料になりますRead less
manabou 2015/06/11
slide

mapreduce

mahout

spark

machinelearning
リンク
分散システム処理モデルに関する動向について（MapReduceからBorgまで）
詳細については後述しますが、MapReduceの処理モデルは、上記の通り各区分ごとにそれぞれ単純化（限定）されたモデルであったと言えます。また、MapReduceの関数プログラミングおよびグラフ的な特徴も合わせて以下に整理してみます。関数プログラミング的な特徴 MapおよびReduceフェーズは、それぞれ関数型プログラミングのMapおよびReduce処理をモデル化したものです。MapReduceは、参照透過性がある純粋な関数処理と言えます。参照透過性とは入力により出力が一意に決まる性質のことです。言い換えればMapReduceの処理は、大域などの処理に影響する外部の環境は持たず、内部的にも静的な一時変数などの状態も持たないことを意味します。純粋な関数処理は複数の処理が同時に実行されても他の並列に動作している処理の状態には左右されないため、この参照透過性は並列化に向いている性質がありま
manabou 2015/06/11
distributed

architecture

mapreduce

graph
リンク
MapReduceは楽しい：巨大なデータセットのサンプリング | POSTD
この記事はBloomReachの主席エンジニア、Chou-han Yangによるものです。 MapReduceの最大の利点は、非常に高い演算性能と巨大なストレージを瞬時に手に入れられることです。これは、子供が前から大好きだった遊びに、新しいおもちゃを加えられないか、と考えるようなものだと私は思います。長い間楽しんできた遊びに対して、新しい遊び方を思いついたとしたら、とても興奮しますよね。このことから私は、シングルプロセスのプログラムを書く時によくやることを改めて思い出します。つまり、MapReduceフレームワークに合わせるにはプロセス全体を徹底的に調査しなければならないということです。特にHadoopは、スムーズに実行するために慎重な調整が必要となるからです。この記事では、簡単な例を見てみましょう。サイズが不明の非常に大きなデータセットからn個の要素をサンプリングします。非MapRe
manabou 2015/05/14
hadoop

mapreduce

algorithm
リンク
Playing with hadoop/mapreduce and htsjdk/VCF : my notebook.
The aim of this test is to get a count of each type of variant/genotypes in a VCF file using Apache Hadoop and the java library for NGS htsjdk. My source code is available at: https://github.com/lindenb/hadoop-sandbox/blob/master/src/main/java/com/github/lindenb/hadoop/Test.java. First, and this is my main probl em, I needed to create a class 'VcfRow' that would contains the whole data about a vari
manabou 2015/05/07
hadoop

mapreduce

vcf
リンク
Hadoopを10分で試す
ブログの総集編です。下記にあるリンクを参照してください。 Hadoopを使ってみたい！新しく何かを始めようと思った時、面倒だなぁと思うことは多いものです。書籍やブログをみて「これは役立ちそうだ」と思っても、ちょっと試すことにさえにも辿り着けず、頓挫しているものがTODOリストやPocket（旧Readitlater）に大量にあります。＃書いていて嫌な気持ちになってきた、、、 Hadoopはそんな面倒なものの一つかもしれません。書籍を読んで「よし、やってみるか」という強い決意を持ったすぐ後、「試すにはマシンを買わないといけないのかなぁ」「いや、EC2でいけそう。アカウントどうしようか」「なんか仮想マシンでもできそうって書いてある」という第一の壁があります。運良く壁を乗り越えたあと、「ソフトはどこからダウンロードすればいいだっけ？」「コマンドラインでやるの？」「設定面倒そう
manabou 2015/02/17
hadoop

cloudera

mapreduce
リンク
Pachyderm Docs
Pachyderm Documentation Learn how to get up and running with Pachyderm through guides, tutorials, SDKs, and reference articles.
manabou 2015/02/17
pachyderm

docker

mapreduce
リンク
Apache Sparkってどんなものか見てみる（その１ - 夢とガラクタの集積場
こんにちは。 Kafkaを試している最中で微妙ですが、最近使えるのかなぁ、と情報を集めているのが「Apache Spark」です。 MapReduceと同じく分散並行処理を行う基盤なのですが、MapReduceよりも数十倍速いとかの情報があります。・・・んな阿呆な、とも思ったのですが、内部で保持しているRDDという仕組みが面白いこともあり、とりあえず資料や論文を読んでみることにしました。まず見てみた資料は「Overview of Spark」（http://spark.incubator.apache.org/talks/overview.pdf）です。というわけで、読んだ結果をまとめてみます。 Sparkとは？高速でインタラクティブな言語統合クラスタコンピューティング基盤 Sparkプロジェクトのゴールは？以下の2つの解析ユースケースにより適合するようMapReduceを拡張
manabou 2013/09/02
hadoop

mapreduce

spark
リンク
Apache Crunch:MapReduceプログラミングを容易にするJavaライブラリ
Spring BootによるAPIバックエンド構築実践ガイド第2版何千人もの開発者が、InfoQのミニブック「Practical Guide to Building an API Back End with Spring Boot」から、Spring Bootを使ったREST API構築の基礎を学んだ。この本では、出版時に新しくリリースされたバージョンである Spring Boot 2 を使用している。しかし、Spring Boot3が最近リリースされ、重要な変...
manabou 2013/01/17
apache

mapreduce

java

library
リンク
Mapreduce Algorithms
manabou 2012/10/02
hadoop

mapreduce

algorithm
リンク
Large Scale Math with Hadoop MapReduce
The document discusses using Hadoop MapReduce for large scale mathematical computations. It introduces integer multiplication algorithms like FFT, MapReduce-FFT, MapReduce-Sum and MapReduce-SSA. These algorithms can be used to solve computationally intensive probl ems like integer factoring, PDE solving, computing the Riemann zeta function, and calculating pi to high precision. The document focuses
manabou 2012/10/01
hadoop

mapreduce

math

slide
リンク
Blog | Cloudera
ClouderaNOW Learn about the latest innovations in data, analytics, and AI Watch now
manabou 2012/07/17
hadoop

mapreduce
リンク
HadoopのMapReduceジョブのチューニングに関する資料があったのでめもっとく - wyukawa's diary
Hadoop Summit 2012でClouderaの人が発表した資料を見つけたのではっておく。 Hadoop Summit 2012 | Optimizing MapReduce Job Performance View more PowerPoint from Cloudera, Inc. HadoopのMapReduceジョブのチューニングに関するもので、内容的にはHadoop徹底入門の10章の「性能向上のためのチューニング」と若干かぶっているが参考になります。 spillとかのシャッフルフェーズをどうチューニングするかについて詳しく書かれていて、record fullってログに出てたらメタデータがspillしてるからよくないよねみたいなことが書かれてます。徹底入門だと10.2.2の「Map処理でのフレームワークのチューニング」に書かれていますね。ていうかio.sort.reco
manabou 2012/07/02
mapreduce

hadoop

tips

performance

tuning

slide
リンク
English (US)
Did someone say … cookies? Twitter and its partners use cookies to provide you with a better, safer and faster service and to support our business. Some cookies are necessary to use our services, improve our services, and make sure they work properly. Show more about your choices.
manabou 2012/03/08
twitter

hadoop

scalding

mapreduce
リンク
Blog | Cloudera
ClouderaNOW Learn about the latest innovations in data, analytics, and AI Watch now
manabou 2012/03/06
solr

hadoop

mapreduce

indexing

cloudera
リンク
MapReduceのパターン、アルゴリズム、そしてユースケース - きしだのHatena
Ilya Katsov氏による「MapReduce Patterns, Algorithms, and Use Cases」の翻訳 http://highlyscala ble.wordpress.com/2012/02/01/mapreduce-patterns/ (下書きに入れて推敲するつもりが、なんか公開されてしまっていたので、あとでいろいろ修正すると思います) February 1, 2012 この記事では、Webや科学論文で見られる異なるテクニックの体系的な視点を与えるために、数々のMapReduceパターンとアルゴリズムをまとめた。いくつかの実用的なケーススタディも提供している。すべての説明とコードスニペットでは、Mapper、Reducer、Combiner、Partitionaer、ソーティングにおいてHadoopの標準的なMapReduceモデルを利用します。このフレー
manabou 2012/02/24
mapreduce

hadoop

algorithm
リンク
1 2 3 次のページ