タグ

hadoopに関するnilabのブックマーク (25)

  • Apache Hive - Wikipedia

    Apache Hive はHadoopの上に構築されたデータウェアハウス 構築環境であり、データの集約・問い合わせ・分析を行う[1]。Apache Hiveは当初はFacebookによって開発されたが、その後Netflixのようにさまざまな団体が開発に参加し、またユーザーとなった[2][3]。 Hive はAmazon Web ServicesのAmazon Elastic MapReduceにも含まれている[4]。 Apache HiveはHadoop互換のファイルシステム(たとえばAmazon S3)に格納された大規模データセットの分析を行う。使用には、map/reduceを完全にサポートしたSQLライクな「HiveQL」という言語を用いる。クエリの高速化のため、ビットマップインデックスを含めたインデクス機能も実装している[5]。 標準設定では、Hiveはメタデータを組み込みApach

    Apache Hive - Wikipedia
    nilab
    nilab 2016/01/08
    「Apache HiveはHadoop互換のファイルシステム(たとえばAmazon S3)に格納された大規模データセットの分析を行う。使用には、map/reduceを完全にサポートしたSQLライクな「HiveQL」という言語を用いる」
  • Apache Hive

    Apache Hive The Apache Hive ™ is a distributed, fault-tolerant data warehouse system that enables analytics at a massive scale and facilitates reading, writing, and managing petabytes of data residing in distributed storage using SQL. Github Mail Docker Community Apache Hive is a distributed, fault-tolerant data warehouse system that enables analytics at a massive scale. Hive Metastore(HMS) provid

    nilab
    nilab 2013/03/08
    Welcome to Apache HCatalog! : 「Apache HCatalog is a table and storage management service for data created using Apache Hadoop.」
  • Apache Hama - Big Data and High-Performance Computing

    This project has retired. For details please refer to its Attic page. Apache HamaTM is a framework for Big Data analytics which uses the Bulk Synchronous Parallel (BSP) computing model, which was established in 2012 as a Top-Level Project of The Apache Software Foundation. It provides not only pure BSP programming model but also vertex and neuron centric programming models, inspired by Google's Pr

    nilab
    nilab 2012/11/29
    Hama - a Bulk Synchronous Parallel computing framework on top of Hadoop
  • Hadoopでレコメンドシステムを作ろう 記事一覧 | gihyo.jp

    運営元のロゴ Copyright © 2007-2024 All Rights Reserved by Gijutsu-Hyoron Co., Ltd. ページ内容の全部あるいは一部を無断で利用することを禁止します⁠。個別にライセンスが設定されている記事等はそのライセンスに従います。

    Hadoopでレコメンドシステムを作ろう 記事一覧 | gihyo.jp
    nilab
    nilab 2012/08/20
    連載:Hadoopでレコメンドシステムを作ろう|gihyo.jp … 技術評論社
  • Apache Mahout - Overview

    For Creating Scalable Performant Machine Learning Applications Download Mahout Apache Mahout(TM) is a distributed linear algebra framework and mathematically expressive Scala DSL designed to let mathematicians, statisticians, and data scientists quickly implement their own algorithms. Apache Spark is the recommended out-of-the-box distributed back-end, or can be extended to other distributed backe

    nilab
    nilab 2012/05/24
    Apache Mahout: Scalable machine learning and data mining
  • 『モバゲーの大規模データマイニング基盤におけるHadoop活用』-Hadoop Conference Japan 2011- #hcj2011

    『モバゲーの大規模データマイニング基盤におけるHadoop活用』-Hadoop Conference Japan 2011- #hcj2011 2011/02/22 [登壇後エントリ] :" 「モバゲーの大規模データマイニング基盤におけるHadoop活用」-Hadoop Conference Japan 2011 #hcj2011 で登壇してきました " http://d.hatena.ne.jp/hamadakoichi/20110222/p1Read less

    『モバゲーの大規模データマイニング基盤におけるHadoop活用』-Hadoop Conference Japan 2011- #hcj2011
    nilab
    nilab 2011/05/03
    『モバゲーの大規模データマイニング基盤におけるHadoop活用』-Hadoop Conference Japan 2011- #hcj2011
  • Pigs, Bees, and Elephants: A Comparison of Eight MapReduce Languages « Dataspora

    This week’s guest blogger is Dataspora’s own Antonio Piccolboni. The originally post can be found on his personal blog. On a quest for an elegant and effective map reduce language, I went through a number of options and put together some considerations. And the winner is … In a couple of blog entries from my personal blog I described some map-reduce algorithms for statistical and graph problems an

    nilab
    nilab 2011/04/27
    Pigs, Bees, and Elephants: A Comparison of Eight MapReduce Languages « Dataspora
  • Apache HBase - Wikipedia

    Apache HBaseはオープンソースの、列指向、分散データベースであり、GoogleのBigTableをモデルとし、Javaにより書かれている。Apacheソフトウェア財団のHadoopプロジェクトの一部として開発され、HDFS (Hadoop Distributed File System)の上で実行され、Hadoopに対しBigtableのような機能を提供する。 HBaseはBigTable論文に従い圧縮、インメモリ処理の機能、および各列ごとにブルームフィルタを持っている。[2] HBaseにおけるテーブルはHadoop上のMapReduceジョブの入出力として機能し、Java APIのほか、REST、Avro、ThriftといったゲートウェイAPIを通じアクセスが可能である。 HBaseは、古典的なSQLデータベースを直接置き換えるものではないが、近年ではパフォーマンスが向上し、

    nilab
    nilab 2011/04/19
    HBase - Wikipedia
  • ウルシステムズ、業界初、基幹バッチ用のHadoopフレームワーク「Asakusa」 を開発、オープンソース化して提供開始 | ウルシステムズ株式会社

    ウルシステムズ、業界初、基幹バッチ用のHadoopフレームワーク「Asakusa」 を開発、オープンソース化して提供開始 ウルシステムズ株式会社(社:東京都中央区、代表取締役社長:漆原 茂、以下 ウルシステムズ)は、基幹業務システムのバッチを高速処理するためのソフトウェアフレームワーク 「Asakusa FrameworkTM(以下、Asakusa)」を業界で初めて開発、オープンソース化して提供することを発表します。 クラウド技術の普及が進むと共に、企業内システムへの適用の検討が進んでいます。特にHadoop(注1)は、オープンソースの分散処理基盤ソフトウェアとして注目を浴びており、大容量データを多数のサーバーに分散し並列処理させることで高速なデータ処理を実現できます。しかしこれまでは、Webデータの分析や消費者の行動解析などのB2C分野での利用がほとんどであり、企業の基幹業務システムに

    ウルシステムズ、業界初、基幹バッチ用のHadoopフレームワーク「Asakusa」 を開発、オープンソース化して提供開始 | ウルシステムズ株式会社
    nilab
    nilab 2011/02/13
    プレスリリース|2011年2月9日 |ウルシステムズ、業界初、基幹バッチ用のHadoopフレームワーク「Asakusa」 を開発、オープンソース化して提供開始 | ウルシステムズ株式会社 | UL Systems, Inc.
  • Hadoopソースコードリーディングの発表資料「検索エンジンのための転置インデックス構築」 - nokunoの日記

    Hadoopソースコードリーディング第6回 : ATND「Data Intensive Text Processing with MapReduce その2」ということで、前回に引き続きこのについて話させていただきました。Hadoopreading06 data intensive4View more presentations from nokuno.以下、他の人の発表メモです。 Hadoop World 2010報告 NTTデータ山下さん 参加者900人(去年の2倍)! BI関係が目立っていた? eBay: Ganglia, Nagios, HUE, Oozie, Mahout, Pig, Hive, SAML,... AOL: 広告、検索、コンテンツに利用。Mahoutでレコメンドとか Intelのベンチマーク:LZOやHyperThreadingの恩恵 GE:TwiterやYou

    nilab
    nilab 2010/12/21
    Hadoopソースコードリーディングの発表資料「検索エンジンのための転置インデックス構築」 - nokunoの日記
  • JJUG CCC 2010 Fall で講演しました - (゚∀゚)o彡 sasata299's blog

    2010年10月19日18:57 勉強会 Hadoop JJUG CCC 2010 Fall で講演しました 先日、国立オリンピック記念青少年総合センターで行われた JJUG CCC 2010 Fall にて講演してきました。当日は100名以上の方にお越しいただき、ありがとうございます。 日Javaユーザグループ(JJUG)は、「コミュニティのコミュニティ」、「Javaに閉じず」をコンセプトに活動を行なってきました。CCC(クロスコミュニティカンファレンス)は、そうした活動の、年に二回の集約点です。 当日のスライドはこちらをご覧下さい。 961万人の卓を支えるデータ解析View more presentations from Tatsuya Sasaki. 少しでも参考になれば幸いです。にしても、50分トークは長いですね〜 他の方のセッションもとても興味深い内容で面白かったです。特に

    nilab
    nilab 2010/10/27
    JJUG CCC 2010 Fall で講演しました - (゚∀゚)o彡 sasata299's blog : 961万人の食卓を支えるデータ解析
  • HadoopとMongoDBを活用したソーシャルアプリのログ解析

    This document describes code for a data sucka tool that retrieves crisis data from multiple sources including Ushahidi, ReliefWeb, and GDELT, transforms it into a common format, and returns the data. The code defines classes for each data source that implement functions for retrieving data from the source's API, transforming it to match a CrisisNET schema, and returning the data. It retrieves data

    HadoopとMongoDBを活用したソーシャルアプリのログ解析
    nilab
    nilab 2010/10/25
    HadoopとMongoDBを活用したソーシャルアプリのログ解析
  • 資料を公開しました(頓智・×クックパッド合同勉強会  ~裏側の技術とそれぞれの開発スタイル~) - クックパッド開発者ブログ

    9月30日(木)に頓智ドット株式会社様と共同で勉強会を開催いたしました。 当日は多くの皆さまにお集まり頂き、誠にありがとうございました。 クックパッドから発表した佐々木達也の資料をアップいたしますので、 是非ご覧くださいませ。 「HadoopをEMR経由で利用する方法」 クックパッド株式会社 マーケティング支援事業部 佐々木 達也 [slideshare id=5368698&doc=hadoopemr-101006000854-phpapp01]

    資料を公開しました(頓智・×クックパッド合同勉強会  ~裏側の技術とそれぞれの開発スタイル~) - クックパッド開発者ブログ
    nilab
    nilab 2010/10/21
    資料を公開しました(頓智・×クックパッド合同勉強会  ~裏側の技術とそれぞれの開発スタイル~) « クックパッド開発者ブログ : 「HadoopをEMR経由で利用する方法」佐々木 達也 : Elastic MapReduce (EMR)
  • 平成21年度 産学連携ソフトウェア工学実践事業報告書の公表について(METI/経済産業省)

    高信頼組込みソフトウェア開発(委託先:一般社団法人JASPAR) 報告書(PDF形式:3,278KB) (ZIP形式:2,993KB) ソフトウェア工学の実践強化に関する調査研究(委託先:株式会社三菱総合研究所) 報告書(PDF形式:2,501KB) クラウドコンピューティング時代のDependabilityの考え方などに関する米国の動向調査(委託先:株式会社アイ・ビー・ティ) 報告書(PDF形式:4,583KB) (ZIP形式:4,300KB) クラウド・コンピューティングに関する国内外の制度・技術動向等の調査研究(委託先:株式会社野村総合研究所) 報告書(PDF形式:2,050KB) 高信頼クラウド実現用ソフトウェア開発(分散制御処理技術等に係るデータセンター高信頼化に向けた実証事業)(委託先:株式会社エヌ・ティ・ティ・データ) (PDF形式:9,606KB) (ZIP形式:8,656

    nilab
    nilab 2010/09/29
    平成21年度 産学連携ソフトウェア工学報告書の公表について(METI/経済産業省) 「高信頼クラウド実現用ソフトウェア開発(分散制御処理技術等に係るデータセンター高信頼化に向けた実証事業)」
  • オープンソースカンファレンスのHadoop講演資料を紹介します

    こんにちは。広報スタッフの楢崎です。 9月10日、11日の2日間開催された「オープンソースカンファレンス2010 Tokyo/Fall」にて、 Yahoo! JAPANはHadoopについて講演させていただきました。多くの方にご参加いただきありがとうございます。 (写真:明星大学・日野キャンパスにて) ここでは、当日講演で使用したプレゼン資料を紹介させていただきます。 ●Hadoop ~Yahoo! JAPANの活用について~ ヤフー株式会社 R&D統括部 角田直行、吉田一星

    オープンソースカンファレンスのHadoop講演資料を紹介します
    nilab
    nilab 2010/09/15
    オープンソースカンファレンスのHadoop講演資料を紹介します (Yahoo! JAPAN Tech Blog) : 「Hadoop ~Yahoo! JAPANの活用について~ ヤフー株式会社 R&D統括本部 角田直行、吉田一星」
  • ヤフーを変え始めたHadoop

    ヤフーが日独自の検索関連サービスの開発で、オープンソースの分散処理ソフトである「Hadoop」の活用を進めている。Hadoopを使うことで、従来は6時間以上かかった処理がわずか5分半で済むようになった例もある。2009年秋には組織を整備し、適用範囲を全社に広げている。 Hadoopは、米グーグルが開発した分散処理ソフト「Google File System(GFS)」と「MapReduce」を模したオープンソースソフトである(図)。GFSとMapReduceは、グーグルのクラウドを支える基盤技術。Hadoopを使うと、複数台の安価なPCサーバーを連携させ、数十テラ~数ペタバイトに及ぶデ ータを高速に処理できる。 Hadoopを日国内で最も積極的に利用している企業はヤフーだ。2008年ごろから部署単位でHadoopの導入を進め、Hadoopを使う事例が10件を超えるようになった(表)。

    ヤフーを変え始めたHadoop
    nilab
    nilab 2010/06/14
    ヤフーを変え始めたHadoop - 検証!クラウドコンピューティング:「日本国内で最も積極的に利用している企業はヤフーだ。2008年ごろから部署単位でHadoopの導入を進め、Hadoopを使う事例が10件を超えるようになった」
  • Open TechTalk「Hadoop Hack Night」レポート

    ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは、TechBlog担当の井野です。 3月8日に開催されたOpen TechTalk「Hadoop Hack Night」についてのレポートをお届けいたします。イベントは、思った以上に多くの方にご応募いただき抽選とさせていただきました。当日は、当選された100名の方々にお集まりいただきました。ありがとうございました。 さて、イベントですが、大きく分けて三部構成でお送りいたしましたので、各々ご紹介いたします。イベントのTwitterハッシュタグ『#hadoophn』も活発にやり取りされておりました。 イベントの詳細は、技術評論社さんの「gihyo.jp」にも掲載されておりますので、 あわせてご覧ください。 Hadoop

    Open TechTalk「Hadoop Hack Night」レポート
    nilab
    nilab 2010/04/02
    Open TechTalk「Hadoop Hack Night」レポート (Yahoo! JAPAN Tech Blog)
  • Hadoop Hack Night … 技術評論社

    現在,米国Yahoo! Hadoopチームにてアーキテクトを務めるOwen O’Malleyが3月に来日いたします。それに合わせてHadoopの紹介,米国Yahoo!での活用事例などご紹介するセミナーを開催いたします。当日は参加者の方々とのトークセッションを設け,Hadoopコミュニティに所属しているOwen氏との交流の場も提供いたします。 イベントのTwitterハッシュタグは『#hadoophn』です。 なお,当日の模様は以下のURLでUstream中継を予定しております。 http://www.ustream.tv/channel/hadoophn ネットワーク回線の都合により,3G回線での中継となることが予想されます。安定した配信ができない可能性がありますので,会場までお越しいただくことをおすすめいたします。 「Hadoop Hack Night」に申し込む お申し込み期間:2月

    nilab
    nilab 2010/02/26
    Hadoop Hack Night … 技術評論社 : 「米国Yahoo! Hadoopチーム アーキテクトOwen O’Malley来日」 日程3月8日(月) 時間 19:00~21:00頃 場所 ヤフー株式会社
  • Hadoopを業務で使ってみた話 - クックパッド開発者ブログ

    8月に入社した佐々木です。こんにちわ! 入社してからはHadoopを使うことが多く、日々、大規模データと格闘しています。大変ではありますが、個人ではなかなか触ることが出来ないような大規模データを触れるのは楽しいです。 さて、Hadoopは最近色々なところで使われ始めてきていると思うんですが、実際に利用してみて困った事やtipsなど、実践的な情報はまだあまり公開されていません。その辺の情報をみんな求めているはず…!! そこで、僕が実際に触ってみて困った事やHadoopを使う上でポイントだと思ったことなどを社内勉強会で発表したので公開してみます。Hadoopを使っている(使いたいと思っている)方の参考になれば幸いです。 [slideshare id=2711363&doc=20091214techblog-091213183529-phpapp02] Hadoopの利用はまだまだ試行錯誤の連続

    Hadoopを業務で使ってみた話 - クックパッド開発者ブログ
    nilab
    nilab 2009/12/18
    Hadoopを業務で使ってみた話 « クックパッド開発者ブログ
  • あしたのオープンソース研究所 - Apache Hadoop 座談会 -

    しおやHadoopとは何ぞやということなんですけれども、MapReduceという並列処理用の計算フレームワークと分散ファイルシステムのオープンソース版の実装です。作者はダグ・カティング(Doug Cutting)さんという人で、検索エンジンLuceneの作者として有名な人なんですけれども、この人が元々はNutchというLuceneを使ったウェブ検索システムを開発してたんですね。 で、その分散システムをやっていた頃、Googleの方でMapReduceを作りました、クラウド向けのファイルシステムを作りましたみたいな発表があったんで、そのアイデアを取り込んでできたのがHadoopの原型です。その他いくつかのプロジェクトを取り込んで、今はApacheのトップレベルプロジェクトとして名を馳せています。 で、Hadoopという名前なんですけど、これは息子さんが持っているぞうさんのぬいぐるみの名前がH

    nilab
    nilab 2009/12/04
    あしたのオープンソース研究所 - Apache Hadoop 座談会 - : (2009年9月29日開催)