タグ

crawlerに関するsfujiwaraのブックマーク (6)

  • 法と技術とクローラと私 - 最速転職研究会

    こんにちは、趣味や業務で大手ポータルサイトのサービスで稼働しているいくつかのクローラの開発とメンテナンスを行っているmalaです。 さて先日、岡崎市立中央図書館Webサイトをクロールしていた人が逮捕、勾留、実名報道されるという事件がありました。 関連URL: http://librahack.jp/ 電話してみた的な話 http://www.nantoka.com/~kei/diary/?20100622S1 http://blog.rocaz.net/2010/06/945.html http://blog.rocaz.net/2010/07/951.html この件につきまして法的なことはともかくとして技術者視点での私見を書きたいと思います。法的なことは差し置いて書きますが、それは法的なことを軽んじているわけではなく、法律の制定やら運用やらは、その法律によって影響が出る全ての人々の常識

    法と技術とクローラと私 - 最速転職研究会
  • Perlメモ/Gungho - Walrus, Digit.

    Gunghoのドキュメントは、Gunghoに同梱されています。CPANでも読むことができ、日語ドキュメントも少なからずついています。 Daisuke Maki / Gungho - search.cpan.org Googleグループには、小さいながらgungho-crawlerグループがあります。 gungho-crawler | Google グループ この他にShibuya.pm Technical Talk #8で牧大輔氏が行ったセッションの資料が公開されています。15ページのGunghoの構造はGungho::Manual::Basics.jaを見る際、あわせて開いておくとよいでしょう。 Gungho, Swarmage, PoCo::MDBA » SlideShare Gungho, Swarmage, POE::Component::MDBA によるデータ収集/格納/呼び出

  • GunghoX-FollowLinksを実装したよ - D-6 [相変わらず根無し]

    GunghoX-FollowLinksを実装したよ 何個か前のエントリーで書いた、ページ内のリンクを辿って行く機能をGunghoX::FollowLinksで実装したよ。 まだちょっといけてない部分があるので多少の書き直しはあると思うけど、とりあえずうpしたさ。使い方はこんな感じ。このクローラーはあるURL(例:http://www.example.com/)を与えると、そのURLから辿れる、そのURL階層以下のページを全部取ってくるデス。長いからエントリーの後のほうでで説明もつけますよ #!/usr/local/bin/perl # $Id$ # # Copyright (c) 2007 Daisuke Maki <dai[email protected]> # All rights reserved. use strict; use warnings; use Gungho; use

  • YappoLogs: GunghoっていうWebクロウラーたんの件

    GunghoっていうWebクロウラーたんの件 なんか男前そうなクロウラーたんを発見したお 資料はhttp://www.slideshare.net/lestrrat/gungho-swarmage-pocomdba/を見るべし。 ちなみに、これ書くのに使ったGunghoはVersion 0.09001 のCPANの。 概要 GunghoはPlaggerっぽいwebクロウラーたんです。なのでGunghoの名前空間以下にあるモジュールとかを個別に使おうとしたら大変です。 Gunghoのアーキテクチャにそった一道な動作をさせるのがいいはず。 設定はConfig::Any使ってるので、色んな形式のを使えます。 Providerにより収集URLを取得し、EngineがHTTPでコンテンツを取得し、Handlerで取得したコンテンツを処理します。 Provider,Engine,Handlerは、そ

  • https://labs.cybozu.co.jp/blog/kazuho/archives/2007/04/gungho.php

  • MOONGIFT: » タイトル・本文抽出クローラー「Webstemmer」:オープンソースを毎日紹介

    これはやばい!凄すぎる。 現在進めようと思っているプロジェクトでは、サイト上の文抽出が重要な技術になっていた。だが、それを一から開発していたのではあまりに時間がかかってしまう。さらに重要な技術ではあるが、それが売りと言う訳ではなかった。 そこで見つけたのがこのソフトウェアだ。まさに理想的な方法かも知れない。 今回紹介するオープンソース・ソフトウェアはWebstemmer、タイトル・文抽出クローラーだ。 WebstemmerはPythonで作られたクローラーで、Webクローラー/レイアウト分析/テキスト抽出/URL DB操作/簡易的なテキスト抽出の5つの機能が提供されている。 動作原理については公式サイトを参考にして欲しいが、個人的にも考えていた(考えていただけ)方法に近い。学習時間が長いのが難点だが、複数台のPCで分散化できれば問題なくなるだろう。 特徴的なのは、特定の言語に左右される

    MOONGIFT: » タイトル・本文抽出クローラー「Webstemmer」:オープンソースを毎日紹介
  • 1