[B! crawler] sfujiwaraのブックマーク

法と技術とクローラと私 - 最速転職研究会

こんにちは、趣味や業務で大手ポータルサイトのサービスで稼働しているいくつかのクローラの開発とメンテナンスを行っているmalaです。さて先日、岡崎市立中央図書館Webサイトをクロールしていた人が逮捕、勾留、実名報道されるという事件がありました。関連URL: http://librahack.jp/ 電話してみた的な話 http://www.nantoka.com/~kei/diary/?20100622S1 http://blog.rocaz.net/2010/06/945.html http://blog.rocaz.net/2010/07/951.html この件につきまして法的なことはともかくとして技術者視点での私見を書きたいと思います。法的なことは差し置いて書きますが、それは法的なことを軽んじているわけではなく、法律の制定やら運用やらは、その法律によって影響が出る全ての人々の常識

sfujiwara 2010/07/08

crawler

リンク

Perlメモ/Gungho - Walrus, Digit.

Gunghoのドキュメントは、Gunghoに同梱されています。CPANでも読むことができ、日本語ドキュメントも少なからずついています。 Daisuke Maki / Gungho - search.cpan.org Googleグループには、小さいながらgungho-crawlerグループがあります。 gungho-crawler | Google グループこの他にShibuya.pm Technical Talk #8で牧大輔氏が行ったセッションの資料が公開されています。15ページのGunghoの構造はGungho::Manual::Basics.jaを見る際、あわせて開いておくとよいでしょう。 Gungho, Swarmage, PoCo::MDBA » SlideShare Gungho, Swarmage, POE::Component::MDBA によるデータ収集／格納／呼び出

sfujiwara 2008/11/20

リンク

GunghoX-FollowLinksを実装したよ - D-6 [相変わらず根無し]

GunghoX-FollowLinksを実装したよ何個か前のエントリーで書いた、ページ内のリンクを辿って行く機能をGunghoX::FollowLinksで実装したよ。まだちょっといけてない部分があるので多少の書き直しはあると思うけど、とりあえずうpしたさ。使い方はこんな感じ。このクローラーはあるURL（例：http://www.example.com/）を与えると、そのURLから辿れる、そのURL階層以下のページを全部取ってくるデス。長いからエントリーの後のほうでで説明もつけますよ #!/usr/local/bin/perl # $Id$ # # Copyright (c) 2007 Daisuke Maki <dai [email protected]> # All rights reserved. use strict; use warnings; use Gungho; use

sfujiwara 2007/11/13

リンク

YappoLogs: GunghoっていうWebクロウラーたんの件

GunghoっていうWebクロウラーたんの件なんか男前そうなクロウラーたんを発見したお資料はhttp://www.slideshare.net/lestrrat/gungho-swarmage-pocomdba/を見るべし。ちなみに、これ書くのに使ったGunghoはVersion 0.09001 のCPANの。概要 GunghoはPlaggerっぽいwebクロウラーたんです。なのでGunghoの名前空間以下にあるモジュールとかを個別に使おうとしたら大変です。 Gunghoのアーキテクチャにそった一本道な動作をさせるのがいいはず。設定はConfig::Any使ってるので、色んな形式のを使えます。 Providerにより収集URLを取得し、EngineがHTTPでコンテンツを取得し、Handlerで取得したコンテンツを処理します。 Provider,Engine,Handlerは、そ

sfujiwara 2007/11/07

リンク

https://labs.cybozu.co.jp/blog/kazuho/archives/2007/04/gungho.php

sfujiwara 2007/10/15

リンク

MOONGIFT: » タイトル・本文抽出クローラー「Webstemmer」:オープンソースを毎日紹介

これはやばい！凄すぎる。現在進めようと思っているプロジェクトでは、サイト上の本文抽出が重要な技術になっていた。だが、それを一から開発していたのではあまりに時間がかかってしまう。さらに重要な技術ではあるが、それが売りと言う訳ではなかった。そこで見つけたのがこのソフトウェアだ。まさに理想的な方法かも知れない。今回紹介するオープンソース・ソフトウェアはWebstemmer、タイトル・本文抽出クローラーだ。 WebstemmerはPythonで作られたクローラーで、Webクローラー/レイアウト分析/テキスト抽出/URL DB操作/簡易的なテキスト抽出の5つの機能が提供されている。動作原理については公式サイトを参考にして欲しいが、個人的にも考えていた（考えていただけ）方法に近い。学習時間が長いのが難点だが、複数台のPCで分散化できれば問題なくなるだろう。特徴的なのは、特定の言語に左右される

sfujiwara 2007/09/03

リンク

はてなブックマーク

タグ

関連タグで絞り込む (6)

crawlerに関するsfujiwaraのブックマーク (6)

お知らせ

今週のはてなブックマーク数ランキング（2025年6月第1週）

今週のはてなブックマーク数ランキング（2025年5月第4週）

今週のはてなブックマーク数ランキング（2025年5月第3週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス