[B! fulltextsearch] sfujiwaraのブックマーク

Perlで日本語全文検索できるCPANモジュール作りました - 俺とお前とlaysakura

この記事は↓に移転しました。 laysakura.github.io

sfujiwara 2013/10/20

リンク

InnoDB純正の全文検索エンジンInnoDB FTS

2011-07-28 InnoDB純正の全文検索エンジンInnoDB FTS つい先日、MySQL-5.6.3-labs版がリリースがされました。この中にはInnoDBで動作する全文検索エンジン"InnoDB FTS"が含まれています。これまでは、MySQLとInnoDBの組み合わせで全文検索を行うためにはサードパーティの製品(mroonga 等..)が必要でしたが、これでズバっと選択肢が広がることになります。しかもInnoDBの開発チームが自ら開発した"純正の"エンジンということですから、これは大きな期待が持てます。いったいどのような製品に仕上がっているのか、ざっくり記事やソースを読んで得た感触を述べてみたいと思います。 written by daijiro.mori どんなエンジンか? エンジンの概要については、 Overview and Getting Started with I

sfujiwara 2011/07/29

リンク

pixiv サイバーエージェント共同勉強会 solr導入記

もうひとつのアンチパターン OTLT、あるいは如何にして私はオレオレフレームワークを忌み嫌うようになったか

sfujiwara 2011/07/24

リンク

Apache Solr を利用した検索パッケージ Anuenue - mixi engineer blog

研究開発グループの takahi-i です。先日名前だけご紹介したAnuenue というツールをご紹介させていただきます。Anuenue は Apache Solr のラッパーであり、検索クラスタの構築と運用を容易にする目的で制作されました。本稿では始めに Apache Solr を選択した理由について述べ、その後、このツールを開発した背景とその目的をご紹介させていただきます。後半では実際に Anuenue を用いて検索クラスタを立ち上げます。なぜ Apache Solr を採用したのか昨年の秋、弊社の検索エンジンを置き換えるという計画が社内で策定され、ベースとなる検索エンジンの選定のために多くの OSS 検索エンジンを比較検討しました。このとき重視したのは一台の検索パフォーマンスと同時に、保守の容易さと、開発コミュニティの規模です。検索エンジンの保守性に関して特に重要と考えたの

sfujiwara 2011/07/06

リンク

全文検索エンジン Miniseをリリース + WEB+DBで全文検索の特集記事 - DO++

全文検索エンジンの Minise: MIni Search Engineをリリースしました．このエンジンは全文検索の基本的な機能をサポートしたもので，索引手法は逐次検索（索引無），N-gram，転置ファイル，接尾辞配列をサポートしており，そこそこ最適化を行ってます．Wikipedia日本語版を実験で使ったもので20万文書で構築時間が500秒前後，検索時間が一クエリあたり数msとなっています． BSDライセンスで公開しています．割りきって，機能を絞ってシンプルな構成にしていますので改造したりしやすいようになっています。まだ、ドキュメントはないですが、C++ APIとして利用しやすいようにもなっていますので、研究用途などで新しい索引やランキングとかでの利用も想定しています（実際に研究用で使ってます）． --- 今回の全文検索ライブラリを開発する機会になったのが，私が担当した今月号のWEB+

sfujiwara 2009/10/27

fulltextsearch

リンク

はてなグループの終了日を2020年1月31日(金)に決定しました - はてなの告知

はてなグループの終了日を2020年1月31日(金)に決定しました以下のエントリの通り、今年末を目処にはてなグループを終了予定である旨をお知らせしておりました。 2019年末を目処に、はてなグループの提供を終了する予定です - はてなグループ日記このたび、正式に終了日を決定いたしましたので、以下の通りご確認ください。終了日: 2020年1月31日(金) エクスポート希望申請期限:2020年1月31日(金) 終了日以降は、はてなグループの閲覧および投稿は行えません。日記のエクスポートが必要な方は以下の記事にしたがって手続きをしてください。はてなグループに投稿された日記データのエクスポートについて - はてなグループ日記ご利用のみなさまにはご迷惑をおかけいたしますが、どうぞよろしくお願いいたします。 2020-06-25 追記はてなグループ日記のエクスポートデータは2020年2月28

sfujiwara 2009/05/07

リンク

ウェブリブログ：サービスは終了しました。

「ウェブリブログ」は 2023年1月31日をもちましてサービス提供を終了いたしました。 2004年3月のサービス開始より19年近くもの間、沢山の皆さまにご愛用いただきましたことを心よりお礼申し上げます。今後とも、BIGLOBEをご愛顧賜りますよう、よろしくお願い申し上げます。 ※引っ越し先ブログへのリダイレクトサービスは2024年1月31日で終了いたしました。 BIGLOBEのサービス一覧

sfujiwara 2009/05/02

fulltextsearch

リンク

セミナー資料公開「Extreme Search! 次世代検索エンジンSedueが実現する驚異のパフォーマンス」

2009年4月8日(水) 13:00〜15:30に開催されましたPreferred Infrastructureによる製品紹介セミナーの発表資料です。

sfujiwara 2009/04/10

リンク

プリファードインフラストラクチャー、高速全文検索エンジン「Sedue 24」の新バージョンでSSDに対応 --- 大規模検索システムをPCサーバ1台で実現可能に ---

報道関係者各位プレスリリース 2009年3月10日株式会社プリファードインフラストラクチャー ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ プリファードインフラストラクチャー、高速全文検索エンジン「Sedue 24」の新バージョンでSSDに対応 --- 大規模検索システムをPCサーバ1台で実現可能に --- ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 株式会社プリファードインフラストラクチャー(本社：東京都文京区本郷、代表：西川徹)は、圧縮接尾辞配列方式を実装した世界初の商用検索エンジン「Sedue 24」の新バーションを販売開始いたします。新バージョンでは、ハードディスクドライブに代わる高速ストレージとして注目されているSSD(Solid State Drive)向けに最適化されたインデックスエ

sfujiwara 2009/03/10

リンク

はてなブックマーク全文検索機能の裏側

そろそろ落ち着いて来たころ合いなので、はてなブックマーク全文検索機能の裏側について書いてみることにします。 PFI側は、8月ぐらいからバイトに来てもらっているid:nobu-qと、id:kzkの2人がメインになって進めました(参考: 制作スタッフ)。数学的な所は他のメンバーに色々と助言をしてもらいました。はてな側は主にid:naoyaさんを中心に、こちらの希望や要求を聞いて頂きました。開発期間は大体1〜2か月ぐらいで、9月の上旬に一度id:naoyaさんにオフィスに来て頂いて合宿をしました。その他の開発はSkypeのチャットで連絡を取りながら進めてました。インフラ面ではid:stanakaさん、契約面ではid:jkondoさん、id:kossyさんにお世話になりました。全文検索エンジンSedue 今回の検索エンジンはSedue(セデュー)という製品をベースにして構築しています。Sedu

sfujiwara 2008/12/16

リンク

Tokyo Dystopiaの設計思想 - mixi engineer blog

夏本番に向けて海に行ける体作りに励まないといかんなーと思いつつも、ついついDSのスターフォックスで遊んでしまうmikioです。さて今回は、人知れずリリースされている検索エンジンTokyo Dystopiaの概要と設計思想について述べます。 Hyper Estraierとの違い Tokyo Dystopia（以下、TDと呼びます）は、新しい検索エンジンです。しかし、私が作ったもう一つの検索エンジンHyper Estraier（以下、HEと呼びます）の後継としては位置付けていません。 Hyper Estraierの製品コンセプトは、「検索システムの需要が生じる様々なシーンで手軽に導入できる」ことです。言い換えれば、「いわゆるシロウトの人でも、お高い商用システムを買えない個人や小組織でも、ちょっとの努力で自分の要求を満たすシステムを構築できる」ことです。そのために、様々なファイル形式に対応したテ

sfujiwara 2008/07/09

fulltextsearch

リンク

1日で作る全文検索エンジン - Building a full-text search engine in "ONE" day - - とあるはてな社員の日記

最近、「Introduction to Information Retrieval」というStanfordの大学院向け教科書のドラフトを読んでいます。id:naoyaあたりが勉強会で読んでいる教科書です。この教科書には、効率のいい全文検索システムを作るにはどうすればいいか、という(まさに)教科書的手法が網羅的に書いてあり、そのあたりに興味がある人には、非常に興味深く読めるお勧めの本です。ただ、面白い面白いと言っているだけでは、エンジニアとしては価値半減ですので、GW中にrubyで一日かけて実装してみました。さすがに実装は、一日で作ったものですから、非常に素朴です。マルチバイト文字はbi-gramで、シングルバイトはスペースなどの区切り記号で認識しています。インデックスは、rubyの処理系のHashやArrayで保持しており、外部にMarshallで書き出す、というものです。検索エンジン

sfujiwara 2008/05/14

fulltextsearch

リンク

全文検索エンジンを試作してみたよ - やればできる子の日記

今日は奥様とタイ料理&タイ式マッサージの日でした。マッサージはちょっと素晴らしいなあ。表題のように、全文検索エンジンをGAE上で試作してみました。GAEはGoogle様提供のサービスにもかかわらず「なんで全文検索機能がないねん」という声が上がっていたんですよね。主にtwitter界隈から。「Introduction to Information Retrieval」という本のドラフトPDFと、たつをさんのところのIIR輪講の資料を参考に作りました。つっても、第1章の一部の知識しか使ってないですが。論理和検索もスキップリストも使ってないし(論理和検索はクエリ式のパーサを書くのが面倒だった)。 import logging import re from urllib import urlencode import wsgiref.handlers from google.appengine

sfujiwara 2008/04/21

リンク

全文検索エンジンLuxを公開しました : no hacking, no life

本日、全文検索エンジンLuxを公開しました。昨年の3月ぐらいから、土日の空いた時間を使ってだらだら作っていたのですが、完璧にしてから公開しようとすると、いつまで経っても公開できないので、晒すことにしました。なので、機能的に足りない部分がたくさんあります。特徴としては、以下のような感じです。 C++で記述されているシンプル高速に動作そこそこ拡張性が高いシンプルな転置インデックス形式の検索エンジンです。今のところ形態素でしかインデックスを作れませんが、N-Gramはすぐに対応しようと思います。また、APIが若干おかしかったり、手抜き部分が沢山あるので、今後にご期待ください。(version 1.0 ぐらいから自信をもって薦められるかも) ドキュメントが全くないので、これからちょこちょこ書いていこうかと思いますが、マニアックな方はぜひ使ってみて、ご意見・ご感想を頂ければと思います。ダ

sfujiwara 2008/04/08

リンク

Lux: Distributd full-text search engine

Lux is a distributed full-text search engine library. It helps to retrieve large amount of documents efficiently.

sfujiwara 2008/04/08

リンク

LuceneとSennaの比較：スコア計算 | 関口宏司のLuceneブログ

一定期間更新がないため広告を表示しています

sfujiwara 2008/03/12

リンク

[を] 転置インデックスによる検索システムを作ってみよう！

転置インデックスによる検索システムを作ってみよう！ 2007-11-26-5 [Algorithm][Programming] 転置インデックス[2007-06-17-6]による検索システムの実装はパフォーマンスを無視すれば意外と簡単です。それを示すために Perl で簡単な検索システムを作ってみました。検索方式は転置インデックス(Inverted Index)、ランキングには TF-IDF[2005-10-12-1] を用いました。検索対象ファイルは一行一記事で以下のフォーマットとします。 [記事ID][SPC][記事内容]\n 記事IDは数字、記事内容は UTF-8 の文字で構成されるものとします。以下のようなサンプル test.txt を用意しました。 1 これはペンです 2 最近はどうですか？ 3 ペンギン大好き 4 こんにちは。いかがおすごしですか？ 5 ここ最近疲れ

sfujiwara 2007/11/29

リンク

http://www.doblog.com/weblog/myblog/74336/151

sfujiwara 2007/08/09

リンク

全文検索エンジン FlexSearch - グニャラくんのグニャグニャ備忘録@はてな

全文検索エンジン FlexSearchというものがあるようだ。違いを吸収した検索 | 傀儡師の館.Python - 楽天ブログ特徴は以下のとおり。「FlexSearch」は、文字間をラバーバンドで連結して伸縮させるように類似文字列を検出する、 Rubber Band Matching(RBM　-ラバーバンドマッチング) アルゴリズムを採用しています。 RBMアルゴリズムを採用することで、表現の差違を吸収して検索対象を抽出できます。例えば・・・部分文字列（文字の部分一致で検索）「高齢化問題」将来の「高齢化」社会において・・・文字の挿入（キーワードに文字を追加して検索）「ゴミリサイクル」ゴミのリサイクル問題が・・・文字の欠落（キーワードから文字を削除して検索）「女子中高生」女子高生に人気の・・・文字の置換（キーワードを置換えて検索）「ドボルザーク」ドヴォルザ