タグ

Perlとmecabに関するmainyaaのブックマーク (2)

  • [perl][自然言語処理]Mecabに住所用の辞書を追加する | そうだ車輪と名づけよう 5th

    タグ: [perl] [自然言語処理] 公開日:2011-07-05  PHPで都道府県、市区町村、町域名以降の住所分割を高速に行う方法 - 理想未来はどうなった?を参考に ただし、辞書の生成のところのスクリプトをうまく動かすことができなかったのでPerlで書いて無理やり対応。 それに合わせて処理全体が手作業っぽくなってしまった 作成手順 日郵政の郵便番号一覧を取得する http://www.post.japanpost.jp/zipcode/download.html $ wget http://www.post.japanpost.jp/zipcode/dl/kogaki/lzh/ken_all.lzh 上記で取得した圧縮ファイルを手動で解凍+UTF8へ変換 辞書用CSVを生成する $ perl conv.pl ken_all.csv ken_dic.csv ※ conv.plの中

  • キーワード抽出モジュール Lingua::JA::Summarize を使うコツ (nakatani @ cybozu labs)

    いわゆる「Web2.0」っぽい要素である「タグ」。 一般にはタグ付けは手動で行うわけですが、自然言語テキストへのタグ付け(キーワード抽出)を自動で行うことができれば、あれこれと可能性が広がって楽しそう……しかし、それは実現が難しかったり高コストだったりして、簡単に手を出せる解はあまりありません。 ラボの奥さんの作成したキーワード抽出モジュール Lingua::JA::Summarize は次の特徴を持っています。 動作要件の敷居が低い 辞書のメンテナンスをしなくても、未知語や熟語もある程度抽出してくれる 希望の結果に近づけるためのチューニングが可能 モジュールを使って、サイボウズ・ラボ内での情報交換を行っている社内掲示板をスレッド単位で解析しているのですが、辞書を一切チューニングしていない状態でも「しょこたん☆ぶろぐ」や「かぶり隊隊員ニャンコ達」などの特徴的なキーワードが抽出されます(

  • 1