Solr3.6の日本語形態素解析エンジン Kuromoji

昔は形態素解析分かち書きしたい場合、Senを使ってやるのが普通だったと思うんだけど、3.6からはKuromojiという形態素解析エンジンが組み込まれているらしい。そしてexampleには最初からtext_jaというフィールドタイプが組み込まれており、すぐに試せる状態になっている。example/solr/conf/schema.xmlの726行からがtext_jaの定義。

KuromojiにはNormal, Search, Extendedの3種類のモードがあり、Normalは通常の形態素解析、Searchは複合語をなるべく短い単語ごとに分割するモード、ExtendedはSearchモードをベースに、未知語をuni-gramに分割するモードらしい。schema.xmlを見ると、デフォルトではSearchモードに設定されている。

どのような形で分かち書きされるかは、Solr AdminのAnalysys http://localhost:8983/solr/admin/analysis.jsp から試せる。

Extendedモードは辞書にない用語、例えば「きゃりーぱみゅぱみゅ」は「きゃ|り|ー|ぱ|み|ゅ|ぱ|み|ゅ」に分かち書きしてくれるし、なかなか良さそうな気がする。