Lucene
Luceneの最新ニュースをまとめて検索!
Lucene(ルシーン)とは、Javaで記述された全文検索ソフトウェアである。あらかじめ蓄積した大量のデータから、指定したキーワードを探し出す機能を持つ。Javaのクラスライブラリとして提供される。
[編集] 概要
1000万ドキュメントくらいの規模まで1台のマシンで対応できる。 それ以上を複数のマシンで分散検索できるようにするHadoopというサブプロジェクトがある。
検索エンジン(ライブラリ)だけの提供であり、ウェブアプリとしての機能はSolr、クローラーの機能はNutchというサブプロジェクトで開発されている。
日本語のデータをインデックスするためには、CJKAnalyzerかJapaneseAnalyzerを使う。 CJKAnalyzerはbi-gram方式である。 JapaneseAnalyzerを使うには、形態素解析エンジンを組み込む必要があり、オープンソースのSen(MeCabのJava実装)を使う。 また、ベイシステクノロジー社から販売されているJLAでも日本語のデータを形態素解析してインデックスできる。
2007年1月にApacheのトップレベルプロジェクトになり、現在はPMC(Project Management Committee)での開発スタイルをとっている。
[編集] 書籍
- Apache Lucene 入門 ~Java・オープンソース・全文検索システムの構築 - ISBN 4-7741-2780-9
- Lucene In Action - ISBN 1-932394-28-1
[編集] 外部リンク
|
|||||||||||||||||||||||||||||||||||
フリー百科事典『ウィキペディア(Wikipedia)』 Text is available under GNU Free Documentation License.
最終更新 2009年9月16日 (水) 06:32 (日時は個人設定で未設定ならばUTC)。
【Lucene】変更履歴

