Home   Wordpress   ログイン

Archive for 3月, 2009

[ネタ] Java全文検索「Lucene」の弱点

3月 22nd, 2009 by UmiNana | No Comments | Filed in ネタ

※ これは3/20にSNSへ投稿された文章です

弱点はいくつかある。

1. スコアリング・アルゴリズムがレガシーになる可能性
2. 複雑なQueryで性能が著しく低下する

1.を克服するのは難しい。Luceneは少なくとも TF・IDFに縛られている。もちろん、TF・IDFの考え方は素晴らしいし実績もある。しかし、疑われないアルゴリズムは制約になり、ある一定の水準へと性能を縛り付ける。

2.条件を増やしOR検索を行うと極端に性能が低下する。OR条件5個ぐらいから遅くなり始め、それより増やすと著しく(という言葉は使いたくないが…やはりそう表現すのが妥当だろう)劣化する。WindowsのJava Runtimeは良く作られているようだが、それでも数値演算が多くなると厳しい。

この程度しか正直思いつかない。 やはりLuceneは素晴らしい。Estraierとかは最悪だもの。

Tags: