cjksplitter
Author: liris
-
Modified: 2005/08/31 13:05
Tag:
dev
CJKSplitterを入れてみました(なんで今さら。。。)。
カタカナが検索できないのは気のせいなんでしょうか?うーむ。例えば「メモ」だと検索にひかからないですが、「メモを」だとひかかったり。でも、インデックスされたものの中をみると、カタカナのインデックスがないような気がする。漢字やひらがな、英語などは問題なさげ。
カタカナが検索できないのは気のせいなんでしょうか?うーむ。例えば「メモ」だと検索にひかからないですが、「メモを」だとひかかったり。でも、インデックスされたものの中をみると、カタカナのインデックスがないような気がする。漢字やひらがな、英語などは問題なさげ。
追記
----
やっぱり、カタカナはごっそり落としていました。とりあえず、パッチ書こう。
追記2
------
ということで、パッチをacceptしてもらえました。かたかなを知らなかったみたいです。こういう理由は好きです。次のバージョンでカタカナも大丈夫になるはず。でもって、全角英数字を半角にノーマライズすべきか困っているらしいです。僕はノーマライズすべき派ですが、彼はパフォーマンスの低下とインデックスが太ることを気にしているみたいです。難しいですね。
ちなみに、なんで今さらcjksplitterかというと、形態素解析を使うシステムだと辞書をメンテナンスしないといけないので、それが面倒だからです。僕はなんでもサボりたいので、N-gram方式の方がよいと思っています。
----
やっぱり、カタカナはごっそり落としていました。とりあえず、パッチ書こう。
追記2
------
ということで、パッチをacceptしてもらえました。かたかなを知らなかったみたいです。こういう理由は好きです。次のバージョンでカタカナも大丈夫になるはず。でもって、全角英数字を半角にノーマライズすべきか困っているらしいです。僕はノーマライズすべき派ですが、彼はパフォーマンスの低下とインデックスが太ることを気にしているみたいです。難しいですね。
ちなみに、なんで今さらcjksplitterかというと、形態素解析を使うシステムだと辞書をメンテナンスしないといけないので、それが面倒だからです。僕はなんでもサボりたいので、N-gram方式の方がよいと思っています。