2006/12/19 更新
ZCTextIndex Lexicon オブジェクトと併せて使い、ZCatalogによるテキスト検索ができるようにするものです。ZCatalog にプラグインする Indexの一種で、Zope 2.6.0より Zopeの標準配布に含まれるようになりました。
同様のことが TextIndex と vocabraryによって行うことができますが
あたりが、利点らしいです。
日本語のテキスト検索をするためには、日本語が分かち書きできる
ZCTextIndexのための
Splitterをインストールします。
今のところ、以下のものがあります。すべてをインストールする必要はなく、いずれかが入っていれば構いません。
Plone にインストールする場合は、takanory.net さんの説明が丁寧で判り易いです。
ejSplitter-0.5.1.tar.gzを公開します(2006/12/19)。UTF-8→UNICODE 変換時にエラーとなる場合があるので抑制(http://ml.zope.jp/pipermail/zope-users/2006-July/005805.html)。
ejSplitter-0.5.0.tar.gzを公開します(2004/10/23)。全角英数字と半角英数字を同じもとのして取り扱います。
ejSplitter-0.4.0.tar.gzを公開します(2004/01/15)。長音に関するヒューリスティックルールを追加しました。(深町さんに感謝)
ejSplitter-0.3.1.tar.gzを公開します(2004/01/10)。Ver. 0.3 の Bugfix です。
ejSplitter-0.3.tar.gzを公開します(2004/01/04)。0.2 では、EUC-JP の時、文字コード変換処理を2度通っているため、検索できていませんでした。 不具合の指摘と、修正方法を教えて下さった柴田@WebCoreさんに感謝します。
ejSplitter-0.2.tar.gzを公開します(2003/10/04)。文字コードにより、作成するインスタンスを変えます。 (EUC-JP と UTF-8 のみ対応) EUC-JP を使いたい場合は、JapaneseCodecs が必要ですが、UTF-8 を扱う場合は、とくに必要なモジュールはありません。茶筅をインストールします
Windowsバイナリ版のZopeを動かす場合
http://chasen.aist-nara.ac.jp/chasen/distribution.html.ja にある
cha21244.exeをインストールしますが、インストール先ディレクトリを、デフォルトで設定される
C:\Program Files\chasen21 ではなくて C:\chasenにしてください。
その他 Linux/BSD系の実装の場合
http://chasen.aist-nara.ac.jp/chasen/distribution.html.ja
のchasenとipadicの最新版をインストールします。
chasenコマンドが /usr/local/bin/chasen
に存在するようにインストールしてください。
私は、Cygwin環境でソースからコンパイルしたZopeで動作を確認しました。
Windowsの場合、JapaneseCodecsをインストールします。(そうじゃないと動きません)
ChaSplitter0.2.tar.gz をダウンロードし、$(INSTANCE_HOME)/lib/python/Productsに展開します。
ZCTextIndex版は、今のところ ZMI で日本語が使えるようにするための、http://ml.zope.jp/pipermail/zope-devel/2002-October/000292.html のものしかありません。当該アーカイブをダウンロードして、$(INSTANCE_HOME)/lib/python/Products に展開(普通の Productsのインストールと同じ)したあと $(INSTANCE_HOME)/lib/python/Products/SaruPatch/__init__.pyの内容を
| import JSplitter |
の1行だけにします。
JSplitterを動かすためには、他に pykf、chasen
モジュール、日本語Codecs等が要るようですが、詳しい情報は他をあたってください。
(PluginIndex版の JSplitterの解説ですが、MAX さんの http://soybean.fubyshare.gr.jp/SiteBites/JSPlitter
が参考になります)
ここでは、例として CMF Siteで検索に ZCTextIndexを使う手順について記述します。すでに、CMF Siteがあり、上記手順に従って、いずれかの Splitterがインストールしてあるものとして、
をいったん削除して、同じ Id で「ZCTextIndex」を Addします。Field
Nameは、Id と同じ場合には入力する必要はありません。
その時、Add ZCTextIndexの画面で「Lexicon」には、先程 2.で
Addした ZCTextIndex Lexionが指定されていることを確認してください。
これで、日本語による検索ができるようになり、新しく追加していく Contentsの日本語もカタログできるようになります。