Zend_Search_Lucene-Charset.xml 7.8 KB

123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124125126127128129130131132133134135136137138139140141142143144145146147148149150151152153154155156157158159160161162163164165166167168169170171172173174175176177178179180
  1. <?xml version="1.0" encoding="UTF-8"?>
  2. <!-- Reviewed: no -->
  3. <!-- EN-Revision: 24249 -->
  4. <sect1 id="zend.search.lucene.charset">
  5. <title>文字セット</title>
  6. <sect2 id="zend.search.lucene.charset.description">
  7. <title>UTF-8 およびシングルバイト文字セットのサポート</title>
  8. <para>
  9. <classname>Zend_Search_Lucene</classname> は、内部的には UTF-8 文字セットで動作します。
  10. インデックスファイルには、unicode のデータが Java の
  11. "modified UTF-8 encoding" で保存されます。
  12. <classname>Zend_Search_Lucene</classname> はこの文字セットを完全にサポートしていますが、
  13. ひとつだけ例外があります。
  14. <footnote>
  15. <para>
  16. <classname>Zend_Search_Lucene</classname> では Basic Multilingual Plane
  17. (BMP) 文字 (0x0000 から 0xFFFF まで) のみをサポートしており、
  18. "supplementary characters" (コードポイントが
  19. 0xFFFF より大きい文字) はサポートしていません。
  20. </para>
  21. <para>
  22. Java 2 では、これらを文字 (16 ビット)
  23. のペアで表します。最初の文字が上位サロゲート (0xD800-0xDBFF)、
  24. 2 番目の文字が下位サロゲート (0xDC00-0xDFFF) となります。
  25. その後、これらが 6 バイトの UTF-8 文字にエンコードされます。
  26. 標準的な UTF-8 では、supplementary characters
  27. を 4 バイトで表します。
  28. </para>
  29. </footnote>
  30. </para>
  31. <para>
  32. 実際の入力データのエンコーディングを指定するには
  33. <classname>Zend_Search_Lucene</classname> の <acronym>API</acronym> を使用します。
  34. データは、自動的に UTF-8 エンコーディングに変換されます。
  35. </para>
  36. </sect2>
  37. <sect2 id="zend.search.lucene.charset.default_analyzer">
  38. <title>デフォルトのテキスト解析器</title>
  39. <para>
  40. しかし、デフォルトのテキスト解析器
  41. (クエリパーサの中でもこれが用いられます) は、
  42. テキストやクエリのトークン化に ctype_alpha()
  43. を使用しています。
  44. </para>
  45. <para>
  46. ctype_alpha() は UTF-8 と互換性がありません。
  47. したがって、この解析器は
  48. テキストをインデックス化する前に 'ASCII//TRANSLIT'
  49. エンコーディングに変換します。
  50. 同じ処理がクエリのパース時にも透過的に行われます。
  51. <footnote>
  52. <para>
  53. 'ASCII//TRANSLIT' への変換は、現在のロケールおよび
  54. OS に依存します。
  55. </para>
  56. </footnote>
  57. </para>
  58. <note>
  59. <title/>
  60. <para>
  61. デフォルトの解析器は、数字は単語の一部として扱いません。
  62. 数字で単語を分断されたくない場合は、'Num' 解析器を使用しましょう。
  63. </para>
  64. </note>
  65. </sect2>
  66. <sect2 id="zend.search.lucene.charset.utf_analyzer">
  67. <title>UTF-8 互換のテキスト解析器</title>
  68. <para>
  69. <classname>Zend_Search_Lucene</classname> には、
  70. <classname>Zend_Search_Lucene_Analysis_Analyzer_Common_Utf8</classname>、
  71. <classname>Zend_Search_Lucene_Analysis_Analyzer_Common_Utf8Num</classname>、
  72. <classname>Zend_Search_Lucene_Analysis_Analyzer_Common_Utf8_CaseInsensitive</classname>、
  73. <classname>Zend_Search_Lucene_Analysis_Analyzer_Common_Utf8Num_CaseInsensitive</classname>
  74. といった UTF-8 解析器も含まれています。
  75. </para>
  76. <para>
  77. これを有効にするには、以下のようなコードを使用します。
  78. </para>
  79. <programlisting language="php"><![CDATA[
  80. Zend_Search_Lucene_Analysis_Analyzer::setDefault(
  81. new Zend_Search_Lucene_Analysis_Analyzer_Common_Utf8());
  82. ]]></programlisting>
  83. <warning>
  84. <title/>
  85. <para>
  86. UTF-8 互換の解析器は Zend Framework 1.5 で改良されました。
  87. 以前のバージョンの解析器は非アスキーキャラクタをすべて文字とみなしていましたが、
  88. 新しい解析器の実装ではより正確な挙動となります。
  89. </para>
  90. <para>
  91. そのため、インデックスを再ビルドして
  92. データと検索クエリのトークン化方法を統一することになるでしょう。
  93. そうしないと、検索エンジンの返す結果セットがおかしなものになってしまいます。
  94. </para>
  95. </warning>
  96. <para>
  97. これらの解析器を使用するには、PCRE (Perl 互換正規表現)
  98. ライブラリを UTF-8 サポート込みでコンパイルしておく必要があります。
  99. <acronym>PHP</acronym> のソースコードに同梱されている PCRE ライブラリのソースでは
  100. PCRE の UTF-8 サポートは有効になっているのですが、
  101. バンドル版でなく共有ライブラリを使用している場合などは、
  102. OS によって UTF-8 サポートの状態が異なるかもしれません。
  103. </para>
  104. <para>
  105. PCRE が UTF-8 に対応しているかどうかを調べるには、次のコードを使用します。
  106. </para>
  107. <programlisting language="php"><![CDATA[
  108. if (@preg_match('/\pL/u', 'a') == 1) {
  109. echo "PCRE は unicode をサポートしています。\n";
  110. } else {
  111. echo "PCRE は unicode をサポートしていません。\n";
  112. }
  113. ]]></programlisting>
  114. <para>
  115. 大文字小文字を区別しないバージョンの UTF-8 互換解析器を使用する場合は、さらに
  116. <ulink url="http://www.php.net/manual/ja/ref.mbstring.php">mbstring</ulink>
  117. 拡張モジュールが必要です。
  118. </para>
  119. <para>
  120. 「mbstring 拡張モジュールは使いたくないけれど、大文字小文字を区別しない検索はしたい」
  121. という場合は、次のようにします。
  122. まず、インデックス化の前に元データを正規化し、
  123. 検索の際にはクエリ文字列を小文字に変換します。
  124. </para>
  125. <programlisting language="php"><![CDATA[
  126. // インデックス化
  127. setlocale(LC_CTYPE, 'de_DE.iso-8859-1');
  128. ...
  129. Zend_Search_Lucene_Analysis_Analyzer::setDefault(
  130. new Zend_Search_Lucene_Analysis_Analyzer_Common_Utf8());
  131. ...
  132. $doc = new Zend_Search_Lucene_Document();
  133. $doc->addField(Zend_Search_Lucene_Field::UnStored('contents',
  134. strtolower($contents)));
  135. // 検索用の Title フィールド (インデックス化しますが保存しません)
  136. $doc->addField(Zend_Search_Lucene_Field::UnStored('title',
  137. strtolower($title)));
  138. // 取得用の Title フィールド (インデックス化せず、保存します)
  139. $doc->addField(Zend_Search_Lucene_Field::UnIndexed('_title', $title));
  140. ]]></programlisting>
  141. <programlisting language="php"><![CDATA[
  142. // 検索
  143. setlocale(LC_CTYPE, 'de_DE.iso-8859-1');
  144. ...
  145. Zend_Search_Lucene_Analysis_Analyzer::setDefault(
  146. new Zend_Search_Lucene_Analysis_Analyzer_Common_Utf8());
  147. ...
  148. $hits = $index->find(strtolower($query));
  149. ]]></programlisting>
  150. </sect2>
  151. </sect1>