Zend_Search_Lucene-IndexCreation.xml 16 KB


  1. <?xml version="1.0" encoding="UTF-8"?>
  2. <!-- Reviewed: no -->
  3. <!-- EN-Revision: 15103 -->
  4. <sect1 id="zend.search.lucene.index-creation">
  5. <title>インデックスの構築</title>
  6. <sect2 id="zend.search.lucene.index-creation.creating">
  7. <title>新しいインデックスの作成</title>
  8. <para>
  9. インデックスの作成機能および更新機能は、
  10. <classname>Zend_Search_Lucene</classname> モジュールと Java Lucene で実装されています。
  11. これらのいずれかの機能を使用して作成したインデックスについて、
  12. <classname>Zend_Search_Lucene</classname> による検索が可能です。
  13. </para>
  14. <para>
  15. 以下の PHP コードでは、<classname>Zend_Search_Lucene</classname> のインデックス作成
  16. API を用いてファイルをインデックス化する例を示します。
  17. </para>
  18. <programlisting role="php"><![CDATA[
  19. // インデックスを作成します
  20. $index = Zend_Search_Lucene::create('/data/my-index');
  21. $doc = new Zend_Search_Lucene_Document();
  22. // ドキュメントの URL を、検索結果の ID として保存します。
  23. $doc->addField(Zend_Search_Lucene_Field::Text('url', $docUrl));
  24. // ドキュメントの内容をインデックス化します。
  25. $doc->addField(Zend_Search_Lucene_Field::UnStored('contents', $docContent));
  26. // ドキュメントをインデックスに追加します。
  27. $index->addDocument($doc);
  28. ]]>
  29. </programlisting>
  30. <para>
  31. 新しく追加されたドキュメントは、
  32. すぐにインデックスから取得できるようになります。
  33. </para>
  34. </sect2>
  35. <sect2 id="zend.search.lucene.index-creation.updating">
  36. <title>インデックスの更新</title>
  37. <para>
  38. 既存のインデックスを更新する際にも同じ手順を使用します。ただひとつの違いは、
  39. create() メソッドではなく open() メソッドをコールするということです。
  40. </para>
  41. <programlisting role="php"><![CDATA[
  42. // 既存のインデックスをオープンします。
  43. $index = Zend_Search_Lucene::open('/data/my-index');
  44. $doc = new Zend_Search_Lucene_Document();
  45. // ドキュメントの URL を、検索結果の ID として保存します。
  46. $doc->addField(Zend_Search_Lucene_Field::Text('url', $docUrl));
  47. // ドキュメントの内容をインデックス化します。
  48. $doc->addField(Zend_Search_Lucene_Field::UnStored('contents',
  49. $docContent));
  50. // ドキュメントをインデックスに追加します。
  51. $index->addDocument($doc);
  52. ]]>
  53. </programlisting>
  54. </sect2>
  55. <sect2 id="zend.search.lucene.index-creation.document-updating">
  56. <title>ドキュメントの更新</title>
  57. <para>
  58. Lucene インデックスファイルは、ドキュメントの更新をサポートしていません。
  59. 更新するためには、いったん削除した上で改めて追加する必要があります。
  60. </para>
  61. <para>
  62. そのためには、インデックス内部のドキュメント ID を使用して
  63. <classname>Zend_Search_Lucene::delete()</classname> メソッドをコールします。
  64. この ID は、クエリでヒットした内容から 'id' プロパティで取得できます。
  65. </para>
  66. <programlisting role="php"><![CDATA[
  67. $removePath = ...;
  68. $hits = $index->find('path:' . $removePath);
  69. foreach ($hits as $hit) {
  70. $index->delete($hit->id);
  71. }
  72. ]]>
  73. </programlisting>
  74. </sect2>
  75. <sect2 id="zend.search.lucene.index-creation.counting">
  76. <title>インデックスの大きさの取得</title>
  77. <para>
  78. <classname>Zend_Search_Lucene</classname> のインデックスの大きさを知るには、二通りの方法があります。
  79. </para>
  80. <para>
  81. <classname>Zend_Search_Lucene::maxDoc()</classname> は、
  82. 最大のドキュメント番号にひとつ足した値を返します。
  83. これは、削除されたドキュメントを含む、インデックス内のドキュメントの総数を表します。
  84. そこで、このメソッドのシノニムとして <classname>Zend_Search_Lucene::count()</classname>
  85. を用意しました。
  86. </para>
  87. <para>
  88. <classname>Zend_Search_Lucene::numDocs()</classname> は、削除されていないドキュメントの総数を返します。
  89. </para>
  90. <programlisting role="php"><![CDATA[
  91. $indexSize = $index->count();
  92. $documents = $index->numDocs();
  93. ]]>
  94. </programlisting>
  95. <para>
  96. <classname>Zend_Search_Lucene::isDeleted($id)</classname>
  97. メソッドで、そのドキュメントが削除されているかどうかを調べます。
  98. </para>
  99. <programlisting role="php"><![CDATA[
  100. for ($count = 0; $count < $index->maxDoc(); $count++) {
  101. if ($index->isDeleted($count)) {
  102. echo "ドキュメント #$id は削除されました。\n";
  103. }
  104. }
  105. ]]>
  106. </programlisting>
  107. <para>
  108. インデックスの最適化を行うと、削除されたドキュメントを取り除き、
  109. ドキュメントの ID を前のほうに詰め込みます。
  110. つまり、内部でのドキュメント ID は変わる可能性があります。
  111. </para>
  112. </sect2>
  113. <sect2 id="zend.search.lucene.index-creation.optimization">
  114. <title>インデックスの最適化</title>
  115. <para>
  116. Lucene のインデックスは、セグメントから構成されます。
  117. 各セグメントはデータの一部分を表し、それぞれ完全に独立しています。
  118. </para>
  119. <para>
  120. Lucene インデックスセグメントのファイルは、その性質上更新することはできません。
  121. セグメントを更新するには、セグメント全体を再構成する必要があります
  122. (Lucene インデックスファイルのフォーマットについての詳細は、
  123. <ulink url="http://lucene.apache.org/java/docs/fileformats.html">http://lucene.apache.org/java/docs/fileformats.html</ulink>
  124. を参照ください)
  125. <footnote><para>現在サポートしている Lucene インデックスファイルフォーマットのバージョンは v2.3 (ZF 1.6 以降) です</para></footnote>。
  126. このことより、新しいドキュメントをインデックスに追加する際には、
  127. 新しいセグメントを作成することになります。
  128. </para>
  129. <para>
  130. セグメントの数が増えるとインデックスの効率が下がります。
  131. しかし、インデックスの最適化によってこれを修復することができます。
  132. 最適化により、複数のセグメントに分かれているデータがひとつにまとめられます。
  133. この処理も、セグメントを更新することはありません。まず大きなセグメントを新しく作成し、
  134. これまでいくつものセグメントに分かれていたデータをひとまとめにしてそこに格納し、
  135. その後でセグメント一覧 ('segments' ファイル) を更新します。
  136. </para>
  137. <para>
  138. インデックス全体の最適化を行うには、<classname>Zend_Search_Lucene::optimize()</classname>
  139. をコールします。これは、すべてのインデックスセグメントを新しいひとつのセグメントにまとめます。
  140. </para>
  141. <programlisting role="php"><![CDATA[
  142. // 既存のインデックスをオープンします
  143. $index = Zend_Search_Lucene::open('/data/my-index');
  144. // インデックスを最適化します
  145. $index->optimize();
  146. ]]>
  147. </programlisting>
  148. <para>
  149. 自動的なインデックス最適化により、インデックスの一貫性を保ちます。
  150. </para>
  151. <para>
  152. 自動的な最適化は、いくつかのインデックスオプションにもとづいて段階的に進められます。
  153. まず非常に小さなセグメントが少し大きめのセグメントに統合され、
  154. さらにそれがもう少し大きな別のセグメントに統合され、... といった具合です。
  155. </para>
  156. <sect3 id="zend.search.lucene.index-creation.optimization.maxbuffereddocs">
  157. <title>自動最適化オプション <emphasis>MaxBufferedDocs</emphasis></title>
  158. <para>
  159. <emphasis>MaxBufferedDocs</emphasis> は、メモリ内に溜め込まれたドキュメントを
  160. 新しいセグメントに書き出す際の最小ドキュメント数です。
  161. </para>
  162. <para>
  163. <emphasis>MaxBufferedDocs</emphasis> の値の取得や設定は、<code>$index->getMaxBufferedDocs()</code>
  164. あるいは <code>$index->setMaxBufferedDocs($maxBufferedDocs)</code> のコールによって行います。
  165. </para>
  166. <para>
  167. デフォルト値は 10 です。
  168. </para>
  169. </sect3>
  170. <sect3 id="zend.search.lucene.index-creation.optimization.maxmergedocs">
  171. <title>自動最適化オプション <emphasis>MaxMergeDocs</emphasis></title>
  172. <para>
  173. <emphasis>MaxMergeDocs</emphasis> は、addDocument()
  174. によってまとめられる最大のドキュメント数です。小さな値
  175. (例えば 10.000 未満) は、対話的にインデックスを作成していく際に有効です。
  176. これにより、インデックス化の際の処理の中断時間を数秒に抑えられます。
  177. 大きな値は、バッチ処理の際に有効です。これにより、検索をより高速に行えるようになります。
  178. </para>
  179. <para>
  180. <emphasis>MaxMergeDocs</emphasis> の値の取得や設定は、<code>$index->getMaxMergeDocs()</code>
  181. あるいは <code>$index->setMaxMergeDocs($maxMergeDocs)</code> のコールによって行います。
  182. </para>
  183. <para>
  184. デフォルト値は PHP_INT_MAX です。
  185. </para>
  186. </sect3>
  187. <sect3 id="zend.search.lucene.index-creation.optimization.mergefactor">
  188. <title>自動最適化オプション <emphasis>MergeFactor</emphasis></title>
  189. <para>
  190. <emphasis>MergeFactor</emphasis> は、addDocument() でセグメントをまとめる頻度を指定します。
  191. 小さな値を指定すると、インデックス作成の際に使用する RAM の量を抑えられます。
  192. また最適化されていないインデックスへの検索が高速になります。しかし、
  193. インデックス作成の速度は遅くなります。大きな値を指定すると、インデックス作成の際の
  194. RAM の使用量が多くなります。また最適化されていないインデックスへの検索速度が落ちます。
  195. しかしインデックスの作成は高速に行えます。大きな値 (&gt; 10)
  196. はバッチ的なインデックス作成の際に有効で、小さな値 (&lt; 10)
  197. は対話的なインデックス保守の際に有効です。
  198. </para>
  199. <para>
  200. <emphasis>MergeFactor</emphasis>
  201. は、自動最適化が行われる平均セグメント数にほぼ等しくなります。
  202. あまり大きな値を指定すると、新しいセグメントにまとめる前に
  203. セグメント数が多くなってしまいます。これは
  204. "failed to open stream: Too many open files"
  205. というエラーの原因となります。制限は、システムに依存します。
  206. </para>
  207. <para>
  208. <emphasis>MergeFactor</emphasis> の値の取得や設定は、<code>$index->getMergeFactor()</code>
  209. あるいは <code>$index->setMergeFactor($mergeFactor)</code> のコールによって行います。
  210. </para>
  211. <para>
  212. デフォルト値は 10 です。
  213. </para>
  214. <para>
  215. Lucene Java および Luke (Lucene Index Toolbox - <ulink url="http://www.getopt.org/luke/">http://www.getopt.org/luke/</ulink>)
  216. を使用してインデックスを最適化することもできます。
  217. Luke の最新リリース (v0.8) は Lucene v2.3 をベースにしており、
  218. 現在の <classname>Zend_Search_Lucene</classname> コンポーネントの実装 (ZF 1.6) と互換性があります。
  219. 古いのバージョンの <classname>Zend_Search_Lucene</classname> の実装を使う場合は、
  220. それと互換性のある別のバージョンの Java Lucene ツールを使う必要があります。
  221. <itemizedlist>
  222. <listitem>
  223. <para>ZF 1.5 - Java Lucene 2.1 (Luke tool v0.7.1 - <ulink url="http://www.getopt.org/luke/luke-0.7.1/"/>)</para>
  224. </listitem>
  225. <listitem>
  226. <para>ZF 1.0 - Java Lucene 1.4 - 2.1 (Luke tool v0.6 - <ulink url="http://www.getopt.org/luke/luke-0.6/"/>)</para>
  227. </listitem>
  228. </itemizedlist>
  229. </para>
  230. </sect3>
  231. </sect2>
  232. <sect2 id="zend.search.lucene.index-creation.permissions">
  233. <title>パーミッション</title>
  234. <para>
  235. インデックスファイルは、デフォルトでは全員が読み書き可能となっています。
  236. </para>
  237. <para>
  238. この設定を上書きするには
  239. <classname>Zend_Search_Lucene_Storage_Directory_Filesystem::setDefaultFilePermissions()</classname>
  240. メソッドを使用します。
  241. </para>
  242. <programlisting role="php"><![CDATA[
  243. // 現在のデフォルトのファイルパーミッションを取得します
  244. $currentPermissions =
  245. Zend_Search_Lucene_Storage_Directory_Filesystem::getDefaultFilePermissions();
  246. // 現在のユーザとグループに対してのみ読み書きアクセス権限を付与します
  247. Zend_Search_Lucene_Storage_Directory_Filesystem::setDefaultFilePermissions(0660);
  248. ]]>
  249. </programlisting>
  250. </sect2>
  251. <sect2 id="zend.search.lucene.index-creation.limitations">
  252. <title>制限事項</title>
  253. <sect3 id="zend.search.lucene.index-creation.limitations.index-size">
  254. <title>インデックスの大きさ</title>
  255. <para>
  256. インデックスの大きさは、
  257. 32 ビットプラットフォームでは最大 2GB までとなります。
  258. </para>
  259. <para>
  260. 64 ビットプラットフォームを使用すれば、
  261. もっと大きなインデックスを扱えます。
  262. </para>
  263. </sect3>
  264. <sect3 id="zend.search.lucene.index-creation.limitations.filesystems">
  265. <title>サポートするファイルシステム</title>
  266. <para>
  267. <classname>Zend_Search_Lucene</classname> は、
  268. 検索処理やインデックス更新、インデックスの最適化を処理する際に
  269. <code>flock()</code> を使用しています。
  270. </para>
  271. <para>
  272. PHP の <ulink url="http://www.php.net/manual/ja/function.flock.php">マニュアル</ulink>
  273. によると、
  274. "<code>flock()</code> は NFS 及び他の多くのネットワークファイルシステムでは動作しません"
  275. とのことです。
  276. </para>
  277. <para>
  278. ネットワークファイルシステムは、<classname>Zend_Search_Lucene</classname> では使用しないでください。
  279. </para>
  280. </sect3>
  281. </sect2>
  282. </sect1>
  283. <!--
  284. vim:se ts=4 sw=4 et:
  285. -->