Zend_Search_Lucene-IndexCreation.xml 13 KB

123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124125126127128129130131132133134135136137138139140141142143144145146147148149150151152153154155156157158159160161162163164165166167168169170171172173174175176177178179180181182183184185186187188189190191192193194195196197198199200201202203204205206207208209210211212213214215216217218219220221222223224225226227228229230231232233234235236237238239240241242243244245246247248249250251252253254255256257
  1. <!-- EN-Revision: 13910 -->
  2. <sect1 id="zend.search.lucene.index-creation">
  3. <title>Créer des index</title>
  4. <sect2 id="zend.search.lucene.index-creation.creating">
  5. <title>Créer un nouvel index</title>
  6. <para>La création et la mise à jour des index sont implémentées dans le composant
  7. <classname>Zend_Search_Lucene</classname>, ainsi que dans le projet Java Lucene. Vous pouvez utiliser l'une ou l'autre de
  8. ces options pour créer des index dans lesquels <classname>Zend_Search_Lucene</classname> pourra chercher.</para>
  9. <para>Le listing ci-dessous donne un exemple d'indexation d'un fichier en utilisant l'API d'indexation de
  10. <classname>Zend_Search_Lucene</classname> :</para>
  11. <programlisting role="php"><![CDATA[
  12. // Création de l'index
  13. $index = Zend_Search_Lucene::create('/data/my-index');
  14. $doc = new Zend_Search_Lucene_Document();
  15. // Stockage de l'URL du document afin de pouvoir l'identifier dans les résultats de recherche
  16. $doc->addField(Zend_Search_Lucene_Field::Text('url', $docUrl));
  17. // Indexation des contenus du document
  18. $doc->addField(Zend_Search_Lucene_Field::UnStored('contents', $docContent));
  19. // Ajout du document à l'index
  20. $index->addDocument($doc);
  21. ]]></programlisting>
  22. <para>Les documents nouvellement ajoutés sont immédiatement recherchables dans l'index.</para>
  23. </sect2>
  24. <sect2 id="zend.search.lucene.index-creation.updating">
  25. <title>Mettre à jour un index</title>
  26. <para>La même procédure est utilisée pour mettre à jour un index existant. La seule différence est l'appel de la
  27. méthode open() à la place de <code>create()</code>.</para>
  28. <programlisting role="php"><![CDATA[
  29. // Ouverture d'un index existant
  30. $index = Zend_Search_Lucene::open('/data/my-index');
  31. $doc = new Zend_Search_Lucene_Document();
  32. // Stockage de l'URL du document afin de pouvoir l'identifier dans les résultats de recherche
  33. $doc->addField(Zend_Search_Lucene_Field::Text('url', $docUrl));
  34. // Indexation des contenus du document
  35. $doc->addField(Zend_Search_Lucene_Field::UnStored('contents',
  36. $docContent));
  37. // Ajout du document à l'index
  38. $index->addDocument($doc);
  39. ]]></programlisting>
  40. </sect2>
  41. <sect2 id="zend.search.lucene.index-creation.document-updating">
  42. <title>Mise à jour de Documents.</title>
  43. <para>Le format de fichier d'un index Lucene ne permet pas la mise à jour d'un document. Les documents doivent
  44. être supprimés puis réinsérés dans l'index afin d'être mis à jour efficacement.</para>
  45. <para>La méthode <classname>Zend_Search_Lucene::delete()</classname> utilise un identifiant interne de document. Cet
  46. identifiant peut être récupéré dans une requête en demandant la propriété 'id' :</para>
  47. <programlisting role="php"><![CDATA[
  48. $removePath = ...;
  49. $hits = $index->find('path:' . $removePath);
  50. foreach ($hits as $hit) {
  51. $index->delete($hit->id);
  52. }
  53. ]]></programlisting>
  54. </sect2>
  55. <sect2 id="zend.search.lucene.index-creation.counting">
  56. <title>Récupération de la taille de l'index</title>
  57. <para>Il existe deux méthodes pour récupérer la taille d'un index dans <classname>Zend_Search_Lucene</classname>.</para>
  58. <para>La méthode <classname>Zend_Search_Lucene::maxDoc()</classname> retourne un de plus que le plus grand nombre possible
  59. de documents. Il s'agit en fait du nombre total de documents dans l'index, y compris les documents supprimés.
  60. Cette méthode a une méthode synonyme : <classname>Zend_Search_Lucene::count()</classname>.</para>
  61. <para>La méthode <classname>Zend_Search_Lucene::numDocs()</classname> retourne le nombre total de documents non
  62. supprimés.</para>
  63. <programlisting role="php"><![CDATA[
  64. $indexSize = $index->count();
  65. $documents = $index->numDocs();
  66. ]]></programlisting>
  67. <para>La méthode <classname>Zend_Search_Lucene::isDeleted($id)</classname> peut être utilisée pour vérifier si un document
  68. a été supprimé.</para>
  69. <programlisting role="php"><![CDATA[
  70. for ($count = 0; $count < $index->maxDoc(); $count++) {
  71. if ($index->isDeleted($count)) {
  72. echo "Le document #$id a été supprimé.\n";
  73. }
  74. }
  75. ]]></programlisting>
  76. <para>L'optimisation d'index retire les documents supprimés et resserre les identifiants de documents dans un
  77. intervalle plus petit. Ainsi, un identifiant interne de document peut être modifié durant l'optimisation de
  78. l'index.</para>
  79. </sect2>
  80. <sect2 id="zend.search.lucene.index-creation.optimization">
  81. <title>Optimisation d'index</title>
  82. <para>Un index Lucene est composé de plusieurs segments. Chaque segment est un ensemble de données complètement
  83. indépendant des autres.</para>
  84. <para>Les fichiers de segment d'index Lucene ne peuvent pas être mis à jour conceptuellement. Une mise à jour de
  85. segment requiert une réorganisation complète de tous les segments. Consultez les formats de fichiers d'index
  86. pour plus de détails (<ulink
  87. url="http://lucene.apache.org/java/docs/fileformats.html">http://lucene.apache.org/java/docs/fileformats.html</ulink>)
  88. <footnote>
  89. <para>Le format de fichier d'index supporté actuellement est la version 2.3 (depuis Zend Framework
  90. 1.6).</para>
  91. </footnote>Les nouveaux documents sont ajoutés à l'index en créant de nouveaux segments.</para>
  92. <para>L'augmentation du nombre de segments réduit la qualité de l'index, mais l'optimisation de l'index remédie
  93. à ce problème. L'optimisation a pour principale activité de fusionner plusieurs segments en un seul. Ce
  94. processus ne met pas à jour les segments. Il génère un nouveau segment plus gros et met à jour la liste des
  95. segments ('segments' file).</para>
  96. <para>L'optimisation complète de l'index peut être déclenchée en appelant la méthode
  97. <classname>Zend_Search_Lucene::optimize()</classname>. Elle va fusionner tous les segments de l'index en un seul nouveau
  98. segment :</para>
  99. <programlisting role="php"><![CDATA[
  100. // Ouverture d'un index existant.
  101. $index = Zend_Search_Lucene::open('/data/my-index');
  102. // Optimisation de l'index.
  103. $index->optimize();
  104. ]]></programlisting>
  105. <para>L'optimisation automatique de l'index est lancée pour garder les index dans un état cohérent.</para>
  106. <para>L'optimisation automatique est un processus itératif géré par plusieurs options d'index. Il s'agit de
  107. fusionner les très petits segments pour obtenir de plus gros segments, puis de fusionner ces segments obtenus
  108. vers des segments encore plus gros et ainsi de suite.</para>
  109. <sect3 id="zend.search.lucene.index-creation.optimization.maxbuffereddocs">
  110. <title>Option d'optimisation automatique <emphasis>MaxBufferedDocs</emphasis></title>
  111. <para><emphasis>MaxBufferedDocs</emphasis> correspond au nombre minimum de documents requis avant que les
  112. documents présents en mémoire dans le buffer soit écris dans un nouveau segment.</para>
  113. <para><emphasis>MaxBufferedDocs</emphasis> peut être récupéré ou défini en appelant
  114. <code>$index-&gt;getMaxBufferedDocs()</code> ou
  115. <code>$index-&gt;setMaxBufferedDocs($maxBufferedDocs)</code>.</para>
  116. <para>Sa valeur par défaut est 10.</para>
  117. </sect3>
  118. <sect3 id="zend.search.lucene.index-creation.optimization.maxmergedocs">
  119. <title>Option d'optimisation automatique <emphasis>MaxMergeDocs</emphasis></title>
  120. <para><emphasis>MaxMergeDocs</emphasis> correspond à un nombre maximal de documents fusionnés via
  121. <code>addDocument()</code>. Des petites valeurs (p. ex., moins de 10'000) sont préférables pour de
  122. l'indexation interactive, du fait que cela limite les pauses durant l'indexation à quelques secondes. Des
  123. valeurs plus grandes sont meilleures pour les indexations en tâches planifiées (batch) et des recherches
  124. plus rapides.</para>
  125. <para><emphasis>MaxMergeDocs</emphasis> peut être récupéré ou défini en appelant
  126. <code>$index-&gt;getMaxMergeDocs()</code> ou <code>$index-&gt;setMaxMergeDocs($maxMergeDocs)</code>.</para>
  127. <para>Sa valeur par défaut est PHP_INT_MAX.</para>
  128. </sect3>
  129. <sect3 id="zend.search.lucene.index-creation.optimization.mergefactor">
  130. <title>Option d'optimisation automatique <emphasis>MergeFactor</emphasis></title>
  131. <para><emphasis>MergeFactor</emphasis> détermine à quelle fréquence les segments d'index sont fusionnés par
  132. <code>addDocument()</code>. Avec des petites valeurs, on utilise moins de RAM durant l'indexation et les
  133. recherche sur des index non optimisés sont plus rapides, mais la vitesse d'indexation est plus lente. Avec
  134. des valeurs plus grandes, on utilise plus de RAM durant l'indexation, et tandis que les recherches sur les
  135. index non optimisés sont plus lentes, l'indexation est plus rapide. Au final, les grandes valeurs (&gt; 10)
  136. sont préférables pour les indexations planifiées (batch), et les valeurs plus petites (&lt; 10) pour les
  137. index qui sont maintenus de manière interactives.</para>
  138. <para>L'option <emphasis>MergeFactor</emphasis> constitue une bonne estimation pour le nombre moyen de
  139. segments fusionnés par une passe d'auto-optimisation. Des valeurs trop grandes produisent un nombre trop
  140. important de segments car ils ne sont pas fusionnés. Cela peut causer l'erreur "failed to open stream: Too
  141. many open files". Cette limitation est dépendante du système.</para>
  142. <para><emphasis>MergeFactor</emphasis> peut être récupéré ou défini par les méthodes
  143. <code>$index-&gt;getMergeFactor()</code> ou <code>$index-&gt;setMergeFactor($mergeFactor)</code>.</para>
  144. <para>Sa valeur par défaut est 10.</para>
  145. <para>Lucene Java et Luke (Lucene Index Toolbox - <ulink
  146. url="http://www.getopt.org/luke/">http://www.getopt.org/luke/</ulink>) peuvent aussi être utilisés pour
  147. optimiser un index. La dernière version de Luke (v0.8) est basée sur Lucene v2.3 et est compatible avec
  148. l'implémentation courante du composant <classname>Zend_Search_Lucene</classname> (ZF 1.6). Les versions précédentes de
  149. <classname>Zend_Search_Lucene</classname> nécessitent d'autres versions des outils de Java Lucene : <itemizedlist>
  150. <listitem>
  151. <para>ZF 1.5 - Java Lucene 2.1 (Luke tool v0.7.1 - <ulink
  152. url="http://www.getopt.org/luke/luke-0.7.1/"></ulink>)</para>
  153. </listitem>
  154. <listitem>
  155. <para>ZF 1.0 - Java Lucene 1.4 - 2.1 (Luke tool v0.6 - <ulink
  156. url="http://www.getopt.org/luke/luke-0.6/"></ulink>)</para>
  157. </listitem>
  158. </itemizedlist></para>
  159. </sect3>
  160. </sect2>
  161. <sect2 id="zend.search.lucene.index-creation.permissions">
  162. <title>Permissions</title>
  163. <para>Par défaut, les fichiers d'index sont disponibles en lecture et écriture par tout le monde.</para>
  164. <para>Il est possible de surcharger ce comportement grâce à la méthode
  165. <classname>Zend_Search_Lucene_Storage_Directory_Filesystem::setDefaultFilePermissions()</classname> :</para>
  166. <programlisting role="php"><![CDATA[
  167. // Récupération des permissions par défaut
  168. $currentPermissions =
  169. Zend_Search_Lucene_Storage_Directory_Filesystem::getDefaultFilePermissions();
  170. // Donne la permission lecture-écriture uniquement à l'utilisateur et au groupe courant.
  171. Zend_Search_Lucene_Storage_Directory_Filesystem::setDefaultFilePermissions(0660);
  172. ]]></programlisting>
  173. </sect2>
  174. <sect2 id="zend.search.lucene.index-creation.limitations">
  175. <title>Limitations</title>
  176. <sect3 id="zend.search.lucene.index-creation.limitations.index-size">
  177. <title>Taille de l'index</title>
  178. <para>La taille de l'index est limité à 2GB sur les plate-formes 32 bits.</para>
  179. <para>Utilisez des plate-formes 64 bits pour des index plus gros.</para>
  180. </sect3>
  181. <sect3 id="zend.search.lucene.index-creation.limitations.filesystems">
  182. <title>Systèmes de fichiers supportés</title>
  183. <para><classname>Zend_Search_Lucene</classname> utilise <code>flock()</code> pour fournir des recherches concurrentes,
  184. la mise à jour des index et l'optimisation.</para>
  185. <para>Selon la <ulink url="http://www.php.net/manual/en/function.flock.php">documentation</ulink> PHP,
  186. "<code>flock()</code> ne fonctionnera pas sur NFS et plusieurs autres systèmes de fichiers en
  187. réseaux".</para>
  188. <para>N'utilisez pas de systèmes de fichiers en réseaux avec <classname>Zend_Search_Lucene</classname>.</para>
  189. </sect3>
  190. </sect2>
  191. </sect1>
  192. <!--
  193. vim:se ts=4 sw=4 et:
  194. -->