Zend_Search_Lucene-Overview.xml 9.1 KB

123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124125126127128129130131132133134135136137138139140141142143144145146147148149150151152153154155156157158159160161162163164165166167168169170171172173174175176177178179180181182183184185
  1. <sect1 id="zend.search.lucene.overview">
  2. <title>Overzicht</title>
  3. <sect2 id="zend.search.lucene.introduction">
  4. <title>Inleiding</title>
  5. <para>
  6. Zend Search_Lucene is een algemene tekst search engine die volledig in PHP 5 is geschreven.
  7. Omdat het zijn indexbestanden op het bestandssysteem schrijft en geen database server nodig
  8. heeft, kan het zoekmogelijkheden aanbieden aan vrijwel elke door PHP gestuurde websites.
  9. Zend_Search_Lucene biedt de volgende mogelijkheden:
  10. <itemizedlist>
  11. <listitem>
  12. <para>Geordend zoeken - betere resultaten eerst</para>
  13. </listitem>
  14. <listitem>
  15. <para>
  16. Veel krachtige querytypes: ##VERT. phrase queries, wildcard queries,
  17. proximity queries, range queries## en meer
  18. <footnote>
  19. <para>
  20. Alleen term en multi-term queries worden op dit moment ondersteund.
  21. </para>
  22. </footnote>
  23. </para>
  24. </listitem>
  25. <listitem>
  26. <para>Zoeken op een bepaald veld (bv: titel, auteur, inhoud)</para>
  27. </listitem>
  28. </itemizedlist>
  29. Zend_Search_Lucene werd afgeleid van het Apache Lucene project. Voor meer informatie over Lucene kan
  30. je terecht op:
  31. <ulink url="http://lucene.apache.org/java/docs/"/>.
  32. </para>
  33. </sect2>
  34. <sect2 id="zend.search.lucene.index-creation.documents-and-fields">
  35. <title>Document en Veld Objecten</title>
  36. <para>
  37. Zend_Search_Lucene beschouwt documenten als eenheden voor de indexering. Een document wordt dan
  38. opgedeeld in benoemde velden en velden hebben inhoud waarop kan gezocht worden.
  39. </para>
  40. <para>
  41. Een document wordt voorgesteld als een Zend_Search_Lucene_Document object, en dit object bevat
  42. Zend_Search_Lucene_Field objecten die de velden voorstellen.
  43. </para>
  44. <para>
  45. Belangrijk: eender welke informatie kan aan de index worden toegevoegd.
  46. Applicatie-specifieke informatie of metadata kan worden opgeslaan in
  47. de documentvelden en later worden opgevraagd met het document tijdens het zoeken.
  48. </para>
  49. <para>
  50. Het is de verantwoordelijkheid van je applicatie om de indexer aan te sturen.
  51. Dit betekent dat data vanuit elke bron die toegankelijk is door je applicatie kan worden geindexeerd. Bijvoorbeeld de harde schijf, een database, een HTML formulier, etc.
  52. </para>
  53. <para>
  54. De <code>Zend_Search_Lucene_Field</code> klasse bied verschillende statische methodes om velden met verschillende eigenschappen aan te maken:
  55. </para>
  56. <programlisting role="php"><![CDATA[<?php
  57. $doc = new Zend_Search_Lucene_Document();
  58. // Het veld worde niet tokenized, maar wordt geindexeerd en opgeslagen in de index
  59. // Opgeslagen velden kunnen uit de index worden opgevraagd
  60. $doc->addField(Zend_Search_Lucene_Field::Keyword('doctype',
  61. 'autogenerated'));
  62. // Veld wordt niet tokenized en niet geindexeerd, maar wordt wel in de index opgeslagen
  63. $doc->addField(Zend_Search_Lucene_Field::UnIndexed('created',
  64. time()));
  65. // Binaire string veld wordt niet tokenized en niet geindexeerd,
  66. // maar wordt wel in de index opgeslagen
  67. $doc->addField(Zend_Search_Lucene_Field::Binary('icon',
  68. $iconData));
  69. // Veld is tokenized en geindexeerd, en opgeslagen in de index
  70. $doc->addField(Zend_Search_Lucene_Field::Text('annotation',
  71. 'Document annotation text'));
  72. // Veld is tokenized en geindexeerd, maar niet opgeslagen in de index
  73. $doc->addField(Zend_Search_Lucene_Field::UnStored('contents',
  74. 'My document content'));
  75. ?>]]></programlisting>
  76. <para>
  77. Je kan velden je eigen naam geven. Een "contents" veld naam wordt standaard tijdens het zoeken gebruikt. Het is een goed idee om de belangrijke informatie uit documenten in een veld met deze naam te plaatsen.
  78. </para>
  79. </sect2>
  80. <sect2 id="zend.search.lucene.index-creation.understanding-field-types">
  81. <title>Veld Types Begrijpen</title>
  82. <itemizedlist>
  83. <listitem>
  84. <para>
  85. <code>Keyword</code> velden worden opgeslagen en geindexeerd, wat betekent dat ze doorzocht kunnen worden en ook in de zoekresultaten getoond kunnen worden. Ze worden niet opgesplitst in aparte woorden door 'tokenization'. 'Enumerated' database velden lenen zich over het algemeen goed voor Keyword velden in Zend_Search_Lucene.
  86. </para>
  87. </listitem>
  88. <listitem>
  89. <para>
  90. <code>UnIndexed</code> velden zijn niet doorzoekbaar, maar worden wel teruggegeven bij zoek resultaten. Database timestamps, primaire sleutels, paden op het bestandssysteem en andere externe identifiers zijn goede kandidaten voor UnIndexed velden.
  91. </para>
  92. </listitem>
  93. <listitem>
  94. <para>
  95. <code>Binary</code> velden worden niet tokenized of geindexeerd, maar worden wel opgeslagen om bij zoekresultaten te gebruiken.
  96. Ze kunnen gebruikt worden om data op te slaan als binaire string, zoals een icoontje.
  97. </para>
  98. </listitem>
  99. <listitem>
  100. <para>
  101. <code>Text</code> velden worden opgeslagen, geindexeerd en tokenized. Tekst velden zijn zeer toepasselijk voor het opslaan van informatie zoals onderwerpen en titels die doorzoekbaar moeten zijn en ook bij de zoekresultaten beschikbaar moeten zijn.
  102. </para>
  103. </listitem>
  104. <listitem>
  105. <para>
  106. <code>UnStored</code> velden worden tokenized en geindexeerd, maar niet opgeslagen in de index. Grote hoeveelheden tekst worden het best geindexeerd in dit type velden. Data opslaan zorgt voor een grotere index op de harde schijf, dus als je het moet doorzoeken maar niet hoeft weer te geven, kan je het beste een UnStored veld gebruiken.
  107. UnStored velden zijn praktisch wanneer ze worden gebruikt met een Zend_Search_Lucene index in combinatie met een relationele database. Je kan grote data velden met UnStored velden indexeren om te doorzoeken, en om ze yut de relationele database te halen met aparte velden als identifier.
  108. </para>
  109. <table>
  110. <title>Zend_Search_Lucene_Field Types</title>
  111. <tgroup cols="4">
  112. <thead>
  113. <row>
  114. <entry>Field Type</entry>
  115. <entry>Stored</entry>
  116. <entry>Indexed</entry>
  117. <entry>Tokenized</entry>
  118. <entry>Binary</entry>
  119. </row>
  120. </thead>
  121. <tbody>
  122. <row>
  123. <entry>Keyword</entry>
  124. <entry>Ja</entry>
  125. <entry>Ja</entry>
  126. <entry>Nee</entry>
  127. <entry>Nee</entry>
  128. </row>
  129. <row>
  130. <entry>UnIndexed</entry>
  131. <entry>Ja</entry>
  132. <entry>Nee</entry>
  133. <entry>Nee</entry>
  134. <entry>Nee</entry>
  135. </row>
  136. <row>
  137. <entry>Binary</entry>
  138. <entry>Ja</entry>
  139. <entry>Nee</entry>
  140. <entry>Nee</entry>
  141. <entry>Ja</entry>
  142. </row>
  143. <row>
  144. <entry>Text</entry>
  145. <entry>Ja</entry>
  146. <entry>Ja</entry>
  147. <entry>Ja</entry>
  148. <entry>Nee</entry>
  149. </row>
  150. <row>
  151. <entry>UnStored</entry>
  152. <entry>Nee</entry>
  153. <entry>Ja</entry>
  154. <entry>Ja</entry>
  155. <entry>Nee</entry>
  156. </row>
  157. </tbody>
  158. </tgroup>
  159. </table>
  160. </listitem>
  161. </itemizedlist>
  162. </sect2>
  163. </sect1>
  164. <!--
  165. vim:se ts=4 sw=4 et:
  166. -->