Zend_Search_Lucene-BestPractice.xml 23 KB

123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124125126127128129130131132133134135136137138139140141142143144145146147148149150151152153154155156157158159160161162163164165166167168169170171172173174175176177178179180181182183184185186187188189190191192193194195196197198199200201202203204205206207208209210211212213214215216217218219220221222223224225226227228229230231232233234235236237238239240241242243244245246247248249250251252253254255256257258259260261262263264265266267268269270271272273274275276277278279280281282283284285286287288289290291292293294295296297298299300301302303304305306307308309310311312313314315316317318319320321322323324325326327328329330331332333334335336337338339340341342343344345346347348349350351352353354355356357358359360361362363364365366367368369370371372373374375376377378379380381382383384385386387388389390391392393394395396397398399400401402403404405406407408409410411412413414415416417418419420421422423424425426427428429430431432433434435436437438439440441442443444445446447448449450451452453454455456457458459460461462463464465466467468469470471472473474475476477478479480481482483484485486487488489490491492493494495496497498499500501502503504505506507508509510511512513514515516517518519520521522523524525526527528529530531532533534535536537538539540541542543544545546547548549550551552553554555556557558559560561562563564565566567568569570571
  1. <?xml version="1.0" encoding="UTF-8"?>
  2. <!-- EN-Revision: 15157 -->
  3. <!-- Reviewed: no -->
  4. <sect1 id="zend.search.lucene.best-practice">
  5. <title>Die besten Anwendungen</title>
  6. <sect2 id="zend.search.lucene.best-practice.field-names">
  7. <title>Feldnamen</title>
  8. <para>
  9. Es gibt keine Begrenzungen für Feldnamen in <classname>Zend_Search_Lucene</classname>.
  10. </para>
  11. <para>
  12. Trotzdem ist es eine gute Idee die '<emphasis>id</emphasis>' und '<emphasis>score</emphasis>'
  13. Namen nicht zu verwenden um Doppeldeutigkeiten in den Namen der <code>QueryHit</code> Eigenschaften
  14. zu verhindern.
  15. </para>
  16. <para>
  17. Die <classname>Zend_Search_Lucene_Search_QueryHit</classname> <code>id</code> und <code>score</code>
  18. Eigenschaften referieren immer zur internen Lucene Dokumenten Id und Treffer-
  19. <link linkend="zend.search.lucene.searching.results-scoring">Anzahl</link>. Wenn ein indiziertes
  20. Dokument die gleichen Felder gespeichert hat, muß die <code>getDocument()</code> Methode verwendet
  21. werden um auf Sie zuzugreifen:
  22. <programlisting role="php"><![CDATA[
  23. $hits = $index->find($query);
  24. foreach ($hits as $hit) {
  25. // Das 'title' Dokumentfeld erhalten
  26. $title = $hit->title;
  27. // Das 'contents' Dokumentfeld erhalten
  28. $contents = $hit->contents;
  29. // Die interne Lucene Dokument ID erhalten
  30. $id = $hit->id;
  31. // Die Anzahl der Abfragetreffer erhalten
  32. $score = $hit->score;
  33. // Das 'id' Dokumentfeld erhalten
  34. $docId = $hit->getDocument()->id;
  35. // Das 'score' Dokumentfeld erhalten
  36. $docId = $hit->getDocument()->score;
  37. // Ein anderer Weg um das 'title' Dokumentfeld zu erhalten
  38. $title = $hit->getDocument()->title;
  39. }
  40. ]]></programlisting>
  41. </para>
  42. </sect2>
  43. <sect2 id="zend.search.lucene.best-practice.indexing-performance">
  44. <title>Geschwindigkeit von Indezes</title>
  45. <para>
  46. Die Geschwindigkeit von Indezes ist ein Kompromiss zwischen verwendeten Ressourcen, der Zeit
  47. für das Indizieren und die Qualität des Index.
  48. </para>
  49. <para>
  50. Die Qualität des Index wird komplett eruiert durch die Anzahl an Indexsegmenten.
  51. </para>
  52. <para>
  53. Jedes Indexsegment ist ein komplett unabhängiger Teil von Daten. Deshalb benötigt ein Index der mehr
  54. Segmente hat, auch mehr Speicher und mehr Zeit für das Suchen.
  55. </para>
  56. <para>
  57. Indexoptimierung ist ein Prozess der mehrere Segmente in ein neues zusammenfügt. Ein komplett
  58. optimierter Index enthält nur ein Segment.
  59. </para>
  60. <para>
  61. Komplette Indexoptimierung kann mit der <code>optimize()</code> Methode durchgeführt werden:
  62. <programlisting role="php"><![CDATA[
  63. $index = Zend_Search_Lucene::open($indexPath);
  64. $index->optimize();
  65. ]]></programlisting>
  66. </para>
  67. <para>
  68. Index Optimierung arbeitet mit Daten Streams und benötigt nicht viel Speicher dafür aber
  69. Prozessorzessourcen und Zeit.
  70. </para>
  71. <para>
  72. Lucene Index Segmente sind nicht aktualisierbar durch Ihre Natur (eine Aktualisierung erfordert
  73. das die Segment Datei komplett neu geschrieben wird). Deshalb erzeugt das Hinzufügen neuer
  74. Dokumente zu einem Index auch immer ein neues Segment. Das verkleinert natürlich die Qualität
  75. des Index.
  76. </para>
  77. <para>
  78. Der automatische Optimierungsprozess des Index wird nach jeder Erstellung eines Segments
  79. durchgeführt und besteht darin das Teilsegmente zusammengeführt werden.
  80. </para>
  81. <para>
  82. Es gibt drei Optionen um das Verhalten der automatischen Optimierung zu beeinflussen
  83. (siehe das Kapitel <link linkend="zend.search.lucene.index-creation.optimization">Index Optimierung</link>):
  84. <itemizedlist>
  85. <listitem>
  86. <para>
  87. <emphasis>MaxBufferedDocs</emphasis> ist die Anzahl an Dokumenten die im Speicher
  88. gepuffert werden bevor ein neues Segment erstellt und auf die Festplatte geschrieben wird.
  89. </para>
  90. </listitem>
  91. <listitem>
  92. <para>
  93. <emphasis>MaxMergeDocs</emphasis> ist die maximale Anzahl an Dokumenten die durch den
  94. automatischen Optimierungsprozess in ein neues Segment zusamengeführt werden.
  95. </para>
  96. </listitem>
  97. <listitem>
  98. <para>
  99. <emphasis>MergeFactor</emphasis> ermittelt wie oft die automatische Optimierung
  100. durchgeführt wird.
  101. </para>
  102. </listitem>
  103. </itemizedlist>
  104. <note>
  105. <para>
  106. Alle diese Optionen sind Objekteigenschaften von <classname>Zend_Search_Lucene</classname>, aber keine
  107. Indexeigenschaften. Sie beeinflussen nur das Verhalten des aktuellen
  108. <classname>Zend_Search_Lucene</classname> Objekts und können sich für verschiedene Skripte
  109. unterscheiden.
  110. </para>
  111. </note>
  112. </para>
  113. <para>
  114. <emphasis>MaxBufferedDocs</emphasis> hat keinen Effekt wenn nur ein Dokument pro Skriptausführung
  115. indiziert wird. Auf der anderen Seite ist das sehr wichtig für die Indizierung per Batch.
  116. Größere Werte erhöhen die Geschwindigkeit des Indizierens, benötigen aber auch mehr Speicher.
  117. </para>
  118. <para>
  119. Es gibt einfach keinen Weg um den besten Wert für den <emphasis>MaxBufferedDocs</emphasis>
  120. Parameter zu berechnen weil es von der durchschnittlichen Größe des Dokuments abhängt, dem
  121. verwendeten Analysator und dem erlaubten Speicher.
  122. </para>
  123. <para>
  124. Ein guter Weg um den richtigen Wert herauszufinden, ist die Durchführung von verschiedenen Tests
  125. mit den größten Dokumenten von denen man erwartet das Sie indiziert werden.
  126. <footnote>
  127. <para>
  128. <code>memory_get_usage()</code> und <code>memory_get_peak_usage()</code> können verwendet
  129. werden um die Verwendung des Speichers zu kontrollieren.
  130. </para>
  131. </footnote>
  132. Es ist eine gute Praxis nicht mehr als die Hälfte des erlaubten Speichers zu verwenden.
  133. </para>
  134. <para>
  135. <emphasis>MaxMergeDocs</emphasis> limitiert die Größe des Segments (in Dokumenten).
  136. Es begrenzt also die Zeit für die automatische Optimierung indem es garantiert das die
  137. <code>addDocument()</code> Methode nur eine bestimmte Anzahl oft ausgeführt wird. Das ist
  138. für interaktive Anwendungen sehr wichtig.
  139. </para>
  140. <para>
  141. Das Verkleinern des <emphasis>MaxMergeDocs</emphasis> Parameters kann auch die Geschwindigkeit
  142. des Batchinzieierens beeinflussen. Automatische Optimierung des Index ist ein iterativer Prozess
  143. und wird Schritt für Schritt durchgeführt. Kleine Segmente werden in größere zusammengeführt, und
  144. irgendwann werden Sie in sogar noch größere zusammengeführt und so weiter. Komplette
  145. Optimierung des Index wird durchgeführt wenn nur mehr ein großes Segment überbleibt.
  146. </para>
  147. <para>
  148. Kleinere Segmente verkleinern generell die Qualität des Index. Viele kleine Segmente können auch
  149. zu einem "Too many open files" Fehler führen, ausgelöst durch die Beschränkungen des Betriebsystems.
  150. <footnote>
  151. <para>
  152. <classname>Zend_Search_Lucene</classname> hält jedes Segment offen um die Geschwindigkeit des Suchens zu erhöhen.
  153. </para>
  154. </footnote>
  155. </para>
  156. <para>
  157. Generell sollte die Optimierung des Index für einen interaktiven Modus des Indizierens im
  158. Hintergrund durchgeführt werden und <emphasis>MaxMergeDocs</emphasis> sollte für die nicht zu klein
  159. für die Indizierung per Batch sein.
  160. </para>
  161. <para>
  162. <emphasis>MergeFactor</emphasis> beeinflußt die Frequenz der automatischen Optimierung. Kleinere
  163. Werte erhöhen die Qualität des nicht optimierten Index. Größere Werte erhöhen die Geschwindigkeit
  164. des Indizierens, aber auch die Anzahl an Segmenten. Das wiederum kann wieder zu einem
  165. "Too many open files" Fehler führen.
  166. </para>
  167. <para>
  168. <emphasis>MergeFactor</emphasis> gruppiert Indexsegmente anhand Ihrer Größe:
  169. <orderedlist>
  170. <listitem>
  171. <para>
  172. Nicht größer als <emphasis>MaxBufferedDocs</emphasis>.
  173. </para>
  174. </listitem>
  175. <listitem>
  176. <para>
  177. Größer als <emphasis>MaxBufferedDocs</emphasis>, aber nicht größer als
  178. <emphasis>MaxBufferedDocs</emphasis>*<emphasis>MergeFactor</emphasis>.
  179. </para>
  180. </listitem>
  181. <listitem>
  182. <para>
  183. Größer als <emphasis>MaxBufferedDocs</emphasis>*<emphasis>MergeFactor</emphasis>, aber
  184. nicht größer als
  185. <emphasis>MaxBufferedDocs</emphasis>*<emphasis>MergeFactor</emphasis>*<emphasis>MergeFactor</emphasis>.
  186. </para>
  187. </listitem>
  188. <listitem>
  189. <para>...</para>
  190. </listitem>
  191. </orderedlist>
  192. </para>
  193. <para>
  194. <classname>Zend_Search_Lucene</classname> prüft wärend jedem Aufruf von <code>addDocument()</code> ob das Zusammenführen
  195. von Segmentgruppen dazu führt das neu erstellte Segmente in die nächste Gruppe verschoben
  196. werden. Wenn ja, wird das Zusammenführen durchgeführt.
  197. </para>
  198. <para>
  199. Also kann ein Index mit N Gruppen
  200. <emphasis>MaxBufferedDocs</emphasis> + (N-1)*<emphasis>MergeFactor</emphasis> Segmente und zumindest
  201. <emphasis>MaxBufferedDocs</emphasis>*<emphasis>MergeFactor</emphasis><superscript>(N-1)</superscript>
  202. Dokumente enthalten.
  203. </para>
  204. <para>
  205. Das gibt eine gute Annäherung für die Anzahl an Segmenten im Index:
  206. </para>
  207. <para>
  208. <emphasis>NumberOfSegments</emphasis> &lt;= <emphasis>MaxBufferedDocs</emphasis> + <emphasis>MergeFactor</emphasis>*log
  209. <subscript><emphasis>MergeFactor</emphasis></subscript> (<emphasis>NumberOfDocuments</emphasis>/<emphasis>MaxBufferedDocs</emphasis>)
  210. </para>
  211. <para>
  212. <emphasis>MaxBufferedDocs</emphasis> wird durch den erlaubten Speicher eruiert. Das erlaubt es
  213. dem gewünschten Faktor für das Zusammenführen eine erwünschte Anzahl an Segmenten zu erhalten.
  214. </para>
  215. <para>
  216. Das Tunen des <emphasis>MergeFactor</emphasis> Parameters ist effektiver für die Geschwindigkeit
  217. der Indizierens per Batch als <emphasis>MaxMergeDocs</emphasis>. Aber es ist auch gröber. Deshalb
  218. sollte die obige Annäherung für das Tunen des <emphasis>MergeFactor</emphasis>'s verwendet werden
  219. und anschließend mit <emphasis>MaxMergeDocs</emphasis> herumgespielt werden um die beste
  220. Geschwindigkeit für die Indizieren per Batch zu erhalten.
  221. </para>
  222. </sect2>
  223. <sect2 id="zend.search.lucene.best-practice.shutting-down">
  224. <title>Index wärend des Herunterfahrens</title>
  225. <para>
  226. Die <classname>Zend_Search_Lucene</classname> Instanz führt einiges an Arbeit während des Herunterfahrens
  227. durch, wenn Dokumente zum Index hinzugefügt aber nicht in ein neues Segment geschrieben wurden.
  228. </para>
  229. <para>
  230. Das kann auch einen automatischen Optimierungsprozess anwerfen.
  231. </para>
  232. <para>
  233. Das Indexobjekt wird automatisch geschlossen wenn es, und alle zurückgegebenen QueryHit
  234. Objekte, ausserhalb des Sichtbereichs sind.
  235. </para>
  236. <para>
  237. Wenn das Indexobjekt in einer globalen Variable gespeichert wird, wird es nur am Ende der
  238. Skriptausführung zerstört
  239. <footnote>
  240. <para>
  241. Das kann auch vorkommen wenn der Index oder die QueryHit Instanzen in zyklischen
  242. Datenstrukturen referenziert werden, weil PHP Objekte mit zyklischen Referenzen nur am
  243. Ende der Skriptausführung beseitigt.
  244. </para>
  245. </footnote>.
  246. </para>
  247. <para>
  248. Die Behandlung von PHP Ausnahmen ist aktuell auch ein Herunterfahren.
  249. </para>
  250. <para>
  251. Das beeinflußt den normalen Shutdown Prozess des Index nicht, kann aber eine akurate Diagnostik
  252. von Fehlern verhindern wenn ein Fehler wärend des herunterfahrens stattfindet.
  253. </para>
  254. <para>
  255. Es gibt zwei Wege mit denen dieses Problem verhindert werden kann.
  256. </para>
  257. <para>
  258. Der erste ist, das das Herausgehen aus dem Sichtbereich erzwungen wird:
  259. <programlisting role="php"><![CDATA[
  260. $index = Zend_Search_Lucene::open($indexPath);
  261. ...
  262. unset($index);
  263. ]]></programlisting>
  264. </para>
  265. <para>
  266. Und der zweite ist, das eine commit Operation vor dem Ausführungsende des Skripts durchgeführt wird:
  267. <programlisting role="php"><![CDATA[
  268. $index = Zend_Search_Lucene::open($indexPath);
  269. $index->commit();
  270. ]]></programlisting>
  271. Diese Möglichkeit wird auch im Kapitel
  272. "<link linkend="zend.search.lucene.advanced.static">Fortgeschrittene Verwendung von Indezes als statische Eigenschaften</link>"
  273. beschrieben.
  274. </para>
  275. </sect2>
  276. <sect2 id="zend.search.lucene.best-practice.unique-id">
  277. <title>Dokumente anhand der eindeutigen Id erhalten</title>
  278. <para>
  279. Eine übliche Praxis ist es eindeutige Dokument Id's im Index zu speichern. Beispiele beinhalten
  280. URL, Pfad, Datenbank Id.
  281. </para>
  282. <para>
  283. <classname>Zend_Search_Lucene</classname> bietet eine <code>termDocs()</code> Methode um Dokumente zu
  284. empfangen die spezielle Terme enthalten.
  285. </para>
  286. <para>
  287. Das ist effizienter als die Verwendung der <code>find()</code> Methode:
  288. <programlisting role="php"><![CDATA[
  289. // Dokumente mit find() empfangen durch verwenden eines Abfragestrings
  290. $query = $idFieldName . ':' . $docId;
  291. $hits = $index->find($query);
  292. foreach ($hits as $hit) {
  293. $title = $hit->title;
  294. $contents = $hit->contents;
  295. ...
  296. }
  297. ...
  298. // Dokumente mit der find() Methode empfangen durch verwenden der Anfrage API
  299. $term = new Zend_Search_Lucene_Index_Term($docId, idFieldName);
  300. $query = new Zend_Search_Lucene_Search_Query_Term($term);
  301. $hits = $index->find($query);
  302. foreach ($hits as $hit) {
  303. $title = $hit->title;
  304. $contents = $hit->contents;
  305. ...
  306. }
  307. ...
  308. // Dokumente mit der termDocs() Methode empfangen
  309. $term = new Zend_Search_Lucene_Index_Term($docId, idFieldName);
  310. $docIds = $index->termDocs($term);
  311. foreach ($docIds as $id) {
  312. $doc = $index->getDocument($id);
  313. $title = $doc->title;
  314. $contents = $doc->contents;
  315. ...
  316. }
  317. ]]></programlisting>
  318. </para>
  319. </sect2>
  320. <sect2 id="zend.search.lucene.best-practice.memory-usage">
  321. <title>Speicherverwendung</title>
  322. <para>
  323. <classname>Zend_Search_Lucene</classname> ist ein relativ speicherintensives Modul.
  324. </para>
  325. <para>
  326. Es verwendet Speicher um Informationen zu Cachen, das Suchen zu optimieren und das Indizieren
  327. zu beschleunigen.
  328. </para>
  329. <para>
  330. Der benötigte Speicher ist für unterschiedliche Modi verschieden.
  331. </para>
  332. <para>
  333. Der Verzeichnisindex der Ausdrücke wird während der Suche geladen. Das ist aktuelle jeder 128
  334. <superscript>te</superscript> Ausdruck des kompletten Verzeichnisses.
  335. <footnote>
  336. <para>
  337. Das Lucene Dateiformat erlaubt es diese Zahl zu ändern, aber <classname>Zend_Search_Lucene</classname> bietet
  338. keine Möglichkeit das über seine API durchzuführen. Trotzdem gibt es die Möglichkeit
  339. diesen Wert zu ändern wenn er mit einer anderen Lucene Implementation vorbereitet wird.
  340. </para>
  341. </footnote>
  342. </para>
  343. <para>
  344. Deswegen ist der Speicherverbrauch erhöht wenn man eine große Anzahl an eindeutigen Ausdrücke hat.
  345. Das kann passieren wenn man ungeteilte Phrasen als Feld Werte verwendet, oder ein großes Volumen von
  346. nicht-textuellen Informationen hat.
  347. </para>
  348. <para>
  349. Ein nicht optimierter Index besteht aus verschiedenen Segmenten. Er erhöht auch den
  350. Speicherverbrauch. Segmente sind voneinander unabhängig, sodas jedes Segment sein eigenes
  351. Verzeichnis an Ausdrücken enthält und den Verzeichnisindex der Ausdrücke. Wenn der Index aus
  352. <emphasis>N</emphasis> Segmenten besteht kann der Speicherverbrauch im schlimmsten Fall
  353. <emphasis>N</emphasis> mal so groß sein. Eine Optimierung des Index kann durchgeführt werden
  354. um alle Segmente in eines zusammenzuführen um diesen Speicherverbrauch zu verhindern .
  355. </para>
  356. <para>
  357. Indizierung verwendet den gleichen Speicher wie das Suchen und zusätzlich Speicher für das
  358. puffern von Dokumenten. Die Größe des Speichers der hierfür verwendet wird kann mit dem
  359. <emphasis>MaxBufferedDocs</emphasis> Parameter verwaltet werden.
  360. </para>
  361. <para>
  362. Index Optimierung (komplett oder teilweise) verwendet stream-artiges Bearbeiten von Daten und
  363. benötigt nicht viel Speicher.
  364. </para>
  365. </sect2>
  366. <sect2 id="zend.search.lucene.best-practice.encoding">
  367. <title>Verschlüsselung</title>
  368. <para>
  369. <classname>Zend_Search_Lucene</classname> arbeitet intern mit UTF-8 Strings. Das bedeutet also das alle von
  370. <classname>Zend_Search_Lucene</classname> zurückgegebenen Strings UTF-8 verschlüsselt sind.
  371. </para>
  372. <para>
  373. Man sollte sich keine Gedanken über Verschlüsselung machen solange man mit reinen ASCII Daten
  374. arbeitet, sollte aber vorsichtig sein wenn das nicht der Fall ist.
  375. </para>
  376. <para>
  377. Eine falsche Verschlüsselung kann Fehlernotizen wärend der Konvertierung oder den Verlust von
  378. Daten verursachen.
  379. </para>
  380. <para>
  381. <classname>Zend_Search_Lucene</classname> bietet einen breite Palette von Möglichkeiten für die Verschlüsselung
  382. von indizierten Dokumenten und analysierten Abfragen.
  383. </para>
  384. <para>
  385. Verschlüsselung kann explizit als optionaler Parameter bei den Felderstellung Methoden
  386. spezifiziert werden:
  387. <programlisting role="php"><![CDATA[
  388. $doc = new Zend_Search_Lucene_Document();
  389. $doc->addField(Zend_Search_Lucene_Field::Text('title',
  390. $title,
  391. 'iso-8859-1'));
  392. $doc->addField(Zend_Search_Lucene_Field::UnStored('contents',
  393. $contents,
  394. 'utf-8'));
  395. ]]></programlisting>
  396. Das ist der beste Weg um Problemen bei der verwendeten Verschlüsselung vorzubeugen.
  397. </para>
  398. <para>
  399. Wenn der optionale Parameter der Verschlüsselung unterdrückt wird, wird das aktuelle
  400. Gebietsschema verwendet. Das aktuelle Gebietsschema kann Daten zur Zeichenverschlüsselung,
  401. zusätzlich zur Spezifikation der Sprache, enthalten.
  402. <programlisting role="php"><![CDATA[
  403. setlocale(LC_ALL, 'fr_FR');
  404. ...
  405. setlocale(LC_ALL, 'de_DE.iso-8859-1');
  406. ...
  407. setlocale(LC_ALL, 'ru_RU.UTF-8');
  408. ...
  409. ]]></programlisting>
  410. </para>
  411. <para>
  412. Der selbe Weg wird verwendet um die Verschlüsselung beim Abfragestring zu setzen.
  413. </para>
  414. <para>
  415. Wenn die Verschlüsselung nicht definiert wird, wird das aktuelle Gebietsschema verwendet um die
  416. Verschlüsselung zu ermitteln.
  417. </para>
  418. <para>
  419. Verschlüsselung kann als optionaler Parameter übergeben werden, wenn die Abfrage explizit vor der
  420. Suche geparsed wird:
  421. <programlisting role="php"><![CDATA[
  422. $query =
  423. Zend_Search_Lucene_Search_QueryParser::parse($queryStr, 'iso-8859-5');
  424. $hits = $index->find($query);
  425. ...
  426. ]]></programlisting>
  427. </para>
  428. <para>
  429. Die Standardverschlüsselung kann auch mit der <code>setDefaultEncoding()</code> Methode spezifiziert
  430. werden:
  431. <programlisting role="php"><![CDATA[
  432. Zend_Search_Lucene_Search_QueryParser::setDefaultEncoding('iso-8859-1');
  433. $hits = $index->find($queryStr);
  434. ...
  435. ]]></programlisting>
  436. Ein leerer String impliziert das 'aktuelle Gebietsschema'.
  437. </para>
  438. <para>
  439. Wenn die richtige Verschlüsselung spezifiziert wurde, kann Sie vom Analysator richtig bearbeitet
  440. werden. Das aktuelle Verhalten hängt vom verwendeten Analysator ab. Siehe
  441. das Kapitel <link linkend="zend.search.lucene.charset">Zeichensatz</link> der Dokumentation
  442. für Details.
  443. </para>
  444. </sect2>
  445. <sect2 id="zend.search.lucene.best-practice.maintenance">
  446. <title>Index Wartung</title>
  447. <para>
  448. Es sollte klar sein das <classname>Zend_Search_Lucene</classname>, genauso wie jede andere Lucene Implementation,
  449. keine "Datenbank" ersetzt.
  450. </para>
  451. <para>
  452. Indizes sollten nicht als Datenspeicher verwendet werden. Sie bieten keine partiellen
  453. Backup/Wiederherstellungs Funktionen, Journal, Logging, Transactions und viele
  454. andere Features die mit Datenbank Management Systemen assoziiert werden.
  455. </para>
  456. <para>
  457. Trotzdem versucht <classname>Zend_Search_Lucene</classname> Indizes jederzeit in einem gültigen Status zu halten.
  458. </para>
  459. <para>
  460. Index Backup/Wiederherstellung sollte durch Kopieren des Inhalts des Index Verzeichnisses
  461. durechgeführt werden.
  462. </para>
  463. <para>
  464. Wenn der Index durch irgendeinen Grund beschädigt wird, sollte der beschädigte Index
  465. wiederhergestellt oder komplett neu gebaut werden.
  466. </para>
  467. <para>
  468. Es ist also eine gute Idee von großen Indizes ein Backup zu machen und ein Änderungslog zu
  469. speichern um manuelle Wiederherstellung + Roll-Forward Operationen durchzuführen wenn es
  470. notwendig ist. Diese Praxis reduziert die Wiederherstellungszeit des Index dramatisch.
  471. </para>
  472. </sect2>
  473. </sect1>