Zend_Search_Lucene-BestPractice.xml 24 KB

123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124125126127128129130131132133134135136137138139140141142143144145146147148149150151152153154155156157158159160161162163164165166167168169170171172173174175176177178179180181182183184185186187188189190191192193194195196197198199200201202203204205206207208209210211212213214215216217218219220221222223224225226227228229230231232233234235236237238239240241242243244245246247248249250251252253254255256257258259260261262263264265266267268269270271272273274275276277278279280281282283284285286287288289290291292293294295296297298299300301302303304305306307308309310311312313314315316317318319320321322323324325326327328329330331332333334335336337338339340341342343344345346347348349350351352353354355356357358359360361362363364365366367368369370371372373374375376377378379380381382383384385386387388389390391392393394395396397398399400401402403404405406407408409410411412413414415416417418419420421422423424425426427428429430431432433434435436437438439440441442443444445446447448449450451452453454455456457458459460461462463464465466467468469470471472473474475476477478479480481482483484485486487488489490491492493494495496497498499500501502503504505506507508509510511512513514515516517518519520521522523524525526527528529530531532533534535536537538539540541542543544545546547548549550551552553554555556557558559560561562563564565566567568569570571572573574575576577578579580581582583584585586587588589590591592593594595596597598599600601602603604605606607608609610611612613614615616617618619620621622623
  1. <?xml version="1.0" encoding="UTF-8"?>
  2. <!-- EN-Revision: 24249 -->
  3. <!-- Reviewed: no -->
  4. <sect1 id="zend.search.lucene.best-practice">
  5. <title>Die besten Anwendungen</title>
  6. <sect2 id="zend.search.lucene.best-practice.field-names">
  7. <title>Feldnamen</title>
  8. <para>
  9. Es gibt keine Begrenzungen für Feldnamen in <classname>Zend_Search_Lucene</classname>.
  10. </para>
  11. <para>
  12. Trotzdem ist es eine gute Idee die '<emphasis>id</emphasis>' und
  13. '<emphasis>score</emphasis>' Namen nicht zu verwenden um Doppeldeutigkeiten in den Namen
  14. der <classname>QueryHit</classname> Eigenschaften zu verhindern.
  15. </para>
  16. <para>
  17. Die <classname>Zend_Search_Lucene_Search_QueryHit</classname> <property>id</property>
  18. und <property>score</property> Eigenschaften referieren immer zur internen Lucene
  19. Dokumenten Id und Treffer- <link
  20. linkend="zend.search.lucene.searching.results-scoring">Anzahl</link>. Wenn ein
  21. indiziertes Dokument die gleichen Felder gespeichert hat, muß die
  22. <methodname>getDocument()</methodname> Methode verwendet werden um auf Sie zuzugreifen:
  23. </para>
  24. <programlisting language="php"><![CDATA[
  25. $hits = $index->find($query);
  26. foreach ($hits as $hit) {
  27. // Das 'title' Dokumentfeld erhalten
  28. $title = $hit->title;
  29. // Das 'contents' Dokumentfeld erhalten
  30. $contents = $hit->contents;
  31. // Die interne Lucene Dokument ID erhalten
  32. $id = $hit->id;
  33. // Die Anzahl der Abfragetreffer erhalten
  34. $score = $hit->score;
  35. // Das 'id' Dokumentfeld erhalten
  36. $docId = $hit->getDocument()->id;
  37. // Das 'score' Dokumentfeld erhalten
  38. $docId = $hit->getDocument()->score;
  39. // Ein anderer Weg um das 'title' Dokumentfeld zu erhalten
  40. $title = $hit->getDocument()->title;
  41. }
  42. ]]></programlisting>
  43. </sect2>
  44. <sect2 id="zend.search.lucene.best-practice.indexing-performance">
  45. <title>Geschwindigkeit von Indezes</title>
  46. <para>
  47. Die Geschwindigkeit von Indezes ist ein Kompromiss zwischen verwendeten Ressourcen, der
  48. Zeit für das Indizieren und die Qualität des Index.
  49. </para>
  50. <para>
  51. Die Qualität des Index wird komplett eruiert durch die Anzahl an Indexsegmenten.
  52. </para>
  53. <para>
  54. Jedes Indexsegment ist ein komplett unabhängiger Teil von Daten. Deshalb benötigt ein
  55. Index der mehr Segmente hat, auch mehr Speicher und mehr Zeit für das Suchen.
  56. </para>
  57. <para>
  58. Indexoptimierung ist ein Prozess der mehrere Segmente in ein neues zusammenfügt. Ein
  59. komplett optimierter Index enthält nur ein Segment.
  60. </para>
  61. <para>
  62. Komplette Indexoptimierung kann mit der <methodname>optimize()</methodname> Methode
  63. durchgeführt werden:
  64. </para>
  65. <programlisting language="php"><![CDATA[
  66. $index = Zend_Search_Lucene::open($indexPath);
  67. $index->optimize();
  68. ]]></programlisting>
  69. <para>
  70. Index Optimierung arbeitet mit Daten Streams und benötigt nicht viel Speicher dafür aber
  71. Prozessorzessourcen und Zeit.
  72. </para>
  73. <para>
  74. Lucene Index Segmente sind nicht aktualisierbar durch Ihre Natur (eine Aktualisierung
  75. erfordert das die Segment Datei komplett neu geschrieben wird). Deshalb erzeugt das
  76. Hinzufügen neuer Dokumente zu einem Index auch immer ein neues Segment. Das verkleinert
  77. natürlich die Qualität des Index.
  78. </para>
  79. <para>
  80. Der automatische Optimierungsprozess des Index wird nach jeder Erstellung eines Segments
  81. durchgeführt und besteht darin das Teilsegmente zusammengeführt werden.
  82. </para>
  83. <para>
  84. Es gibt drei Optionen um das Verhalten der automatischen Optimierung zu beeinflussen
  85. (siehe das Kapitel <link linkend="zend.search.lucene.index-creation.optimization">Index
  86. Optimierung</link>):
  87. <itemizedlist>
  88. <listitem>
  89. <para>
  90. <emphasis>MaxBufferedDocs</emphasis> ist die Anzahl an Dokumenten die im
  91. Speicher gepuffert werden bevor ein neues Segment erstellt und auf die
  92. Festplatte geschrieben wird.
  93. </para>
  94. </listitem>
  95. <listitem>
  96. <para>
  97. <emphasis>MaxMergeDocs</emphasis> ist die maximale Anzahl an Dokumenten die
  98. durch den automatischen Optimierungsprozess in ein neues Segment
  99. zusamengeführt werden.
  100. </para>
  101. </listitem>
  102. <listitem>
  103. <para>
  104. <emphasis>MergeFactor</emphasis> ermittelt wie oft die automatische
  105. Optimierung durchgeführt wird.
  106. </para>
  107. </listitem>
  108. </itemizedlist>
  109. <note>
  110. <para>
  111. Alle diese Optionen sind Objekteigenschaften von
  112. <classname>Zend_Search_Lucene</classname>, aber keine Indexeigenschaften. Sie
  113. beeinflussen nur das Verhalten des aktuellen
  114. <classname>Zend_Search_Lucene</classname> Objekts und können sich für
  115. verschiedene Skripte unterscheiden.
  116. </para>
  117. </note>
  118. </para>
  119. <para>
  120. <emphasis>MaxBufferedDocs</emphasis> hat keinen Effekt wenn nur ein Dokument pro
  121. Skriptausführung indiziert wird. Auf der anderen Seite ist das sehr wichtig für die
  122. Indizierung per Batch. Größere Werte erhöhen die Geschwindigkeit des Indizierens,
  123. benötigen aber auch mehr Speicher.
  124. </para>
  125. <para>
  126. Es gibt einfach keinen Weg um den besten Wert für den
  127. <emphasis>MaxBufferedDocs</emphasis> Parameter zu berechnen weil es von der
  128. durchschnittlichen Größe des Dokuments abhängt, dem verwendeten Analysator und dem
  129. erlaubten Speicher.
  130. </para>
  131. <para>
  132. Ein guter Weg um den richtigen Wert herauszufinden, ist die Durchführung von
  133. verschiedenen Tests mit den größten Dokumenten von denen man erwartet das Sie indiziert
  134. werden.
  135. <footnote>
  136. <para>
  137. <methodname>memory_get_usage()</methodname> und
  138. <methodname>memory_get_peak_usage()</methodname> können verwendet werden um die
  139. Verwendung des Speichers zu kontrollieren.
  140. </para>
  141. </footnote>
  142. Es ist eine gute Praxis nicht mehr als die Hälfte des erlaubten Speichers zu verwenden.
  143. </para>
  144. <para>
  145. <emphasis>MaxMergeDocs</emphasis> limitiert die Größe des Segments (in Dokumenten).
  146. Es begrenzt also die Zeit für die automatische Optimierung indem es garantiert das die
  147. <methodname>addDocument()</methodname> Methode nur eine bestimmte Anzahl oft ausgeführt
  148. wird. Das ist für interaktive Anwendungen sehr wichtig.
  149. </para>
  150. <para>
  151. Das Verkleinern des <emphasis>MaxMergeDocs</emphasis> Parameters kann auch die
  152. Geschwindigkeit des Batchinzieierens beeinflussen. Automatische Optimierung des Index
  153. ist ein iterativer Prozess und wird Schritt für Schritt durchgeführt. Kleine Segmente
  154. werden in größere zusammengeführt, und irgendwann werden Sie in sogar noch größere
  155. zusammengeführt und so weiter. Komplette Optimierung des Index wird durchgeführt wenn
  156. nur mehr ein großes Segment überbleibt.
  157. </para>
  158. <para>
  159. Kleinere Segmente verkleinern generell die Qualität des Index. Viele kleine Segmente
  160. können auch zu einem "Too many open files" Fehler führen, ausgelöst durch die
  161. Beschränkungen des Betriebsystems.
  162. <footnote>
  163. <para>
  164. <classname>Zend_Search_Lucene</classname> hält jedes Segment offen um die
  165. Geschwindigkeit des Suchens zu erhöhen.
  166. </para>
  167. </footnote>
  168. </para>
  169. <para>
  170. Generell sollte die Optimierung des Index für einen interaktiven Modus des Indizierens
  171. im Hintergrund durchgeführt werden und <emphasis>MaxMergeDocs</emphasis> sollte für die
  172. nicht zu klein für die Indizierung per Batch sein.
  173. </para>
  174. <para>
  175. <emphasis>MergeFactor</emphasis> beeinflußt die Frequenz der automatischen Optimierung.
  176. Kleinere Werte erhöhen die Qualität des nicht optimierten Index. Größere Werte erhöhen
  177. die Geschwindigkeit des Indizierens, aber auch die Anzahl an Segmenten. Das wiederum
  178. kann wieder zu einem "Too many open files" Fehler führen.
  179. </para>
  180. <para>
  181. <emphasis>MergeFactor</emphasis> gruppiert Indexsegmente anhand Ihrer Größe:
  182. <orderedlist>
  183. <listitem>
  184. <para>
  185. Nicht größer als <emphasis>MaxBufferedDocs</emphasis>.
  186. </para>
  187. </listitem>
  188. <listitem>
  189. <para>
  190. Größer als <emphasis>MaxBufferedDocs</emphasis>, aber nicht größer als
  191. <emphasis>MaxBufferedDocs</emphasis>*<emphasis>MergeFactor</emphasis>.
  192. </para>
  193. </listitem>
  194. <listitem>
  195. <para>
  196. Größer als
  197. <emphasis>MaxBufferedDocs</emphasis>*<emphasis>MergeFactor</emphasis>, aber
  198. nicht größer als
  199. <emphasis>MaxBufferedDocs</emphasis>*<emphasis>MergeFactor</emphasis>*<emphasis>MergeFactor</emphasis>.
  200. </para>
  201. </listitem>
  202. <listitem>
  203. <para>...</para>
  204. </listitem>
  205. </orderedlist>
  206. </para>
  207. <para>
  208. <classname>Zend_Search_Lucene</classname> prüft während jedem Aufruf von
  209. <methodname>addDocument()</methodname> ob das Zusammenführen von Segmentgruppen dazu
  210. führt das neu erstellte Segmente in die nächste Gruppe verschoben werden. Wenn ja, wird
  211. das Zusammenführen durchgeführt.
  212. </para>
  213. <para>
  214. Also kann ein Index mit N Gruppen
  215. <emphasis>MaxBufferedDocs</emphasis> + (N-1)*<emphasis>MergeFactor</emphasis> Segmente
  216. und zumindest
  217. <emphasis>MaxBufferedDocs</emphasis>*<emphasis>MergeFactor</emphasis><superscript>(N-1)</superscript>
  218. Dokumente enthalten.
  219. </para>
  220. <para>
  221. Das gibt eine gute Annäherung für die Anzahl an Segmenten im Index:
  222. </para>
  223. <para>
  224. <emphasis>NumberOfSegments</emphasis> &lt;= <emphasis>MaxBufferedDocs</emphasis> +
  225. <emphasis>MergeFactor</emphasis>*log
  226. <subscript><emphasis>MergeFactor</emphasis></subscript>
  227. (<emphasis>NumberOfDocuments</emphasis>/<emphasis>MaxBufferedDocs</emphasis>)
  228. </para>
  229. <para>
  230. <emphasis>MaxBufferedDocs</emphasis> wird durch den erlaubten Speicher eruiert. Das
  231. erlaubt es dem gewünschten Faktor für das Zusammenführen eine erwünschte Anzahl an
  232. Segmenten zu erhalten.
  233. </para>
  234. <para>
  235. Das Tunen des <emphasis>MergeFactor</emphasis> Parameters ist effektiver für die
  236. Geschwindigkeit der Indizierens per Batch als <emphasis>MaxMergeDocs</emphasis>. Aber es
  237. ist auch gröber. Deshalb sollte die obige Annäherung für das Tunen des
  238. <emphasis>MergeFactor</emphasis>'s verwendet werden und anschließend mit
  239. <emphasis>MaxMergeDocs</emphasis> herumgespielt werden um die beste Geschwindigkeit für
  240. die Indizieren per Batch zu erhalten.
  241. </para>
  242. </sect2>
  243. <sect2 id="zend.search.lucene.best-practice.shutting-down">
  244. <title>Index während des Herunterfahrens</title>
  245. <para>
  246. Die <classname>Zend_Search_Lucene</classname> Instanz führt einiges an Arbeit während
  247. des Herunterfahrens durch, wenn Dokumente zum Index hinzugefügt aber nicht in ein neues
  248. Segment geschrieben wurden.
  249. </para>
  250. <para>
  251. Das kann auch einen automatischen Optimierungsprozess anwerfen.
  252. </para>
  253. <para>
  254. Das Indexobjekt wird automatisch geschlossen wenn es, und alle zurückgegebenen QueryHit
  255. Objekte, ausserhalb des Sichtbereichs sind.
  256. </para>
  257. <para>
  258. Wenn das Indexobjekt in einer globalen Variable gespeichert wird, wird es nur am Ende
  259. der Skriptausführung zerstört
  260. <footnote>
  261. <para>
  262. Das kann auch vorkommen wenn der Index oder die QueryHit Instanzen in zyklischen
  263. Datenstrukturen referenziert werden, weil <acronym>PHP</acronym> Objekte mit
  264. zyklischen Referenzen nur am Ende der Skriptausführung beseitigt.
  265. </para>
  266. </footnote>.
  267. </para>
  268. <para>
  269. Die Behandlung von <acronym>PHP</acronym> Ausnahmen wird in diesem Moment auch
  270. Herunterfahren.
  271. </para>
  272. <para>
  273. Das beeinflußt den normalen Shutdown Prozess des Index nicht, kann aber eine akurate
  274. Diagnostik von Fehlern verhindern wenn ein Fehler während des herunterfahrens
  275. stattfindet.
  276. </para>
  277. <para>
  278. Es gibt zwei Wege mit denen dieses Problem verhindert werden kann.
  279. </para>
  280. <para>
  281. Der erste ist, dass das Herausgehen aus dem Sichtbereich erzwungen wird:
  282. </para>
  283. <programlisting language="php"><![CDATA[
  284. $index = Zend_Search_Lucene::open($indexPath);
  285. ...
  286. unset($index);
  287. ]]></programlisting>
  288. <para>
  289. Und der zweite ist, das eine commit Operation vor dem Ausführungsende des Skripts
  290. durchgeführt wird:
  291. </para>
  292. <programlisting language="php"><![CDATA[
  293. $index = Zend_Search_Lucene::open($indexPath);
  294. $index->commit();
  295. ]]></programlisting>
  296. <para>
  297. Diese Möglichkeit wird auch im Kapitel "<link
  298. linkend="zend.search.lucene.advanced.static">Fortgeschrittene Verwendung von Indezes
  299. als statische Eigenschaften</link>" beschrieben.
  300. </para>
  301. </sect2>
  302. <sect2 id="zend.search.lucene.best-practice.unique-id">
  303. <title>Dokumente anhand der eindeutigen Id erhalten</title>
  304. <para>
  305. Eine übliche Praxis ist es eindeutige Dokument Id's im Index zu speichern. Beispiele
  306. beinhalten URL, Pfad, Datenbank Id.
  307. </para>
  308. <para>
  309. <classname>Zend_Search_Lucene</classname> bietet eine
  310. <methodname>termDocs()</methodname> Methode um Dokumente zu empfangen die spezielle
  311. Terme enthalten.
  312. </para>
  313. <para>
  314. Das ist effizienter als die Verwendung der <methodname>find()</methodname> Methode:
  315. </para>
  316. <programlisting language="php"><![CDATA[
  317. // Dokumente mit find() empfangen durch verwenden eines Abfragestrings
  318. $query = $idFieldName . ':' . $docId;
  319. $hits = $index->find($query);
  320. foreach ($hits as $hit) {
  321. $title = $hit->title;
  322. $contents = $hit->contents;
  323. ...
  324. }
  325. ...
  326. // Dokumente mit der find() Methode empfangen durch verwenden der Anfrage API
  327. $term = new Zend_Search_Lucene_Index_Term($docId, $idFieldName);
  328. $query = new Zend_Search_Lucene_Search_Query_Term($term);
  329. $hits = $index->find($query);
  330. foreach ($hits as $hit) {
  331. $title = $hit->title;
  332. $contents = $hit->contents;
  333. ...
  334. }
  335. ...
  336. // Dokumente mit der termDocs() Methode empfangen
  337. $term = new Zend_Search_Lucene_Index_Term($docId, $idFieldName);
  338. $docIds = $index->termDocs($term);
  339. foreach ($docIds as $id) {
  340. $doc = $index->getDocument($id);
  341. $title = $doc->title;
  342. $contents = $doc->contents;
  343. ...
  344. }
  345. ]]></programlisting>
  346. </sect2>
  347. <sect2 id="zend.search.lucene.best-practice.memory-usage">
  348. <title>Speicherverwendung</title>
  349. <para>
  350. <classname>Zend_Search_Lucene</classname> ist ein relativ speicherintensives Modul.
  351. </para>
  352. <para>
  353. Es verwendet Speicher um Informationen zu Cachen, das Suchen zu optimieren und das
  354. Indizieren zu beschleunigen.
  355. </para>
  356. <para>
  357. Der benötigte Speicher ist für unterschiedliche Modi verschieden.
  358. </para>
  359. <para>
  360. Der Verzeichnisindex der Ausdrücke wird während der Suche geladen. Das ist aktuelle
  361. jeder 128 <superscript>te</superscript> Ausdruck des kompletten Verzeichnisses.
  362. <footnote>
  363. <para>
  364. Das Lucene Dateiformat erlaubt es diese Zahl zu ändern, aber
  365. <classname>Zend_Search_Lucene</classname> bietet keine Möglichkeit das über
  366. seine <acronym>API</acronym> durchzuführen. Trotzdem gibt es die Möglichkeit
  367. diesen Wert zu ändern wenn er mit einer anderen Lucene Implementation
  368. vorbereitet wird.
  369. </para>
  370. </footnote>
  371. </para>
  372. <para>
  373. Deswegen ist der Speicherverbrauch erhöht wenn man eine große Anzahl an eindeutigen
  374. Ausdrücke hat. Das kann passieren wenn man ungeteilte Phrasen als Feld Werte verwendet,
  375. oder ein großes Volumen von nicht-textuellen Informationen hat.
  376. </para>
  377. <para>
  378. Ein nicht optimierter Index besteht aus verschiedenen Segmenten. Er erhöht auch den
  379. Speicherverbrauch. Segmente sind voneinander unabhängig, sodas jedes Segment sein
  380. eigenes Verzeichnis an Ausdrücken enthält und den Verzeichnisindex der Ausdrücke. Wenn
  381. der Index aus <emphasis>N</emphasis> Segmenten besteht kann der Speicherverbrauch im
  382. schlimmsten Fall <emphasis>N</emphasis> mal so groß sein. Eine Optimierung des Index
  383. kann durchgeführt werden um alle Segmente in eines zusammenzuführen um diesen
  384. Speicherverbrauch zu verhindern.
  385. </para>
  386. <para>
  387. Indizierung verwendet den gleichen Speicher wie das Suchen und zusätzlich Speicher für
  388. das Puffern von Dokumenten. Die Größe des Speichers der hierfür verwendet wird kann mit
  389. dem <emphasis>MaxBufferedDocs</emphasis> Parameter verwaltet werden.
  390. </para>
  391. <para>
  392. Index Optimierung (komplett oder teilweise) verwendet stream-artiges Bearbeiten von
  393. Daten und benötigt nicht viel Speicher.
  394. </para>
  395. </sect2>
  396. <sect2 id="zend.search.lucene.best-practice.encoding">
  397. <title>Verschlüsselung</title>
  398. <para>
  399. <classname>Zend_Search_Lucene</classname> arbeitet intern mit UTF-8 Strings. Das
  400. bedeutet also das alle von <classname>Zend_Search_Lucene</classname> zurückgegebenen
  401. Strings UTF-8 verschlüsselt sind.
  402. </para>
  403. <para>
  404. Man sollte sich keine Gedanken über Verschlüsselung machen solange man mit reinen
  405. <acronym>ASCII</acronym> Daten arbeitet, sollte aber vorsichtig sein wenn das nicht der
  406. Fall ist.
  407. </para>
  408. <para>
  409. Eine falsche Verschlüsselung kann Fehlernotizen während der Konvertierung oder den
  410. Verlust von Daten verursachen.
  411. </para>
  412. <para>
  413. <classname>Zend_Search_Lucene</classname> bietet einen breite Palette von Möglichkeiten
  414. für die Verschlüsselung von indizierten Dokumenten und analysierten Abfragen.
  415. </para>
  416. <para>
  417. Verschlüsselung kann explizit als optionaler Parameter bei den Felderstellung Methoden
  418. spezifiziert werden:
  419. </para>
  420. <programlisting language="php"><![CDATA[
  421. $doc = new Zend_Search_Lucene_Document();
  422. $doc->addField(Zend_Search_Lucene_Field::Text('title',
  423. $title,
  424. 'iso-8859-1'));
  425. $doc->addField(Zend_Search_Lucene_Field::UnStored('contents',
  426. $contents,
  427. 'utf-8'));
  428. ]]></programlisting>
  429. <para>
  430. Das ist der beste Weg um Problemen bei der verwendeten Verschlüsselung vorzubeugen.
  431. </para>
  432. <para>
  433. Wenn der optionale Parameter der Verschlüsselung unterdrückt wird, wird das aktuelle
  434. Gebietsschema verwendet. Das aktuelle Gebietsschema kann Daten zur
  435. Zeichenverschlüsselung, zusätzlich zur Spezifikation der Sprache, enthalten.
  436. </para>
  437. <programlisting language="php"><![CDATA[
  438. setlocale(LC_ALL, 'fr_FR');
  439. ...
  440. setlocale(LC_ALL, 'de_DE.iso-8859-1');
  441. ...
  442. setlocale(LC_ALL, 'ru_RU.UTF-8');
  443. ...
  444. ]]></programlisting>
  445. <para>
  446. Der selbe Weg wird verwendet um die Verschlüsselung beim Abfragestring zu setzen.
  447. </para>
  448. <para>
  449. Wenn die Verschlüsselung nicht definiert wird, wird das aktuelle Gebietsschema verwendet
  450. um die Verschlüsselung zu ermitteln.
  451. </para>
  452. <para>
  453. Verschlüsselung kann als optionaler Parameter übergeben werden, wenn die Abfrage
  454. explizit vor der Suche geparsed wird:
  455. </para>
  456. <programlisting language="php"><![CDATA[
  457. $query =
  458. Zend_Search_Lucene_Search_QueryParser::parse($queryStr, 'iso-8859-5');
  459. $hits = $index->find($query);
  460. ...
  461. ]]></programlisting>
  462. <para>
  463. Die Standardverschlüsselung kann auch mit der
  464. <methodname>setDefaultEncoding()</methodname> Methode spezifiziert werden:
  465. </para>
  466. <programlisting language="php"><![CDATA[
  467. Zend_Search_Lucene_Search_QueryParser::setDefaultEncoding('iso-8859-1');
  468. $hits = $index->find($queryStr);
  469. ...
  470. ]]></programlisting>
  471. <para>
  472. Ein leerer String impliziert das 'aktuelle Gebietsschema'.
  473. </para>
  474. <para>
  475. Wenn die richtige Verschlüsselung spezifiziert wurde, kann Sie vom Analysator richtig
  476. bearbeitet werden. Das aktuelle Verhalten hängt vom verwendeten Analysator ab. Siehe
  477. das Kapitel <link linkend="zend.search.lucene.charset">Zeichensatz</link> der
  478. Dokumentation für Details.
  479. </para>
  480. </sect2>
  481. <sect2 id="zend.search.lucene.best-practice.maintenance">
  482. <title>Index Wartung</title>
  483. <para>
  484. Es sollte klar sein das <classname>Zend_Search_Lucene</classname>, genauso wie jede
  485. andere Lucene Implementation, keine "Datenbank" ersetzt.
  486. </para>
  487. <para>
  488. Indizes sollten nicht als Datenspeicher verwendet werden. Sie bieten keine partiellen
  489. Backup/Wiederherstellungs Funktionen, Journal, Logging, Transactions und viele
  490. andere Features die mit Datenbank Management Systemen assoziiert werden.
  491. </para>
  492. <para>
  493. Trotzdem versucht <classname>Zend_Search_Lucene</classname> Indizes jederzeit in einem
  494. gültigen Status zu halten.
  495. </para>
  496. <para>
  497. Index Backup/Wiederherstellung sollte durch Kopieren des Inhalts des Index
  498. Verzeichnisses durchgeführt werden.
  499. </para>
  500. <para>
  501. Wenn der Index durch irgendeinen Grund beschädigt wird, sollte der beschädigte Index
  502. wiederhergestellt oder komplett neu gebaut werden.
  503. </para>
  504. <para>
  505. Es ist also eine gute Idee von großen Indizes ein Backup zu machen und ein Änderungslog
  506. zu speichern um manuelle Wiederherstellung + Roll-Forward Operationen durchzuführen wenn
  507. es notwendig ist. Diese Praxis reduziert die Wiederherstellungszeit des Index
  508. dramatisch.
  509. </para>
  510. </sect2>
  511. </sect1>