Zend_Search_Lucene-Overview.xml 29 KB

123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124125126127128129130131132133134135136137138139140141142143144145146147148149150151152153154155156157158159160161162163164165166167168169170171172173174175176177178179180181182183184185186187188189190191192193194195196197198199200201202203204205206207208209210211212213214215216217218219220221222223224225226227228229230231232233234235236237238239240241242243244245246247248249250251252253254255256257258259260261262263264265266267268269270271272273274275276277278279280281282283284285286287288289290291292293294295296297298299300301302303304305306307308309310311312313314315316317318319320321322323324325326327328329330331332333334335336337338339340341342343344345346347348349350351352353354355356357358359360361362363364365366367368369370371372373374375376377378379380381382383384385386387388389390391392393394395396397398399400401402403404405406407408409410411412413414415416417418419420421422423424425426427428429430431432433434435436437438439440441442443444445446447448449450451452453454455456457458459460461462463464465466467468469470471472473474475476477478479480481482483484485486487488489490491492493494495496497498499500501502503504505506507508509510511512513514515516517518519520521522523524525526527528529530531532533534535536537538539540541542543544545546547548549550551552553554555556557558559560561562563564565566567568569570571572573574575576577578579580581582583584585586587588589590591592593594595596597598599600601602603604605606607608609610611612613614615616617618619620621622623624625626627628629630631632633634635636637638639640641642643644645646647648649650651652653654655656657658659660661662663664665666667668669670671
  1. <?xml version="1.0" encoding="UTF-8"?>
  2. <!-- EN-Revision: 15050 -->
  3. <!-- Reviewed: no -->
  4. <sect1 id="zend.search.lucene.overview">
  5. <title>Überblick</title>
  6. <sect2 id="zend.search.lucene.introduction">
  7. <title>Einführung</title>
  8. <para>
  9. <classname>Zend_Search_Lucene</classname> ist eine komplett in PHP 5 geschriebene Textsuchmaschine für viele
  10. Zwecke. Da es seinen Index im Dateisystem ablegt und keinen Datenbankserver erfordert,
  11. kann es eine Suchfunktion für nahezu jede auf PHP basierende Website bereitstellen.
  12. <classname>Zend_Search_Lucene</classname> unterstützt die folgenden Funktionalitäten:
  13. <itemizedlist>
  14. <listitem>
  15. <para>Klassifizierte Suche - die besten Ergebnisse werden zuerst zurückgegeben</para>
  16. </listitem>
  17. <listitem>
  18. <para>
  19. Viele mächtige Abfragearten: Phrasensuche, Platzhaltersuche, Boolsche Suche,
  20. Näherungssuche, Bereichssuche und viele andere.
  21. </para>
  22. </listitem>
  23. <listitem>
  24. <para>
  25. Suche anhand eines bestimmten Feldes (z.B. Titel, Autor, Inhalt)
  26. </para>
  27. </listitem>
  28. </itemizedlist>
  29. <classname>Zend_Search_Lucene</classname> wurde abgeleitet vom Apache Lucene Projekt. Die aktuell unterstützten Versionen
  30. des Lucene Indexformats (beginnend mit ZF 1.6) sind 1.4 - 2.3. Für weitere Informationen über
  31. Lucene, besuchen Sie <ulink url="http://lucene.apache.org/java/docs/"/>.
  32. </para>
  33. <note>
  34. <title/>
  35. <para>
  36. Frühere <classname>Zend_Search_Lucene</classname> Implementationen unterstützen das Lucene Indexformat 1.4 (1.9) - 2.1.
  37. </para>
  38. <para>
  39. Beginnend mit Zend Framework 1.5 werden, nach dem <classname>Zend_Search_Lucene</classname> Update,
  40. alle Indezes die mit einem pre-2.1 Indexformat erstellt wurden automatisch in das Lucene 2.1
  41. Format upgegraded und ist daher mit vorherigen <classname>Zend_Search_Lucene</classname> Versionen
  42. nicht mehr kompatibel die in Zend Framework 1.0.x enthalten sind.
  43. </para>
  44. </note>
  45. </sect2>
  46. <sect2 id="zend.search.lucene.index-creation.documents-and-fields">
  47. <title>Dokumenten- und Feldobjekte</title>
  48. <para>
  49. Für die Indizierung verarbeitet <classname>Zend_Search_Lucene</classname> Dokumente als atomare Objekte.
  50. Ein Dokument wird in benannte Felder unterteilt und diese Felder enthalten Inhalte,
  51. die durchsucht werden können.
  52. </para>
  53. <para>
  54. Ein Dokument wird durch die <classname>Zend_Search_Lucene_Document</classname> Klasse abgebildet und die
  55. Objekte dieser Klasse enthalten Instanzen von <classname>Zend_Search_Lucene_Field</classname>, welche die Felder
  56. dieses Objektes repräsentieren.
  57. </para>
  58. <para>
  59. Es ist wichtig zu beachten, dass dem Index jegliche Informationen hinzugefügt werden
  60. können. Anwendungsspezifische Informationen oder Metadaten können in den
  61. Dokumentfeldern gespeichert und später bei der Suche aus dem Dokument zurückgeholt
  62. werden.
  63. </para>
  64. <para>
  65. Es liegt in der Verantwortung deiner Anwendung, den Indexer zu kontrollieren. Das
  66. bedeutet, dass die Daten aus jeder Quelle indiziert werden können, die von deiner
  67. Anwendung aus ansprechbar ist. Zum Beispiel könnten dies das Dateisystem, eine
  68. Datenbank, ein HTML Formular, usw. sein.
  69. </para>
  70. <para>
  71. Die <classname>Zend_Search_Lucene_Field</classname> Klasse stellt verschiedene statische
  72. Methoden zum Erstellen mit unterschiedlichen Charakteristika bereit:
  73. </para>
  74. <programlisting role="php"><![CDATA[
  75. $doc = new Zend_Search_Lucene_Document();
  76. // Feld wird nicht in Token aufgeteilt, aber indiziert und im Index
  77. // gespeichert. Die gespeichertern Felder können aus dem Index abgerufen werden
  78. $doc->addField(Zend_Search_Lucene_Field::Keyword('doctype',
  79. 'autogenerated'));
  80. // Feld wird weder in Token aufgeteilt noch indiziert, aber im Index gespeichert
  81. $doc->addField(Zend_Search_Lucene_Field::UnIndexed('created',
  82. time()));
  83. // Feld mit einer binären Zeichenkette, die weder in Token aufgeteilt
  84. // noch indiziert, aber im Index gespeichert wird
  85. $doc->addField(Zend_Search_Lucene_Field::Binary('icon',
  86. $iconData));
  87. // Feld wird in Token aufgeteilt und indiziert und im Index gespeichert
  88. $doc->addField(Zend_Search_Lucene_Field::Text('annotation',
  89. 'Document annotation text'));
  90. // Feld wird in Token aufgeteilt und indiziert, aber nicht im Index gespeichert
  91. $doc->addField(Zend_Search_Lucene_Field::UnStored('contents',
  92. 'My document content'));
  93. ]]>
  94. </programlisting>
  95. <para>
  96. Jede dieser Methoden (ausser der <classname>Zend_Search_Lucene_Field::Binary()</classname> Methode) hat einen
  97. optionalen <code>$encoding</code> Parameter. Er definiert das Encoding für Eingabedaten.
  98. </para>
  99. <para>
  100. Die Codierung kann für unterschiedliche Dokumente verschieden sein genauso wie für unterschiedliche
  101. Felder innerhalb eines Dokuments:
  102. <programlisting role="php"><![CDATA[
  103. $doc = new Zend_Search_Lucene_Document();
  104. $doc->addField(Zend_Search_Lucene_Field::Text('title',
  105. $title,
  106. 'iso-8859-1'));
  107. $doc->addField(Zend_Search_Lucene_Field::UnStored('contents',
  108. $contents,
  109. 'utf-8'));
  110. ]]>
  111. </programlisting>
  112. </para>
  113. <para>
  114. Wenn der encoding Parameter nicht angegeben wurde, wird das aktuelle Gebietsschema wärend der
  115. Verarbeitungzeit verwendet. Zum Beispiel:
  116. <programlisting role="php"><![CDATA[
  117. setlocale(LC_ALL, 'de_DE.iso-8859-1');
  118. ...
  119. $doc->addField(Zend_Search_Lucene_Field::UnStored('contents', $contents));
  120. ]]>
  121. </programlisting>
  122. </para>
  123. <para>
  124. Felder werden immer gespeichert und vom Index in UTF-8 Codierung zurückgegeben. Jede
  125. notwendige Konvertierung zu UTF-8 geschieht automatisch.
  126. </para>
  127. <para>
  128. Text Analysatoren (<link linkend="zend.search.lucene.extending.analysis">siehe unten</link>)
  129. können auch Text in andere Codierungen konvertieren. Aktuell konvertiert der Standard Analysator
  130. Text in die 'ASCII//TRANSLIT' Codierung. Man sollte aber vorsichtig sein; diese Übersetzung
  131. hängt vom aktuellen Gebietsschema ab.
  132. </para>
  133. <para>
  134. Feld Namen werden durch die Auswahl in der <code>addField()</code> Methode definiert.
  135. </para>
  136. <para>
  137. Java Lucene verwendet das "contents" Feld für die Suche als Standardfeld.
  138. <classname>Zend_Search_Lucene</classname> durchsucht standardmäßig alle Felder, aber dieses Verhalten ist konfigurierbar.
  139. Für Details siehe das Kapitel
  140. <link linkend="zend.search.lucene.query-language.fields">"Standardsuchfeld"</link>.
  141. </para>
  142. </sect2>
  143. <sect2 id="zend.search.lucene.index-creation.understanding-field-types">
  144. <title>Verstehen der Feldtypen</title>
  145. <itemizedlist>
  146. <listitem>
  147. <para>
  148. <code>Keyword</code> (Stichwort) Felder werden gespeichert und indiziert, was
  149. bedeutet, dass sie sowohl durchsucht als auch in Suchergebnissen angezeigt
  150. werden können. Sie werden nicht in einzelne Worte (Tokens) zerteilt.
  151. Datenbankfelder für Aufzählungen lassen sich normalerweise leicht in Keyword
  152. Felder für <classname>Zend_Search_Lucene</classname> überführen.
  153. </para>
  154. </listitem>
  155. <listitem>
  156. <para>
  157. <code>UnIndexed</code> (unindizierte) Felder sind nicht durchsuchbar, werden
  158. aber bei Suchtreffern zurückgegeben. Datenbank Zeitstempel, Primärschlüssel,
  159. Pfade des Dateisystems und andere externe Identifikatoren sind gute Kandidaten
  160. für UnIndexed Felder.
  161. </para>
  162. </listitem>
  163. <listitem>
  164. <para>
  165. <code>Binary</code> (binäre) Felder werden nicht in Token aufgeteilt und
  166. indiziert, aber für die Rückgabe bei Suchtreffern gespeichert. Sie können für
  167. die Speicherung aller Daten, die als binäre Zeichenkette kodiert sind,
  168. verwendet werden, wie z.B. eine Grafiksymbol.
  169. </para>
  170. </listitem>
  171. <listitem>
  172. <para>
  173. <code>Text</code> Felder werden gespeichert, indiziert und in Token aufgeteilt.
  174. Text Felder sind geeignet für die Speicherung von Informationen wie Themen und
  175. Überschriften, die sowohl durchsuchbar sein müssen, als auch in Suchergebnissen
  176. zurückgegeben werden müssen.
  177. </para>
  178. </listitem>
  179. <listitem>
  180. <para>
  181. <code>UnStored</code> (nicht gespeicherte) Felder werden in Token aufgeteilt und
  182. indiziert, aber nicht im Index gespeichert. Umfangreiche Texte werden am besten
  183. durch diesen Feldtyp indiziert. Gespeicherte Daten benötigen einen größeren
  184. Index auf der Festplatte, wenn du also Daten nur durchsuchbar aber nicht wieder
  185. ausgegeben haben musst, verwende ein UnStored Feld. UnStored Felder sind
  186. geeignet, wenn ein <classname>Zend_Search_Lucene</classname> Index in Kombination mit einer relationalen
  187. Datenbank verwendet wird. Du kannst große Datenfelder mit UnStored Feldern
  188. für die Suche indizieren und sie aus der relationalen Datenbank durch die
  189. Verwendung eines separaten Feldes mithilfe eines Identifikators zurückholen.
  190. </para>
  191. <table id="zend.search.lucene.index-creation.understanding-field-types.table">
  192. <title>Zend_Search_Lucene_Field Typen</title>
  193. <tgroup cols="5">
  194. <thead>
  195. <row>
  196. <entry>Feldtyp</entry>
  197. <entry>Gespeichert</entry>
  198. <entry>Indiziert</entry>
  199. <entry>In Token aufgeteilt</entry>
  200. <entry>Binär</entry>
  201. </row>
  202. </thead>
  203. <tbody>
  204. <row>
  205. <entry>Keyword</entry>
  206. <entry>Ja</entry>
  207. <entry>Ja</entry>
  208. <entry>Nein</entry>
  209. <entry>Nein</entry>
  210. </row>
  211. <row>
  212. <entry>UnIndexed</entry>
  213. <entry>Ja</entry>
  214. <entry>Nein</entry>
  215. <entry>Nein</entry>
  216. <entry>Nein</entry>
  217. </row>
  218. <row>
  219. <entry>Binary</entry>
  220. <entry>Ja</entry>
  221. <entry>Nein</entry>
  222. <entry>Nein</entry>
  223. <entry>Ja</entry>
  224. </row>
  225. <row>
  226. <entry>Text</entry>
  227. <entry>Ja</entry>
  228. <entry>Ja</entry>
  229. <entry>Ja</entry>
  230. <entry>Nein</entry>
  231. </row>
  232. <row>
  233. <entry>UnStored</entry>
  234. <entry>Nein</entry>
  235. <entry>Ja</entry>
  236. <entry>Ja</entry>
  237. <entry>Nein</entry>
  238. </row>
  239. </tbody>
  240. </tgroup>
  241. </table>
  242. </listitem>
  243. </itemizedlist>
  244. </sect2>
  245. <sect2 id="zend.search.lucene.index-creation.html-documents">
  246. <title>HTML Dokumente</title>
  247. <para>
  248. <classname>Zend_Search_Lucene</classname> bietet ein HTML Parsing Feature. Dokumente können direkt von einer HTML Datei oder
  249. String erzeugt werden:
  250. <programlisting role="php"><![CDATA[
  251. $doc = Zend_Search_Lucene_Document_Html::loadHTMLFile($filename);
  252. $index->addDocument($doc);
  253. ...
  254. $doc = Zend_Search_Lucene_Document_Html::loadHTML($htmlString);
  255. $index->addDocument($doc);
  256. ]]>
  257. </programlisting>
  258. </para>
  259. <para>
  260. Die <classname>Zend_Search_Lucene_Document_Html</classname> Klasse verwendet die
  261. <code>DOMDocument::loadHTML()</code> und die <code>DOMDocument::loadHTMLFile()</code> Methode um die
  262. HTML Quelle zu analysieren, deswegen benötigt Sie kein gut geformtes HTML noch ein XHTML. Auf der
  263. anderen Seite ist es abhängig von der angegebenen Codierung im "meta http-equiv" Tag Header.
  264. </para>
  265. <para>
  266. Die <classname>Zend_Search_Lucene_Document_Html</classname> Klasse erkennt Dokument Titel, Body Dokument Header
  267. Meta Tags.
  268. </para>
  269. <para>
  270. Das 'title' Feld ist aktuell der /html/head/title Wert. Er wird inneralb des Index gespeichert,
  271. Tokenized und für die Suche zur Verfügung gestellt.
  272. </para>
  273. <para>
  274. Das 'body' Feld ist aktuell der Inhalt vom Body der HTML Datei oder des Strings. Er enthält keine
  275. Skripte, Kommentare oder Attribute.
  276. </para>
  277. <para>
  278. Die <code>loadHTML()</code> und <code>loadHTMLFile()</code> Methoden der
  279. <classname>Zend_Search_Lucene_Document_Html</classname> Klasse haben auch ein zweites optionales Argument.
  280. Wenn es auf true gesetzt wird, wird der Inhalt vom Body auch innerhalb des Index gespeichert und kann
  281. vom Index empfangen werden. Standardmäßig wird der Body nur Tokenized und Indiziert, aber nicht
  282. gespeichert.
  283. </para>
  284. <para>
  285. Der dritte Parameter der <code>loadHTML()</code> und <code>loadHTMLFile()</code>
  286. Methoden spezifiziert optional die Kodierung des Quell- HTML Dokuments. Wenn er nicht
  287. angegeben wird, wird die Kodierung automatisch vom Metatag content type charset
  288. erkannt.
  289. </para>
  290. <para>
  291. Die Kodierung kann später mit den Methoden
  292. <code>getEncoding()</code>/<code>setEncoding($encoding)</code> empfangen/überschrieben
  293. werden.
  294. </para>
  295. <para>
  296. Andere Dokument Header Meta Tags produzieren zusätzliche Dokument Felder. Der Feld 'name' wird vom
  297. 'name' Attribut genommen, und das 'content' Attribut veröffentlicht das Feld 'value'. Beide werden
  298. geteilt, indiziert und gespeichert damit damit Dokumente mit Hilfe Ihrer Meta Tags durchsucht werden
  299. können (zum Beispiel durch Schlüsselwörter).
  300. </para>
  301. <para>
  302. Analysierte Dokumente können durch den Programmierer mit jedem anderen Feld ausgegeben werden:
  303. <programlisting role="php"><![CDATA[
  304. $doc = Zend_Search_Lucene_Document_Html::loadHTML($htmlString);
  305. $doc->addField(Zend_Search_Lucene_Field::UnIndexed('created',
  306. time()));
  307. $doc->addField(Zend_Search_Lucene_Field::UnIndexed('updated',
  308. time()));
  309. $doc->addField(Zend_Search_Lucene_Field::Text('annotation',
  310. 'Document annotation text'));
  311. $index->addDocument($doc);
  312. ]]>
  313. </programlisting>
  314. </para>
  315. <para>
  316. Dokument-Links sind im erstellten Dokument nicht enthalten, können aber mit den
  317. <classname>Zend_Search_Lucene_Document_Html::getLinks()</classname> und
  318. <classname>Zend_Search_Lucene_Document_Html::getHeaderLinks()</classname> Methoden empfangen werden:
  319. <programlisting role="php"><![CDATA[
  320. $doc = Zend_Search_Lucene_Document_Html::loadHTML($htmlString);
  321. $linksArray = $doc->getLinks();
  322. $headerLinksArray = $doc->getHeaderLinks();
  323. ]]>
  324. </programlisting>
  325. </para>
  326. <para>
  327. Beginnend mit ZF 1.6 ist es auch möglich Links mit dem <code>rel</code> Attribut auszunehmen wenn
  328. es auf <code>'nofollow'</code> gesetzt wird. Man kann
  329. <classname>Zend_Search_Lucene_Document_Html::setExcludeNoFollowLinks($true)</classname> verwenden um diese
  330. Option einzuschalten.
  331. </para>
  332. <para>
  333. Die <classname>Zend_Search_Lucene_Document_Html::getExcludeNoFollowLinks()</classname> Methode gibt den
  334. aktuellen Status des "Exclude nofollow links" Flags zurück.
  335. </para>
  336. </sect2>
  337. <sect2 id="zend.search.lucene.index-creation.docx-documents">
  338. <title>Word 2007 Dokumente</title>
  339. <para>
  340. <classname>Zend_Search_Lucene</classname> bietet ein Word 2007 Parsing Feature. Dokumente können direkt aus einer
  341. Word 2007 Datei heraus erstellt werden:
  342. <programlisting role="php"><![CDATA[
  343. $doc = Zend_Search_Lucene_Document_Docx::loadDocxFile($filename);
  344. $index->addDocument($doc);
  345. ]]>
  346. </programlisting>
  347. </para>
  348. <para>
  349. Die <classname>Zend_Search_Lucene_Document_Docx</classname> Klasse verwendet die
  350. <code>ZipArchive</code> Klasse und <code>simplexml</code> Methoden um das Quelldokument
  351. zu parsen. Wenn die <code>ZipArchive</code> Klasse (vom Modul php_zip) nicht vorhanden
  352. ist, wird <classname>Zend_Search_Lucene_Document_Docx</classname> auch nicht für die
  353. Verwendung mit dem Zend Framework zur Verfügung stehen.
  354. </para>
  355. <para>
  356. Die <classname>Zend_Search_Lucene_Document_Docx</classname> Klasse erkennt die Metadaten und den
  357. Text des Dokuments. Metadaten bestehen, abhängig vom Inhalt des Dokuments, aus
  358. Dateinamen, Titel, Untertitel, Ersteller, Schlüsselwörter, Beschreibung, zuletzt
  359. geändert von, Version, Geändert und Erstellt.
  360. </para>
  361. <para>
  362. Das Feld 'filename' ist der aktuelle Word 2007 Dateiname.
  363. </para>
  364. <para>
  365. Das Feld 'title' ist der aktuelle Titel des Dokuments.
  366. </para>
  367. <para>
  368. Das Feld 'subject' ist der aktuelle Untertitel des Dokuments.
  369. </para>
  370. <para>
  371. Das Feld 'creator' ist der Ersteller des aktuellen Dokuments.
  372. </para>
  373. <para>
  374. Das Feld 'keywords' enthält die Schlüsselwörter des aktuellen Dokuments.
  375. </para>
  376. <para>
  377. Das Feld 'description' ist die Beschreibung des aktuellen Dokuments.
  378. </para>
  379. <para>
  380. Das Feld 'lastModifiedBy' ist der Benutzername der Person die das aktuelle Dokument
  381. als letztes geändert hat.
  382. </para>
  383. <para>
  384. Das Feld 'revision' ist die Versionsnummer des aktuellen Dokuments.
  385. </para>
  386. <para>
  387. Das Feld 'modified' ist das Datum / die Uhrzeit der letzten Änderung des
  388. aktuellen Dokuments.
  389. </para>
  390. <para>
  391. Das Feld 'created' ist das Datum / die Uhrzeit der Erstellung des aktuellen
  392. Dokuments.
  393. </para>
  394. <para>
  395. Das Feld 'body' ist der aktuelle Inhalt des Word 2007 Dokuments. Es enthält nur
  396. normalen Text, Kommentare und Versionen sind nicht enthalten.
  397. </para>
  398. <para>
  399. Die Methode <code>loadDocxFile()</code> der <classname>Zend_Search_Lucene_Document_Docx</classname>
  400. Klasse hat auch ein zweites optionales Argument. Wenn es auf true gesetzt wird, wird der
  401. Inhalt auch mit einem Index gespeichert und kann vom Index empfangen werden. Standardmäßig
  402. wird der Inhalt gesplittet und indiziert, aber nicht gespeichert.
  403. </para>
  404. <para>
  405. Eingelesene Dokumente können vom Programierer mit jedem anderen Feld argumentiert werden:
  406. <programlisting role="php"><![CDATA[
  407. $doc = Zend_Search_Lucene_Document_Docx::loadDocxFile($filename);
  408. $doc->addField(Zend_Search_Lucene_Field::UnIndexed(
  409. 'indexTime',
  410. time())
  411. );
  412. $doc->addField(Zend_Search_Lucene_Field::Text(
  413. 'annotation',
  414. 'Anmerkungstext des Dokuments')
  415. );
  416. $index->addDocument($doc);
  417. ]]>
  418. </programlisting>
  419. </para>
  420. </sect2>
  421. <sect2 id="zend.search.lucene.index-creation.pptx-documents">
  422. <title>Powerpoint 2007 Dokumente</title>
  423. <para>
  424. <classname>Zend_Search_Lucene</classname> bietet ein Parsing Feature für Powerpoint 2007. Dokumente können direkt
  425. auf einer Powerpoint 2007 Datei heraus erstellt werden:
  426. <programlisting role="php"><![CDATA[
  427. $doc = Zend_Search_Lucene_Document_Pptx::loadPptxFile($filename);
  428. $index->addDocument($doc);
  429. ]]>
  430. </programlisting>
  431. </para>
  432. <para>
  433. Die <classname>Zend_Search_Lucene_Document_Pptx</classname> Klasse verwendet die
  434. <code>ZipArchive</code> Klasse und <code>simplexml</code> Methoden um das Quelldokument
  435. zu parsen. Wenn die <code>ZipArchive</code> Klasse (vom Modul php_zip) nicht vorhanden
  436. ist, wird <classname>Zend_Search_Lucene_Document_Docx</classname> auch nicht für die
  437. Verwendung mit dem Zend Framework zur Verfügung stehen.
  438. </para>
  439. <para>
  440. Die <classname>Zend_Search_Lucene_Document_Docx</classname> Klasse erkennt die Metadaten und den
  441. Text des Dokuments. Metadaten bestehen, abhängig vom Inhalt des Dokuments, aus
  442. Dateinamen, Titel, Untertitel, Ersteller, Schlüsselwörter, Beschreibung, zuletzt
  443. geändert von, Version, Geändert und Erstellt.
  444. </para>
  445. <para>
  446. Das Feld 'filename' ist der aktuelle Powerpoint 2007 Dateiname.
  447. </para>
  448. <para>
  449. Das Feld 'title' ist der aktuelle Titel des Dokuments.
  450. </para>
  451. <para>
  452. Das Feld 'subject' ist der aktuelle Untertitel des Dokuments.
  453. </para>
  454. <para>
  455. Das Feld 'creator' ist der Ersteller des aktuellen Dokuments.
  456. </para>
  457. <para>
  458. Das Feld 'keywords' enthält die Schlüsselwörter des aktuellen Dokuments.
  459. </para>
  460. <para>
  461. Das Feld 'description' ist die Beschreibung des aktuellen Dokuments.
  462. </para>
  463. <para>
  464. Das Feld 'lastModifiedBy' ist der Benutzername der Person die das aktuelle Dokument
  465. als letztes geändert hat.
  466. </para>
  467. <para>
  468. Das Feld 'revision' ist die Versionsnummer des aktuellen Dokuments.
  469. </para>
  470. <para>
  471. Das Feld 'modified' ist das Datum / die Uhrzeit der letzten Änderung des
  472. aktuellen Dokuments.
  473. </para>
  474. <para>
  475. Das Feld 'created' ist das Datum / die Uhrzeit der Erstellung des aktuellen
  476. Dokuments.
  477. </para>
  478. <para>
  479. Das Feld 'body' ist der aktuelle Inhalt aller Slides und Slidenotizen im
  480. Powerpoint 2007 Dokument.
  481. </para>
  482. <para>
  483. Die Methode <code>loadPptxFile()</code> der <classname>Zend_Search_Lucene_Document_Pptx</classname>
  484. Klasse hat auch ein zweites optionales Argument. Wenn es auf true gesetzt wird, wird der
  485. Inhalt auch mit einem Index gespeichert und kann vom Index empfangen werden. Standardmäßig
  486. wird der Inhalt gesplittet und indiziert, aber nicht gespeichert.
  487. </para>
  488. <para>
  489. Eingelesene Dokumente können vom Programierer mit jedem anderen Feld argumentiert werden:
  490. <programlisting role="php"><![CDATA[
  491. $doc = Zend_Search_Lucene_Document_Pptx::loadPptxFile($filename);
  492. $doc->addField(Zend_Search_Lucene_Field::UnIndexed(
  493. 'indexTime',
  494. time()));
  495. $doc->addField(Zend_Search_Lucene_Field::Text(
  496. 'annotation',
  497. 'Anmerkungstext des Dokuments'));
  498. $index->addDocument($doc);
  499. ]]>
  500. </programlisting>
  501. </para>
  502. </sect2>
  503. <sect2 id="zend.search.lucene.index-creation.xlsx-documents">
  504. <title>Excel 2007 Dokumente</title>
  505. <para>
  506. <classname>Zend_Search_Lucene</classname> bietet ein Parsing Feature für Excel 2007. Dokumente können direkt
  507. von einer Excel 2007 Datei erstellt werden:
  508. <programlisting role="php"><![CDATA[
  509. $doc = Zend_Search_Lucene_Document_Xlsx::loadXlsxFile($filename);
  510. $index->addDocument($doc);
  511. ]]>
  512. </programlisting>
  513. </para>
  514. <para>
  515. Die <classname>Zend_Search_Lucene_Document_Xlsx</classname> Klasse verwendet die
  516. <code>ZipArchive</code> Klasse und <code>simplexml</code> Methoden um das Quelldokument
  517. zu parsen. Wenn die <code>ZipArchive</code> Klasse (vom Modul php_zip) nicht vorhanden
  518. ist, wird <classname>Zend_Search_Lucene_Document_Xlsx</classname> auch nicht für die
  519. Verwendung mit dem Zend Framework zur Verfügung stehen.
  520. </para>
  521. <para>
  522. Die <classname>Zend_Search_Lucene_Document_Xlsx</classname> Klasse erkennt die Metadaten und den
  523. Text des Dokuments. Metadaten bestehen, abhängig vom Inhalt des Dokuments, aus
  524. Dateinamen, Titel, Untertitel, Ersteller, Schlüsselwörter, Beschreibung, zuletzt
  525. geändert von, Version, Geändert und Erstellt.
  526. </para>
  527. <para>
  528. Das Feld 'filename' ist der aktuelle Excel 2007 Dateiname.
  529. </para>
  530. <para>
  531. Das Feld 'title' ist der aktuelle Titel des Dokuments.
  532. </para>
  533. <para>
  534. Das Feld 'subject' ist der aktuelle Untertitel des Dokuments.
  535. </para>
  536. <para>
  537. Das Feld 'creator' ist der Ersteller des aktuellen Dokuments.
  538. </para>
  539. <para>
  540. Das Feld 'keywords' enthält die Schlüsselwörter des aktuellen Dokuments.
  541. </para>
  542. <para>
  543. Das Feld 'description' ist die Beschreibung des aktuellen Dokuments.
  544. </para>
  545. <para>
  546. Das Feld 'lastModifiedBy' ist der Benutzername der Person die das aktuelle Dokument
  547. als letztes geändert hat.
  548. </para>
  549. <para>
  550. Das Feld 'revision' ist die Versionsnummer des aktuellen Dokuments.
  551. </para>
  552. <para>
  553. Das Feld 'modified' ist das Datum / die Uhrzeit der letzten Änderung des
  554. aktuellen Dokuments.
  555. </para>
  556. <para>
  557. Das Feld 'created' ist das Datum / die Uhrzeit der Erstellung des aktuellen
  558. Dokuments.
  559. </para>
  560. <para>
  561. Das Feld 'body' ist der aktuelle Inhalt aller Arbeitsblätter im
  562. Excel 2007 Dokument.
  563. </para>
  564. <para>
  565. Die Methode <code>loadXlsxFile()</code> der <classname>Zend_Search_Lucene_Document_Xlsx</classname>
  566. Klasse hat auch ein zweites optionales Argument. Wenn es auf true gesetzt wird, wird der
  567. Inhalt auch mit einem Index gespeichert und kann vom Index empfangen werden. Standardmäßig
  568. wird der Inhalt gesplittet und indiziert, aber nicht gespeichert.
  569. </para>
  570. <para>
  571. Eingelesene Dokumente können vom Programierer mit jedem anderen Feld argumentiert werden:
  572. <programlisting role="php"><![CDATA[
  573. $doc = Zend_Search_Lucene_Document_Xlsx::loadXlsxFile($filename);
  574. $doc->addField(Zend_Search_Lucene_Field::UnIndexed(
  575. 'indexTime',
  576. time()));
  577. $doc->addField(Zend_Search_Lucene_Field::Text(
  578. 'annotation',
  579. 'Anmerkungstext des Dokuments'));
  580. $index->addDocument($doc);
  581. ]]>
  582. </programlisting>
  583. </para>
  584. </sect2>
  585. </sect1>