Zend_Search_Lucene-Extending.xml 18 KB


  1. <?xml version="1.0" encoding="utf-8"?>
  2. <!-- EN-Revision: 24249 -->
  3. <!-- Reviewed: no -->
  4. <sect1 id="zend.search.lucene.extending">
  5. <title>Extensibilité</title>
  6. <sect2 id="zend.search.lucene.extending.analysis">
  7. <title>Analyse de texte</title>
  8. <para>
  9. La classe <classname>Zend_Search_Lucene_Analysis_Analyzer</classname> est utilisé par
  10. l'indexeur afin de transformer en segments les champs texte du document.
  11. </para>
  12. <para>
  13. Les méthodes <methodname>Zend_Search_Lucene_Analysis_Analyzer::getDefault()</methodname>
  14. et <code>Zend_Search_Lucene_Analysis_Analyzer::setDefault()</code> sont utilisées pour
  15. récupérer et définir l'analyseur par défaut.
  16. </para>
  17. <para>
  18. Vous pouvez assigner votre propre analyseur de texte ou choisir parmi un ensemble
  19. d'analyseurs prédéfinis&#160;:
  20. <classname>Zend_Search_Lucene_Analysis_Analyzer_Common_Text</classname> et
  21. <classname>Zend_Search_Lucene_Analysis_Analyzer_Common_Text_CaseInsensitive</classname>
  22. (par défaut). Tout deux interprètent les segments comme des séquences de lettres.
  23. <classname>Zend_Search_Lucene_Analysis_Analyzer_Common_Text_CaseInsensitive</classname>
  24. convertit tous les segments en minuscule.
  25. </para>
  26. <para>
  27. Pour changer d'analyseur&#160;:
  28. </para>
  29. <programlisting language="php"><![CDATA[
  30. Zend_Search_Lucene_Analysis_Analyzer::setDefault(
  31. new Zend_Search_Lucene_Analysis_Analyzer_Common_Text());
  32. ...
  33. $index->addDocument($doc);
  34. ]]></programlisting>
  35. <para>
  36. La classe <classname>Zend_Search_Lucene_Analysis_Analyzer_Common</classname> a été conçu
  37. pour être l'ancêtre de tous les analyseurs définis par l'utilisateur. L'utilisateur doit
  38. uniquement définir les méthodes <methodname>reset()</methodname> et
  39. <methodname>nextToken()</methodname>, qui prennent leur chaîne de caractères depuis la
  40. propriété $_input et retournent les segments un par un (une valeur
  41. <constant>NULL</constant> indique la fin du flux).
  42. </para>
  43. <para>
  44. La méthode <methodname>nextToken()</methodname> doit appeler la méthode
  45. <methodname>normalize()</methodname> sur chacun des segments. Ce qui vous permet
  46. d'utiliser des filtres de segments avec votre analyseur.
  47. </para>
  48. <para>
  49. Voici l'exemple d'analyseur personnalisé, qui accepte des mots contenant des chiffres
  50. comme terme&#160;:
  51. <example id="zend.search.lucene.extending.analysis.example-1">
  52. <title>Analyseur de texte personnalisé</title>
  53. <programlisting language="php"><![CDATA[
  54. /**
  55. * Voici un analyseur de texte qui traite les mots contenant des chiffres comme
  56. * un seul terme
  57. */
  58. class My_Analyzer extends Zend_Search_Lucene_Analysis_Analyzer_Common
  59. {
  60. private $_position;
  61. /**
  62. * Remet à Zéro le flux de segments
  63. */
  64. public function reset()
  65. {
  66. $this->_position = 0;
  67. }
  68. /**
  69. * API du flux de segmentation
  70. * Récupère le segment suivant
  71. * Retourne null à la fin du flux
  72. *
  73. * @return Zend_Search_Lucene_Analysis_Token|null
  74. */
  75. public function nextToken()
  76. {
  77. if ($this->_input === null) {
  78. return null;
  79. }
  80. while ($this->_position < strlen($this->_input)) {
  81. // Saute les espaces
  82. while ($this->_position < strlen($this->_input) &&
  83. !ctype_alnum( $this->_input[$this->_position] )) {
  84. $this->_position++;
  85. }
  86. $termStartPosition = $this->_position;
  87. // lit le segment
  88. while ($this->_position < strlen($this->_input) &&
  89. ctype_alnum( $this->_input[$this->_position] )) {
  90. $this->_position++;
  91. }
  92. // Segment vide, fin de flux.
  93. if ($this->_position == $termStartPosition) {
  94. return null;
  95. }
  96. $token = new Zend_Search_Lucene_Analysis_Token(
  97. substr($this->_input,
  98. $termStartPosition,
  99. $this->_position -
  100. $termStartPosition),
  101. $termStartPosition,
  102. $this->_position);
  103. $token = $this->normalize($token);
  104. if ($token !== null) {
  105. return $token;
  106. }
  107. // Continue si le segment est sauté
  108. }
  109. return null;
  110. }
  111. }
  112. Zend_Search_Lucene_Analysis_Analyzer::setDefault(
  113. new My_Analyzer());
  114. ]]></programlisting>
  115. </example>
  116. </para>
  117. </sect2>
  118. <sect2 id="zend.search.lucene.extending.filters">
  119. <title>Filtrage des segments</title>
  120. <para>
  121. L'analyseur <classname>Zend_Search_Lucene_Analysis_Analyzer_Common</classname> offre
  122. aussi un mécanisme de filtrage des segments.
  123. </para>
  124. <para>
  125. La classe <classname>Zend_Search_Lucene_Analysis_TokenFilter</classname> fournit une
  126. interface abstraites pour ces filtres.
  127. Vos propres filtres devraient étendre cette classe directement ou indirectement.
  128. </para>
  129. <para>
  130. Chaque filtre personnalisé doit implémenter la méthode
  131. <methodname>normalize()</methodname> qui devrait transformer le segment en entrée ou
  132. signaler que le segment courant doit être sauté.
  133. </para>
  134. <para>
  135. Il y a trois filtres déjà défini dans le sous-paquet d'analyse&#160;:
  136. <itemizedlist>
  137. <listitem>
  138. <para>
  139. <classname>Zend_Search_Lucene_Analysis_TokenFilter_LowerCase</classname>
  140. </para>
  141. </listitem>
  142. <listitem>
  143. <para>
  144. <classname>Zend_Search_Lucene_Analysis_TokenFilter_ShortWords</classname>
  145. </para>
  146. </listitem>
  147. <listitem>
  148. <para>
  149. <classname>Zend_Search_Lucene_Analysis_TokenFilter_StopWords</classname>
  150. </para>
  151. </listitem>
  152. </itemizedlist>
  153. </para>
  154. <para>
  155. Le filtre <code>LowerCase</code> filtre est déjà utilisé par défaut par l'analyseur
  156. <classname>Zend_Search_Lucene_Analysis_Analyzer_Common_Text_CaseInsensitive</classname>.
  157. </para>
  158. <para>
  159. Les filtres <code>ShortWords</code> et <code>StopWords</code> peuvent être utilisés avec
  160. des analyseurs prédéfinis ou personnalisés comme ceci&#160;:
  161. <programlisting language="php"><![CDATA[
  162. $stopWords = array('a', 'an', 'at', 'the', 'and', 'or', 'is', 'am');
  163. $stopWordsFilter =
  164. new Zend_Search_Lucene_Analysis_TokenFilter_StopWords($stopWords);
  165. $analyzer =
  166. new Zend_Search_Lucene_Analysis_Analyzer_Common_TextNum_CaseInsensitive();
  167. $analyzer->addFilter($stopWordsFilter);
  168. Zend_Search_Lucene_Analysis_Analyzer::setDefault($analyzer);
  169. ]]></programlisting>
  170. <programlisting language="php"><![CDATA[
  171. $shortWordsFilter = new Zend_Search_Lucene_Analysis_TokenFilter_ShortWords();
  172. $analyzer =
  173. new Zend_Search_Lucene_Analysis_Analyzer_Common_TextNum_CaseInsensitive();
  174. $analyzer->addFilter($shortWordsFilter);
  175. Zend_Search_Lucene_Analysis_Analyzer::setDefault($analyzer);
  176. ]]></programlisting>
  177. </para>
  178. <para>
  179. Le constructeur <classname>Zend_Search_Lucene_Analysis_TokenFilter_StopWords</classname>
  180. prends un tableau de stop-words en entrée.
  181. Mais les stop-words peuvent aussi être chargé à partir d'un fichier&#160;:
  182. <programlisting language="php"><![CDATA[
  183. $stopWordsFilter = new Zend_Search_Lucene_Analysis_TokenFilter_StopWords();
  184. $stopWordsFilter->loadFromFile($my_stopwords_file);
  185. $analyzer =
  186. new Zend_Search_Lucene_Analysis_Analyzer_Common_TextNum_CaseInsensitive();
  187. $analyzer->addFilter($stopWordsFilter);
  188. Zend_Search_Lucene_Analysis_Analyzer::setDefault($analyzer);
  189. ]]></programlisting>
  190. Ce fichier doit être un simple fichier texte avec un mot par ligne. Le caractère '#'
  191. transforme la ligne en commentaire.
  192. </para>
  193. <para>
  194. Le constructeur de la classe
  195. <classname>Zend_Search_Lucene_Analysis_TokenFilter_ShortWords</classname> a un argument
  196. optionnel.
  197. Il s'agit de la longueur maximum de mot, elle est définie par défaut à 2.
  198. </para>
  199. </sect2>
  200. <sect2 id="zend.search.lucene.extending.scoring">
  201. <title>Algorithme de score</title>
  202. <para>
  203. Le score d'un document <literal>d</literal> pour une requête <literal>q</literal>
  204. est défini comme suit&#160;:
  205. </para>
  206. <para>
  207. <code>score(q,d) = sum( tf(t in d) * idf(t) * getBoost(t.field in d) *
  208. lengthNorm(t.field in d) ) * coord(q,d) * queryNorm(q)</code>
  209. </para>
  210. <para>
  211. tf(t in d) - <methodname>Zend_Search_Lucene_Search_Similarity::tf($freq)</methodname> -
  212. un facteur de score basé sur la fréquence d'un terme ou d'une phrase dans un document.
  213. </para>
  214. <para>
  215. idf(t) -
  216. <methodname>Zend_Search_Lucene_Search_Similarity::idf($input, $reader)</methodname> -
  217. un facteur de score pour un terme simple de l'index spécifié.
  218. </para>
  219. <para>
  220. getBoost(t.field in d) - le facteur d'impulsion pour le champ du terme.
  221. </para>
  222. <para>
  223. lengthNorm($term) - la valeur de normalisation pour un champ donné du nombre total de
  224. terme contenu dans un champ. Cette valeur est stockée dans l'index.
  225. Ces valeurs, ainsi que celle du champ d'impulsion, sont stocké dans un index et
  226. multipliées par le score de hits par code de recherche sur chaque champ.
  227. </para>
  228. <para>
  229. La correspondance au sein de champs plus long est moins précise, ainsi l'implémentation
  230. de cette méthode retourne généralement de plus petites valeurs quand numTokens est
  231. important, et de plus grandes valeurs lorsque numTokens est petit.
  232. </para>
  233. <para>
  234. coord(q,d) -
  235. <methodname>
  236. Zend_Search_Lucene_Search_Similarity::coord($overlap, $maxOverlap)
  237. </methodname> - un facteur de score basé sur la fraction de tout les termes de la
  238. recherche que le document contient.
  239. </para>
  240. <para>
  241. La présence d'une grande partie des termes de la requête indique une meilleure
  242. correspondance avec la requête, ainsi les implémentations de cette méthode retourne
  243. habituellement de plus grandes valeurs lorsque le ration entre ces paramètres est grand
  244. que lorsque le ratio entre elle est petit.
  245. </para>
  246. <para>
  247. queryNorm(q) - la valeur de normalisation pour la requête en fonction de la somme des
  248. poids au carré de chaque terme de la requête.
  249. Cette valeur est ensuite multipliée par le poids de chacun des termes de la requête.
  250. </para>
  251. <para>
  252. Ceci n'affecte pas le classement, mais tente plutôt de faire des scores à partir de
  253. différentes requêtes comparables entre elles.
  254. </para>
  255. <para>
  256. Les algorithmes de score peuvent être personnalisés en définissant votre propre classe
  257. de similitude.
  258. Pour ce faire, étendez la classe
  259. <classname>Zend_Search_Lucene_Search_Similarity</classname> comme défini ci-dessous,
  260. puis appelez la méthode
  261. <classname>Zend_Search_Lucene_Search_Similarity::setDefault($similarity);</classname>
  262. afin de la définir par défaut.
  263. </para>
  264. <programlisting language="php"><![CDATA[
  265. class MySimilarity extends Zend_Search_Lucene_Search_Similarity {
  266. public function lengthNorm($fieldName, $numTerms) {
  267. return 1.0/sqrt($numTerms);
  268. }
  269. public function queryNorm($sumOfSquaredWeights) {
  270. return 1.0/sqrt($sumOfSquaredWeights);
  271. }
  272. public function tf($freq) {
  273. return sqrt($freq);
  274. }
  275. /**
  276. * Ceci n'est pas encore utilisé. Cela évalue le nombre de correspondance
  277. * d'expressions vagues, basé sur une distance d'édition.
  278. */
  279. public function sloppyFreq($distance) {
  280. return 1.0;
  281. }
  282. public function idfFreq($docFreq, $numDocs) {
  283. return log($numDocs/(float)($docFreq+1)) + 1.0;
  284. }
  285. public function coord($overlap, $maxOverlap) {
  286. return $overlap/(float)$maxOverlap;
  287. }
  288. }
  289. $mySimilarity = new MySimilarity();
  290. Zend_Search_Lucene_Search_Similarity::setDefault($mySimilarity);
  291. ]]></programlisting>
  292. </sect2>
  293. <sect2 id="zend.search.lucene.extending.storage">
  294. <title>Conteneur de stockage</title>
  295. <para>
  296. La classe abstraite <classname>Zend_Search_Lucene_Storage_Directory</classname> définit
  297. la fonctionnalité de répertoire.
  298. </para>
  299. <para>
  300. Le constructeur <classname>Zend_Search_Lucene</classname> utilise soit une chaîne soit
  301. un objet <classname>Zend_Search_Lucene_Storage_Directory</classname> en paramètre.
  302. </para>
  303. <para>
  304. La classe <classname>Zend_Search_Lucene_Storage_Directory_Filesystem</classname>
  305. implémente la fonctionnalité de répertoire pour un système de fichier.
  306. </para>
  307. <para>
  308. Si une chaîne est utilisé comme paramètre du constructeur
  309. <classname>Zend_Search_Lucene</classname>, le lecteur
  310. (<classname>Zend_Search_Lucene</classname> object) le considère comme un chemin dans le
  311. système de fichier et instancie l'objet
  312. <classname>Zend_Search_Lucene_Storage_Directory_Filesystem</classname>.
  313. </para>
  314. <para>
  315. Vous pouvez définir votre propre implémentation de répertoire en étendant la classe
  316. <classname>Zend_Search_Lucene_Storage_Directory</classname>.
  317. </para>
  318. <para>
  319. Les méthodes de<classname>Zend_Search_Lucene_Storage_Directory</classname>&#160;:
  320. </para>
  321. <programlisting language="php"><![CDATA[
  322. abstract class Zend_Search_Lucene_Storage_Directory {
  323. /**
  324. * Ferme le stockage.
  325. *
  326. * @return void
  327. */
  328. abstract function close();
  329. /**
  330. * Crée un nouveau fichier vide dans le répertoire dont le nom est $filename.
  331. *
  332. * @param string $name
  333. * @return void
  334. */
  335. abstract function createFile($filename);
  336. /**
  337. * Supprime un fichier existant du répertoire.
  338. *
  339. * @param string $filename
  340. * @return void
  341. */
  342. abstract function deleteFile($filename);
  343. /**
  344. * Retourne true si un fichier portant le nom donné existe.
  345. *
  346. * @param string $filename
  347. * @return boolean
  348. */
  349. abstract function fileExists($filename);
  350. /**
  351. * Retourne la taille d'un $filename dans le répertoire.
  352. *
  353. * @param string $filename
  354. * @return integer
  355. */
  356. abstract function fileLength($filename);
  357. /**
  358. * Retourne le timestamp UNIX de la date de modification de $filename.
  359. *
  360. * @param string $filename
  361. * @return integer
  362. */
  363. abstract function fileModified($filename);
  364. /**
  365. * Renomme un fichier existant dans le répertoire.
  366. *
  367. * @param string $from
  368. * @param string $to
  369. * @return void
  370. */
  371. abstract function renameFile($from, $to);
  372. /**
  373. * Définit la date de modification de $filename à la date de maintenant.
  374. *
  375. * @param string $filename
  376. * @return void
  377. */
  378. abstract function touchFile($filename);
  379. /**
  380. * Retourne un objet Zend_Search_Lucene_Storage_File object pour un $filename
  381. * donné dans le répertoire
  382. *
  383. * @param string $filename
  384. * @return Zend_Search_Lucene_Storage_File
  385. */
  386. abstract function getFileObject($filename);
  387. }
  388. ]]></programlisting>
  389. <para>
  390. La méthode <methodname>getFileObject($filename)</methodname> de l'instance
  391. <classname>Zend_Search_Lucene_Storage_Directory</classname> retourne un objet
  392. <classname>Zend_Search_Lucene_Storage_File</classname>.
  393. </para>
  394. <para>
  395. La classe abstraite <classname>Zend_Search_Lucene_Storage_File</classname> implémente
  396. l'abstraction de fichiers et les primitives de lecture de fichier d'index.
  397. </para>
  398. <para>
  399. Vous devez aussi étendre <classname>Zend_Search_Lucene_Storage_File</classname> dans
  400. votre implémentation de répertoire.
  401. </para>
  402. <para>
  403. Seulement deux méthodes de <classname>Zend_Search_Lucene_Storage_File</classname>
  404. doivent être surchargées dans votre implémentation :
  405. </para>
  406. <programlisting language="php"><![CDATA[
  407. class MyFile extends Zend_Search_Lucene_Storage_File {
  408. /**
  409. * Définit l'indicateur de position du fichier and avance le pointeur
  410. * de fichier.
  411. * La nouvelle position, calculé en octets depuis le début du fichier,
  412. * est obtenu en ajoutant l'offset à la position spécifiée par $whence,
  413. * dont les valeurs sont définit comme suit :
  414. * SEEK_SET - Définit la position comme égale aux octets de l'offset.
  415. * SEEK_CUR - Définit la position à la position courante plus l'offset.
  416. * SEEK_END - Définit la position à la fin du fichier plus l'offset.
  417. *(Pour déplacer à une position avant la fin du fichier, vous devrez passer
  418. * une valeur négative à l'offset.)
  419. * En cas de succès, retourne 0; sinon, retourne -1
  420. *
  421. * @param integer $offset
  422. * @param integer $whence
  423. * @return integer
  424. */
  425. public function seek($offset, $whence=SEEK_SET) {
  426. ...
  427. }
  428. /**
  429. * Lit $length octets dans le fichier et avance le pointeur de fichier.
  430. *
  431. * @param integer $length
  432. * @return string
  433. */
  434. protected function _fread($length=1) {
  435. ...
  436. }
  437. }
  438. ]]></programlisting>
  439. </sect2>
  440. </sect1>