Zend_Search_Lucene-Overview.xml 29 KB

123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124125126127128129130131132133134135136137138139140141142143144145146147148149150151152153154155156157158159160161162163164165166167168169170171172173174175176177178179180181182183184185186187188189190191192193194195196197198199200201202203204205206207208209210211212213214215216217218219220221222223224225226227228229230231232233234235236237238239240241242243244245246247248249250251252253254255256257258259260261262263264265266267268269270271272273274275276277278279280281282283284285286287288289290291292293294295296297298299300301302303304305306307308309310311312313314315316317318319320321322323324325326327328329330331332333334335336337338339340341342343344345346347348349350351352353354355356357358359360361362363364365366367368369370371372373374375376377378379380381382383384385386387388389390391392393394395396397398399400401402403404405406407408409410411412413414415416417418419420421422423424425426427428429430431432433434435436437438439440441442443444445446447448449450451452453454455456457458459460461462463464465466467468469470471472473474475476477478479480481482483484485486487488489490491492493494495496497498499500501502503504505506507508509510511512513514515516517518519520521522523524525526527528529530531532533534535536537538539540541542543544545546547548549550551552553554555556557558559560561562563564565566567568569570571572573574575576577578579580581582583584585586587588589590591592593594595596597598599600601602603604605606607608609610611612613614615616617618619620621622623624625626627628629630631632633634635636637638639640641642643644645646647648649650651652653654655656657658659660661662663664665666667
  1. <?xml version="1.0" encoding="UTF-8"?>
  2. <!-- EN-Revision: 20115 -->
  3. <!-- Reviewed: no -->
  4. <sect1 id="zend.search.lucene.overview">
  5. <title>Resumo</title>
  6. <sect2 id="zend.search.lucene.introduction">
  7. <title>Introdução</title>
  8. <para>
  9. <classname>Zend_Search_Lucene</classname> é um mecanismo para pesquisa de texto, de
  10. propósito geral, escrito totalmente em <acronym>PHP</acronym> 5. Por armazenar os
  11. índices no sistema de arquivos e não fazer uso de servidor de banco de dados, ele pode
  12. efetuar pesquisas em qualquer website rodando <acronym>PHP</acronym>. O
  13. <classname>Zend_Search_Lucene</classname> possui os seguintes recursos:
  14. <itemizedlist>
  15. <listitem>
  16. <para>
  17. Pesquisa agrupada por pontuação (ranked) - os resultados mais prováveis são
  18. retornados primeiro
  19. </para>
  20. </listitem>
  21. <listitem>
  22. <para>
  23. Consultas poderosas de diversos tipos: frase, curingas, booleanas,
  24. aproximação, faixas e muitas outras.
  25. </para>
  26. </listitem>
  27. <listitem>
  28. <para>
  29. Busca por campo específico (ex: título, autor, descrição)
  30. </para>
  31. </listitem>
  32. </itemizedlist>
  33. <classname>Zend_Search_Lucene</classname> derivou do projeto Apache Lucene. Atualmente
  34. (iniciando do ZF 1.6), as versões suportadas formato de índice Lucene são 1.4 - 2.3.
  35. Para mais informações, visite <ulink url="http://lucene.apache.org/java/docs/"/>.
  36. </para>
  37. <note>
  38. <title/>
  39. <para>
  40. Implementações anteriores de <classname>Zend_Search_Lucene</classname> suportam os
  41. formatos de índice Lucene 1.4 (1.9) - 2.1.
  42. </para>
  43. <para>
  44. A partir do Zend Framework 1.5, qualquer índice criado usando formato de índice
  45. menor que 2.1 é atualizado automaticamente para o formato Lucene 2.1 após a
  46. atualização <classname>Zend_Search_Lucene</classname> e não será compatível com as
  47. implementações do <classname>Zend_Search_Lucene</classname> incluídas no Zend
  48. Framework 1.0.x.
  49. </para>
  50. </note>
  51. </sect2>
  52. <sect2 id="zend.search.lucene.index-creation.documents-and-fields">
  53. <title>Objetos Documento e Campo</title>
  54. <para>
  55. <classname>Zend_Search_Lucene</classname> trabalha sobre os documentos
  56. subdividindo-os em pequenos objetos (atômicos) de indexação. Um documento é
  57. dividido em campos identificados cujo conteúdo é pesquisado.
  58. </para>
  59. <para>
  60. Um documento é representado pela classe
  61. <classname>Zend_Search_Lucene_Document</classname>, e os objetos dessa classe
  62. contêm instâncias de <classname>Zend_Search_Lucene_Field</classname> que
  63. representam os campos no documento.
  64. </para>
  65. <para>
  66. O que é importante ressaltar é que qualquer informação pode ser adicionada a um
  67. índice. Informações específicas de aplicações ou metadados podem ser armazenados em
  68. campos de um documento, e posteriormente recuperados juntamente com o documento
  69. durante uma pesquisa.
  70. </para>
  71. <para>
  72. Controlar o indexador é responsabilidade de sua aplicação. Este recurso garante que
  73. os dados possam ser indexados a partir de qualquer fonte que seja acessível à sua
  74. aplicação. Por exemplo, um sistema de arquivos, um banco de dados, um formulário
  75. HTML, etc.
  76. </para>
  77. <para>
  78. A classe <classname>Zend_Search_Lucene_Field</classname> provê alguns métodos
  79. estáticos para criação de campos com diferentes características:
  80. </para>
  81. <programlisting language="php"><![CDATA[
  82. $doc = new Zend_Search_Lucene_Document();
  83. // O campo não é marcado, mas é indexado e armazenado dentro do índice.
  84. // Campos armazenados podem ser recuperados a partir do índice.
  85. $doc->addField(Zend_Search_Lucene_Field::Keyword('doctype',
  86. 'autogenerated'));
  87. // O campo não é marcado nem indexado, mas é armazenado no índice.
  88. $doc->addField(Zend_Search_Lucene_Field::UnIndexed('created',
  89. time()));
  90. // O campo avaliado como string binária não é marcado nem indexado,
  91. // mas é armazenado no índice.
  92. $doc->addField(Zend_Search_Lucene_Field::Binary('icon',
  93. $iconData));
  94. // O campo é marcado e indexado, e é armazenado no índice.
  95. $doc->addField(Zend_Search_Lucene_Field::Text('annotation',
  96. 'Document annotation text'));
  97. // O campo é marcado e indexado, mas não é armazenado no índice.
  98. $doc->addField(Zend_Search_Lucene_Field::UnStored('contents',
  99. 'My document content'));
  100. ]]></programlisting>
  101. <para>
  102. Cada um desses métodos (excluindo o método
  103. <methodname>Zend_Search_Lucene_Field::Binary()</methodname>) têm um parâmetro
  104. <varname>$encoding</varname> opcional para especificar a entrada dos dados de
  105. codificação.
  106. </para>
  107. <para>
  108. A codificação pode divergir entre documentos diferentes, bem como para campos
  109. diferentes dentro de um mesmo documento:
  110. <programlisting language="php"><![CDATA[
  111. $doc = new Zend_Search_Lucene_Document();
  112. $doc->addField(Zend_Search_Lucene_Field::Text('title',
  113. $title,
  114. 'iso-8859-1'));
  115. $doc->addField(Zend_Search_Lucene_Field::UnStored('contents',
  116. $contents,
  117. 'utf-8'));
  118. ]]></programlisting>
  119. </para>
  120. <para>
  121. Se o parâmetro de codificação é omitido, então a localidade atual é usada em tempo
  122. de processamento. Por exemplo:
  123. <programlisting language="php"><![CDATA[
  124. setlocale(LC_ALL, 'de_DE.iso-8859-1');
  125. ...
  126. $doc->addField(Zend_Search_Lucene_Field::UnStored('contents', $contents));
  127. ]]></programlisting>
  128. </para>
  129. <para>
  130. Os campos são sempre armazenados e devolvidos ao índice na codificação UTF-8.
  131. Qualquer conversão necessária para UTF-8 acontece automaticamente.
  132. </para>
  133. <para>
  134. Analisadores de texto (<link linkend="zend.search.lucene.extending.analysis">veja
  135. abaixo</link>) também podem converter texto para algumas outras codificações. Na
  136. verdade, o analisador de padrão converte o texto para a codificação
  137. 'ASCII//TRANSLIT'. Porém, tenha cuidado, esta tradução pode depender da localidade
  138. atual.
  139. </para>
  140. <para>
  141. Nomes de campos são definidos a seu critério no método
  142. <methodname>addField()</methodname>.
  143. </para>
  144. <para>
  145. Java Lucene usa o campo 'contents' como um campo padrão de busca.
  146. <classname>Zend_Search_Lucene</classname> busca por padrão através de todos os
  147. domínios, mas este comportamento é configurável. Consulte o capítulo
  148. <link linkend="zend.search.lucene.query-language.fields">"Campo de pesquisa
  149. padrão"</link> para mais detalhes.
  150. </para>
  151. </sect2>
  152. <sect2 id="zend.search.lucene.index-creation.understanding-field-types">
  153. <title>Entendendo os Tipos de Campos</title>
  154. <itemizedlist>
  155. <listitem>
  156. <para>
  157. Campos do tipo <code>Keyword</code> são armazenados e indexados, o que
  158. significa que eles podem ser pesquisados, bem como apresentados nos resultados
  159. de busca. Eles não podem ser divididos em palavras separadas por marcação.
  160. Campos de dados numerados geralmente os traduzem bem no
  161. <classname>Zend_Search_Lucene</classname>.
  162. </para>
  163. </listitem>
  164. <listitem>
  165. <para>
  166. Campos do tipo <code>UnIndexed</code> não são pesquisáveis, mas são retornados
  167. junto com os resultados das pesquisas. Timestamps de banco de dados, chaves
  168. primárias, caminhos do sistema de arquivos, e outros identificadores externos
  169. são bons candidatos para estes campos.
  170. </para>
  171. </listitem>
  172. <listitem>
  173. <para>
  174. Campos do tipo <code>Binary</code> não são avaliados nem indexados, mas são
  175. armazenados para serem retornados em resultados de pesquisas. Eles podem ser
  176. usados para armazenar qulaquer tipo de dado que possa ser codificados em uma
  177. string binária, por exemplo, um ícone.
  178. </para>
  179. </listitem>
  180. <listitem>
  181. <para>
  182. Campos do tipo <code>Text</code> são armazenados, indexados e avaliados. Campos
  183. texto são apropriados para conter informações que devam ser pesquisadas, bem
  184. como retornadas por uma pesquisa, tais como descrições e títulos.
  185. </para>
  186. </listitem>
  187. <listitem>
  188. <para>
  189. Campos do tipo <code>UnStored</code> são avaliados e indexados, mas não são
  190. armazenados no índice. Grandes quantidades de texto são melhor indexadas
  191. utilizando este tipo de campo. Dados armazenados criam um extenso índice no
  192. disco, então se você necessitar pesquisar sem exibir estes dados, utilize um
  193. campo UnStored. Campos UnStored são úteis quando utilizamos um índice
  194. <classname>Zend_Search_Lucene</classname> em combinação com um banco de dados
  195. relacional. Você pode indexar campos contendo dados volumosos usando campos
  196. UnStored para pesquisa, e recuperá-los a partir de um banco de dados relacional
  197. usando campos separados como identificadores.
  198. </para>
  199. <table id="zend.search.lucene.index-creation.understanding-field-types.table">
  200. <title>Tipos de Zend_Search_Lucene_Field</title>
  201. <tgroup cols="5">
  202. <thead>
  203. <row>
  204. <entry>Tipo de Campo</entry>
  205. <entry>Armazenado</entry>
  206. <entry>Indexado</entry>
  207. <entry>Marcado</entry>
  208. <entry>Binário</entry>
  209. </row>
  210. </thead>
  211. <tbody>
  212. <row>
  213. <entry>Keyword</entry>
  214. <entry>Sim</entry>
  215. <entry>Sim</entry>
  216. <entry>Não</entry>
  217. <entry>Não</entry>
  218. </row>
  219. <row>
  220. <entry>UnIndexed</entry>
  221. <entry>Sim</entry>
  222. <entry>Não</entry>
  223. <entry>Não</entry>
  224. <entry>Não</entry>
  225. </row>
  226. <row>
  227. <entry>Binary</entry>
  228. <entry>Sim</entry>
  229. <entry>Não</entry>
  230. <entry>Não</entry>
  231. <entry>Sim</entry>
  232. </row>
  233. <row>
  234. <entry>Text</entry>
  235. <entry>Sim</entry>
  236. <entry>Sim</entry>
  237. <entry>Sim</entry>
  238. <entry>Não</entry>
  239. </row>
  240. <row>
  241. <entry>UnStored</entry>
  242. <entry>Não</entry>
  243. <entry>Sim</entry>
  244. <entry>Sim</entry>
  245. <entry>Não</entry>
  246. </row>
  247. </tbody>
  248. </tgroup>
  249. </table>
  250. </listitem>
  251. </itemizedlist>
  252. </sect2>
  253. <sect2 id="zend.search.lucene.index-creation.html-documents">
  254. <title>Documentos HTML</title>
  255. <para>
  256. <classname>Zend_Search_Lucene</classname> oferece um recurso para análise de HTML.
  257. Os documentos podem ser criados diretamente a partir de um arquivo ou string HTML:
  258. <programlisting language="php"><![CDATA[
  259. $doc = Zend_Search_Lucene_Document_Html::loadHTMLFile($filename);
  260. $index->addDocument($doc);
  261. ...
  262. $doc = Zend_Search_Lucene_Document_Html::loadHTML($htmlString);
  263. $index->addDocument($doc);
  264. ]]></programlisting>
  265. </para>
  266. <para>
  267. A classe <classname>Zend_Search_Lucene_Document_Html</classname> utiliza os métodos
  268. <methodname>DOMDocument::loadHTML()</methodname> e
  269. <methodname>DOMDocument::loadHTMLFile()</methodname> para analisar o código HTML, por
  270. isso não precisa de HTML bem formatado ou de <acronym>XHTML</acronym>. Por outro lado,
  271. é dependente da codificação especificada pela tag de cabeçalho "meta http-equiv".
  272. </para>
  273. <para>
  274. A classe <classname>Zend_Search_Lucene_Document_Html</classname> reconhece o título do
  275. documento, o corpo e as meta tags do cabeçalho.
  276. </para>
  277. <para>
  278. O campo 'title' é na verdade o valor /html/head/title. É armazenado no índice, marcado
  279. e disponibilizado para pesquisa.
  280. </para>
  281. <para>
  282. O campo 'body' é o próprio conteúdo corpo do arquivo ou string HTML. Não inclui os
  283. scripts, comentários ou atributos.
  284. </para>
  285. <para>
  286. Os métodos <methodname>loadHTML()</methodname> e
  287. <methodname>loadHTMLFile()</methodname> da classe
  288. <classname>Zend_Search_Lucene_Document_Html</classname> também possuem um segundo
  289. argumento opcional. Se for definido como <constant>TRUE</constant>, o conteúdo do corpo
  290. é também armazenado no índice e pode ser recuperado a partir do índice. Por padrão, o
  291. corpo é marcado e indexado, mas não armazenado.
  292. </para>
  293. <para>
  294. O terceiro parâmetro dos métodos <methodname>loadHTML()</methodname> e
  295. <methodname>loadHTMLFile()</methodname> especifica opcionalmente a codificação do
  296. código no documento HTML. É utilizado quando a codificação não é especificada usando a
  297. meta tag Content-type HTTP-EQUIV.
  298. </para>
  299. <para>
  300. Outras meta tags do cabeçalho no documento produzem campos de documentos adicionais. O
  301. campo 'name' é tirado do atributo 'name', e o atributo o 'content' preenche o campo
  302. 'value'. Ambos são marcados, indexados e armazenados, então os documentos podem ser
  303. procurados pelas suas meta tags (por exemplo, por palavras-chave).
  304. </para>
  305. <para>
  306. Qualquer outro campo pode ser acrescentado pelo programador em documentos analisados:
  307. <programlisting language="php"><![CDATA[
  308. $doc = Zend_Search_Lucene_Document_Html::loadHTML($htmlString);
  309. $doc->addField(Zend_Search_Lucene_Field::UnIndexed('created',
  310. time()));
  311. $doc->addField(Zend_Search_Lucene_Field::UnIndexed('updated',
  312. time()));
  313. $doc->addField(Zend_Search_Lucene_Field::Text('annotation',
  314. 'Document annotation text'));
  315. $index->addDocument($doc);
  316. ]]></programlisting>
  317. </para>
  318. <para>
  319. Links nos documentos não estão incluídos no documento gerado,
  320. mas podem ser recuperados através dos métodos
  321. <methodname>Zend_Search_Lucene_Document_Html::getLinks()</methodname> e
  322. <methodname>Zend_Search_Lucene_Document_Html::getHeaderLinks()</methodname>:
  323. <programlisting language="php"><![CDATA[
  324. $doc = Zend_Search_Lucene_Document_Html::loadHTML($htmlString);
  325. $linksArray = $doc->getLinks();
  326. $headerLinksArray = $doc->getHeaderLinks();
  327. ]]></programlisting>
  328. </para>
  329. <para>
  330. A partir do Zend Framework 1.6 é possível excluir os links com o atributo
  331. <code>rel</code> definido como <code>'nofollow'</code>. Utilize
  332. <methodname>Zend_Search_Lucene_Document_Html::setExcludeNoFollowLinks($true)</methodname>
  333. para ativar esta opção.
  334. </para>
  335. <para>
  336. O método
  337. <methodname>Zend_Search_Lucene_Document_Html::getExcludeNoFollowLinks()</methodname>
  338. retorna o estado atual do marco "Exclude nofollow links".
  339. </para>
  340. </sect2>
  341. <sect2 id="zend.search.lucene.index-creation.docx-documents">
  342. <title>Documentos do Word 2007</title>
  343. <para>
  344. <classname>Zend_Search_Lucene</classname> oferece um recurso de análise para Word 2007.
  345. Os documentos podem ser criados diretamente de um arquivo do Word 2007:
  346. <programlisting language="php"><![CDATA[
  347. $doc = Zend_Search_Lucene_Document_Docx::loadDocxFile($filename);
  348. $index->addDocument($doc);
  349. ]]></programlisting>
  350. </para>
  351. <para>
  352. A classe <classname>Zend_Search_Lucene_Document_Docx</classname> utiliza a classe
  353. <code>ZipArchive</code> e os métodos <code>simplexml</code> para analisar o documento
  354. de origem. Se a classe <code>ZipArchive</code> (do módulo php_zip) não estiver
  355. disponível, o <classname>Zend_Search_Lucene_Document_Docx</classname> também não estará
  356. disponível para ser usado com o Zend Framework.
  357. </para>
  358. <para>
  359. A classe <classname>Zend_Search_Lucene_Document_Docx</classname> reconhece os metadados
  360. e o texto do documento. Metadados consiste, dependendo do conteúdo do documento, de
  361. nome do arquivo (filename), título (title), assunto (subject), autor (creator),
  362. palavras-chave (keywords), descrição (description), última modificação por
  363. (lastModifiedBy), revisão (revision), data da modificação (modified) e data da criação
  364. (created).
  365. </para>
  366. <para>
  367. O campo 'filename' é o nome do arquivo do Word 2007.
  368. </para>
  369. <para>
  370. O campo 'title' é o título do documento.
  371. </para>
  372. <para>
  373. O campo 'subject' é o assunto do documento.
  374. </para>
  375. <para>
  376. O campo 'creator' é o autor do documento.
  377. </para>
  378. <para>
  379. O campo 'keywords' contém as palavras-chaves do documento.
  380. </para>
  381. <para>
  382. O campo 'description' é a descrição do documento.
  383. </para>
  384. <para>
  385. O campo 'lastModifiedBy' é o nome de quem fez a última modificação no documento.
  386. </para>
  387. <para>
  388. O campo 'revision' é o número da revisão do documento.
  389. </para>
  390. <para>
  391. O campo 'modified' contém a data e hora da última modificação do documento.
  392. </para>
  393. <para>
  394. O campo 'created' contém a data e hora da criação do documento.
  395. </para>
  396. <para>
  397. O campo 'body' é o próprio conteúdo do documento do Word 2007. Ele inclui apenas texto
  398. normal, comentários e revisões não estão incluídos.
  399. </para>
  400. <para>
  401. O método <methodname>loadDocxFile()</methodname> da classe
  402. <classname>Zend_Search_Lucene_Document_Docx</classname> também possui um segundo
  403. argumento opcional. Se for definido como <constant>TRUE</constant>, o conteúdo do corpo
  404. é também armazenado no índice e pode ser recuperado a partir do índice. Por padrão, o
  405. corpo é marcado e indexado, mas não armazenado.
  406. </para>
  407. <para>
  408. Qualquer outro campo pode ser acrescentado pelo programador em documentos analisados:
  409. <programlisting language="php"><![CDATA[
  410. $doc = Zend_Search_Lucene_Document_Docx::loadDocxFile($filename);
  411. $doc->addField(Zend_Search_Lucene_Field::UnIndexed(
  412. 'indexTime',
  413. time())
  414. );
  415. $doc->addField(Zend_Search_Lucene_Field::Text(
  416. 'annotation',
  417. 'Document annotation text')
  418. );
  419. $index->addDocument($doc);
  420. ]]></programlisting>
  421. </para>
  422. </sect2>
  423. <sect2 id="zend.search.lucene.index-creation.pptx-documents">
  424. <title>Documentos do Powerpoint 2007</title>
  425. <para>
  426. <classname>Zend_Search_Lucene</classname> oferece um recurso de análise para Powerpoint
  427. 2007. Os documentos podem ser criados diretamente de um arquivo do Powerpoint 2007:
  428. <programlisting language="php"><![CDATA[
  429. $doc = Zend_Search_Lucene_Document_Pptx::loadPptxFile($filename);
  430. $index->addDocument($doc);
  431. ]]></programlisting>
  432. </para>
  433. <para>
  434. A classe <classname>Zend_Search_Lucene_Document_Pptx</classname> utiliza a classe
  435. <code>ZipArchive</code> e os métodos <code>simplexml</code> para analisar o documento
  436. de origem. Se a classe <code>ZipArchive</code> (do módulo php_zip) não estiver
  437. disponível, o <classname>Zend_Search_Lucene_Document_Pptx</classname> também não estará
  438. disponível para ser usado com o Zend Framework.
  439. </para>
  440. <para>
  441. A classe <classname>Zend_Search_Lucene_Document_Pptx</classname> reconhece os metadados
  442. e o texto do documento. Metadados consiste, dependendo do conteúdo do documento, de
  443. nome do arquivo (filename), título (title), assunto (subject), autor (creator),
  444. palavras-chave (keywords), descrição (description), última modificação por
  445. (lastModifiedBy), revisão (revision), data da modificação (modified) e data da criação
  446. (created).
  447. </para>
  448. <para>
  449. O campo 'filename' é o nome do arquivo do Powerpoint 2007.
  450. </para>
  451. <para>
  452. O campo 'title' é o título do documento.
  453. </para>
  454. <para>
  455. O campo 'subject' é o assunto do documento.
  456. </para>
  457. <para>
  458. O campo 'creator' é o autor do documento.
  459. </para>
  460. <para>
  461. O campo 'keywords' contém as palavras-chaves do documento.
  462. </para>
  463. <para>
  464. O campo 'description' é a descrição do documento.
  465. </para>
  466. <para>
  467. O campo 'lastModifiedBy' é o nome de quem fez a última modificação no documento.
  468. </para>
  469. <para>
  470. O campo 'revision' é o número da revisão do documento.
  471. </para>
  472. <para>
  473. O campo 'modified' contém a data e hora da última modificação do documento.
  474. </para>
  475. <para>
  476. O campo 'created' contém a data e hora da criação do documento.
  477. </para>
  478. <para>
  479. O campo 'body' é o conteúdo de todos os slides e notas de slide no documento do
  480. Powerpoint 2007.
  481. </para>
  482. <para>
  483. O método <methodname>loadPptxFile()</methodname> da classe
  484. <classname>Zend_Search_Lucene_Document_Pptx</classname> também possui um segundo
  485. argumento opcional. Se for definido como <constant>TRUE</constant>, o conteúdo do corpo
  486. é também armazenado no índice e pode ser recuperado a partir do índice. Por padrão, o
  487. corpo é marcado e indexado, mas não armazenado.
  488. </para>
  489. <para>
  490. Qualquer outro campo pode ser acrescentado pelo programador em documentos analisados:
  491. <programlisting language="php"><![CDATA[
  492. $doc = Zend_Search_Lucene_Document_Pptx::loadPptxFile($filename);
  493. $doc->addField(Zend_Search_Lucene_Field::UnIndexed(
  494. 'indexTime',
  495. time()));
  496. $doc->addField(Zend_Search_Lucene_Field::Text(
  497. 'annotation',
  498. 'Document annotation text'));
  499. $index->addDocument($doc);
  500. ]]></programlisting>
  501. </para>
  502. </sect2>
  503. <sect2 id="zend.search.lucene.index-creation.xlsx-documents">
  504. <title>Documentos do Excel 2007</title>
  505. <para>
  506. <classname>Zend_Search_Lucene</classname> oferece um recurso de análise para Excel 2007.
  507. Os documentos podem ser criados diretamente de um arquivo do Excel 2007:
  508. <programlisting language="php"><![CDATA[
  509. $doc = Zend_Search_Lucene_Document_Xlsx::loadXlsxFile($filename);
  510. $index->addDocument($doc);
  511. ]]></programlisting>
  512. </para>
  513. <para>
  514. A classe <classname>Zend_Search_Lucene_Document_Xlsx</classname> utiliza a classe
  515. <code>ZipArchive</code> e os métodos <code>simplexml</code> para analisar o documento
  516. de origem. Se a classe <code>ZipArchive</code> (do módulo php_zip) não estiver
  517. disponível, o <classname>Zend_Search_Lucene_Document_Xlsx</classname> também não estará
  518. disponível para ser usado com o Zend Framework.
  519. </para>
  520. <para>
  521. A classe <classname>Zend_Search_Lucene_Document_Xlsx</classname> reconhece os metadados
  522. e o texto do documento. Metadados consiste, dependendo do conteúdo do documento, de
  523. nome do arquivo (filename), título (title), assunto (subject), autor (creator),
  524. palavras-chave (keywords), descrição (description), última modificação por
  525. (lastModifiedBy), revisão (revision), data da modificação (modified) e data da criação
  526. (created).
  527. </para>
  528. <para>
  529. O campo 'filename' é o nome do arquivo do Excel 2007.
  530. </para>
  531. <para>
  532. O campo 'title' é o título do documento.
  533. </para>
  534. <para>
  535. O campo 'subject' é o assunto do documento.
  536. </para>
  537. <para>
  538. O campo 'creator' é o autor do documento.
  539. </para>
  540. <para>
  541. O campo 'keywords' contém as palavras-chaves do documento.
  542. </para>
  543. <para>
  544. O campo 'description' é a descrição do documento.
  545. </para>
  546. <para>
  547. O campo 'lastModifiedBy' é o nome de quem fez a última modificação no documento.
  548. </para>
  549. <para>
  550. O campo 'revision' é o número da revisão do documento.
  551. </para>
  552. <para>
  553. O campo 'modified' contém a data e hora da última modificação do documento.
  554. </para>
  555. <para>
  556. O campo 'created' contém a data e hora da criação do documento.
  557. </para>
  558. <para>
  559. O campo 'body' é o conteúdo de todas as células em todas as planilhas do documento do
  560. Excel 2007.
  561. </para>
  562. <para>
  563. O método <methodname>loadXlsxFile()</methodname> da classe
  564. <classname>Zend_Search_Lucene_Document_Xlsx</classname> também possui um segundo
  565. argumento opcional. Se for definido como <constant>TRUE</constant>, o conteúdo do corpo
  566. é também armazenado no índice e pode ser recuperado a partir do índice. Por padrão, o
  567. corpo é marcado e indexado, mas não armazenado.
  568. </para>
  569. <para>
  570. Qualquer outro campo pode ser acrescentado pelo programador em documentos analisados:
  571. <programlisting language="php"><![CDATA[
  572. $doc = Zend_Search_Lucene_Document_Xlsx::loadXlsxFile($filename);
  573. $doc->addField(Zend_Search_Lucene_Field::UnIndexed(
  574. 'indexTime',
  575. time()));
  576. $doc->addField(Zend_Search_Lucene_Field::Text(
  577. 'annotation',
  578. 'Document annotation text'));
  579. $index->addDocument($doc);
  580. ]]></programlisting>
  581. </para>
  582. </sect2>
  583. </sect1>