Zend_Search_Lucene-Overview.xml 29 KB

123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124125126127128129130131132133134135136137138139140141142143144145146147148149150151152153154155156157158159160161162163164165166167168169170171172173174175176177178179180181182183184185186187188189190191192193194195196197198199200201202203204205206207208209210211212213214215216217218219220221222223224225226227228229230231232233234235236237238239240241242243244245246247248249250251252253254255256257258259260261262263264265266267268269270271272273274275276277278279280281282283284285286287288289290291292293294295296297298299300301302303304305306307308309310311312313314315316317318319320321322323324325326327328329330331332333334335336337338339340341342343344345346347348349350351352353354355356357358359360361362363364365366367368369370371372373374375376377378379380381382383384385386387388389390391392393394395396397398399400401402403404405406407408409410411412413414415416417418419420421422423424425426427428429430431432433434435436437438439440441442443444445446447448449450451452453454455456457458459460461462463464465466467468469470471472473474475476477478479480481482483484485486487488489490491492493494495496497498499500501502503504505506507508509510511512513514515516517518519520521522523524525526527528529530531532533534535536537538539540541542543544545546547548549550551552553554555556557558559560561562563564565566567568569570571572573574575576577578579580581582583584585586587588589590591592593594595596597598599600601602603604605606607608609610611612613614615616617618619620621622623624625626627628629630631632633634635636637638639640641642643644645646647648649650651652653654655656657658659660661662663664665666667668669670671672673674675676677678679680681682683684685686687688689690691692693694695696697698699700701
  1. <?xml version="1.0" encoding="UTF-8"?>
  2. <!-- EN-Revision: 24249 -->
  3. <!-- Reviewed: no -->
  4. <sect1 id="zend.search.lucene.overview">
  5. <title>Resumo</title>
  6. <sect2 id="zend.search.lucene.introduction">
  7. <title>Introdução</title>
  8. <para>
  9. <classname>Zend_Search_Lucene</classname> é um mecanismo para pesquisa de texto, de
  10. propósito geral, escrito totalmente em <acronym>PHP</acronym> 5. Por armazenar os
  11. índices no sistema de arquivos e não fazer uso de servidor de banco de dados, ele pode
  12. efetuar pesquisas em qualquer website rodando <acronym>PHP</acronym>. O
  13. <classname>Zend_Search_Lucene</classname> possui os seguintes recursos:
  14. <itemizedlist>
  15. <listitem>
  16. <para>
  17. Pesquisa agrupada por pontuação (ranked) - os resultados mais prováveis são
  18. retornados primeiro
  19. </para>
  20. </listitem>
  21. <listitem>
  22. <para>
  23. Consultas poderosas de diversos tipos: frase, curingas, booleanas,
  24. aproximação, faixas e muitas outras.
  25. </para>
  26. </listitem>
  27. <listitem>
  28. <para>Busca por campo específico (ex: título, autor, descrição)</para>
  29. </listitem>
  30. </itemizedlist>
  31. <classname>Zend_Search_Lucene</classname> derivou do projeto Apache Lucene. Atualmente
  32. (iniciando do ZF 1.6), as versões suportadas formato de índice Lucene são 1.4 - 2.3.
  33. Para mais informações, visite <ulink url="http://lucene.apache.org/java/docs/"/>.
  34. </para>
  35. <note>
  36. <title/>
  37. <para>
  38. Implementações anteriores de <classname>Zend_Search_Lucene</classname> suportam os
  39. formatos de índice Lucene 1.4 (1.9) - 2.1.
  40. </para>
  41. <para>
  42. A partir do Zend Framework 1.5, qualquer índice criado usando formato de índice
  43. menor que 2.1 é atualizado automaticamente para o formato Lucene 2.1 após a
  44. atualização <classname>Zend_Search_Lucene</classname> e não será compatível com as
  45. implementações do <classname>Zend_Search_Lucene</classname> incluídas no Zend
  46. Framework 1.0.x.
  47. </para>
  48. </note>
  49. </sect2>
  50. <sect2 id="zend.search.lucene.index-creation.documents-and-fields">
  51. <title>Objetos Documento e Campo</title>
  52. <para>
  53. <classname>Zend_Search_Lucene</classname> trabalha sobre os documentos
  54. subdividindo-os em pequenos objetos (atômicos) de indexação. Um documento é
  55. dividido em campos identificados cujo conteúdo é pesquisado.
  56. </para>
  57. <para>
  58. Um documento é representado pela classe
  59. <classname>Zend_Search_Lucene_Document</classname>, e os objetos dessa classe
  60. contêm instâncias de <classname>Zend_Search_Lucene_Field</classname> que
  61. representam os campos no documento.
  62. </para>
  63. <para>
  64. O que é importante ressaltar é que qualquer informação pode ser adicionada a um
  65. índice. Informações específicas de aplicações ou metadados podem ser armazenados em
  66. campos de um documento, e posteriormente recuperados juntamente com o documento
  67. durante uma pesquisa.
  68. </para>
  69. <para>
  70. Controlar o indexador é responsabilidade de sua aplicação. Este recurso garante que
  71. os dados possam ser indexados a partir de qualquer fonte que seja acessível à sua
  72. aplicação. Por exemplo, um sistema de arquivos, um banco de dados, um formulário
  73. <acronym>HTML</acronym>, etc.
  74. </para>
  75. <para>
  76. A classe <classname>Zend_Search_Lucene_Field</classname> provê alguns métodos
  77. estáticos para criação de campos com diferentes características:
  78. </para>
  79. <programlisting language="php"><![CDATA[
  80. $doc = new Zend_Search_Lucene_Document();
  81. // O campo não é separado em tokens, mas é indexado e armazenado dentro do
  82. // índice.
  83. // Campos armazenados podem ser recuperados a partir do índice.
  84. $doc->addField(Zend_Search_Lucene_Field::Keyword('doctype',
  85. 'autogenerated'));
  86. // O campo não é separado em tokens nem indexado, mas é armazenado no índice.
  87. $doc->addField(Zend_Search_Lucene_Field::UnIndexed('created',
  88. time()));
  89. // O campo avaliado como string binária não é separado em tokens nem indexado,
  90. // mas é armazenado no índice.
  91. $doc->addField(Zend_Search_Lucene_Field::Binary('icon',
  92. $iconData));
  93. // O campo é separado em tokens e indexado, e é armazenado no índice.
  94. $doc->addField(Zend_Search_Lucene_Field::Text('annotation',
  95. 'Document annotation text'));
  96. // O campo é separado em tokens e indexado, mas não é armazenado no índice.
  97. $doc->addField(Zend_Search_Lucene_Field::UnStored('contents',
  98. 'My document content'));
  99. ]]></programlisting>
  100. <para>
  101. Cada um desses métodos (excluindo o método
  102. <methodname>Zend_Search_Lucene_Field::Binary()</methodname>) têm um parâmetro
  103. <varname>$encoding</varname> opcional para especificar a entrada dos dados de
  104. codificação.
  105. </para>
  106. <para>
  107. A codificação pode divergir entre documentos diferentes, bem como para campos
  108. diferentes dentro de um mesmo documento:
  109. </para>
  110. <programlisting language="php"><![CDATA[
  111. $doc = new Zend_Search_Lucene_Document();
  112. $doc->addField(Zend_Search_Lucene_Field::Text('title',
  113. $title,
  114. 'iso-8859-1'));
  115. $doc->addField(Zend_Search_Lucene_Field::UnStored('contents',
  116. $contents,
  117. 'utf-8'));
  118. ]]></programlisting>
  119. <para>
  120. Se o parâmetro de codificação é omitido, então a localidade atual é usada em tempo
  121. de processamento. Por exemplo:
  122. </para>
  123. <programlisting language="php"><![CDATA[
  124. setlocale(LC_ALL, 'de_DE.iso-8859-1');
  125. ...
  126. $doc->addField(Zend_Search_Lucene_Field::UnStored('contents', $contents));
  127. ]]></programlisting>
  128. <para>
  129. Os campos são sempre armazenados e devolvidos ao índice na codificação UTF-8.
  130. Qualquer conversão necessária para UTF-8 acontece automaticamente.
  131. </para>
  132. <para>
  133. Analisadores de texto (<link linkend="zend.search.lucene.extending.analysis">veja
  134. abaixo</link>) também podem converter texto para algumas outras codificações. Na
  135. verdade, o analisador de padrão converte o texto para a codificação
  136. 'ASCII//TRANSLIT'. Porém, tenha cuidado, esta tradução pode depender da localidade
  137. atual.
  138. </para>
  139. <para>
  140. Nomes de campos são definidos a seu critério no método
  141. <methodname>addField()</methodname>.
  142. </para>
  143. <para>
  144. Java Lucene usa o campo 'contents' como um campo padrão de busca.
  145. <classname>Zend_Search_Lucene</classname> busca por padrão através de todos os
  146. domínios, mas este comportamento é configurável. Consulte o capítulo
  147. <link linkend="zend.search.lucene.query-language.fields">"Campo de pesquisa
  148. padrão"</link> para mais detalhes.
  149. </para>
  150. </sect2>
  151. <sect2 id="zend.search.lucene.index-creation.understanding-field-types">
  152. <title>Entendendo os Tipos de Campos</title>
  153. <itemizedlist>
  154. <listitem>
  155. <para>
  156. Campos do tipo <code>Keyword</code> são armazenados e indexados, o que
  157. significa que eles podem ser pesquisados, bem como apresentados nos resultados
  158. de busca. Eles não podem ser divididos em palavras separadas através da
  159. separação por tokens. Campos de dados numerados geralmente os traduzem bem no
  160. <classname>Zend_Search_Lucene</classname>.
  161. </para>
  162. </listitem>
  163. <listitem>
  164. <para>
  165. Campos do tipo <code>UnIndexed</code> não são pesquisáveis, mas são retornados
  166. junto com os resultados das pesquisas. Timestamps de banco de dados, chaves
  167. primárias, caminhos do sistema de arquivos, e outros identificadores externos
  168. são bons candidatos para estes campos.
  169. </para>
  170. </listitem>
  171. <listitem>
  172. <para>
  173. Campos do tipo <code>Binary</code> não são separados em tokens nem indexados, mas
  174. são armazenados para serem retornados em resultados de pesquisas. Eles podem ser
  175. usados para armazenar qualquer tipo de dado que possa ser codificados em uma
  176. string binária, por exemplo, um ícone.
  177. </para>
  178. </listitem>
  179. <listitem>
  180. <para>
  181. Campos do tipo <code>Text</code> são armazenados, indexados e separados em
  182. tokens. Campos text são apropriados para conter informações que devam ser
  183. pesquisadas, bem como retornadas por uma pesquisa, tais como descrições e
  184. títulos.
  185. </para>
  186. </listitem>
  187. <listitem>
  188. <para>
  189. Campos do tipo <code>UnStored</code> são separados em tokens e indexados, mas
  190. não são armazenados no índice. Grandes quantidades de texto são melhor indexadas
  191. utilizando este tipo de campo. Dados armazenados criam um extenso índice no
  192. disco, então se você necessitar pesquisar sem exibir estes dados, utilize um
  193. campo UnStored. Campos UnStored são úteis quando utilizamos um índice
  194. <classname>Zend_Search_Lucene</classname> em combinação com um banco de dados
  195. relacional. Você pode indexar campos contendo dados volumosos usando campos
  196. UnStored para pesquisa, e recuperá-los a partir de um banco de dados relacional
  197. usando campos separados como identificadores.
  198. </para>
  199. <table id="zend.search.lucene.index-creation.understanding-field-types.table">
  200. <title>Tipos de Zend_Search_Lucene_Field</title>
  201. <tgroup cols="5">
  202. <thead>
  203. <row>
  204. <entry>Tipo de Campo</entry>
  205. <entry>Armazenado</entry>
  206. <entry>Indexado</entry>
  207. <entry>Separado em Tokens</entry>
  208. <entry>Binário</entry>
  209. </row>
  210. </thead>
  211. <tbody>
  212. <row>
  213. <entry>Keyword</entry>
  214. <entry>Sim</entry>
  215. <entry>Sim</entry>
  216. <entry>Não</entry>
  217. <entry>Não</entry>
  218. </row>
  219. <row>
  220. <entry>UnIndexed</entry>
  221. <entry>Sim</entry>
  222. <entry>Não</entry>
  223. <entry>Não</entry>
  224. <entry>Não</entry>
  225. </row>
  226. <row>
  227. <entry>Binary</entry>
  228. <entry>Sim</entry>
  229. <entry>Não</entry>
  230. <entry>Não</entry>
  231. <entry>Sim</entry>
  232. </row>
  233. <row>
  234. <entry>Text</entry>
  235. <entry>Sim</entry>
  236. <entry>Sim</entry>
  237. <entry>Sim</entry>
  238. <entry>Não</entry>
  239. </row>
  240. <row>
  241. <entry>UnStored</entry>
  242. <entry>Não</entry>
  243. <entry>Sim</entry>
  244. <entry>Sim</entry>
  245. <entry>Não</entry>
  246. </row>
  247. </tbody>
  248. </tgroup>
  249. </table>
  250. </listitem>
  251. </itemizedlist>
  252. </sect2>
  253. <sect2 id="zend.search.lucene.index-creation.html-documents">
  254. <title>Documentos HTML</title>
  255. <para>
  256. <classname>Zend_Search_Lucene</classname> oferece um recurso para análise de
  257. <acronym>HTML</acronym>. Os documentos podem ser criados diretamente a partir de um
  258. arquivo ou string <acronym>HTML</acronym>:
  259. </para>
  260. <programlisting language="php"><![CDATA[
  261. $doc = Zend_Search_Lucene_Document_Html::loadHTMLFile($filename);
  262. $index->addDocument($doc);
  263. ...
  264. $doc = Zend_Search_Lucene_Document_Html::loadHTML($htmlString);
  265. $index->addDocument($doc);
  266. ]]></programlisting>
  267. <para>
  268. A classe <classname>Zend_Search_Lucene_Document_Html</classname> utiliza os métodos
  269. <methodname>DOMDocument::loadHTML()</methodname> e
  270. <methodname>DOMDocument::loadHTMLFile()</methodname> para analisar o código
  271. <acronym>HTML</acronym>, por isso não precisa de <acronym>HTML</acronym> bem formatado
  272. ou de <acronym>XHTML</acronym>. Por outro lado, é dependente da codificação especificada
  273. pela tag de cabeçalho "meta http-equiv".
  274. </para>
  275. <para>
  276. A classe <classname>Zend_Search_Lucene_Document_Html</classname> reconhece o título do
  277. documento, o corpo e as meta tags do cabeçalho.
  278. </para>
  279. <para>
  280. O campo 'title' é na verdade o valor /html/head/title. É armazenado no índice, separado
  281. em tokens e disponibilizado para pesquisa.
  282. </para>
  283. <para>
  284. O campo 'body' é o próprio conteúdo corpo do arquivo ou string <acronym>HTML</acronym>.
  285. Não inclui os scripts, comentários ou atributos.
  286. </para>
  287. <para>
  288. Os métodos <methodname>loadHTML()</methodname> e
  289. <methodname>loadHTMLFile()</methodname> da classe
  290. <classname>Zend_Search_Lucene_Document_Html</classname> também possuem um segundo
  291. argumento opcional. Se for definido como <constant>TRUE</constant>, o conteúdo do corpo
  292. é também armazenado no índice e pode ser recuperado a partir do índice. Por padrão, o
  293. corpo é separado em tokens e indexado, mas não armazenado.
  294. </para>
  295. <para>
  296. O terceiro parâmetro dos métodos <methodname>loadHTML()</methodname> e
  297. <methodname>loadHTMLFile()</methodname> especifica opcionalmente a codificação do
  298. código no documento <acronym>HTML</acronym>. É utilizado quando a codificação não é
  299. especificada usando a meta tag Content-type HTTP-EQUIV.
  300. </para>
  301. <para>
  302. Outras meta tags do cabeçalho no documento produzem campos de documentos adicionais. O
  303. campo 'name' é tirado do atributo 'name', e o atributo o 'content' preenche o campo
  304. 'value'. Ambos são separados em tokens, indexados e armazenados, então os documentos
  305. podem ser procurados pelas suas meta tags (por exemplo, por palavras-chave).
  306. </para>
  307. <para>
  308. Qualquer outro campo pode ser acrescentado pelo programador em documentos analisados:
  309. </para>
  310. <programlisting language="php"><![CDATA[
  311. $doc = Zend_Search_Lucene_Document_Html::loadHTML($htmlString);
  312. $doc->addField(Zend_Search_Lucene_Field::UnIndexed('created',
  313. time()));
  314. $doc->addField(Zend_Search_Lucene_Field::UnIndexed('updated',
  315. time()));
  316. $doc->addField(Zend_Search_Lucene_Field::Text('annotation',
  317. 'Document annotation text'));
  318. $index->addDocument($doc);
  319. ]]></programlisting>
  320. <para>
  321. Links nos documentos não estão incluídos no documento gerado,
  322. mas podem ser recuperados através dos métodos
  323. <methodname>Zend_Search_Lucene_Document_Html::getLinks()</methodname> e
  324. <methodname>Zend_Search_Lucene_Document_Html::getHeaderLinks()</methodname>:
  325. </para>
  326. <programlisting language="php"><![CDATA[
  327. $doc = Zend_Search_Lucene_Document_Html::loadHTML($htmlString);
  328. $linksArray = $doc->getLinks();
  329. $headerLinksArray = $doc->getHeaderLinks();
  330. ]]></programlisting>
  331. <para>
  332. A partir do Zend Framework 1.6 é possível excluir os links com o atributo
  333. <code>rel</code> definido como <code>'nofollow'</code>. Utilize
  334. <methodname>Zend_Search_Lucene_Document_Html::setExcludeNoFollowLinks($true)</methodname>
  335. para ativar esta opção.
  336. </para>
  337. <para>
  338. O método
  339. <methodname>Zend_Search_Lucene_Document_Html::getExcludeNoFollowLinks()</methodname>
  340. retorna o estado atual do marco "Exclude nofollow links".
  341. </para>
  342. </sect2>
  343. <sect2 id="zend.search.lucene.index-creation.docx-documents">
  344. <title>Documentos do Word 2007</title>
  345. <para>
  346. <classname>Zend_Search_Lucene</classname> oferece um recurso de análise para Word 2007.
  347. Os documentos podem ser criados diretamente de um arquivo do Word 2007:
  348. </para>
  349. <programlisting language="php"><![CDATA[
  350. $doc = Zend_Search_Lucene_Document_Docx::loadDocxFile($filename);
  351. $index->addDocument($doc);
  352. ]]></programlisting>
  353. <para>
  354. A classe <classname>Zend_Search_Lucene_Document_Docx</classname> utiliza a classe
  355. <code>ZipArchive</code> e os métodos <code>simplexml</code> para analisar o documento
  356. de origem. Se a classe <code>ZipArchive</code> (do módulo php_zip) não estiver
  357. disponível, o <classname>Zend_Search_Lucene_Document_Docx</classname> também não estará
  358. disponível para ser usado com o Zend Framework.
  359. </para>
  360. <para>
  361. A classe <classname>Zend_Search_Lucene_Document_Docx</classname> reconhece os metadados
  362. e o texto do documento. Metadados consiste, dependendo do conteúdo do documento, de
  363. nome do arquivo (filename), título (title), assunto (subject), autor (creator),
  364. palavras-chave (keywords), descrição (description), última modificação por
  365. (lastModifiedBy), revisão (revision), data da modificação (modified) e data da criação
  366. (created).
  367. </para>
  368. <para>
  369. O campo 'filename' é o nome do arquivo do Word 2007.
  370. </para>
  371. <para>
  372. O campo 'title' é o título do documento.
  373. </para>
  374. <para>
  375. O campo 'subject' é o assunto do documento.
  376. </para>
  377. <para>
  378. O campo 'creator' é o autor do documento.
  379. </para>
  380. <para>
  381. O campo 'keywords' contém as palavras-chaves do documento.
  382. </para>
  383. <para>
  384. O campo 'description' é a descrição do documento.
  385. </para>
  386. <para>
  387. O campo 'lastModifiedBy' é o nome de quem fez a última modificação no documento.
  388. </para>
  389. <para>
  390. O campo 'revision' é o número da revisão do documento.
  391. </para>
  392. <para>
  393. O campo 'modified' contém a data e hora da última modificação do documento.
  394. </para>
  395. <para>
  396. O campo 'created' contém a data e hora da criação do documento.
  397. </para>
  398. <para>
  399. O campo 'body' é o próprio conteúdo do documento do Word 2007. Ele inclui apenas texto
  400. normal, comentários e revisões não estão incluídos.
  401. </para>
  402. <para>
  403. O método <methodname>loadDocxFile()</methodname> da classe
  404. <classname>Zend_Search_Lucene_Document_Docx</classname> também possui um segundo
  405. argumento opcional. Se for definido como <constant>TRUE</constant>, o conteúdo do corpo
  406. é também armazenado no índice e pode ser recuperado a partir do índice. Por padrão, o
  407. corpo é separado em tokens e indexado, mas não armazenado.
  408. </para>
  409. <para>
  410. Qualquer outro campo pode ser acrescentado pelo programador em documentos analisados:
  411. </para>
  412. <programlisting language="php"><![CDATA[
  413. $doc = Zend_Search_Lucene_Document_Docx::loadDocxFile($filename);
  414. $doc->addField(Zend_Search_Lucene_Field::UnIndexed(
  415. 'indexTime',
  416. time())
  417. );
  418. $doc->addField(Zend_Search_Lucene_Field::Text(
  419. 'annotation',
  420. 'Document annotation text')
  421. );
  422. $index->addDocument($doc);
  423. ]]></programlisting>
  424. </sect2>
  425. <sect2 id="zend.search.lucene.index-creation.pptx-documents">
  426. <title>Documentos do Powerpoint 2007</title>
  427. <para>
  428. <classname>Zend_Search_Lucene</classname> oferece um recurso de análise para Powerpoint
  429. 2007. Os documentos podem ser criados diretamente de um arquivo do Powerpoint 2007:
  430. </para>
  431. <programlisting language="php"><![CDATA[
  432. $doc = Zend_Search_Lucene_Document_Pptx::loadPptxFile($filename);
  433. $index->addDocument($doc);
  434. ]]></programlisting>
  435. <para>
  436. A classe <classname>Zend_Search_Lucene_Document_Pptx</classname> utiliza a classe
  437. <code>ZipArchive</code> e os métodos <code>simplexml</code> para analisar o documento
  438. de origem. Se a classe <code>ZipArchive</code> (do módulo php_zip) não estiver
  439. disponível, o <classname>Zend_Search_Lucene_Document_Pptx</classname> também não estará
  440. disponível para ser usado com o Zend Framework.
  441. </para>
  442. <para>
  443. A classe <classname>Zend_Search_Lucene_Document_Pptx</classname> reconhece os metadados
  444. e o texto do documento. Metadados consiste, dependendo do conteúdo do documento, de
  445. nome do arquivo (filename), título (title), assunto (subject), autor (creator),
  446. palavras-chave (keywords), descrição (description), última modificação por
  447. (lastModifiedBy), revisão (revision), data da modificação (modified) e data da criação
  448. (created).
  449. </para>
  450. <para>
  451. O campo 'filename' é o nome do arquivo do Powerpoint 2007.
  452. </para>
  453. <para>
  454. O campo 'title' é o título do documento.
  455. </para>
  456. <para>
  457. O campo 'subject' é o assunto do documento.
  458. </para>
  459. <para>
  460. O campo 'creator' é o autor do documento.
  461. </para>
  462. <para>
  463. O campo 'keywords' contém as palavras-chaves do documento.
  464. </para>
  465. <para>
  466. O campo 'description' é a descrição do documento.
  467. </para>
  468. <para>
  469. O campo 'lastModifiedBy' é o nome de quem fez a última modificação no documento.
  470. </para>
  471. <para>
  472. O campo 'revision' é o número da revisão do documento.
  473. </para>
  474. <para>
  475. O campo 'modified' contém a data e hora da última modificação do documento.
  476. </para>
  477. <para>
  478. O campo 'created' contém a data e hora da criação do documento.
  479. </para>
  480. <para>
  481. O campo 'body' é o conteúdo de todos os slides e notas de slide no documento do
  482. Powerpoint 2007.
  483. </para>
  484. <para>
  485. O método <methodname>loadPptxFile()</methodname> da classe
  486. <classname>Zend_Search_Lucene_Document_Pptx</classname> também possui um segundo
  487. argumento opcional. Se for definido como <constant>TRUE</constant>, o conteúdo do corpo
  488. é também armazenado no índice e pode ser recuperado a partir do índice. Por padrão, o
  489. corpo é separado em tokens e indexado, mas não armazenado.
  490. </para>
  491. <para>
  492. Qualquer outro campo pode ser acrescentado pelo programador em documentos analisados:
  493. </para>
  494. <programlisting language="php"><![CDATA[
  495. $doc = Zend_Search_Lucene_Document_Pptx::loadPptxFile($filename);
  496. $doc->addField(Zend_Search_Lucene_Field::UnIndexed(
  497. 'indexTime',
  498. time()));
  499. $doc->addField(Zend_Search_Lucene_Field::Text(
  500. 'annotation',
  501. 'Document annotation text'));
  502. $index->addDocument($doc);
  503. ]]></programlisting>
  504. </sect2>
  505. <sect2 id="zend.search.lucene.index-creation.xlsx-documents">
  506. <title>Documentos do Excel 2007</title>
  507. <para>
  508. <classname>Zend_Search_Lucene</classname> oferece um recurso de análise para Excel 2007.
  509. Os documentos podem ser criados diretamente de um arquivo do Excel 2007:
  510. </para>
  511. <programlisting language="php"><![CDATA[
  512. $doc = Zend_Search_Lucene_Document_Xlsx::loadXlsxFile($filename);
  513. $index->addDocument($doc);
  514. ]]></programlisting>
  515. <para>
  516. A classe <classname>Zend_Search_Lucene_Document_Xlsx</classname> utiliza a classe
  517. <code>ZipArchive</code> e os métodos <code>simplexml</code> para analisar o documento
  518. de origem. Se a classe <code>ZipArchive</code> (do módulo php_zip) não estiver
  519. disponível, o <classname>Zend_Search_Lucene_Document_Xlsx</classname> também não estará
  520. disponível para ser usado com o Zend Framework.
  521. </para>
  522. <para>
  523. A classe <classname>Zend_Search_Lucene_Document_Xlsx</classname> reconhece os metadados
  524. e o texto do documento. Metadados consiste, dependendo do conteúdo do documento, de
  525. nome do arquivo (filename), título (title), assunto (subject), autor (creator),
  526. palavras-chave (keywords), descrição (description), última modificação por
  527. (lastModifiedBy), revisão (revision), data da modificação (modified) e data da criação
  528. (created).
  529. </para>
  530. <para>
  531. O campo 'filename' é o nome do arquivo do Excel 2007.
  532. </para>
  533. <para>
  534. O campo 'title' é o título do documento.
  535. </para>
  536. <para>
  537. O campo 'subject' é o assunto do documento.
  538. </para>
  539. <para>
  540. O campo 'creator' é o autor do documento.
  541. </para>
  542. <para>
  543. O campo 'keywords' contém as palavras-chaves do documento.
  544. </para>
  545. <para>
  546. O campo 'description' é a descrição do documento.
  547. </para>
  548. <para>
  549. O campo 'lastModifiedBy' é o nome de quem fez a última modificação no documento.
  550. </para>
  551. <para>
  552. O campo 'revision' é o número da revisão do documento.
  553. </para>
  554. <para>
  555. O campo 'modified' contém a data e hora da última modificação do documento.
  556. </para>
  557. <para>
  558. O campo 'created' contém a data e hora da criação do documento.
  559. </para>
  560. <para>
  561. O campo 'body' é o conteúdo de todas as células em todas as planilhas do documento do
  562. Excel 2007.
  563. </para>
  564. <para>
  565. O método <methodname>loadXlsxFile()</methodname> da classe
  566. <classname>Zend_Search_Lucene_Document_Xlsx</classname> também possui um segundo
  567. argumento opcional. Se for definido como <constant>TRUE</constant>, o conteúdo do corpo
  568. é também armazenado no índice e pode ser recuperado a partir do índice. Por padrão, o
  569. corpo é separado em tokens e indexado, mas não armazenado.
  570. </para>
  571. <para>
  572. Qualquer outro campo pode ser acrescentado pelo programador em documentos analisados:
  573. </para>
  574. <programlisting language="php"><![CDATA[
  575. $doc = Zend_Search_Lucene_Document_Xlsx::loadXlsxFile($filename);
  576. $doc->addField(Zend_Search_Lucene_Field::UnIndexed(
  577. 'indexTime',
  578. time()));
  579. $doc->addField(Zend_Search_Lucene_Field::Text(
  580. 'annotation',
  581. 'Document annotation text'));
  582. $index->addDocument($doc);
  583. ]]></programlisting>
  584. </sect2>
  585. </sect1>