Zend_Search_Lucene-Overview.xml 32 KB

123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124125126127128129130131132133134135136137138139140141142143144145146147148149150151152153154155156157158159160161162163164165166167168169170171172173174175176177178179180181182183184185186187188189190191192193194195196197198199200201202203204205206207208209210211212213214215216217218219220221222223224225226227228229230231232233234235236237238239240241242243244245246247248249250251252253254255256257258259260261262263264265266267268269270271272273274275276277278279280281282283284285286287288289290291292293294295296297298299300301302303304305306307308309310311312313314315316317318319320321322323324325326327328329330331332333334335336337338339340341342343344345346347348349350351352353354355356357358359360361362363364365366367368369370371372373374375376377378379380381382383384385386387388389390391392393394395396397398399400401402403404405406407408409410411412413414415416417418419420421422423424425426427428429430431432433434435436437438439440441442443444445446447448449450451452453454455456457458459460461462463464465466467468469470471472473474475476477478479480481482483484485486487488489490491492493494495496497498499500501502503504505506507508509510511512513514515516517518519520521522523524525526527528529530531532533534535536537538539540541542543544545546547548549550551552553554555556557558559560561562563564565566567568569570571572573574575576577578579580581582583584585586587588589590591592593594595596597598599600601602603604605606607608609610611612613614615616617618619620621622623624625626627628629630631632633634635636637638639640641642643644645646
  1. <?xml version="1.0" encoding="UTF-8"?>
  2. <!-- Reviewed: no -->
  3. <!-- EN-Revision: 15103 -->
  4. <sect1 id="zend.search.lucene.overview">
  5. <title>概要</title>
  6. <sect2 id="zend.search.lucene.introduction">
  7. <title>導入</title>
  8. <para><classname>Zend_Search_Lucene</classname> は、完全に PHP 5
  9. で書かれている汎用的なテキスト検索エンジンです。
  10. インデックスをファイルシステム上に保存するためデータベースサーバを必要とせず、
  11. たいていの PHP ウェブサイト上で動作させることができます。
  12. <classname>Zend_Search_Lucene</classname> は、以下の機能をサポートしています。
  13. <itemizedlist>
  14. <listitem>
  15. <para>重要度による検索 - 最もマッチした結果が最初に返されます</para>
  16. </listitem>
  17. <listitem>
  18. <para>
  19. さまざまな強力な検索方式: フレーズ検索、boolean 検索、ワイルドカード検索、
  20. あいまい検索、範囲指定検索などなど
  21. </para>
  22. </listitem>
  23. <listitem>
  24. <para>指定したフィールド (例: タイトル、作者、内容) による検索</para>
  25. </listitem>
  26. </itemizedlist>
  27. <classname>Zend_Search_Lucene</classname> は Apache Lucene プロジェクトから派生したものです。
  28. 現在 (ZF 1.6 以降) サポートしている Lucene インデックスフォーマットバージョンは
  29. 1.4 - 2.3 です。
  30. Lucene についての詳細は
  31. <ulink url="http://lucene.apache.org/java/docs/"/>
  32. を参照ください。
  33. </para>
  34. <note>
  35. <title/>
  36. <para>
  37. 以前の <classname>Zend_Search_Lucene</classname> の実装は Lucene 1.4 (1.9) - 2.1 インデックスフォーマットに対応しています。
  38. </para>
  39. <para>
  40. ZF 1.5 以降、2.1 より前のインデックスフォーマットで作成されたインデックスは
  41. <classname>Zend_Search_Lucene</classname> をアップグレードすると
  42. 自動的に Lucene 2.1 フォーマットにアップグレードされるようになっています。
  43. いったんアップグレードされたインデックスは、
  44. ZF 1.0.x に含まれる Zend_Search_Lucene の実装で読み込むことができません。
  45. </para>
  46. </note>
  47. </sect2>
  48. <sect2 id="zend.search.lucene.index-creation.documents-and-fields">
  49. <title>Document および Field オブジェクト</title>
  50. <para>
  51. <classname>Zend_Search_Lucene</classname> は、ドキュメント単位でインデックスを作成します。
  52. ドキュメントは名前つきのフィールドから構成され、
  53. 検索対象のコンテンツがフィールドの中に含まれます。
  54. </para>
  55. <para>
  56. ドキュメントを表すのが <classname>Zend_Search_Lucene_Document</classname>
  57. オブジェクトです。このオブジェクトの中には、フィールドを表す
  58. <classname>Zend_Search_Lucene_Field</classname> オブジェクトが含まれます。
  59. </para>
  60. <para>
  61. あらゆる種類の情報がインデックス化される可能性があることに注意しましょう。
  62. アプリケーション固有の情報やメタデータをドキュメントのフィールドに格納し、
  63. 検索結果のドキュメントとして後で取得することができます。
  64. </para>
  65. <para>
  66. インデクサを制御するのは、あなたが作成するアプリケーションの役割です。
  67. ということは、あなたのアプリケーションからアクセス可能な、
  68. あらゆる内容のデータがインデックス化される可能性があるということです。
  69. 例えばファイルシステム、データベース、HTML フォームなどが考えられます。
  70. </para>
  71. <para>
  72. <classname>Zend_Search_Lucene_Field</classname> クラスには、
  73. さまざまな性質のフィールドを作成するための静的メソッドが定義されています。
  74. </para>
  75. <programlisting role="php"><![CDATA[
  76. $doc = new Zend_Search_Lucene_Document();
  77. // フィールドはトークン化されませんが、インデックス化されて保存されます。
  78. // 保存されたフィールドは、インデックスから取得することができます。
  79. $doc->addField(Zend_Search_Lucene_Field::Keyword('doctype',
  80. 'autogenerated'));
  81. // フィールドはトークン化もインデックス化も行われませんが、インデックスに保存されます。
  82. $doc->addField(Zend_Search_Lucene_Field::UnIndexed('created',
  83. time()));
  84. // バイナリ文字列フィールドはトークン化もインデックス化も行われません。
  85. // しかしインデックスには保存されます。
  86. $doc->addField(Zend_Search_Lucene_Field::Binary('icon',
  87. $iconData));
  88. // フィールドがトークン化・インデックス化されてインデックスに保存されます。
  89. $doc->addField(Zend_Search_Lucene_Field::Text('annotation',
  90. 'Document annotation text'));
  91. // フィールドはトークン化されてインデックス化されますが、インデックスには保存されません。
  92. $doc->addField(Zend_Search_Lucene_Field::UnStored('contents',
  93. 'My document content'));
  94. ]]>
  95. </programlisting>
  96. <para>
  97. これらの各メソッド (<classname>Zend_Search_Lucene_Field::Binary()</classname>
  98. メソッドを除く) は、オプションのパラメータ
  99. <code>$encoding</code> を持っています。
  100. これで入力データのエンコーディングを指定します。
  101. </para>
  102. <para>
  103. エンコーディングはドキュメントによって異なるでしょうし、
  104. 同一ドキュメント内でもフィールドによって異なることもあるでしょう。
  105. <programlisting role="php"><![CDATA[
  106. $doc = new Zend_Search_Lucene_Document();
  107. $doc->addField(Zend_Search_Lucene_Field::Text('title',
  108. $title,
  109. 'iso-8859-1'));
  110. $doc->addField(Zend_Search_Lucene_Field::UnStored('contents',
  111. $contents,
  112. 'utf-8'));
  113. ]]>
  114. </programlisting>
  115. </para>
  116. <para>
  117. エンコーディングパラメータを省略した場合は、
  118. 現在のロケールが処理時に使用されます。たとえば次のようになります。
  119. <programlisting role="php"><![CDATA[
  120. setlocale(LC_ALL, 'de_DE.iso-8859-1');
  121. ...
  122. $doc->addField(Zend_Search_Lucene_Field::UnStored('contents', $contents));
  123. ]]>
  124. </programlisting>
  125. </para>
  126. <para>
  127. フィールドをインデックス化したり返したりする際には、
  128. 常に UTF-8 エンコーディングとなります。UTF-8 への変換は自動的に行われます。
  129. </para>
  130. <para>
  131. テキスト解析器 (<link linkend="zend.search.lucene.extending.analysis">以下を参照ください</link>)
  132. は、テキストをその他のエンコーディングに変換したりもします。
  133. 実際、デフォルトの解析器はテキストを 'ASCII//TRANSLIT' エンコーディングに変換します。
  134. ここで注意が必要なのは、このような変換は現在のロケールに依存して行われるということです。
  135. </para>
  136. <para>
  137. フィールドの名前は <code>addField()</code> メソッドで自由につけることができます。
  138. </para>
  139. <para>
  140. Java Lucene は、検索の際にデフォルトで使用されるフィールド名として "contents" を使用します。
  141. <classname>Zend_Search_Lucene</classname> は、デフォルトではすべてのフィールドを検索します。
  142. しかし、この挙動を変更することもできます。詳細は
  143. <link linkend="zend.search.lucene.query-language.fields">"デフォルトの検索フィールド"</link>
  144. の章を参照ください。
  145. </para>
  146. </sect2>
  147. <sect2 id="zend.search.lucene.index-creation.understanding-field-types">
  148. <title>フィールド型について理解する</title>
  149. <itemizedlist>
  150. <listitem>
  151. <para>
  152. <code>Keyword</code> フィールドは、保存されインデックス化されます。
  153. つまり、検索した際に元の内容がそのまま返されるということです。
  154. トークン化は行われません (いくつかの単語に分割されることはありません)。
  155. 列挙方のデータベースフィールドは、通常は <classname>Zend_Search_Lucene</classname> の
  156. Keyword フィールドにうまく収まることでしょう。
  157. </para>
  158. </listitem>
  159. <listitem>
  160. <para>
  161. <code>UnIndexed</code> フィールドは検索対象になりませんが、
  162. 検索結果としては返されます。このフィールドに設定する値としては、
  163. データベースのタイムスタンプ、主キー、ファイルシステムのパス
  164. およびその他の外部識別子などがあります。
  165. </para>
  166. </listitem>
  167. <listitem>
  168. <para>
  169. <code>Binary</code> フィールドは、トークン化もインデックス化も行われません。
  170. しかし、検索結果として取得できるように保存されます。
  171. 画像アイコンのようなバイナリデータをバイナリ文字列として
  172. エンコードしたものなどに対して使用します。
  173. </para>
  174. </listitem>
  175. <listitem>
  176. <para>
  177. <code>Text</code> フィールドは、保存されインデックス化され、
  178. そしてトークン化されます。検索項目として使用し、
  179. かつ検索結果としても取得したいような項目、
  180. 例えばタイトルなどを保存するのに適しています。
  181. </para>
  182. </listitem>
  183. <listitem>
  184. <para>
  185. <code>UnStored</code> フィールドはトークン化されインデックス化されます。
  186. しかしインデックスには保存されません。大量のテキストなどに適しています。
  187. データを保存してしまうとディスク上のインデックスのサイズが大きくなってしまうので、
  188. 検索はしたいが結果としてそれを表示する必要がない場合などは、
  189. このフィールドを使用しましょう。<classname>Zend_Search_Lucene</classname> インデックスを
  190. リレーショナルデータベースと組み合わせて使用する場合などには
  191. UnStored フィールドが実用的に使用できるでしょう。
  192. 大きなデータフィールドの内容の検索用に UnStored フィールドに保存し、
  193. 結果をデータベースから取得するために、もうひとつ別の ID フィールドを使用します。
  194. </para>
  195. <table id="zend.search.lucene.index-creation.understanding-field-types.table">
  196. <title>Zend_Search_Lucene_Field の型</title>
  197. <tgroup cols="5">
  198. <thead>
  199. <row>
  200. <entry>フィールド型</entry>
  201. <entry>保存</entry>
  202. <entry>インデックス化</entry>
  203. <entry>トークン化</entry>
  204. <entry>バイナリ</entry>
  205. </row>
  206. </thead>
  207. <tbody>
  208. <row>
  209. <entry>Keyword</entry>
  210. <entry>Yes</entry>
  211. <entry>Yes</entry>
  212. <entry>No</entry>
  213. <entry>No</entry>
  214. </row>
  215. <row>
  216. <entry>UnIndexed</entry>
  217. <entry>Yes</entry>
  218. <entry>No</entry>
  219. <entry>No</entry>
  220. <entry>No</entry>
  221. </row>
  222. <row>
  223. <entry>Binary</entry>
  224. <entry>Yes</entry>
  225. <entry>No</entry>
  226. <entry>No</entry>
  227. <entry>Yes</entry>
  228. </row>
  229. <row>
  230. <entry>Text</entry>
  231. <entry>Yes</entry>
  232. <entry>Yes</entry>
  233. <entry>Yes</entry>
  234. <entry>No</entry>
  235. </row>
  236. <row>
  237. <entry>UnStored</entry>
  238. <entry>No</entry>
  239. <entry>Yes</entry>
  240. <entry>Yes</entry>
  241. <entry>No</entry>
  242. </row>
  243. </tbody>
  244. </tgroup>
  245. </table>
  246. </listitem>
  247. </itemizedlist>
  248. </sect2>
  249. <sect2 id="zend.search.lucene.index-creation.html-documents">
  250. <title>HTML ドキュメント</title>
  251. <para>
  252. <classname>Zend_Search_Lucene</classname> には HTML をパースする機能もあります。
  253. 次のようにして、HTML ファイルや文字列からドキュメントを直接作成することができます。
  254. <programlisting role="php"><![CDATA[
  255. $doc = Zend_Search_Lucene_Document_Html::loadHTMLFile($filename);
  256. $index->addDocument($doc);
  257. ...
  258. $doc = Zend_Search_Lucene_Document_Html::loadHTML($htmlString);
  259. $index->addDocument($doc);
  260. ]]>
  261. </programlisting>
  262. </para>
  263. <para>
  264. <classname>Zend_Search_Lucene_Document_Html</classname> クラスは、
  265. <code>DOMDocument::loadHTML()</code> および
  266. <code>DOMDocument::loadHTMLFile()</code> メソッドを用いてソース HTML
  267. をパースしています。つまり、対象となる HTML は整形式である必要はなく、
  268. また XHTML である必要もありません。一方、ヘッダの "meta http-equiv"
  269. タグで、エンコーディングをきちんと設定しておく必要があります。
  270. </para>
  271. <para>
  272. <classname>Zend_Search_Lucene_Document_Html</classname> クラスは、
  273. ドキュメントのタイトル、本文そしてヘッダの meta タグの内容を認識します。
  274. </para>
  275. <para>
  276. 'title' フィールドには /html/head/title の値が入ります。
  277. これはインデックスないにトークン化して保存され、検索の対象となります。
  278. </para>
  279. <para>
  280. 'body' フィールドには body の中身が入ります。
  281. スクリプトやコメント、そしてタグの属性は含まれません。
  282. </para>
  283. <para>
  284. <classname>Zend_Search_Lucene_Document_Html</classname> クラスの
  285. <code>loadHTML()</code> および <code>loadHTMLFile()</code> メソッドには、
  286. オプションの二番目の引数もあります。これを true に設定すると、
  287. body の中身もインデックスに格納され、インデックスから取得できるようになります。
  288. body はトークン化とインデックス化だけが行われ、デフォルトでは保存されません。
  289. </para>
  290. <!-- <para>
  291. <code>loadHTML()</code> メソッドおよび <code>loadHTMLFile()</code>
  292. メソッドの三番目のパラメータはオプションで、元の HTML ドキュメントのエンコーディングを指定します。
  293. 省略した場合は、meta タグの contents type charset から自動的に取得します。
  294. </para>
  295. <para>
  296. あとからエンコーディングを取得したり上書きしたりするには
  297. <code>getEncoding()</code>/<code>setEncoding($encoding)</code> メソッドを使用します。
  298. </para>
  299. -->
  300. <para>
  301. ドキュメントヘッダの meta タグの内容をもとに、追加のフィールドを作成します。
  302. フィールドの名前は 'name' 属性から取得します。そして
  303. 'content' 属性の内容がその値となります。これはトークン化、インデックス化した上で
  304. 保存されます。つまり、ドキュメントは meta タグの内容をもとにして
  305. (たとえばキーワードによって) 検索できるようになるわけです。
  306. </para>
  307. <para>
  308. パースされたドキュメントに、ユーザが別のフィールドを拡張することができます。
  309. <programlisting role="php"><![CDATA[
  310. $doc = Zend_Search_Lucene_Document_Html::loadHTML($htmlString);
  311. $doc->addField(Zend_Search_Lucene_Field::UnIndexed('created',
  312. time()));
  313. $doc->addField(Zend_Search_Lucene_Field::UnIndexed('updated',
  314. time()));
  315. $doc->addField(Zend_Search_Lucene_Field::Text('annotation',
  316. 'Document annotation text'));
  317. $index->addDocument($doc);
  318. ]]>
  319. </programlisting>
  320. </para>
  321. <para>
  322. 作成されたドキュメントにはリンクは含まれません。しかし、
  323. <classname>Zend_Search_Lucene_Document_Html::getLinks()</classname> および
  324. <classname>Zend_Search_Lucene_Document_Html::getHeaderLinks()</classname>
  325. メソッドでリンクを取得することもできます。
  326. <programlisting role="php"><![CDATA[
  327. $doc = Zend_Search_Lucene_Document_Html::loadHTML($htmlString);
  328. $linksArray = $doc->getLinks();
  329. $headerLinksArray = $doc->getHeaderLinks();
  330. ]]>
  331. </programlisting>
  332. </para>
  333. <para>
  334. ZF 1.6 以降では、<code>rel</code> 属性が
  335. <code>'nofollow'</code> に設定されているリンクを除外できるようになりました。
  336. このオプションを有効にするには
  337. <classname>Zend_Search_Lucene_Document_Html::setExcludeNoFollowLinks($true)</classname>
  338. を使用します。
  339. </para>
  340. <para>
  341. <classname>Zend_Search_Lucene_Document_Html::getExcludeNoFollowLinks()</classname>
  342. メソッドは、この "nofollow リンクを除外する"
  343. フラグの現在の状態を返します。
  344. </para>
  345. </sect2>
  346. <sect2 id="zend.search.lucene.index-creation.docx-documents">
  347. <title>Word 2007 ドキュメント</title>
  348. <para>
  349. <classname>Zend_Search_Lucene</classname> には Word 2007 のパース機能があります。Word 2007 ファイルから直接ドキュメントを作成することができます。
  350. <programlisting role="php"><![CDATA[
  351. $doc = Zend_Search_Lucene_Document_Docx::loadDocxFile($filename);
  352. $index->addDocument($doc);
  353. ]]>
  354. </programlisting>
  355. </para>
  356. <para>
  357. <classname>Zend_Search_Lucene_Document_Docx</classname> クラスは、<code>ZipArchive</code> クラスと
  358. <code>simplexml</code> のメソッドでドキュメントをパースします。<code>ZipArchive</code> クラス (php_zip モジュール)
  359. が使用できない場合は、<classname>Zend_Search_Lucene_Document_Docx</classname> を Zend Framework で使用することはできません。
  360. </para>
  361. <para>
  362. <classname>Zend_Search_Lucene_Document_Docx</classname> クラスは、ドキュメントのメタデータとテキストを扱います。メタデータに含まれる内容は、ドキュメントの内容によって filename, title, subject, creator, keywords, description, lastModifiedBy, revision, modified, created などがあります。
  363. </para>
  364. <para>
  365. 'filename' フィールドは、実際の Word 2007 ファイルのファイル名です。
  366. </para>
  367. <para>
  368. 'title' フィールドは、実際のドキュメントのタイトルです。
  369. </para>
  370. <para>
  371. 'subject' フィールドは、実際のドキュメントの表題です。
  372. </para>
  373. <para>
  374. 'creator' フィールドは、実際のドキュメントの作成者です。
  375. </para>
  376. <para>
  377. 'keywords' フィールドは、実際のドキュメントのキーワードです。
  378. </para>
  379. <para>
  380. 'description' フィールドは、実際のドキュメントの説明です。
  381. </para>
  382. <para>
  383. 'lastModifiedBy' フィールドは、実際のドキュメントを最後に編集したユーザ名です。
  384. </para>
  385. <para>
  386. 'revision' フィールドは、実際のドキュメントのリビジョン番号です。
  387. </para>
  388. <para>
  389. 'modified' フィールドは、実際のドキュメントの最終更新日時です。
  390. </para>
  391. <para>
  392. 'created' フィールドは、実際のドキュメントの作成日時です。
  393. </para>
  394. <para>
  395. 'body' フィールドは、Word 2007 ドキュメントの実際の本文です。ここに含まれるのは通常のテキストのみで、コメントやリビジョンは含まれません。
  396. </para>
  397. <para>
  398. <classname>Zend_Search_Lucene_Document_Docx</classname> クラスの <code>loadDocxFile()</code>
  399. メソッドにもオプションの 2 番目の引数があります。これを true に設定すると、
  400. 本文もインデックスに格納されてインデックスから取得できるようになります。
  401. デフォルトでは、本文のトークン化とインデックスの作成は行いますがインデックスには格納されません。
  402. </para>
  403. <para>
  404. パースしたドキュメントに、プログラマが任意のフィールドを追加することができます。
  405. <programlisting role="php"><![CDATA[
  406. $doc = Zend_Search_Lucene_Document_Docx::loadDocxFile($filename);
  407. $doc->addField(Zend_Search_Lucene_Field::UnIndexed(
  408. 'indexTime',
  409. time())
  410. );
  411. $doc->addField(Zend_Search_Lucene_Field::Text(
  412. 'annotation',
  413. 'Document annotation text')
  414. );
  415. $index->addDocument($doc);
  416. ]]>
  417. </programlisting>
  418. </para>
  419. </sect2>
  420. <sect2 id="zend.search.lucene.index-creation.pptx-documents">
  421. <title>Powerpoint 2007 ドキュメント</title>
  422. <para>
  423. <classname>Zend_Search_Lucene</classname> には Powerpoint 2007 のパース機能があります。Powerpoint 2007 ファイルから直接ドキュメントを作成することができます。
  424. <programlisting role="php"><![CDATA[
  425. $doc = Zend_Search_Lucene_Document_Pptx::loadPptxFile($filename);
  426. $index->addDocument($doc);
  427. ]]>
  428. </programlisting>
  429. </para>
  430. <para>
  431. <classname>Zend_Search_Lucene_Document_Pptx</classname> クラスは、<code>ZipArchive</code> クラスと
  432. <code>simplexml</code> のメソッドでドキュメントをパースします。<code>ZipArchive</code> クラス (php_zip モジュール)
  433. が使用できない場合は、<classname>Zend_Search_Lucene_Document_Pptx</classname> を Zend Framework で使用することはできません。
  434. </para>
  435. <para>
  436. <classname>Zend_Search_Lucene_Document_Pptx</classname> クラスは、ドキュメントのメタデータとテキストを扱います。メタデータに含まれる内容は、ドキュメントの内容によって filename, title, subject, creator, keywords, description, lastModifiedBy, revision, modified, created などがあります。
  437. </para>
  438. <para>
  439. 'filename' フィールドは、実際の Powerpoint 2007 ファイルのファイル名です。
  440. </para>
  441. <para>
  442. 'title' フィールドは、実際のドキュメントのタイトルです。
  443. </para>
  444. <para>
  445. 'subject' フィールドは、実際のドキュメントの表題です。
  446. </para>
  447. <para>
  448. 'creator' フィールドは、実際のドキュメントの作成者です。
  449. </para>
  450. <para>
  451. 'keywords' フィールドは、実際のドキュメントのキーワードです。
  452. </para>
  453. <para>
  454. 'description' フィールドは、実際のドキュメントの説明です。
  455. </para>
  456. <para>
  457. 'lastModifiedBy' フィールドは、実際のドキュメントを最後に編集したユーザ名です。
  458. </para>
  459. <para>
  460. 'revision' フィールドは、実際のドキュメントのリビジョン番号です。
  461. </para>
  462. <para>
  463. 'modified' フィールドは、実際のドキュメントの最終更新日時です。
  464. </para>
  465. <para>
  466. 'created' フィールドは、実際のドキュメントの作成日時です。
  467. </para>
  468. <para>
  469. 'body' フィールドは、Powerpoint 2007 ドキュメントのすべてのスライドとノートの実際の本文です。
  470. </para>
  471. <para>
  472. <classname>Zend_Search_Lucene_Document_Pptx</classname> クラスの <code>loadPptxFile()</code>
  473. メソッドにもオプションの 2 番目の引数があります。これを true に設定すると、
  474. 本文もインデックスに格納されてインデックスから取得できるようになります。
  475. デフォルトでは、本文のトークン化とインデックスの作成は行いますがインデックスには格納されません。
  476. </para>
  477. <para>
  478. パースしたドキュメントに、プログラマが任意のフィールドを追加することができます。
  479. <programlisting role="php"><![CDATA[
  480. $doc = Zend_Search_Lucene_Document_Pptx::loadPptxFile($filename);
  481. $doc->addField(Zend_Search_Lucene_Field::UnIndexed(
  482. 'indexTime',
  483. time()));
  484. $doc->addField(Zend_Search_Lucene_Field::Text(
  485. 'annotation',
  486. 'Document annotation text'));
  487. $index->addDocument($doc);
  488. ]]>
  489. </programlisting>
  490. </para>
  491. </sect2>
  492. <sect2 id="zend.search.lucene.index-creation.xlsx-documents">
  493. <title>Excel 2007 ドキュメント</title>
  494. <para>
  495. <classname>Zend_Search_Lucene</classname> には Excel 2007 のパース機能があります。Excel 2007 ファイルから直接ドキュメントを作成することができます。
  496. <programlisting role="php"><![CDATA[
  497. $doc = Zend_Search_Lucene_Document_Xlsx::loadXlsxFile($filename);
  498. $index->addDocument($doc);
  499. ]]>
  500. </programlisting>
  501. </para>
  502. <para>
  503. <classname>Zend_Search_Lucene_Document_Xlsx</classname> クラスは、<code>ZipArchive</code> クラスと
  504. <code>simplexml</code> のメソッドでドキュメントをパースします。<code>ZipArchive</code> クラス (php_zip モジュール)
  505. が使用できない場合は、<classname>Zend_Search_Lucene_Document_Xlsx</classname> を Zend Framework で使用することはできません。
  506. </para>
  507. <para>
  508. <classname>Zend_Search_Lucene_Document_Xlsx</classname> クラスは、ドキュメントのメタデータとテキストを扱います。メタデータに含まれる内容は、ドキュメントの内容によって filename, title, subject, creator, keywords, description, lastModifiedBy, revision, modified, created などがあります。
  509. </para>
  510. <para>
  511. 'filename' フィールドは、実際の Excel 2007 ファイルのファイル名です。
  512. </para>
  513. <para>
  514. 'title' フィールドは、実際のドキュメントのタイトルです。
  515. </para>
  516. <para>
  517. 'subject' フィールドは、実際のドキュメントの表題です。
  518. </para>
  519. <para>
  520. 'creator' フィールドは、実際のドキュメントの作成者です。
  521. </para>
  522. <para>
  523. 'keywords' フィールドは、実際のドキュメントのキーワードです。
  524. </para>
  525. <para>
  526. 'description' フィールドは、実際のドキュメントの説明です。
  527. </para>
  528. <para>
  529. 'lastModifiedBy' フィールドは、実際のドキュメントを最後に編集したユーザ名です。
  530. </para>
  531. <para>
  532. 'revision' フィールドは、実際のドキュメントのリビジョン番号です。
  533. </para>
  534. <para>
  535. 'modified' フィールドは、実際のドキュメントの最終更新日時です。
  536. </para>
  537. <para>
  538. 'created' フィールドは、実際のドキュメントの作成日時です。
  539. </para>
  540. <para>
  541. 'body' フィールドは、Excel 2007 ドキュメントのすべてのワークシートのすべてのセルの実際の内容です。
  542. </para>
  543. <para>
  544. <classname>Zend_Search_Lucene_Document_Xlsx</classname> クラスの <code>loadXlsxFile()</code>
  545. メソッドにもオプションの 2 番目の引数があります。これを true に設定すると、
  546. 本文もインデックスに格納されてインデックスから取得できるようになります。
  547. デフォルトでは、本文のトークン化とインデックスの作成は行いますがインデックスには格納されません。
  548. </para>
  549. <para>
  550. パースしたドキュメントに、プログラマが任意のフィールドを追加することができます。
  551. <programlisting role="php"><![CDATA[
  552. $doc = Zend_Search_Lucene_Document_Xlsx::loadXlsxFile($filename);
  553. $doc->addField(Zend_Search_Lucene_Field::UnIndexed(
  554. 'indexTime',
  555. time()));
  556. $doc->addField(Zend_Search_Lucene_Field::Text(
  557. 'annotation',
  558. 'Document annotation text'));
  559. $index->addDocument($doc);
  560. ]]>
  561. </programlisting>
  562. </para>
  563. </sect2>
  564. </sect1>