lucene-indexing.xml 4.6 KB

123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102
  1. <?xml version="1.0" encoding="UTF-8"?>
  2. <!-- Reviewed: no -->
  3. <!-- EN-Revision: 24249 -->
  4. <sect1 id="learning.lucene.indexing">
  5. <title>索引付け</title>
  6. <para>
  7. 索引付けは、既存または新しいインデックスに新しい文書を追加することにより実行されます。
  8. </para>
  9. <programlisting language="php"><![CDATA[
  10. $index->addDocument($doc);
  11. ]]></programlisting>
  12. <para>
  13. 文書オブジェクトを生成する方法は2つあります。
  14. その一つは、手動で行なうことです。
  15. </para>
  16. <example id="learning.lucene.indexing.doc-creation">
  17. <title>手動の文書構成</title>
  18. <programlisting language="php"><![CDATA[
  19. $doc = new Zend_Search_Lucene_Document();
  20. $doc->addField(Zend_Search_Lucene_Field::Text('url', $docUrl));
  21. $doc->addField(Zend_Search_Lucene_Field::Text('title', $docTitle));
  22. $doc->addField(Zend_Search_Lucene_Field::unStored('contents', $docBody));
  23. $doc->addField(Zend_Search_Lucene_Field::binary('avatar', $avatarData));
  24. ]]></programlisting>
  25. </example>
  26. <para>
  27. 2つ目の方法は、<acronym>HTML</acronym> または Microsoft Office 2007 ファイルから読み込むことです。
  28. </para>
  29. <example id="learning.lucene.indexing.doc-loading">
  30. <title>文書読み込み</title>
  31. <programlisting language="php"><![CDATA[
  32. $doc = Zend_Search_Lucene_Document_Html::loadHTML($htmlString);
  33. $doc = Zend_Search_Lucene_Document_Docx::loadDocxFile($path);
  34. $doc = Zend_Search_Lucene_Document_Pptx::loadPptFile($path);
  35. $doc = Zend_Search_Lucene_Document_Xlsx::loadXlsxFile($path);
  36. ]]></programlisting>
  37. </example>
  38. <para>
  39. サポートされる形式のいずれかから文書が読み込まれた場合、
  40. 新しいユーザー定義項目でやはり手動で拡張できます。
  41. </para>
  42. <sect2 id="learning.lucene.indexing.policy">
  43. <title>索引付けの方針</title>
  44. <para>
  45. アプリケーション方式設計の中で索引付けの方針を定義しなければなりません。
  46. </para>
  47. <para>
  48. オンデマンドでの索引付けの構成を必要とするかもしれません
  49. (<acronym>OLTP</acronym>システムのような何か)。
  50. そのようなシステムでは、通常ユーザーリクエスト毎に文書を1つ追加します。
  51. このように、<emphasis>MaxBufferedDocs</emphasis> オプションは、システムに影響を及ぼしません。
  52. 一方では、スクリプトの最大実行時間を制限できるので、
  53. <emphasis>MaxMergeDocs</emphasis>はとても便利です。
  54. <emphasis>MergeFactor</emphasis> は、平均的な索引付け時間
  55. (平均的な自動最適化時間によっても影響されます)と、
  56. 検索のパフォーマンス
  57. (インデックス最適化レベルはセグメント数に依存します)
  58. との間のバランスを保つ値に設定すべきです。
  59. </para>
  60. <para>
  61. 主にバッチのインデックス更新を実行しているなら、構成では、
  62. 利用可能なメモリー量でサポートされる最大値に設定された
  63. <emphasis>MaxBufferedDocs</emphasis>オプションを使用すべきです。
  64. <emphasis>MaxMergeDocs</emphasis> と <emphasis>MergeFactor</emphasis> は、
  65. できる限り自動最適化関係を減らす値に設定されなければなりません。
  66. <footnote><para>追加の制限は、
  67. 並列のオープン操作のために OS によってサポートされるファイル・ハンドラーの最大です。
  68. </para></footnote>
  69. 完全なインデックス最適化は、索引付けの後に利用されなければなりません。
  70. </para>
  71. <example id="learning.lucene.indexing.optimization">
  72. <title>インデックスの最適化</title>
  73. <programlisting language="php"><![CDATA[
  74. $index->optimize();
  75. ]]></programlisting>
  76. </example>
  77. <para>
  78. 一部の構成では、
  79. <!-- TODO : to be translated -->
  80. it's more effective to serialize index updates by organizing
  81. update requests into a queue and processing several update requests in a single script execution.
  82. これは、インデックスのオープンのオーバーヘッドを減らし、
  83. インデックス文書のバッファリングを利用できるようにします。
  84. </para>
  85. </sect2>
  86. </sect1>