Zend_Search_Lucene-BestPractice.xml 26 KB


  1. <?xml version="1.0" encoding="UTF-8"?>
  2. <!-- Reviewed: no -->
  3. <!-- EN-Revision: 15103 -->
  4. <sect1 id="zend.search.lucene.best-practice">
  5. <title>ベストプラクティス</title>
  6. <sect2 id="zend.search.lucene.best-practice.field-names">
  7. <title>フィールド名</title>
  8. <para>
  9. <classname>Zend_Search_Lucene</classname> では、フィールド名に関する制限は特にありません。
  10. </para>
  11. <para>
  12. しかし、できれば '<emphasis>id</emphasis>'
  13. および '<emphasis>score</emphasis>' という名前は使用を控えるようにしましょう。
  14. これらを使用すると、<code>QueryHit</code>
  15. のプロパティ名と区別しにくくなります。
  16. </para>
  17. <para>
  18. <classname>Zend_Search_Lucene_Search_QueryHit</classname> のプロパティ
  19. <code>id</code> と <code>score</code> はそれぞれ、Lucene
  20. ドキュメントが内部で使用する ID、検索結果の
  21. <link linkend="zend.search.lucene.searching.results-scoring">スコア</link>
  22. を表します。もしドキュメントでこれらと同じ名前のフィールドを使っているのなら、
  23. そのフィールドにアクセスするには <code>getDocument()</code>
  24. メソッドを使う必要があります。
  25. <programlisting role="php"><![CDATA[
  26. $hits = $index->find($query);
  27. foreach ($hits as $hit) {
  28. // 'title' フィールドを取得します
  29. $title = $hit->title;
  30. // 'contents' フィールドを取得します
  31. $contents = $hit->contents;
  32. // Lucene ドキュメントの内部 ID を取得します
  33. $id = $hit->id;
  34. // 検索結果のスコアを取得します
  35. $score = $hit->score;
  36. // 'id' フィールドを取得します
  37. $docId = $hit->getDocument()->id;
  38. // 'score' フィールドを取得します
  39. $docId = $hit->getDocument()->score;
  40. // 'title' フィールドもこの方法で取得できます
  41. $title = $hit->getDocument()->title;
  42. }
  43. ]]>
  44. </programlisting>
  45. </para>
  46. </sect2>
  47. <sect2 id="zend.search.lucene.best-practice.indexing-performance">
  48. <title>インデックス作成のパフォーマンス</title>
  49. <para>
  50. インデックス作成のパフォーマンスは、
  51. リソースの消費量と所要時間、
  52. そしてインデックスの品質との兼ね合いで決まります。
  53. </para>
  54. <para>
  55. インデックスの品質とは、要するにインデックスセグメントの数のことです。
  56. </para>
  57. <para>
  58. 各インデックスセグメントはデータ部とは独立しています。
  59. つまり、インデックスに含まれるセグメントが多くなればなるほど
  60. 検索に要するメモリと時間は増加します。
  61. </para>
  62. <para>
  63. インデックスの最適化を行うと、
  64. 複数のセグメントをまとめて新しいひとつのセグメントを作成します。
  65. 完全に最適化されたインデックスは、セグメントひとつだけで構成されます。
  66. </para>
  67. <para>
  68. インデックスの最適化を行うには <code>optimize()</code> メソッドを使用します。
  69. <programlisting role="php"><![CDATA[
  70. $index = Zend_Search_Lucene::open($indexPath);
  71. $index->optimize();
  72. ]]>
  73. </programlisting>
  74. </para>
  75. <para>
  76. インデックスの最適化はデータストリーム上で行われるので、
  77. それほどメモリは消費しません。ただ、CPU
  78. リソースをかなり消費し、時間もかかります。
  79. </para>
  80. <para>
  81. Lucene のインデックスセグメントは、その性質上
  82. 更新はできません (更新するには、
  83. セグメントファイルを新たに作りなおす必要があります)。
  84. したがって、新しいドキュメントがインデックスに追加されるたびに
  85. 新しいセグメントが作成されることになります。
  86. その結果、インデックスの品質は下がっていきます。
  87. </para>
  88. <para>
  89. セグメントが作成されるたびにインデックスの自動最適化が行われ、
  90. 一部のセグメントは自動的にマージされます。
  91. </para>
  92. <para>
  93. 自動最適化の設定は、次の 3 つのオプションで変更できます
  94. (<link linkend="zend.search.lucene.index-creation.optimization">インデックスの最適化</link>
  95. を参照ください)。
  96. <itemizedlist>
  97. <listitem>
  98. <para><emphasis>MaxBufferedDocs</emphasis>
  99. は、メモリ内のバッファに保持されるドキュメントの最大数です。
  100. この数を超えると、新しいセグメントを作成して
  101. ハードディスクに書き込みます。</para>
  102. </listitem>
  103. <listitem>
  104. <para><emphasis>MaxMergeDocs</emphasis>
  105. は、自動最適化によって新しいセグメントへのマージを行う基準となる
  106. ドキュメント数です。</para>
  107. </listitem>
  108. <listitem>
  109. <para><emphasis>MergeFactor</emphasis>
  110. は、自動最適化を行う頻度を指定します。</para>
  111. </listitem>
  112. </itemizedlist>
  113. <note>
  114. <para>
  115. これらのオプションはすべて <classname>Zend_Search_Lucene</classname>
  116. オブジェクトのプロパティであり、インデックスのプロパティではありません。
  117. したがって、この設定は現在使用中の
  118. <classname>Zend_Search_Lucene</classname> オブジェクトに対してのみ働くようになり、
  119. スクリプトによって設定は異なります。
  120. </para>
  121. </note>
  122. </para>
  123. <para>
  124. <emphasis>MaxBufferedDocs</emphasis> は、
  125. スクリプトを一回実行するたびにひとつのドキュメントしか扱わない場合は
  126. 何の影響も及ぼしません。
  127. 逆に、バッチ処理の場合にはこの設定が非常に重要になります。
  128. 値を大きくするとインデックス作成の速度が上がりますが、
  129. 同時に大量のメモリを消費するようになります。
  130. </para>
  131. <para>
  132. <emphasis>MaxBufferedDocs</emphasis>
  133. パラメータの値として最適なものを計算する公式はありません。
  134. これはドキュメントのサイズや解析器、使用できるメモリ量などに依存するからです。
  135. </para>
  136. <para>
  137. 最適な設定値を取得するには、
  138. 扱うであろうドキュメントの中で最もサイズが大きいものを用いて
  139. 何度かテストをしてみましょう
  140. <footnote>
  141. <para>
  142. <code>memory_get_usage()</code>
  143. や <code>memory_get_peak_usage()</code>
  144. で、メモリの使用量を確認します。
  145. </para>
  146. </footnote>。
  147. 使用可能なメモリのうち半分を超えない程度のメモリ消費量に抑えておくことをお勧めします。
  148. </para>
  149. <para>
  150. <emphasis>MaxMergeDocs</emphasis> はセグメントの大きさ
  151. (これはドキュメントの大きさによって決まります) を制限します。
  152. これにより、自動最適化の時間を短縮することができます。
  153. つまり、<code>addDocument()</code> メソッドが
  154. ある時間以上は実行されなくなります。
  155. これは、対話的なアプリケーションで重要になります。
  156. </para>
  157. <para>
  158. <emphasis>MaxMergeDocs</emphasis> の設定値を小さくすると、
  159. バッチ処理のパフォーマンスもあがります。
  160. インデックスの自動最適化は対話的な処理であり、
  161. ひとつひとつ順を追って実行していきます。
  162. 小さなセグメントたちがひとつの大きなセグメントにまとめられ、
  163. さらにまたそれが他のセグメントとまとまってより大きなセグメントになり、
  164. といった具合です。インデックスの最適化を完全に行うと、
  165. 処理が非常に効率的になります。
  166. </para>
  167. <para>
  168. セグメントのサイズを小さくするとインデックスの品質が下がり、
  169. 大量のセグメントができあがってしまいます。場合によっては、OS
  170. の制限に引っかかって "オープンしているファイルが多すぎる"
  171. というエラーが発生するかもしれません
  172. <footnote>
  173. <para>
  174. <classname>Zend_Search_Lucene</classname> は、セグメントファイルをずっとオープンしたままにしておきます。
  175. これによって検索の効率を上げています。
  176. </para>
  177. </footnote>。
  178. </para>
  179. <para>
  180. したがって、バックグラウンドでのインデックスの最適化は対話モードで行い、
  181. バッチ処理用の <emphasis>MaxMergeDocs</emphasis>
  182. はあまり小さくしすぎないようにしなければなりません。
  183. </para>
  184. <para>
  185. <emphasis>MergeFactor</emphasis> は自動最適化の頻度に影響を及ぼします。
  186. 値を小さくすると、最適化されていないインデックスの品質が上がります。
  187. 値を大きくするとインデックス作成の策度が上がりますが、
  188. セグメントの数も増えます。何度も言いますが、これは
  189. "オープンしているファイルが多すぎる" エラーの原因となりえます。
  190. </para>
  191. <para>
  192. <emphasis>MergeFactor</emphasis> は、以下の条件を満たす大きさで
  193. インデックスセグメントをグループ化します。
  194. <orderedlist>
  195. <listitem><para><emphasis>MaxBufferedDocs</emphasis> 以下</para></listitem>
  196. <listitem><para><emphasis>MaxBufferedDocs</emphasis> より大きいが
  197. <emphasis>MaxBufferedDocs</emphasis>*<emphasis>MergeFactor</emphasis> を超えない</para></listitem>
  198. <listitem><para><emphasis>MaxBufferedDocs</emphasis>*<emphasis>MergeFactor</emphasis> より大きいが
  199. <emphasis>MaxBufferedDocs</emphasis>*<emphasis>MergeFactor</emphasis>*<emphasis>MergeFactor</emphasis> を超えない</para></listitem>
  200. <listitem><para>...</para></listitem>
  201. </orderedlist>
  202. </para>
  203. <para>
  204. Zend_Search_Lucene は、<code>addDocument()</code>
  205. をコールするたびにセグメントの状況を調べ、
  206. いくつかのセグメントをまとめて次のグループの新しいセグメントに移動できるかどうかを確認します。
  207. できる場合はマージを行います。
  208. </para>
  209. <para>
  210. つまり、N 個のグループからなるインデックスには <emphasis>MaxBufferedDocs</emphasis> + (N-1)*<emphasis>MergeFactor</emphasis>
  211. のセグメントが含まれ、少なくとも
  212. <emphasis>MaxBufferedDocs</emphasis>*<emphasis>MergeFactor</emphasis><superscript>(N-1)</superscript>
  213. のドキュメントが存在することになります。
  214. </para>
  215. <para>
  216. この式で、インデックス内のセグメントの概数を求めることができます。
  217. </para>
  218. <para>
  219. <emphasis>NumberOfSegments</emphasis> &lt;= <emphasis>MaxBufferedDocs</emphasis> + <emphasis>MergeFactor</emphasis>*log
  220. <subscript><emphasis>MergeFactor</emphasis></subscript> (<emphasis>NumberOfDocuments</emphasis>/<emphasis>MaxBufferedDocs</emphasis>)
  221. </para>
  222. <para>
  223. <emphasis>MaxBufferedDocs</emphasis> は、使用できるメモリ量によって決まります。
  224. MergeFactor を適切に設定することで、セグメントの数を調整することができます。
  225. </para>
  226. <para>
  227. バッチ処理においては、<emphasis>MergeFactor</emphasis>
  228. パラメータを調整するほうが <emphasis>MaxMergeDocs</emphasis>
  229. を調整するよりも効率的です。しかし、微調整はできず大雑把なものとなります。
  230. そこで、まず上の公式をもとに <emphasis>MergeFactor</emphasis> を調整し、
  231. それから <emphasis>MaxMergeDocs</emphasis> を微調整してパフォーマンスを最適化しましょう。
  232. </para>
  233. </sect2>
  234. <sect2 id="zend.search.lucene.best-practice.shutting-down">
  235. <title>インデックスの終了時処理</title>
  236. <para>
  237. <classname>Zend_Search_Lucene</classname> オブジェクトは、
  238. 終了時にちょっとした作業を行います。
  239. これは、インデックスにドキュメントが追加されたけれども
  240. 新しいセグメントに書き込まれていないという場合に行われます。
  241. </para>
  242. <para>
  243. また、場合によっては自動最適化も行います。
  244. </para>
  245. <para>
  246. インデックスオブジェクトは、自分自身および QueryHit
  247. オブジェクトがすべてスコープ外に出た時点で自動的に終了処理を行います。
  248. </para>
  249. <para>
  250. インデックスオブジェクトがグローバル変数に格納されている場合は、
  251. スクリプトの終了時に破棄されます
  252. <footnote>
  253. <para>
  254. インデックスや QueryHit オブジェクトが複合データ型から参照されている場合にもこれは起こりえます。
  255. たとえば、循環参照を含むオブジェクトはスクリプトの終了時まで破棄されません。
  256. </para>
  257. </footnote>。
  258. </para>
  259. <para>
  260. PHP の例外処理もここで終了します。
  261. </para>
  262. <para>
  263. これは通常のインデックス終了処理を妨げることはありませんが、
  264. 何かエラーが発生した際に正しいエラー情報を取得できなくなる可能性があります。
  265. </para>
  266. <para>
  267. この問題を回避する方法はふたつあります。
  268. </para>
  269. <para>
  270. まずは、強制的にスコープ外に出す方法です。
  271. <programlisting role="php"><![CDATA[
  272. $index = Zend_Search_Lucene::open($indexPath);
  273. ...
  274. unset($index);]]>
  275. </programlisting>
  276. </para>
  277. <para>
  278. そしてもうひとつは、スクリプトの終了前にコミット操作を行うことです。
  279. <programlisting role="php"><![CDATA[
  280. $index = Zend_Search_Lucene::open($indexPath);
  281. $index->commit();
  282. ]]>
  283. </programlisting>
  284. これについては、このドキュメントの
  285. "<link linkend="zend.search.lucene.advanced.static">応用: 静的プロパティとしてのインデックスの使用</link>"
  286. でも説明しています。
  287. </para>
  288. </sect2>
  289. <sect2 id="zend.search.lucene.best-practice.unique-id">
  290. <title>一意な ID によるドキュメントの取得</title>
  291. <para>
  292. ドキュメントの一意な ID、たとえば URL やパス、データベース上の ID
  293. などをインデックスに保存しておくとよいでしょう。
  294. </para>
  295. <para>
  296. <classname>Zend_Search_Lucene</classname> には <code>termDocs()</code>
  297. というメソッドがあり、指定した単語を含むドキュメントを取得することができます。
  298. </para>
  299. <para>
  300. これは <code>find()</code> メソッドよりも効率的です。
  301. <programlisting role="php"><![CDATA[
  302. // find() メソッドでクエリ文字列を指定することによるドキュメントの取得
  303. $query = $idFieldName . ':' . $docId;
  304. $hits = $index->find($query);
  305. foreach ($hits as $hit) {
  306. $title = $hit->title;
  307. $contents = $hit->contents;
  308. ...
  309. }
  310. ...
  311. // find() メソッドでクエリ API を使用することによるドキュメントの取得
  312. $term = new Zend_Search_Lucene_Index_Term($docId, idFieldName);
  313. $query = new Zend_Search_Lucene_Search_Query_Term($term);
  314. $hits = $index->find($query);
  315. foreach ($hits as $hit) {
  316. $title = $hit->title;
  317. $contents = $hit->contents;
  318. ...
  319. }
  320. ...
  321. // termDocs() メソッドによるドキュメントの取得
  322. $term = new Zend_Search_Lucene_Index_Term($docId, idFieldName);
  323. $docIds = $index->termDocs($term);
  324. foreach ($docIds as $id) {
  325. $doc = $index->getDocument($id);
  326. $title = $doc->title;
  327. $contents = $doc->contents;
  328. ...
  329. }
  330. ]]>
  331. </programlisting>
  332. </para>
  333. </sect2>
  334. <sect2 id="zend.search.lucene.best-practice.memory-usage">
  335. <title>メモリの使用法</title>
  336. <para>
  337. <classname>Zend_Search_Lucene</classname> は、比較的メモリを消費するモジュールです。
  338. </para>
  339. <para>
  340. 各種の情報をキャッシュしたり、検索やインデックス作成の速度を上げたりするために、メモリを使用しています。
  341. </para>
  342. <para>
  343. メモリに関する挙動は、モードによって異なります。
  344. </para>
  345. <para>
  346. 単語辞書のインデックスは、検索時にメモリに読み込まれます。
  347. これは、実際の辞書に登録されている単語が 128件
  348. <footnote><para>
  349. Lucene のファイルフォーマットでは、この件数を変更することもできます。しかし
  350. <classname>Zend_Search_Lucene</classname> の API ではそれをサポートしていません。
  351. 別の Lucene 実装を使用してインデックスをサポートすれば、
  352. この値を変更することも可能です。
  353. </para></footnote>
  354. に達するごとに作成されます。
  355. </para>
  356. <para>
  357. したがって、単語の数が増えれば増えるほどメモリの消費量も増加します。
  358. トークン化していないフレーズをフィールドの値として使用したり、
  359. テキスト以外の情報を大量にインデックスとして使用したりすると、
  360. 単語の数が増えることになります。
  361. </para>
  362. <para>
  363. 最適化されていないインデックスは、複数のセグメントで構成されます。
  364. これも、メモリ消費量の増加の要因となります。
  365. 各セグメントは独立しているので、それぞれ独自に単語辞書と辞書インデックスを持っています。
  366. ひとつのインデックスの中に <emphasis>N</emphasis> 個のセグメントがあったとすると、
  367. メモリの消費量は最悪で <emphasis>N</emphasis> 倍になってしまいます。
  368. インデックスの最適化を行ない、セグメントをひとつにまとめましょう。
  369. </para>
  370. <para>
  371. インデックスは、検索処理とドキュメントのバッファリングに同じメモリを使用します。
  372. このメモリの使用量は、パラメータ <emphasis>MaxBufferedDocs</emphasis>
  373. で指定します。
  374. </para>
  375. <para>
  376. インデックスの最適化 (完全最適化、部分最適化の両方)
  377. はストリーム上で行なわれるので、あまりメモリを消費しません。
  378. </para>
  379. </sect2>
  380. <sect2 id="zend.search.lucene.best-practice.encoding">
  381. <title>エンコーディング</title>
  382. <para>
  383. <classname>Zend_Search_Lucene</classname> は、内部で UTF-8 文字列を使用しています。
  384. したがって、Zend_Search_Lucene が返す文字列は、すべて UTF-8
  385. でエンコードされています。
  386. </para>
  387. <para>
  388. 単なる ASCII データのみを扱うのであればエンコーディングを気にする必要はありません。
  389. しかしそれ以外の場合は要注意です。
  390. </para>
  391. <para>
  392. 間違ったエンコーディングを使用すると、
  393. エンコーディングの変換時にエラーが発生したりデータを失ってしまったりする可能性があります。
  394. </para>
  395. <para>
  396. <classname>Zend_Search_Lucene</classname> は、ドキュメントやクエリのエンコーディングとしてさまざまなものに対応しています。
  397. </para>
  398. <para>
  399. フィールドを作成するメソッドで、エンコーディングをオプションのパラメータによって指定することができます。
  400. <programlisting role="php"><![CDATA[
  401. $doc = new Zend_Search_Lucene_Document();
  402. $doc->addField(Zend_Search_Lucene_Field::Text('title',
  403. $title,
  404. 'iso-8859-1'));
  405. $doc->addField(Zend_Search_Lucene_Field::UnStored('contents',
  406. $contents,
  407. 'utf-8'));
  408. ]]>
  409. </programlisting>
  410. エンコーディングの指定をはっきりさせるという意味で、これが最も良い方法です。
  411. </para>
  412. <para>
  413. このエンコーディング指定を省略すると、現在のロケールをもとに判断を行ないます。
  414. ロケールの指定時に、言語だけでなく文字セットも指定することができます。
  415. <programlisting role="php"><![CDATA[
  416. setlocale(LC_ALL, 'fr_FR');
  417. ...
  418. setlocale(LC_ALL, 'de_DE.iso-8859-1');
  419. ...
  420. setlocale(LC_ALL, 'ja_JP.UTF-8');
  421. ...
  422. ]]>
  423. </programlisting>
  424. </para>
  425. <para>
  426. クエリ文字列のエンコーディングも、同じ方式で指定します。
  427. </para>
  428. <para>
  429. エンコーディングを何らかの方法で指定しなかった場合は、
  430. 現在のロケールにもとづいて判断を行ないます。
  431. </para>
  432. <para>
  433. 検索の前にクエリのパースを行なう場合、
  434. エンコーディングはオプションのパラメータとして指定することができます。
  435. <programlisting role="php"><![CDATA[
  436. $query =
  437. Zend_Search_Lucene_Search_QueryParser::parse($queryStr, 'iso-8859-5');
  438. $hits = $index->find($query);
  439. ...
  440. ]]>
  441. </programlisting>
  442. </para>
  443. <para>
  444. デフォルトのエンコーディングを指定するには <code>setDefaultEncoding()</code>
  445. メソッドを使用します。
  446. <programlisting role="php"><![CDATA[
  447. Zend_Search_Lucene_Search_QueryParser::setDefaultEncoding('iso-8859-1');
  448. $hits = $index->find($queryStr);
  449. ...
  450. ]]>
  451. </programlisting>
  452. 空の文字列は、'現在のロケール' を意味します。
  453. </para>
  454. <para>
  455. 正しいエンコーディングを指定すれば、解析器はそれを正しく処理することができます。
  456. 実際の挙動は、使用する解析器によって異なります。詳細は
  457. <link linkend="zend.search.lucene.charset">文字セット</link>
  458. についての説明を参照ください。
  459. </para>
  460. </sect2>
  461. <sect2 id="zend.search.lucene.best-practice.maintenance">
  462. <title>インデックスの保守</title>
  463. <para>
  464. まずはっきりさせておくべきなのは、<classname>Zend_Search_Lucene</classname> やその他の
  465. Lucene 実装は決して "データベース" ではないということです。
  466. </para>
  467. <para>
  468. つまり、データを保存するものとして使用してはいけません。
  469. 通常のデータベース管理システムのように、バックアップ/リストア
  470. やジャーナル処理、ログの記録、トランザクションといった機能は持っていません。
  471. </para>
  472. <para>
  473. しかし、<classname>Zend_Search_Lucene</classname> はインデックスの一貫性を保持するための機能は持っています。
  474. </para>
  475. <para>
  476. インデックスのバックアップ/リストアは、オフラインでインデックスフォルダをコピーすることで行ないます。
  477. </para>
  478. <para>
  479. 何らかの理由でインデックスが壊れてしまった場合は、
  480. インデックスをリストアするか再構築しなければなりません。
  481. </para>
  482. <para>
  483. そこで、大きなインデックスは、どこかに手動でバックアップしておき、
  484. 何かあったときに手動で復元できるようにしておきましょう。
  485. そうすれば、障害からの復旧にかかる時間が短縮できます。
  486. </para>
  487. </sect2>
  488. </sect1>