Zend_Search_Lucene-Searching.xml 25 KB

123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124125126127128129130131132133134135136137138139140141142143144145146147148149150151152153154155156157158159160161162163164165166167168169170171172173174175176177178179180181182183184185186187188189190191192193194195196197198199200201202203204205206207208209210211212213214215216217218219220221222223224225226227228229230231232233234235236237238239240241242243244245246247248249250251252253254255256257258259260261262263264265266267268269270271272273274275276277278279280281282283284285286287288289290291292293294295296297298299300301302303304305306307308309310311312313314315316317318319320321322323324325326327328329330331332333334335336337338339340341342343344345346347348349350351352353354355356357358359360361362363364365366367368369370371372373374375376377378379380381382383384385386387388389390391392393394395396397398399400401402403404405406407408409410411412413414415416417418419420421422423424425426427428429430431432433434435436437438439440441442443444445446447448449450451452453454455456457458459460461462463464465466467468469470471472473474475476477478479480481482483484485486487488489490491492493494495496497498499500501502503504505506507508509510511512513514515516517518519520521522523524525526527528
  1. <?xml version="1.0" encoding="UTF-8"?>
  2. <!-- Reviewed: no -->
  3. <!-- EN-Revision: 24795 -->
  4. <sect1 id="zend.search.lucene.searching">
  5. <title>インデックスの検索</title>
  6. <sect2 id="zend.search.lucene.searching.query_building">
  7. <title>クエリの作成</title>
  8. <para>
  9. インデックスを検索するには二通りの方法があります。
  10. クエリパーサを使用して文字列からクエリを作成する方法と、
  11. <classname>Zend_search_Lucene</classname> <acronym>API</acronym> を使用して独自のクエリを作成する方法です。
  12. </para>
  13. <para>
  14. 提供されているクエリパーサを使用する前に、以下の点を考慮してください。
  15. <orderedlist>
  16. <listitem>
  17. <para>
  18. プログラムで生成したクエリ文字列をクエリパーサに渡そうとしているなら、
  19. クエリ <acronym>API</acronym> を使用してクエリを直接作成すべきです。言い換えると、
  20. クエリパーサというのは人間が入力したテキストのために設計されたものであり、
  21. プログラムが生成したテキストのためのものではないのです。
  22. </para>
  23. </listitem>
  24. <listitem>
  25. <para>
  26. トークン化されていないフィールドについては、
  27. クエリパーサを使用するよりも直接クエリに追加するほうが適しています。
  28. フィールドの値がアプリケーションによって生成されるのなら、
  29. フィールドのクエリ条件についても自動処理で作成すべきです。
  30. クエリパーサが使用している解析器は、人間が入力したテキストを
  31. 単語に分解するために設計されています。
  32. 日付やキーワードなどのプログラムが生成した値は、
  33. クエリ <acronym>API</acronym> で追加しなければなりません。
  34. </para>
  35. </listitem>
  36. <listitem>
  37. <para>
  38. 検索フォームにおいては、
  39. テキストで入力された内容はクエリパーサを使用すべきでしょう。
  40. その他のフィールド、例えば範囲指定やキーワードなどについては、
  41. クエリ <acronym>API</acronym> に直接渡すようにしましょう。
  42. 限られた内容、例えばプルダウンメニューで選択するフィールドは、
  43. クエリ文字列に追加すべきではありません。
  44. その代わりに、TermQuery 条件として使用します。
  45. </para>
  46. </listitem>
  47. <listitem>
  48. <para>
  49. 論理クエリにより、複数のクエリをひとつにまとめることができます。
  50. これは、クエリ文字列で定義されるユーザ検索に条件を追加するための最良な方法です。
  51. </para>
  52. </listitem>
  53. </orderedlist>
  54. </para>
  55. <para>
  56. どちらの方法を使用したとしても、インデックスを検索する <acronym>API</acronym> メソッドは同じです。
  57. </para>
  58. <programlisting language="php"><![CDATA[
  59. $index = Zend_Search_Lucene::open('/data/my_index');
  60. $index->find($query);
  61. ]]></programlisting>
  62. <!-- TODO : to be translated -->
  63. <para>
  64. You can also search multiple indexes simultaneously using MultiSearcher, which operates
  65. using the same <acronym>API</acronym> as searching on a single index:
  66. </para>
  67. <programlisting language="php"><![CDATA[
  68. $multi = new Zend_Search_Lucene_MultiSearcher();
  69. $multi->addIndex(Zend_Search_Lucene::open('/data/my_index_one');
  70. $multi->addIndex(Zend_Search_Lucene::open('/data/my_index_two');
  71. $multi->find($query);
  72. ]]></programlisting>
  73. <para>
  74. <methodname>Zend_Search_Lucene::find()</methodname> メソッドは、
  75. 入力の型を自動的に判別し、クエリパーサを使用して文字列から
  76. <classname>Zend_Search_Lucene_Search_Query</classname> オブジェクトを作成します。
  77. </para>
  78. <para>
  79. 重要なのは、クエリパーサは標準の解析器を使用してクエリ文字列をトークン化するということです。
  80. インデックス化されたテキストに対するすべての変換は、クエリ文字列エントリに対しても行われます。
  81. </para>
  82. <para>
  83. 小文字変換を行うことで大文字小文字を区別しない検索を行えるようにしたり、
  84. ストップワードを取り除いたりといったさまざまなことを行います。
  85. </para>
  86. <para>
  87. それに対して、<acronym>API</acronym> メソッドは単語の変換やフィルタリングを行いません。これは、
  88. コンピュータが生成したフィールドやトークン化されていないフィールドに適しています。
  89. </para>
  90. <sect3 id="zend.search.lucene.searching.query_building.parsing">
  91. <title>クエリのパース</title>
  92. <para>
  93. <methodname>Zend_Search_Lucene_Search_QueryParser::parse()</methodname>
  94. メソッドを使用してクエリ文字列をパースし、
  95. クエリオブジェクトに格納します。
  96. </para>
  97. <para>
  98. このオブジェクトをクエリ作成 <acronym>API</acronym> メソッドで使用し、
  99. ユーザが入力したクエリと機械が生成したクエリを結合します。
  100. </para>
  101. <para>
  102. 実際のところ、これが
  103. トークン化されたいないフィールドを検索する唯一の方法となることもあります。
  104. </para>
  105. <programlisting language="php"><![CDATA[
  106. $userQuery = Zend_Search_Lucene_Search_QueryParser::parse($queryStr);
  107. $pathTerm = new Zend_Search_Lucene_Index_Term(
  108. '/data/doc_dir/' . $filename, 'path'
  109. );
  110. $pathQuery = new Zend_Search_Lucene_Search_Query_Term($pathTerm);
  111. $query = new Zend_Search_Lucene_Search_Query_Boolean();
  112. $query->addSubquery($userQuery, true /* required */);
  113. $query->addSubquery($pathQuery, true /* required */);
  114. $hits = $index->find($query);
  115. ]]></programlisting>
  116. <para>
  117. <methodname>Zend_Search_Lucene_Search_QueryParser::parse()</methodname>
  118. メソッドはオプションのパラメータでエンコーディングを受け取ることができます。
  119. ここで、クエリ文字列のエンコーディングを指定します。
  120. </para>
  121. <programlisting language="php"><![CDATA[
  122. $userQuery = Zend_Search_Lucene_Search_QueryParser::parse($queryStr,
  123. 'iso-8859-5');
  124. ]]></programlisting>
  125. <para>
  126. エンコーディングを省略した場合は、現在のロケールを使用します。
  127. </para>
  128. <para>
  129. デフォルトのクエリ文字列エンコーディングを
  130. <methodname>Zend_Search_Lucene_Search_QueryParser::setDefaultEncoding()</methodname>
  131. メソッドで指定することもできます。
  132. </para>
  133. <programlisting language="php"><![CDATA[
  134. Zend_Search_Lucene_Search_QueryParser::setDefaultEncoding('iso-8859-5');
  135. ...
  136. $userQuery = Zend_Search_Lucene_Search_QueryParser::parse($queryStr);
  137. ]]></programlisting>
  138. <para>
  139. <methodname>Zend_Search_Lucene_Search_QueryParser::getDefaultEncoding()</methodname>
  140. は、デフォルトのクエリ文字列エンコーディングを返します
  141. (空文字列は "現在のロケール" を表します)。
  142. </para>
  143. </sect3>
  144. </sect2>
  145. <sect2 id="zend.search.lucene.searching.results">
  146. <title>検索結果</title>
  147. <para>
  148. 検索結果は <classname>Zend_Search_Lucene_Search_QueryHit</classname> オブジェクトの配列となります。
  149. 各オブジェクトは、2 つのプロパティを保持しています。
  150. <code>$hit->id</code> がインデックス内のドキュメント番号、
  151. <code>$hit->score</code> が検索結果のスコアを表します。
  152. 結果はスコア順に並べられます (スコアの高い結果が最初になります)。
  153. </para>
  154. <para>
  155. <classname>Zend_Search_Lucene_Search_QueryHit</classname> オブジェクトでは、
  156. 検索結果としてヒットした <classname>Zend_Search_Lucene_Document</classname>
  157. の各フィールドも公開しています。
  158. この例で、ヒットしたドキュメントには
  159. title と author の 2 つのフィールドが含まれています。
  160. </para>
  161. <programlisting language="php"><![CDATA[
  162. $index = Zend_Search_Lucene::open('/data/my_index');
  163. $hits = $index->find($query);
  164. foreach ($hits as $hit) {
  165. echo $hit->score;
  166. echo $hit->title;
  167. echo $hit->author;
  168. }
  169. ]]></programlisting>
  170. <para>
  171. 保存されたフィールドは、常に UTF-8 エンコーディングで返されます。
  172. </para>
  173. <para>
  174. オプションで、
  175. <classname>Zend_Search_Lucene_Search_QueryHit</classname> から元の <classname>Zend_Search_Lucene_Document</classname>
  176. を取得できます。
  177. 保存されたドキュメントを取得するには、
  178. インデックスオブジェクトの <code>getDocument()</code>
  179. メソッドを使用し、その <code>getFieldValue()</code>
  180. メソッドでフィールドの値を取得します。
  181. </para>
  182. <programlisting language="php"><![CDATA[
  183. $index = Zend_Search_Lucene::open('/data/my_index');
  184. $hits = $index->find($query);
  185. foreach ($hits as $hit) {
  186. // ヒットした結果の Zend_Search_Lucene_Document オブジェクトを返します
  187. echo $document = $hit->getDocument();
  188. // Zend_Search_Lucene_Document から
  189. // Zend_Search_Lucene_Field オブジェクトを返します
  190. echo $document->getField('title');
  191. // Zend_Search_Lucene_Field オブジェクトを値を文字列で返します
  192. echo $document->getFieldValue('title');
  193. // getFieldValue() と同じです
  194. echo $document->title;
  195. }
  196. ]]></programlisting>
  197. <para>
  198. <classname>Zend_Search_Lucene_Document</classname> オブジェクトで使用可能なフィールドは、
  199. インデックス化の際に決まります。ドキュメントのフィールドは、
  200. インデックス化用アプリケーション (例えば LuceneIndexCreation.jar)
  201. によってインデックス化、あるいはインデックス化して保存されます。
  202. </para>
  203. <para>
  204. ドキュメントを識別するフィールド (例では 'path')
  205. もインデックス化して取得できるようにしなければならないことに注意しましょう。
  206. </para>
  207. </sect2>
  208. <sect2 id="zend.search.lucene.searching.results-limiting">
  209. <title>結果の制限</title>
  210. <para>
  211. 検索処理の中でいちばん時間がかかるのが、スコアの計算です。
  212. 検索結果の数が多い (数万件程度) 場合、これには数秒程度かかることもあります。
  213. </para>
  214. <para>
  215. <classname>Zend_Search_Lucene</classname> では、結果セットの件数を制限するためのメソッドとして
  216. <code>getResultSetLimit()</code> と
  217. <code>setResultSetLimit()</code> を用意しています。
  218. </para>
  219. <programlisting language="php"><![CDATA[
  220. $currentResultSetLimit = Zend_Search_Lucene::getResultSetLimit();
  221. Zend_Search_Lucene::setResultSetLimit($newLimit);
  222. ]]></programlisting>
  223. <para>
  224. 0 (デフォルト値) は、'制限しない' という意味です。
  225. </para>
  226. <para>
  227. このメソッドが返す結果は、'スコアの高いほうから N 件' ではなく
  228. あくまで '最初の N 件'
  229. <footnote><para>
  230. しかし、返される結果はスコア順 (あるいはその他指定した順)
  231. で並べ替えられています。
  232. </para></footnote>
  233. です。
  234. </para>
  235. </sect2>
  236. <sect2 id="zend.search.lucene.searching.results-scoring">
  237. <title>結果の重み付け</title>
  238. <para>
  239. <classname>Zend_Search_Lucene</classname> は、Java Lucene と同じ重み付けアルゴリズムを使用します。
  240. 検索結果に一致したものが、デフォルトで重み順に並べ替えられます。スコアの高いものが先頭となり、
  241. スコアの高いもののほうが低いものよりクエリにマッチするようになります。
  242. </para>
  243. <para>
  244. 大雑把に言うと、文書の中に検索語句が頻繁に登場するほどスコアが高くなります。
  245. </para>
  246. <para>
  247. 検索結果のスコアを取得するには <code>score</code> プロパティを使用します。
  248. </para>
  249. <programlisting language="php"><![CDATA[
  250. $hits = $index->find($query);
  251. foreach ($hits as $hit) {
  252. echo $hit->id;
  253. echo $hit->score;
  254. }
  255. ]]></programlisting>
  256. <para>
  257. 重みを計算するために使用されるのが
  258. <classname>Zend_Search_Lucene_Search_Similarity</classname> クラスです。詳細は
  259. <link linkend="zend.search.lucene.extending.scoring">拡張性
  260. - 重み付けのアルゴリズム</link> を参照ください。
  261. </para>
  262. </sect2>
  263. <sect2 id="zend.search.lucene.searching.sorting">
  264. <title>検索結果の並べ替え</title>
  265. <para>
  266. 検索結果は、デフォルトではスコアで並べ替えられます。
  267. これを変更するには、並べ替え用の (ひとつあるいは複数の)
  268. フィールドと並べ替えの形式、そして並べ替えの方向をパラメータで指定します。
  269. </para>
  270. <para>
  271. <code>$index->find()</code> のコール時に、オプションのパラメータを指定できます。
  272. </para>
  273. <programlisting language="php"><![CDATA[
  274. $index->find($query [, $sortField [, $sortType [, $sortOrder]]]
  275. [, $sortField2 [, $sortType [, $sortOrder]]]
  276. ...);
  277. ]]></programlisting>
  278. <para>
  279. <code>$sortField</code> は、結果の並べ替えを行う保存されたフィールドの名前です。
  280. </para>
  281. <para>
  282. <code>$sortType</code> は省略可能です。
  283. <code>SORT_REGULAR</code> (通常の並べ替え。デフォルト)、
  284. <code>SORT_NUMERIC</code> (数値として並べ替え)、
  285. <code>SORT_STRING</code> (文字列として並べ替え) のいずれかとなります。
  286. </para>
  287. <para>
  288. <code>$sortOrder</code> は省略可能です。
  289. <code>SORT_ASC</code> (昇順で並べ替え。デフォルト)、
  290. <code>SORT_DESC</code> (降順で並べ替え) のいずれかとなります。
  291. </para>
  292. <para>
  293. 例を以下に示します。
  294. </para>
  295. <programlisting language="php"><![CDATA[
  296. $index->find($query, 'quantity', SORT_NUMERIC, SORT_DESC);
  297. ]]></programlisting>
  298. <programlisting language="php"><![CDATA[
  299. $index->find($query, 'fname', SORT_STRING, 'lname', SORT_STRING);
  300. ]]></programlisting>
  301. <programlisting language="php"><![CDATA[
  302. $index->find($query, 'name', SORT_STRING, 'quantity', SORT_NUMERIC, SORT_DESC);
  303. ]]></programlisting>
  304. <para>
  305. デフォルト以外の並び順を使用する際には注意しましょう。
  306. 並べ替えのためにはドキュメント全体をインデックスから読み込む必要があり、
  307. 検索のパフォーマンスが著しく低下してしまいます。
  308. </para>
  309. </sect2>
  310. <sect2 id="zend.search.lucene.searching.highlighting">
  311. <title>検索結果の強調</title>
  312. <para>
  313. <classname>Zend_Search_Lucene</classname> では、2 とおりの方法で検索結果を強調させることができます。
  314. </para>
  315. <para>
  316. まず最初の方法が、<classname>Zend_Search_Lucene_Document_Html</classname> クラス
  317. (詳細は <link linkend="zend.search.lucene.index-creation.html-documents">HTML ドキュメントの節</link>
  318. を参照ください) を用いて次のようにすることです。
  319. </para>
  320. <programlisting language="php"><![CDATA[
  321. /**
  322. * テキストを指定した色で強調する
  323. *
  324. * @param string|array $words
  325. * @param string $colour
  326. * @return string
  327. */
  328. public function highlight($words, $colour = '#66ffff');
  329. ]]></programlisting>
  330. <programlisting language="php"><![CDATA[
  331. /**
  332. * テキストを、指定したビューヘルパーあるいはコールバック関数で強調する
  333. *
  334. * @param string|array $words 強調したい単語。配列あるいは文字列で指定します
  335. * @param callback $callback コールバックメソッド。テキストの変換 (強調) に使用します
  336. * @param array $params コールバックのパラメータとして渡す配列
  337. * (最初の必須パラメータは、強調させる HTML 片となります)
  338. * @return string
  339. * @throws Zend_Search_Lucene_Exception
  340. */
  341. public function highlightExtended($words, $callback, $params = array())
  342. ]]></programlisting>
  343. <para>
  344. 強調方法をカスタマイズするには <code>highlightExtended()</code>
  345. メソッドにコールバックを指定して使用します。このコールバックは、ひとつ以上のパラメータを受け取ります
  346. <footnote><para>最初のパラメータは強調対象の <acronym>HTML</acronym> 片、
  347. そしてその他のパラメータはコールバックの振る舞いによって変わります。
  348. 返り値は、強調済みの <acronym>HTML</acronym> 片となります。</para></footnote>。
  349. あるいは、<classname>Zend_Search_Lucene_Document_Html</classname> クラスを継承して
  350. <code>applyColour($stringToHighlight, $colour)</code> メソッドを再定義することもできます。
  351. このメソッドは、デフォルトの強調コールバックとして用いられるものです。
  352. <footnote>
  353. <para>
  354. どちらの場合についても、返される <acronym>HTML</acronym> は自動的に正しい <acronym>XHTML</acronym> 形式に変換されます。
  355. </para>
  356. </footnote>
  357. </para>
  358. <para>
  359. <link linkend="zend.view.helpers">ビューヘルパー</link> も、ビュースクリプトのコンテキストでコールバックとして使えます。
  360. </para>
  361. <programlisting language="php"><![CDATA[
  362. $doc->highlightExtended('word1 word2 word3...', array($this, 'myViewHelper'));
  363. ]]></programlisting>
  364. <para>
  365. 強調した結果を取得するには <code>Zend_Search_Lucene_Document_Html->getHTML()</code> メソッドを使用します。
  366. </para>
  367. <note>
  368. <para>
  369. 強調処理は、現在の解析器を使って行われます。つまり、解析器が理解するすべての形式の単語が強調されます。
  370. </para>
  371. <para>
  372. たとえば、大文字小文字を区別しない解析器を使っている場合に 'text' を強調するよう指定すると、
  373. 'text' や 'Text' そして 'TEXT' といった単語も強調されます。
  374. </para>
  375. <para>
  376. 同様に、語幹抽出機能を持つ解析器を使っている場合に 'indexed' を強調するよう指定すると、
  377. 'index' や 'indexing' そして 'indices' といった単語も強調されます。
  378. </para>
  379. <para>
  380. 一方、現在の解析器が処理をスキップするような単語
  381. (短い単語に対するフィルタが解析器に適用されている場合など)
  382. は、なにも強調されません。
  383. </para>
  384. </note>
  385. <para>
  386. もうひとつの方法は、
  387. <code>Zend_Search_Lucene_Search_Query->highlightMatches(string $inputHTML[, Zend_Search_Lucene_Search_Highlighter_Interface $highlighter])</code>
  388. メソッドを使うことです。
  389. </para>
  390. <programlisting language="php"><![CDATA[
  391. $query = Zend_Search_Lucene_Search_QueryParser::parse($queryStr);
  392. $highlightedHTML = $query->highlightMatches($sourceHTML);
  393. ]]></programlisting>
  394. <para>
  395. オプションの 2 番目のパラメータは、
  396. デフォルトの <acronym>HTML</acronym> ドキュメントエンコーディングです。
  397. 省略した場合は、Content-type HTTP-EQUIV meta タグを使用します。
  398. </para>
  399. <para>
  400. オプションの 3 番目のパラメータは、
  401. <classname>Zend_Search_Lucene_Search_Highlighter_Interface</classname>
  402. インターフェイスを実装したオブジェクトです。
  403. </para>
  404. <programlisting language="php"><![CDATA[
  405. interface Zend_Search_Lucene_Search_Highlighter_Interface
  406. {
  407. /**
  408. * 強調対象の文書を設定します
  409. *
  410. * @param Zend_Search_Lucene_Document_Html $document
  411. */
  412. public function setDocument(Zend_Search_Lucene_Document_Html $document);
  413. /**
  414. * 強調対象の文書を取得します
  415. *
  416. * @return Zend_Search_Lucene_Document_Html $document
  417. */
  418. public function getDocument();
  419. /**
  420. * 指定した単語を強調します (サブクエリ単位でこのメソッドが起動されます)
  421. *
  422. * @param string|array $words 強調したい単語。配列あるいは文字列で指定します
  423. */
  424. public function highlight($words);
  425. }
  426. ]]></programlisting>
  427. <para>
  428. ここでの <classname>Zend_Search_Lucene_Document_Html</classname> オブジェクトは、
  429. <classname>Zend_Search_Lucene_Search_Query->highlightMatches()</classname> メソッドに渡された
  430. <acronym>HTML</acronym> から作成されるオブジェクトです。
  431. </para>
  432. <para>
  433. <code>$highlighter</code> パラメータを省略すると、
  434. <classname>Zend_Search_Lucene_Search_Highlighter_Default</classname>
  435. オブジェクトのインスタンスを作成してそれを使用します。
  436. </para>
  437. <para>
  438. <code>highlight()</code> メソッドはサブクエリ単位で起動されるので、
  439. サブクエリ単位で異なる強調処理を行うことができます。
  440. </para>
  441. <para>
  442. 実際のところ、デフォルトの処理は定義済みの色テーブルを使用しているだけです。
  443. 自前の強調処理を実装することもできますし、デフォルトの処理を継承して色テーブルだけを再定義することもできます。
  444. </para>
  445. <para>
  446. <code>Zend_Search_Lucene_Search_Query->htmlFragmentHighlightMatches()</code>
  447. も同じような動きをします。唯一の違いは、入力を受け取って、
  448. &lt;>HTML>, &lt;HEAD>, &lt;BODY> tags タグを含まない <acronym>HTML</acronym> 片を返すことです。
  449. それでも、返される <acronym>HTML</acronym> 片は自動的に正しい <acronym>XHTML</acronym> に変換されます.
  450. </para>
  451. </sect2>
  452. </sect1>