Zend_Search_Lucene-QueryLanguage.xml 23 KB


  1. <?xml version="1.0" encoding="UTF-8"?>
  2. <!-- Reviewed: no -->
  3. <!-- EN-Revision: 18536 -->
  4. <sect1 id="zend.search.lucene.query-language">
  5. <title>クエリ言語</title>
  6. <para>
  7. Java Lucene および <classname>Zend_Search_Lucene</classname> では、非常に強力なクエリ言語を使用できます。
  8. </para>
  9. <para>
  10. これらの言語はほぼ同じものですが、微妙に異なる点もあります。
  11. 異なる点については以下で説明します。
  12. </para>
  13. <para>
  14. Java Lucene のクエリ言語の文法についての完全な文書は
  15. <ulink url="http://lucene.apache.org/java/2_3_0/queryparsersyntax.html">ここ</ulink>
  16. にあります。
  17. </para>
  18. <sect2 id="zend.search.lucene.query-language.terms">
  19. <title>用語</title>
  20. <para>
  21. クエリは、単語と演算子から成り立ちます。単語には三種類の形式があります。
  22. 単一の単語、フレーズ、そしてサブクエリです。
  23. </para>
  24. <para>
  25. 単一の単語とは、"test" や "hello" のようなひとつの単語です。
  26. </para>
  27. <para>
  28. フレーズとは、ダブルクォートで囲まれた複数の単語のグループ、たとえば
  29. "hello dolly" です。
  30. </para>
  31. <para>
  32. サブクエリとは、括弧で囲まれたクエリ、たとえば "(hello dolly)" です。
  33. </para>
  34. <para>
  35. 複数の単語を論理演算子で組み合わせることで、より複雑なクエリを作成できます
  36. (以下を参照ください)。
  37. </para>
  38. </sect2>
  39. <sect2 id="zend.search.lucene.query-language.fields">
  40. <title>フィールド</title>
  41. <para>
  42. Lucene は、フィールド指定したデータをサポートしています。
  43. 検索を行う際には、クエリを指定することもできますし、
  44. デフォルトのフィールドを使用することもできます。
  45. フィールド名はインデックス化されたデータに依存します。また、
  46. デフォルトのフィールドは現在の設定によって決まります。
  47. </para>
  48. <para>
  49. Java Lucene との最初の (そしてもっとも大きな) 違いは、デフォルトでは
  50. <emphasis>すべてのフィールド</emphasis> が検索の対象になるということです。
  51. </para>
  52. <para>
  53. <classname>Zend_Search_Lucene</classname> クラスにはふたつの静的メソッドがあり、
  54. この設定を操作できます。
  55. </para>
  56. <programlisting language="php"><![CDATA[
  57. $defaultSearchField = Zend_Search_Lucene::getDefaultSearchField();
  58. ...
  59. Zend_Search_Lucene::setDefaultSearchField('contents');
  60. ]]></programlisting>
  61. <para>
  62. <constant>NULL</constant> 値は、すべてのフィールドを検索の対象とすることを意味します。
  63. これがデフォルトの設定です。
  64. </para>
  65. <para>
  66. 特定のフィールドを検索するには、まずフィールド名をタイプし、その後にコロン ":"
  67. を続け、探したい単語を指定します。
  68. </para>
  69. <para>
  70. 例を見てみましょう。Lucene インデックスにはふたつのフィールド
  71. title および text があり、text がデフォルトのフィールドであるとします。
  72. タイトルが "The Right Way" で本文に "don't go this way"
  73. が含まれるドキュメントを探したいなら、
  74. </para>
  75. <programlisting language="querystring"><![CDATA[
  76. title:"The Right Way" AND text:go
  77. ]]></programlisting>
  78. <para>
  79. あるいは
  80. </para>
  81. <programlisting language="querystring"><![CDATA[
  82. title:"Do it right" AND go
  83. ]]></programlisting>
  84. <para>
  85. とします。"text" はデフォルトのフィールドなので、フィールドの指定は必須ではなくなります。
  86. </para>
  87. <para>
  88. 注意: フィールドが有効なのは、その直後にある単語、
  89. フレーズあるいはサブクエリだけであることに注意しましょう。つまり、クエリ
  90. <programlisting language="querystring"><![CDATA[
  91. title:Do it right
  92. ]]></programlisting>
  93. は "Do" だけを title フィールドから探し、"it" や "right"
  94. はデフォルトのフィールドから探します。デフォルトのフィールドが
  95. <constant>NULL</constant> に設定されている場合は、"it" や "right"
  96. はすべてのフィールドから探します。
  97. </para>
  98. </sect2>
  99. <sect2 id="zend.search.lucene.query-language.wildcard">
  100. <title>ワイルドカード</title>
  101. <para>
  102. Lucene は、単一の文字あるいは複数の文字を表すワイルドカードをサポートしています
  103. これは、単語検索でのみ使用可能です (フレーズクエリでは使用できません)。
  104. </para>
  105. <para>
  106. 単一の文字を表すワイルドカードは "?" です。
  107. </para>
  108. <para>
  109. 複数の文字を表すワイルドカードは "*" です。
  110. </para>
  111. <para>
  112. 単一文字のワイルドカードは、
  113. 単語の中の "?" を別の一文字に置き換えたものにマッチする単語を探します。
  114. たとえば、"text" あるいは "test" を探したい場合は
  115. <programlisting language="querystring"><![CDATA[
  116. te?t
  117. ]]></programlisting>
  118. とします。
  119. </para>
  120. <para>
  121. 複数文字のワイルドカードは、0 個以上の任意の数の文字に対応します。
  122. たとえば test、tests あるいは tester を探したい場合は
  123. <programlisting language="querystring"><![CDATA[
  124. test*
  125. ]]></programlisting>
  126. とします。
  127. </para>
  128. <para>
  129. "?" や "*" は単語のどの部分でも使え、
  130. また両方を同時に使うこともできます。たとえば
  131. <programlisting language="querystring"><![CDATA[
  132. *wr?t*
  133. ]]></programlisting>
  134. は、"write" や "wrote"、"written"、"rewrite"、"rewrote" などに対応します。
  135. </para>
  136. <para>
  137. ZF 1.7.7 以降、ワイルドカードパターンにはワイルドカード以外のプレフィックスが必要となりました。
  138. デフォルトのプレフィックスの長さは 3 (Java Lucene と同じ) です。
  139. つまり "*", "te?t", "*wr?t*" といった単語は例外を引き起こします<footnote>
  140. <para>この例外は <code>Zend_Search_Lucene_Search_QueryParserException</code> ではなく
  141. <code>Zend_Search_Lucene_Exception</code> となることに注意しましょう。
  142. この例外がスローされるのは、クエリの書き換え (実行) 操作のときです。</para></footnote>。
  143. </para>
  144. <para>
  145. これは、<code>Zend_Search_Lucene_Search_Query_Wildcard::getMinPrefixLength()</code> および
  146. <code>Zend_Search_Lucene_Search_Query_Wildcard::setMinPrefixLength()</code>
  147. メソッドで変更できます。
  148. </para>
  149. </sect2>
  150. <sect2 id="zend.search.lucene.query-language.modifiers">
  151. <title>単語の修正子</title>
  152. <para>
  153. Lucene は、クエリの単語を修飾して幅広い検索オプションを指定することをサポートしています。
  154. </para>
  155. <para>
  156. "~" 修正子を使用すると、
  157. フレーズに対する近接検索や個別の単語に対するあいまい検索が可能となります。
  158. </para>
  159. </sect2>
  160. <sect2 id="zend.search.lucene.query-language.range">
  161. <title>範囲検索</title>
  162. <para>
  163. 範囲検索は、フィールドの値の下限と上限を指定して
  164. その範囲に含まれるドキュメントを探すものです。
  165. 最大値と最小値そのものを含めることも含めないこともできます。
  166. 並べ替えは、辞書順で行われます。
  167. <programlisting language="querystring"><![CDATA[
  168. mod_date:[20020101 TO 20030101]
  169. ]]></programlisting>
  170. これは、mod_date フィールドの値が 20020101 から 20030101 (両端を含む)
  171. であるドキュメントを探します。
  172. 範囲検索は、日付フィールド以外でも使えることに注意しましょう。
  173. <programlisting language="querystring"><![CDATA[
  174. title:{Aida TO Carmen}
  175. ]]></programlisting>
  176. これは、タイトルが Aida から Carmen までの間にあるドキュメントを探します。
  177. ただし、Aida および Carmen は含めません。
  178. </para>
  179. <para>
  180. 両端の値を含めるには角括弧 []、含めない場合は波括弧 {}
  181. でクエリを指定します。
  182. </para>
  183. <para>
  184. フィールドを指定しなかった場合は、<classname>Zend_Search_Lucene</classname>
  185. はすべてのフィールドに対して範囲検索を行います。
  186. <programlisting language="querystring"><![CDATA[
  187. {Aida TO Carmen}
  188. ]]></programlisting>
  189. </para>
  190. </sect2>
  191. <sect2 id="zend.search.lucene.query-language.fuzzy">
  192. <title>あいまい検索</title>
  193. <para>
  194. <classname>Zend_Search_Lucene</classname> は、Java Lucene と同様にあいまい検索をサポートします。
  195. これは、レーベンシュタイン距離のアルゴリズムにもとづくものです。
  196. あいまい検索を行うには、チルダ記号 "~" を単語の最後に指定します。
  197. たとえば、"roam" と似たスペルの単語を探すには、次のようなあいまい検索を使用します。
  198. <programlisting language="querystring"><![CDATA[
  199. roam~
  200. ]]></programlisting>
  201. この検索は、foam あるいは roams といった単語にマッチします。
  202. (オプションの) 追加のパラメータによって、
  203. あいまい検索の程度を指定できます。
  204. このパラメータの値は 0 から 1 までの間となり、
  205. 1 に近づくほど、類似点が多い単語にのみマッチするようになります。
  206. たとえば次のように使用します。
  207. <programlisting language="querystring"><![CDATA[
  208. roam~0.8
  209. ]]></programlisting>
  210. このパラメータを省略した場合のデフォルトは 0.5 です。
  211. </para>
  212. </sect2>
  213. <sect2 id="zend.search.lucene.query-language.matched-terms-limitations">
  214. <title>マッチする単語の制限</title>
  215. <para>
  216. ワイルドカード検索や範囲検索、あいまい検索は、マッチする単語が多くなりすぎる可能性があります。
  217. そんな場合は検索のパフォーマンスが大幅に低下してしまいます。
  218. </para>
  219. <para>
  220. そこで、Zend_Search_Lucene はマッチする単語数の制限をクエリ (サブクエリ) 単位で設定します。
  221. この制限を取得したり設定したりするには
  222. <code>Zend_Search_Lucene::getTermsPerQueryLimit()</code>/<code>Zend_Search_Lucene::setTermsPerQueryLimit($limit)</code>
  223. メソッドを使用します。
  224. </para>
  225. <para>
  226. デフォルトのマッチ数の制限は、クエリ単位で 1024 です。
  227. </para>
  228. </sect2>
  229. <sect2 id="zend.search.lucene.query-language.proximity-search">
  230. <title>近接検索</title>
  231. <para>
  232. Lucene は、複数の単語が指定した範囲内にあらわれる状態の検索をサポートしています。
  233. 近接検索を行うには、チルダ記号 "~" をフレーズの最後に指定します。
  234. たとえば、"Zend" と "Framework" がお互い 10 ワードの範囲内にあらわれるドキュメントを検索するには
  235. <programlisting language="querystring"><![CDATA[
  236. "Zend Framework"~10
  237. ]]></programlisting>
  238. とします。
  239. </para>
  240. </sect2>
  241. <sect2 id="zend.search.lucene.query-language.boosting">
  242. <title>単語の強調</title>
  243. <para>
  244. Java Lucene および <classname>Zend_Search_Lucene</classname> は、
  245. 見つかった単語にもとづいてドキュメントの関連度を提供します。
  246. ある単語の関連性を高くするには、キャレット記号 "^" に強調度 (数値)
  247. をあわせたものを、検索する単語の最後につなげます。
  248. 強調度を高くするほど、その単語の関連性が高くなります。
  249. </para>
  250. <para>
  251. この機能を使用すると、単語の強調度によってドキュメントの関連性を制御できるようになります。
  252. たとえば
  253. <programlisting language="querystring"><![CDATA[
  254. PHP framework
  255. ]]></programlisting>
  256. を検索しようとしており、単語 "PHP" をより重視したいとしましょう。
  257. そんな場合は ^ 記号と強調度を単語の後に続けます。つまり
  258. <programlisting language="querystring"><![CDATA[
  259. PHP^4 framework
  260. ]]></programlisting>
  261. のようにします。これにより、PHP という単語を含むドキュメントがより重視されるようになります。
  262. フレーズやサブクエリを強調することも可能です。たとえば
  263. <programlisting language="querystring"><![CDATA[
  264. "PHP framework"^4 "Zend Framework"
  265. ]]></programlisting>
  266. のようになります。デフォルトの強調度は 1 です。強調度には正の数値を指定しますが、
  267. 1 より小さくする (たとえば 0.2 など) ことも可能です。
  268. </para>
  269. </sect2>
  270. <sect2 id="zend.search.lucene.query-language.boolean">
  271. <title>論理演算子</title>
  272. <para>
  273. 論理演算子によって、複数の単語を組み合わせることができます。
  274. Lucene では、論理演算子として AND、"+"、OR、NOT および "-"
  275. をサポートしています。Java Lucene では論理演算子をすべて大文字にする必要がありますが、
  276. <classname>Zend_Search_Lucene</classname> ではその必要はありません。
  277. </para>
  278. <para>
  279. 論理クエリを作成するための方式は、大きく AND、OR および NOT の組と "+"、"-"
  280. の組に分けられます。Java Lucene とは異なり、<classname>Zend_Search_Lucene</classname>
  281. ではこれらの二つの組を混ぜて使うことはできません。
  282. </para>
  283. <para>
  284. AND/OR/NOT 形式を使用する場合は、AND/OR 演算子がすべてのクエリ単語の間に存在する必要があります。
  285. 各単語の前には NOT 演算子をつけることができます。AND 演算子の優先順位は OR
  286. より高くなります。これは Java Lucene の挙動とは異なります。
  287. </para>
  288. <sect3 id="zend.search.lucene.query-language.boolean.and">
  289. <title>AND</title>
  290. <para>
  291. AND 演算子の意味は、"AND グループ"
  292. のすべての単語がドキュメントにマッチしなければならないということです。
  293. </para>
  294. <para>
  295. "PHP framework" および "Zend Framework" を含むドキュメントを検索するには
  296. <programlisting language="querystring"><![CDATA[
  297. "PHP framework" AND "Zend Framework"
  298. ]]></programlisting>
  299. を使用します。
  300. </para>
  301. </sect3>
  302. <sect3 id="zend.search.lucene.query-language.boolean.or">
  303. <title>OR</title>
  304. <para>
  305. OR 演算子は、クエリをいくつかのオプションに分割します。
  306. </para>
  307. <para>
  308. "PHP framework" あるいは "Zend Framework" を含むドキュメントを検索するには
  309. <programlisting language="querystring"><![CDATA[
  310. "PHP framework" OR "Zend Framework"
  311. ]]></programlisting>
  312. を使用します。
  313. </para>
  314. </sect3>
  315. <sect3 id="zend.search.lucene.query-language.boolean.not">
  316. <title>NOT</title>
  317. <para>
  318. NOT 演算子は、NOT の後に続く単語を含むドキュメントを除外します。
  319. しかし "AND グループ" が NOT 演算子つきの単語しか含まない場合は、
  320. インデックス化されたドキュメント全体ではなく空の結果を返します。
  321. </para>
  322. <para>
  323. "PHP framework" を含むが "Zend Framework" は含まないドキュメントを検索するには
  324. <programlisting language="querystring"><![CDATA[
  325. "PHP framework" AND NOT "Zend Framework"
  326. ]]></programlisting>
  327. を使用します。
  328. </para>
  329. </sect3>
  330. <sect3 id="zend.search.lucene.query-language.boolean.other-form">
  331. <title>&amp;&amp;、|| および ! 演算子</title>
  332. <para>
  333. &amp;&amp;、|| および ! は、それぞれ AND、OR および NOT 演算子の代わりに使用します。
  334. </para>
  335. </sect3>
  336. <sect3 id="zend.search.lucene.query-language.boolean.plus">
  337. <title>+</title>
  338. <para>
  339. "+" 演算子 (必須演算子) は、
  340. "+" 記号の後の単語が必ずドキュメントにマッチしなければならないことを意味します。
  341. </para>
  342. <para>
  343. "Zend" を必ず含み、"Framework" を含んでも含まなくてもかまわないドキュメントを検索するには
  344. <programlisting language="querystring"><![CDATA[
  345. +Zend Framework
  346. ]]></programlisting>
  347. を使用します。
  348. </para>
  349. </sect3>
  350. <sect3 id="zend.search.lucene.query-language.boolean.minus">
  351. <title>-</title>
  352. <para>
  353. "-" 演算子 (禁止演算子) は、
  354. "-" 記号の後の単語を含むドキュメントを検索結果から除外します。
  355. </para>
  356. <para>
  357. "PHP framework" は含むが "Zend Framework" は含まないドキュメントを検索するには
  358. <programlisting language="querystring"><![CDATA[
  359. "PHP framework" -"Zend Framework"
  360. ]]></programlisting>
  361. を使用します。
  362. </para>
  363. </sect3>
  364. <sect3 id="zend.search.lucene.query-language.boolean.no-operator">
  365. <title>演算子なし</title>
  366. <para>
  367. 演算子を使用しなかった場合は、
  368. その挙動は "デフォルトの boolean 演算子" として定義されます。
  369. </para>
  370. <para>
  371. これは、デフォルトでは <code>OR</code> となります。
  372. </para>
  373. <para>
  374. つまり、その単語は任意となるということです。
  375. その単語はドキュメント中に存在するかもしれないし、しないかもしれません。
  376. ただ、その単語を含むドキュメントのほうが高いスコアとなります。
  377. </para>
  378. <para>
  379. "PHP framework" は必須で "Zend Framework" は含んでも含まなくてもかまわないドキュメントを検索するには
  380. <programlisting language="querystring"><![CDATA[
  381. +"PHP framework" "Zend Framework"
  382. ]]></programlisting>
  383. を使用します。
  384. </para>
  385. <para>
  386. デフォルトの boolean 演算子を設定したり取得したりするには、それぞれ
  387. <classname>Zend_Search_Lucene_Search_QueryParser::setDefaultOperator($operator)</classname> および
  388. <classname>Zend_Search_Lucene_Search_QueryParser::getDefaultOperator()</classname> を使用します。
  389. </para>
  390. <para>
  391. これらのメソッドで使用する定数は、
  392. <classname>Zend_Search_Lucene_Search_QueryParser::B_AND</classname> および
  393. <classname>Zend_Search_Lucene_Search_QueryParser::B_OR</classname> です。
  394. </para>
  395. </sect3>
  396. </sect2>
  397. <sect2 id="zend.search.lucene.query-language.grouping">
  398. <title>グループ化</title>
  399. <para>
  400. Java Lucene および <classname>Zend_Search_Lucene</classname> では、
  401. 括弧を使用して条件をグループ化することによるサブクエリの作成をサポートしています。
  402. これは、クエリのロジックを制御したい場合や異なるスタイルの論理クエリを共用したい場合などに便利です。
  403. <programlisting language="querystring"><![CDATA[
  404. +(framework OR library) +php
  405. ]]></programlisting>
  406. <classname>Zend_Search_Lucene</classname> は、あらゆるレベルのサブクエリをサポートしています。
  407. </para>
  408. </sect2>
  409. <sect2 id="zend.search.lucene.query-language.field-grouping">
  410. <title>フィールドのグループ化</title>
  411. <para>
  412. Lucene では、括弧を使用して複数の条件をひとつのフィールドに適用できます。
  413. </para>
  414. <para>
  415. タイトルに単語 "return" とフレーズ "pink panther" の両方を含むドキュメントを検索するには
  416. <programlisting language="querystring"><![CDATA[
  417. title:(+return +"pink panther")
  418. ]]></programlisting>
  419. を使用します。Zend_Search_Lucene は、あらゆるレベルのサブクエリをサポートしています。
  420. </para>
  421. </sect2>
  422. <sect2 id="zend.search.lucene.query-language.escaping">
  423. <title>特殊文字のエスケープ</title>
  424. <para>
  425. Lucene は、クエリの文法に含まれる特殊文字のエスケープをサポートしています。
  426. 特殊文字に含まれるの文字は次のとおりです。
  427. </para>
  428. <para>
  429. + - &amp;&amp; || ! ( ) { } [ ] ^ " ~ * ? : \
  430. </para>
  431. <para>
  432. + および - が単一の単語の中に含まれる場合は、通常の文字として扱われます。
  433. </para>
  434. <para>
  435. これらの文字をエスケープするには、その文字の前に \ をつけます。
  436. たとえば、(1+1):2 を検索するには
  437. <programlisting language="querystring"><![CDATA[
  438. \(1\+1\)\:2
  439. ]]></programlisting>
  440. を使用します。
  441. </para>
  442. </sect2>
  443. </sect1>