Zend_Search_Lucene-Queries.xml 26 KB


  1. <sect1 id="zend.search.lucene.query-api">
  2. <title>API для построения запросов<!--Query Construction API--></title>
  3. <para>
  4. В дополнение к автоматическому парсингу запросов есть возможность
  5. строить запросы через API.
  6. <!--
  7. In addition to parsing query automatically it's also possible to constract them through API.
  8. -->
  9. </para>
  10. <para>
  11. Пользовательские запросы могут быть объединены с запросами, созданными
  12. через API. Используйте парсер запросов для построения запроса из строки.
  13. <!--
  14. User query can be combined with queries created through API. Use query parser to construct query from a string:
  15. -->
  16. <programlisting language="php"><![CDATA[<?php
  17. $query = Zend_Search_Lucene_Search_QueryParser::parse($queryString);]]></programlisting>
  18. </para>
  19. <sect2 id="zend.search.lucene.queries.exceptions">
  20. <title>Исключения, бросаемые парсером запросов<!--Query Parser Exceptions--></title>
  21. <para>
  22. Парсер запросов может генерировать два типа исключений:
  23. <!--
  24. Query parser may generate two types of exceptions.
  25. -->
  26. <itemizedlist>
  27. <listitem>
  28. <para>
  29. <code>Zend_Search_Lucene_Exception</code> бросается, если
  30. ошибка произошла в самом парсере запросов.
  31. <!--
  32. <code>Zend_Search_Lucene_Exception</code> is thrown if something wrong in a query parser itself.
  33. -->
  34. </para>
  35. </listitem>
  36. <listitem>
  37. <para>
  38. <code>Zend_Search_Lucene_Search_QueryParserException</code>
  39. бросается в случае ошибки синтаксиса запроса.
  40. <!--
  41. <code>Zend_Search_Lucene_Search_QueryParserException</code> is thrown in tha case of
  42. query syntax exception.
  43. -->
  44. </para>
  45. </listitem>
  46. </itemizedlist>
  47. Будет хорошей идеей отлавливать запросы
  48. Zend_Search_Lucene_Search_QueryParserException и выводить
  49. соответствующее сообщение.
  50. <!--
  51. Thus that's good idea to catch Zend_Search_Lucene_Search_QueryParserException and make appropriate message:
  52. -->
  53. <programlisting language="php"><![CDATA[<?php
  54. try {
  55. $query = Zend_Search_Lucene_Search_QueryParser::parse($queryString);
  56. } catch (Zend_Search_Lucene_Search_QueryParserException $e) {
  57. echo "Query syntax error: " . $e->getMessage() . "\n";
  58. }]]></programlisting>
  59. </para>
  60. <para>
  61. Тот же самый подход может (и должен) применяться для метода
  62. find() объекта Zend_Search_Lucene.
  63. <!--
  64. The same technique may (and should) be used for find() method of Zend_Search_Lucene object.
  65. -->
  66. </para>
  67. </sect2>
  68. <sect2 id="zend.search.lucene.queries.term-query">
  69. <title>Простой запрос (запрос по одному ключевому слову)<!--Term Query--></title>
  70. <para>
  71. Простые запросы предназначены для поиска по одному элементу.
  72. <!--
  73. Term queries are intended for a searching for a single term.
  74. -->
  75. </para>
  76. <para>
  77. Строка запроса:
  78. <!--
  79. Query string:
  80. -->
  81. </para>
  82. <programlisting language="querystring"><![CDATA[word1]]>
  83. </programlisting>
  84. <para>или</para>
  85. <para>
  86. Построение запроса через API:
  87. <!--
  88. Query construction by API:
  89. -->
  90. </para>
  91. <programlisting language="php"><![CDATA[<?php
  92. $term = new Zend_Search_Lucene_Index_Term('word1', 'field1');
  93. $query = new Zend_Search_Lucene_Search_Query_Term($term);
  94. $hits = $index->find($query);]]></programlisting>
  95. <para>
  96. Параметр, задающий поле для поиска ('field1'), является
  97. опциональным. Zend_Search_Lucene производит поиск по всем
  98. полям, если поля для поиска не заданы.
  99. <!--
  100. Term field is optional. Zend_Search_Lucene searches through all fields if field is not specified:
  101. -->
  102. <programlisting language="php"><![CDATA[<?php
  103. $term = new Zend_Search_Lucene_Index_Term('word1'); // Search 'word1' through all indexed fields
  104. $query = new Zend_Search_Lucene_Search_Query_Term($term);
  105. $hits = $index->find($query);]]></programlisting>
  106. </para>
  107. </sect2>
  108. <sect2 id="zend.search.lucene.queries.multiterm-query">
  109. <title>Составной запрос (запрос по нескольким ключевым словам)<!--Multi-Term Query--></title>
  110. <para>
  111. Составные запросы предназначены для поиска по набору элементов.
  112. <!--
  113. Multi term queries are intended for a searching for a set of terms.
  114. -->
  115. </para>
  116. <para>
  117. Каждый элемент в наборе может быть определен как "обязательный",
  118. "необязательный" или "запрещенный".
  119. <!--
  120. Each term in a set can be defined as required, prohibited or neither
  121. required, nor prohibited (optional).
  122. -->
  123. <itemizedlist>
  124. <listitem>
  125. <para>
  126. "обязательный" элемент означает, что документы, которые не соответствуют
  127. данному элементу, не соответствуют всему запросу;
  128. <!--
  129. required which means that documents which do not match this term
  130. will not match the query;
  131. -->
  132. </para>
  133. </listitem>
  134. <listitem>
  135. <para>
  136. "запрещенный" элемент означает, что документы, соответствующие
  137. данному элементу, не соответствуют всему запросу;
  138. <!--
  139. prohibited which means that documents which do match this term
  140. will not match the query;
  141. -->
  142. </para>
  143. </listitem>
  144. <listitem>
  145. <para>
  146. в случае "необязательного" элемента
  147. документы не обязательно должны соответствовать
  148. (или не иметь соответствия) элементу. Тем не менее,
  149. документ должен соответствовать хотя бы одному элементу, чтобы
  150. соответствовать запросу.
  151. <!--
  152. neither, in which case matched documents are neither prohibited from
  153. nor required to match the term. However, a document must match at least
  154. 1 term to match the query.
  155. -->
  156. </para>
  157. </listitem>
  158. </itemizedlist>
  159. </para>
  160. <para>
  161. Это значит, что если необязательные элементы добавлены в запрос с
  162. обязательными, то они будут иметь одинаковый набор
  163. результатов, но в случае второго запроса хиты, соответствующие
  164. необязательным элементам, будут перемещены в верх списка
  165. результатов запроса.
  166. <!--
  167. It means, that if optional terms are added to a query with required terms,
  168. then they will have the same result set, but second query will have hits,
  169. which match optional terms, moved to the top of result set.
  170. -->
  171. </para>
  172. <para>
  173. Для составных запросов могут использоваться оба метода поиска.
  174. <!--
  175. Both of a search method can be used for multi term queries.
  176. -->
  177. </para>
  178. <para>
  179. Запрос в виде строки:
  180. <!--
  181. Query string:
  182. -->
  183. </para>
  184. <programlisting language="querystring"><![CDATA[+word1 author:word2 -word3]]></programlisting>
  185. <itemizedlist>
  186. <listitem>
  187. <para>
  188. '+' используется для определения обязательного элемента
  189. <!--is used to define required term.-->
  190. </para>
  191. </listitem>
  192. <listitem>
  193. <para>
  194. '-' используется для определения запрещенного элемента
  195. <!--is used to define prohibited term.-->
  196. </para>
  197. </listitem>
  198. <listitem>
  199. <para>
  200. Приставка 'field:' используется, чтобы указать поле документа
  201. для поиска. Если она опущена, то используется поле 'contents'.
  202. <!--
  203. 'field:' prefix is used to indicate document field for a search.
  204. If it's omitted, then 'contents' is used.
  205. -->
  206. </para>
  207. </listitem>
  208. </itemizedlist>
  209. <para>или</para>
  210. <para>
  211. Построение запроса через программный интерфейс:
  212. <!--
  213. Query construction by API:
  214. -->
  215. </para>
  216. <programlisting language="php"><![CDATA[<?php
  217. $query = new Zend_Search_Lucene_Search_Query_MultiTerm();
  218. $query->addTerm(new Zend_Search_Lucene_Index_Term('word1'), true);
  219. $query->addTerm(new Zend_Search_Lucene_Index_Term('word2'), null);
  220. $query->addTerm(new Zend_Search_Lucene_Index_Term('word3'), false);
  221. $hits = $index->find($query);]]></programlisting>
  222. <para>
  223. Массив <varname>$signs</varname> содержит информацию о типах элементов:
  224. <!--
  225. <varname>$signs</varname> array contains an information about term type:
  226. -->
  227. <itemizedlist>
  228. <listitem>
  229. <para>
  230. <constant>TRUE</constant> используется для определения обязательных элементов.
  231. <!--
  232. true is used to define required term.
  233. -->
  234. </para>
  235. </listitem>
  236. <listitem>
  237. <para>
  238. <constant>FALSE</constant> используется для определения запрещенных элементов.
  239. <!--
  240. false is used to define prohibited term.
  241. -->
  242. </para>
  243. </listitem>
  244. <listitem>
  245. <para>
  246. <constant>NULL</constant> используется для определения необязательных
  247. элементов.
  248. <!--
  249. null is used to define neither required,
  250. nor prohibited term.
  251. -->
  252. </para>
  253. </listitem>
  254. </itemizedlist>
  255. </para>
  256. </sect2>
  257. <sect2 id="zend.search.lucene.queries.phrase-query">
  258. <title>Фразовый запрос<!--Phrase Query--></title>
  259. <para>
  260. Фразовые запросы предназначены для поиска по фразам.
  261. <!--
  262. Phrase Queries are intended for a searching for a phrases.
  263. -->
  264. </para>
  265. <para>
  266. Фразовые запросы являются очень гибкими и позволяют искать как
  267. точные фразы, так и неточные.
  268. <!--
  269. Phrase Queries are very flexible and allow to search exact phrases as well as sloppy phrases.
  270. -->
  271. </para>
  272. <para>
  273. Фразы могут содержать пропуски или несколько
  274. слов в одной и той же позиции. (Это может быть сгенерировано анализатором
  275. для различных целей. Например, элементы могут повторяться для
  276. повышения "веса" или в одной позиции могут быть размещены несколько
  277. синонимов). В соответствии с этим фразовые запросы
  278. могут строиться только через программный интерфейс:
  279. <!--
  280. Phrases can also contain gaps or terms in the same places.
  281. (It can be generated by Analyser for different
  282. purposes. Ex. term can be duplicated to increase term
  283. weight or several synonyms can be placed into one position).
  284. According to this phrase queries can be constructed only by API now:
  285. -->
  286. </para>
  287. <programlisting language="php"><![CDATA[<?php
  288. $query1 = new Zend_Search_Lucene_Search_Query_Phrase();
  289. // Добавление 'word1' в относительную позицию 0.
  290. $query1->addTerm(new Zend_Search_Lucene_Index_Term('word1'));
  291. // Добавление 'word2' в относительную позицию 1.
  292. $query1->addTerm(new Zend_Search_Lucene_Index_Term('word2'));
  293. // Добавление 'word3' в относительную позицию 3.
  294. $query1->addTerm(new Zend_Search_Lucene_Index_Term('word3'), 3);
  295. ...
  296. $query2 = new Zend_Search_Lucene_Search_Query_Phrase(
  297. array('word1', 'word2', 'word3'), array(0,1,3));
  298. ...
  299. // Запрос без промежутков.
  300. $query3 = new Zend_Search_Lucene_Search_Query_Phrase(
  301. array('word1', 'word2', 'word3'));
  302. ...
  303. $query4 = new Zend_Search_Lucene_Search_Query_Phrase(
  304. array('word1', 'word2'), array(0,1), 'annotation');]]></programlisting>
  305. <para>
  306. Фразовый запрос может строиться сразу с помощью конструктора класса
  307. или пошагово с помощью метода
  308. <code>Zend_Search_Lucene_Search_Query_Phrase::addTerm()</code>.
  309. <!--
  310. Phrase query can be constructed by one step with a class constructor or step by step with a
  311. <code>Zend_Search_Lucene_Search_Query_Phrase::addTerm()</code> method.
  312. -->
  313. </para>
  314. <para>
  315. Конструктор класса <code>Zend_Search_Lucene_Search_Query_Phrase</code>
  316. принимает три необязательных параметра:
  317. <!--
  318. Zend_Search_Lucene_Search_Query_Phrase class constructor takes
  319. three optional arguments:
  320. -->
  321. </para>
  322. <programlisting language="php"><![CDATA[<?php
  323. Zend_Search_Lucene_Search_Query_Phrase([array $terms[, array $offsets[, string $field]]]);]]></programlisting>
  324. <para>
  325. <varname>$terms</varname> является массивом строк, который содержит набор
  326. элементов фразы. Если он опущен или равен <constant>NULL</constant>,
  327. то строится пустой запрос.
  328. <!--
  329. <varname>$terms</varname> is an array of strings, which contains a set of phrase terms.
  330. If it's omitted or equal to null, then empty query is constructed.
  331. -->
  332. </para>
  333. <para>
  334. <varname>$offsets</varname> является массивом целочисленных значений,
  335. который содержит смещения элементов во фразе. Если он опущен или равен
  336. <constant>NULL</constant>, то позиции элементов предполагаются как
  337. <code>array(0, 1, 2, 3, ...)</code>.
  338. <!--
  339. <varname>$offsets</varname> is an array of integers, which contains offsets of terms in a phrase.
  340. If it's omitted or equal to null, then terms positions are supposed as <code>array(0, 1, 2, 3, ...)</code>.
  341. -->
  342. </para>
  343. <para>
  344. <varname>$field</varname> является строкой, которая указывает поле
  345. документа, в котором производится поиск. Если он опущен или равен
  346. <constant>NULL</constant>, то поиск производится в поле по умолчанию.
  347. Данная версия Zend_Search_Lucene трактует поле 'contents'
  348. как поле, выбираемое по умолчанию, но в следующих версиях
  349. планируется добавить возможность указания любого поля,
  350. как выбираемого по умолчанию.
  351. <!--
  352. <varname>$field</varname> is a string, which indicates searched document field.
  353. If it's omitted or equal to null, then default field is searched.
  354. This version of Zend_Search_Lucene treates 'contents' field as a default, but it's planned to change this
  355. behavior to "any field" in next versions.
  356. -->
  357. </para>
  358. <para>
  359. Таким образом:
  360. <!--
  361. Thus:
  362. -->
  363. </para>
  364. <programlisting language="php"><![CDATA[<?php
  365. $query = new Zend_Search_Lucene_Search_Query_Phrase(array('zend', 'framework'));]]></programlisting>
  366. <para>
  367. будет искать фразу 'zend framework'.
  368. <!--
  369. will search for 'zend framework' phrase.
  370. -->
  371. </para>
  372. <programlisting language="php"><![CDATA[<?php
  373. $query = new Zend_Search_Lucene_Search_Query_Phrase(array('zend', 'download'), array(0, 2));]]></programlisting>
  374. <para>
  375. будет искать фразу 'zend ????? download', такой запрос соответствует фразам
  376. 'zend platform download', 'zend studio download',
  377. 'zend core download', 'zend framework download' и т.д.
  378. <!--
  379. will search for 'zend ????? download' phrase and match 'zend platform download', 'zend studio download',
  380. 'zend core download', 'zend framework download' and so on.
  381. -->
  382. </para>
  383. <programlisting language="php"><![CDATA[<?php
  384. $query = new Zend_Search_Lucene_Search_Query_Phrase(array('zend', 'framework'), null, 'title');]]></programlisting>
  385. <para>
  386. будет искать фразу 'zend framework' в поле 'title'.
  387. <!--
  388. will search for 'zend framework' phrase in a 'title' field.
  389. -->
  390. </para>
  391. <para>
  392. Метод <code>Zend_Search_Lucene_Search_Query_Phrase::addTerm()</code>
  393. принимает два аргумента — объект элемента
  394. <code>Zend_Search_Lucene_Index_Term</code> в качестве обязательного
  395. параметра и позицию элемента в качестве необязательного:
  396. <!--
  397. <code>Zend_Search_Lucene_Search_Query_Phrase::addTerm()</code> method
  398. takes two arguments.
  399. Required <code>Zend_Search_Lucene_Index_Term</code> object and optional position:
  400. -->
  401. </para>
  402. <programlisting language="php"><![CDATA[<?php
  403. Zend_Search_Lucene_Search_Query_Phrase::addTerm(Zend_Search_Lucene_Index_Term $term[, integer $position]);]]></programlisting>
  404. <para>
  405. <varname>$term</varname> описывает следующий элемент во фразе. Он должен
  406. указывать на то же самое поле, что и предыдущие элементы,
  407. иначе будет сгенерировано исключение.
  408. <!--
  409. <varname>$term</varname> describes next term in a phrase. It must indicate
  410. the same field as previous terms.
  411. Otherwise an exception will be thrown.
  412. -->
  413. </para>
  414. <para>
  415. <varname>$position</varname> указывает позицию элемента.
  416. <!--
  417. <varname>$position</varname> indicates term position.
  418. -->
  419. </para>
  420. <para>
  421. <!--
  422. Thus:
  423. -->
  424. </para>
  425. <programlisting language="php"><![CDATA[<?php
  426. $query = new Zend_Search_Lucene_Search_Query_Phrase();
  427. $query->addTerm(new Zend_Search_Lucene_Index_Term('zend'));
  428. $query->addTerm(new Zend_Search_Lucene_Index_Term('framework'));]]></programlisting>
  429. <para>
  430. будет искать фразу 'zend framework'.
  431. <!--
  432. will search for 'zend framework' phrase.
  433. -->
  434. </para>
  435. <programlisting language="php"><![CDATA[<?php
  436. $query = new Zend_Search_Lucene_Search_Query_Phrase();
  437. $query->addTerm(new Zend_Search_Lucene_Index_Term('zend'), 0);
  438. $query->addTerm(new Zend_Search_Lucene_Index_Term('framework'), 2);]]></programlisting>
  439. <para>
  440. будет искать фразу 'zend ????? download', такой запрос соответствует фразам
  441. 'zend platform download', 'zend studio download',
  442. 'zend core download', 'zend framework download' и т.д.
  443. <!--
  444. will search for 'zend ????? download' phrase and match 'zend platform download', 'zend studio download',
  445. 'zend core download', 'zend framework download' and so on.
  446. -->
  447. </para>
  448. <programlisting language="php"><![CDATA[<?php
  449. $query = new Zend_Search_Lucene_Search_Query_Phrase();
  450. $query->addTerm(new Zend_Search_Lucene_Index_Term('zend', 'title'));
  451. $query->addTerm(new Zend_Search_Lucene_Index_Term('framework', 'title'));]]></programlisting>
  452. <para>
  453. будет искать фразу 'zend framework' в поле 'title'.
  454. <!--
  455. will search for 'zend framework' phrase in a 'title' field.
  456. -->
  457. </para>
  458. <para>
  459. Коэффициент расстояния устанавливает допустимое количество других слов,
  460. находящихся между словами во фразе запроса. Если он равен нулю, то
  461. ищется точная фраза. При бОльших значениях это будет работать как
  462. оператор WITHIN или NEAR
  463. <!--
  464. Sloop factor sets the number of other words permitted between words in query phrase. If zero,
  465. then this is an exact phrase search. For larger values this works like a WITHIN or NEAR operator.
  466. -->
  467. </para>
  468. <para>
  469. По сути, это управляемое расстояние, где единицы соответствуют
  470. перемене мест элементов относительно их позиции во фразе поиска.
  471. Например, для переключения порядка двух слов требуются две перемены мест
  472. (первое перемещение помещает слова друг над другом). Поэтому
  473. для того, чтобы разрешить изменение порядка фраз, коэффициент
  474. расстояния должен быть равен, как минимум, двум.
  475. <!--
  476. The slop is in fact an edit-distance, where the units correspond to
  477. moves of terms in the query phrase
  478. out of position. For example, to switch the order of two words
  479. requires two moves (the first move places
  480. the words atop one another), so to permit re-orderings of phrases,
  481. the slop must be at least two.
  482. -->
  483. </para>
  484. <para>
  485. Более точные соответствия имеют бОльшую релевантность, чем менее точные,
  486. таким образом, результаты сортируются по точности. По умолчанию
  487. коэффициент расстояния равен нулю, что означает точное соответствие.
  488. <!--
  489. More exact matches are scored higher than sloppier matches, thus search
  490. results are sorted by exactness.
  491. The slop is zero by default, requiring exact matches.
  492. -->
  493. </para>
  494. <para>
  495. Коэффициент расстояния может быть указан после создания запроса:
  496. <!--
  497. Sloop factor can be assigned after query creation:
  498. -->
  499. </para>
  500. <programlisting language="php"><![CDATA[<?php
  501. // Запрос без пропусков.
  502. $query = new Zend_Search_Lucene_Search_Query_Phrase(array('word1', 'word2'));
  503. // Поиск 'word1 word2', 'word1 ... word2'
  504. $query->setSlop(1);
  505. $hits1 = $index->find($query);
  506. // Поиск 'word1 word2', 'word1 ... word2',
  507. // 'word1 ... ... word2', 'word2 word1'
  508. $query->setSlop(2);
  509. $hits2 = $index->find($query);]]></programlisting>
  510. </sect2>
  511. </sect1>
  512. <!--
  513. vim:se ts=4 sw=4 et:
  514. -->