Zend_Search_Lucene-QueryLanguage.xml 27 KB


  1. <sect1 id="zend.search.lucene.query-language">
  2. <title>Язык запросов<!--Query Language--></title>
  3. <para>
  4. Java Lucene и Zend_Search_Lucene предоставляют мощный язык запросов.
  5. <!--
  6. Java Lucene and Zend_Search_Lucene provide quite powerful query language.
  7. -->
  8. </para>
  9. <para>
  10. Он в основном один и тот же, но имеются некоторые различия, которые
  11. будут описаны ниже.
  12. <!--
  13. It mostly the same, but has some diffirences, which are mentioned below.
  14. -->
  15. </para>
  16. <para>
  17. Полную документацию по синтаксису запросов для Java Lucene можно найти
  18. <ulink url="http://lucene.apache.org/java/docs/queryparsersyntax.html">здесь</ulink>.
  19. <!--
  20. Full Java Lucene query language syntax documentation can be found
  21. <ulink url="http://lucene.apache.org/java/docs/queryparsersyntax.html">here</ulink>.
  22. -->
  23. </para>
  24. <sect2 id="zend.search.lucene.query-language.terms">
  25. <title>Элементы<!--Terms--></title>
  26. <para>
  27. Запрос делится на элементы и операторы. Есть следующие типы
  28. элементов: одиночный элемент, фразы и подзапросы.
  29. <!--
  30. A query is broken up into terms and operators. There are three types of terms: Single Terms, Phrases,
  31. and Subqueries.
  32. -->
  33. </para>
  34. <para>
  35. Одиночный элемент – это одно слово, например: "test" или "hello".
  36. <!--
  37. A Single Term is a single word such as "test" or "hello".
  38. -->
  39. </para>
  40. <para>
  41. Фраза – это группа слов, окруженная двойными кавычками, например:
  42. "hello dolly".
  43. <!--
  44. A Phrase is a group of words surrounded by double quotes such as "hello dolly".
  45. -->
  46. </para>
  47. <para>
  48. Подзапрос – это запрос, окруженный скобками, например: "(hello
  49. dolly)".
  50. <!--
  51. A Subquery is a query surrounded by parentheses such as "(hello dolly)".
  52. -->
  53. </para>
  54. <para>
  55. Несколько элемнтов могут комбинироваться с булевыми операторами для
  56. составления более сложных запросов (см. ниже).
  57. <!--
  58. Multiple terms can be combined together with Boolean operators to form a more complex query (see below).
  59. -->
  60. </para>
  61. </sect2>
  62. <sect2 id="zend.search.lucene.query-language.fields">
  63. <title>Поля<!--Fields--></title>
  64. <para>
  65. Lucene поддерживает данные, хранящиеся в полях. Производя поиск,
  66. можно указывать поля или использовать поле по умолчанию. Имена полей
  67. зависят от проиндексированных данных, а используемое по умолчание
  68. поле определяется через текущие настройки.
  69. <!--
  70. Lucene supports fielded data. When performing a search you can either specify a field, or use
  71. the default field. The field names depend on indexed data and default field is defined
  72. by current settings.
  73. -->
  74. </para>
  75. <para>
  76. Первым и важным отличием от Java Lucene является то, что
  77. по умолчанию элементы ищутся <emphasis>по всем полям</emphasis>.
  78. <!--
  79. The first and major difference from Java Lucene is that terms are searched through
  80. <emphasis>all fields</emphasis> by default.
  81. -->
  82. </para>
  83. <para>
  84. В классе Zend_Search_Lucene есть два статических метода, которые
  85. позволяют работать с настройками:
  86. <!--
  87. There are two static methods in Zend_Search_Lucene class, which allow to operate with this settengs:
  88. -->
  89. </para>
  90. <programlisting language="php"><![CDATA[<?php
  91. $defaultSearchField = Zend_Search_Lucene::getDefaultSearchField();
  92. ...
  93. Zend_Search_Lucene::setDefaultSearchField('contents');]]></programlisting>
  94. <para>
  95. Значение <constant>NULL</constant> означает, что поиск производится по всем
  96. полям. Это значение настройки по умолчанию.
  97. <!--
  98. <constant>NULL</constant> value means, that search is performed through all field. It's a default setting.
  99. -->
  100. </para>
  101. <para>
  102. Вы можете указать поле, набирая имя поля с двоеточием ":" в конце
  103. и затем искомый элемент.
  104. <!--
  105. You can specify field by typing the field name followed by a colon ":" and then the term you
  106. are looking for.
  107. -->
  108. </para>
  109. <para>
  110. Для примера предположим, что индекс Lucene содержит два поля -
  111. 'title' (заголовок) и 'text' (текст), 'text' является полем,
  112. используемым по умолчанию. Если вы хотите найти документ с
  113. заголовком "The Right Way", который содержит текст "don't go
  114. this way", то можете ввести:
  115. <!--
  116. As an example, let's assume a Lucene index contains two fields, title and text and text is the default field.
  117. If you want to find the document entitled "The Right Way" which contains the text "don't go this way",
  118. you can enter:
  119. -->
  120. </para>
  121. <programlisting language="querystring"><![CDATA[title:"The Right Way" AND text:go]]></programlisting>
  122. <para>
  123. или
  124. </para>
  125. <programlisting language="querystring"><![CDATA[title:"Do it right" AND go]]></programlisting>
  126. <para>
  127. Если 'text' является полем, используемым по умолчанию, то указание
  128. поля не требуется.
  129. <!--
  130. If "text" is the default field, the field indicator is not required.
  131. -->
  132. </para>
  133. <para>
  134. Важно: поле действительно только для того элемента, фразы или
  135. подзапроса, перед которым он непосредственно стоит. Таким образом,
  136. запрос
  137. <!--
  138. Note: The field is only valid for the term, phrase or subquery that it directly precedes,
  139. so the query
  140. -->
  141. <programlisting language="querystring"><![CDATA[title:Do it right]]></programlisting>
  142. будет искать в поле 'title' только "Do". Поиск "it" и "right" будет
  143. производиться в полях, используемых по умолчанию, если установлены
  144. поля по умолчанию, или по всем полям, если вместо поля по умолчанию
  145. установлено <constant>NULL</constant>.
  146. <!--
  147. Will only find "Do" in the title field. It will find "it" and "right" in the default field,
  148. if default field is set, or in tha all indexed fields, if default field is set to <constant>NULL</constant>.
  149. -->
  150. </para>
  151. </sect2>
  152. <sect2 id="zend.search.lucene.query-language.modifiers">
  153. <title>Модификаторы элементов<!--Term Modifiers--></title>
  154. <para>
  155. Lucene поддерживает модификацию элементов запроса для предоставления
  156. широкого диапазона опций поиска.
  157. <!--
  158. Lucene supports modifying query terms to provide a wide range of searching options.
  159. -->
  160. </para>
  161. <para>
  162. Zend_Search_Lucene сейчас поддерживает модификатор "~" только для
  163. фраз
  164. <!--
  165. Zend_Search_Lucene supports "~" modifier only for phrases now
  166. -->
  167. <footnote>
  168. <para>
  169. "~" по отношению к элементам используется для нечеткого
  170. поиска, но запросы для нечеткого поиска еще не
  171. поддерживаются.
  172. <!--
  173. "~" for terms is used for fuzzy search, but fuzzy search queries are not supported yet.
  174. -->
  175. </para>
  176. </footnote>.
  177. </para>
  178. </sect2>
  179. <sect2 id="zend.search.lucene.query-language.proximity-search">
  180. <title>Поиск по критерию близости<!--Proximity Searches--></title>
  181. <para>
  182. Lucene поддерживает поиск слов, находящихся в пределах определенного
  183. расстояния друг от друга. Для того, чтобы производить поиск по
  184. критерию близости, используйте тильду "~" в конце фразы. Например,
  185. для того, чтобы найти в документе "Zend" и "Framework" в пределах
  186. 10 слов, используйте следующий запрос:
  187. <!--
  188. Lucene supports finding words are a within a specific distance away. To do a proximity search
  189. use the tilde, "~", symbol at the end of a Phrase. For example to search for a "Zend" and
  190. "Framework" within 10 words of each other in a document use the search:
  191. -->
  192. <programlisting language="querystring"><![CDATA["Zend Framework"~10]]></programlisting>
  193. </para>
  194. </sect2>
  195. <sect2 id="zend.search.lucene.query-language.boosting">
  196. <title>Усиление элемента<!--Boosting a Term--></title>
  197. <para>
  198. Java Lucene и Zend_Search_Lucene предоставляют уровень релевантности
  199. соответствующих запросу документов, основыванный на количестве
  200. найденных элементов. Для того, чтобы усилить элемент, используйте
  201. знак вставки "^" с коэффициентом усиления после этого элемента. Чем
  202. больше коэффициент усиления, то тем более релевантным будет элемент.
  203. <!--
  204. Java Lucene and Zend_Search_Lucene provide the relevance level of matching documents based
  205. on the terms found. To boost a term use the caret, "^", symbol with a boost factor (a number)
  206. at the end of the term you are searching. The higher the boost factor, the more relevant
  207. the term will be.
  208. -->
  209. </para>
  210. <para>
  211. Усиление элементов позволяет управлять релевантностью документа.
  212. Например, если вы ищете
  213. <!--
  214. Boosting allows you to control the relevance of a document by boosting its term. For example,
  215. if you are searching for
  216. -->
  217. <programlisting language="querystring"><![CDATA[PHP framework]]></programlisting>
  218. и хотите, чтобы элемент 'PHP' был более релевантным, то усильте
  219. его, используя символ ^ с коэффициентом усиления после этого
  220. элемента:
  221. <!--
  222. and you want the term "PHP" to be more relevant boost it using the ^ symbol along with the
  223. boost factor next to the term. You would type:
  224. -->
  225. <programlisting language="querystring"><![CDATA[PHP^4 framework]]></programlisting>
  226. Это сделает более релевантными те документы, в которых встречается
  227. элемент 'PHP'. Вы можете также усиливать фразы и подзапросы, как в
  228. примере ниже:
  229. <!--
  230. This will make documents with the term PHP appear more relevant. You can also boost Phrase
  231. Terms and subqueries as in the example:
  232. -->
  233. <programlisting language="querystring"><![CDATA["PHP framework"^4 "Zend Framework"]]></programlisting>
  234. По умолчанию коэффициент усиления равен 1. Несмотря на то, что
  235. коэффициент усиления должен быть положительным числом, он может быть
  236. меньше 1 (например, 0.2).
  237. <!--
  238. By default, the boost factor is 1. Although the boost factor must be positive,
  239. it can be less than 1 (e.g. 0.2)
  240. -->
  241. </para>
  242. </sect2>
  243. <sect2 id="zend.search.lucene.query-language.boolean">
  244. <title>Булевы операторы<!--Boolean Operators--></title>
  245. <para>
  246. Булевы операторы позволяют комбинировать элементы через логические
  247. операторы. Lucene поддерживает AND, "+", OR, NOT и "-" как булевы
  248. операторы. Java Lucene требует, чтобы все булевы операторы были в
  249. верхнем регистре, Zend_Search_Lucene этого не требует.
  250. <!--
  251. Boolean operators allow terms to be combined through logic operators.
  252. Lucene supports AND, "+", OR, NOT and "-" as Boolean operators.
  253. Java Lucene needs boolean operators t obe ALL CAPS. Zend_Search_Lucene doesn't.
  254. -->
  255. </para>
  256. <para>
  257. Операторы AND, OR, NOT и "+", "-" определяют два различных стиля
  258. построения запросов. В отличие от Java Lucene, Zend_Search_Lucene не
  259. позволяет смешивать оба стиля.
  260. <!--
  261. AND, OR, and NOT operators and "+", "-" defines two styles to construct boolean queries.
  262. As opposed to Java Lucene Zend_Search_Lucene doesn't allow to mix these two styles.
  263. -->
  264. </para>
  265. <para>
  266. Если используется стиль AND/OR/NOT, то операторы AND/OR должны
  267. находиться между всеми элементами запроса. Перед любым элементом
  268. может также находиться оператор NOT. Оператор AND имеет более
  269. высокий приоритет, чем OR. Этим Zend_Search_Lucene отличается от
  270. Java Lucene.
  271. <!--
  272. If AND/OR/NOT style is used, then AND/OR operator must be present between all query terms.
  273. Each term may also be preceded by NOT operator. AND operator has higher precedence than OR.
  274. It differs from Java Lucene behavior.
  275. -->
  276. </para>
  277. <sect3 id="zend.search.lucene.query-language.boolean.and">
  278. <title>AND</title>
  279. <para>
  280. Оператор AND означает, что документ должен соответствовать всем
  281. элементам в "группе AND".
  282. <!--
  283. The AND operator means, that all terms in "AND group" must match document.
  284. -->
  285. </para>
  286. <para>
  287. Для поиск документов, содержащих "PHP framework" м "Zend
  288. Framework" используется запрос:
  289. <!--
  290. To search for documents that contain "PHP framework" and "Zend Framework" use the query:
  291. -->
  292. <programlisting language="querystring"><![CDATA["PHP framework" AND "Zend Framework"]]></programlisting>
  293. </para>
  294. </sect3>
  295. <sect3 id="zend.search.lucene.query-language.boolean.or">
  296. <title>OR</title>
  297. <para>
  298. Оператор OR делит запрос на несколько необязательных частей.
  299. <!--
  300. The OR operator devides query into several optional parts.
  301. -->
  302. </para>
  303. <para>
  304. Для поиска документов, содержащих "PHP framework" или "Zend
  305. Framework" используется запрос:
  306. <!--
  307. To search for documents that contain "PHP framework" or "Zend Framework" use the query:
  308. -->
  309. <programlisting language="querystring"><![CDATA["PHP framework" OR "Zend Framework"]]></programlisting>
  310. </para>
  311. </sect3>
  312. <sect3 id="zend.search.lucene.query-language.boolean.not">
  313. <title>NOT</title>
  314. <para>
  315. Оператор NOT исключает документы, содержащие элемент после NOT.
  316. Но "группа AND", содержащая только элементы с оператором NOT,
  317. даст пустой результат вместо всего набора проиндексированных
  318. документов.
  319. <!--
  320. The NOT operator excludes documents that contain the term after NOT. But "AND group", which contains
  321. only terms with NOT operator, gives empty result instead of full set indexed documents.
  322. -->
  323. </para>
  324. <para>
  325. Для поиска документов, содержащих "PHP framework", но без "Zend
  326. Framework", используется запрос:
  327. <!--
  328. To search for documents that contain "PHP framework" but not "Zend Framework" use the query:
  329. -->
  330. <programlisting language="querystring"><![CDATA["PHP framework" AND NOT "Zend Framework"]]></programlisting>
  331. </para>
  332. </sect3>
  333. <sect3 id="zend.search.lucene.query-language.boolean.other-form">
  334. <title>Операторы &amp;&amp;, ||, и !<!--&amp;&amp;, ||, and ! operators--></title>
  335. <para>
  336. Операторы &amp;&amp;, ||, и ! могут использоваться вместо AND,
  337. OR и NOT.
  338. <!--
  339. &amp;&amp;, ||, and ! may be used instead of AND, OR, and NOT operators.
  340. -->
  341. </para>
  342. </sect3>
  343. <sect3 id="zend.search.lucene.query-language.boolean.plus">
  344. <title>+</title>
  345. <para>
  346. "+" означает, что документ должен соответствовать элементу,
  347. находящемуся после "+".
  348. <!--
  349. The "+" or required operator requires that the term after the "+" symbol must match the document.
  350. -->
  351. </para>
  352. <para>
  353. Для поиска документов, которые должны содержать "Zend" и могут
  354. содержать "Framework", используется запрос:
  355. <!--
  356. To search for documents that must contain "Zend" and may contain "Framework" use the query:
  357. -->
  358. <programlisting language="querystring"><![CDATA[+Zend Framework]]></programlisting>
  359. </para>
  360. </sect3>
  361. <sect3 id="zend.search.lucene.query-language.boolean.minus">
  362. <title>-</title>
  363. <para>
  364. "-" исключает документы, соответствующие элементу находящемуся
  365. после него.
  366. <!--
  367. The "-" or prohibit operator excludes documents that matches the term after the "-" symbol.
  368. -->
  369. </para>
  370. <para>
  371. Для поиска документов, содержащих "PHP framework",
  372. но без "Zend Framework", используется запрос:
  373. <!--
  374. To search for documents that contain "PHP framework" but not "Zend Framework" use the query:
  375. -->
  376. <programlisting language="querystring"><![CDATA["PHP framework" -"Zend Framework"]]></programlisting>
  377. </para>
  378. </sect3>
  379. <sect3 id="zend.search.lucene.query-language.boolean.no-operator">
  380. <title>Отсутствие оператора<!--no operator--></title>
  381. <para>
  382. Если не не указан оператор, то поведение определяется
  383. используемым по умолчанию булевым оператором.
  384. <!--
  385. If no operator is used, then behavior is defined by "default boolean operator".
  386. -->
  387. </para>
  388. <para>
  389. По умолчанию таким оператором является <code>OR</code>.
  390. <!--
  391. It's <code>OR</code> by default.
  392. -->
  393. </para>
  394. <para>
  395. Это означает, что данный элемент является необязательным. Он
  396. может как присутствовать, так и не присутствовать в документе,
  397. но документы с этим элементом имеют более высокий ранг.
  398. <!--
  399. That means, that term is optional. It may be or may not be presented within document, but documents with this term
  400. will have higher score.
  401. -->
  402. </para>
  403. <para>
  404. Для поиска документов, которые должны содержать "PHP framework"
  405. и могут содержать "Zend Framework", используется запрос:
  406. <!--
  407. To search for documents that requires "PHP framework" and may contain "Zend Framework" use the query:
  408. -->
  409. <programlisting language="querystring"><![CDATA[+"PHP framework" "Zend Framework"]]></programlisting>
  410. </para>
  411. <para>
  412. Используемые по умолчанию булевы операторы могут быть
  413. установлены или получены с помощью методов
  414. <code>Zend_Search_Lucene_Search_QueryParser::setDefaultOperator($operator)</code>
  415. и <code>Zend_Search_Lucene_Search_QueryParser::getDefaultOperator()</code>.
  416. <!--
  417. Default boolean operator may be set or retrieved with
  418. <code>Zend_Search_Lucene_Search_QueryParser::setDefaultOperator($operator)</code> and
  419. <code>Zend_Search_Lucene_Search_QueryParser::getDefaultOperator()</code> methods.
  420. -->
  421. </para>
  422. <para>
  423. Эти методы работают с константами <code>Zend_Search_Lucene_Search_QueryParser::B_AND</code> и <code>Zend_Search_Lucene_Search_QueryParser::B_OR</code>.
  424. <!--
  425. These methods operate with
  426. <code>Zend_Search_Lucene_Search_QueryParser::B_AND</code> and
  427. <code>Zend_Search_Lucene_Search_QueryParser::B_OR</code> constants.
  428. -->
  429. </para>
  430. </sect3>
  431. </sect2>
  432. <sect2 id="zend.search.lucene.query-language.grouping">
  433. <title>Групирование<!--Grouping--></title>
  434. <para>
  435. Java Lucene и Zend_Search_Lucene поддерживают использование
  436. скобок для группирования условий в подзапросы. Это может быть
  437. полезным, если вы хотите контролировать булеву логику для запросов
  438. или смешивать различные стили запросов:
  439. <!--
  440. Java Lucene and Zend_Search_Lucene support using parentheses to group clauses to form sub queries. This can be
  441. useful if you want to control the boolean logic for a query or mix different boolean query styles:
  442. -->
  443. <programlisting language="querystring"><![CDATA[+(framework OR library) +php]]></programlisting>
  444. Zend_Search_Lucene поддердивает подзапросы на любой уровни
  445. вложенности.
  446. <!--
  447. Zend_Search_Lucene supports subqueries of any level.
  448. -->
  449. </para>
  450. </sect2>
  451. <sect2 id="zend.search.lucene.query-language.field-grouping">
  452. <title>Группирование полей<!--Field Grouping--></title>
  453. <para>
  454. Lucene поддерживает использование скобок для группирования
  455. нескольких условий применительно к одному полю.
  456. <!--
  457. Lucene supports using parentheses to group multiple clauses to a single field.
  458. -->
  459. </para>
  460. <para>
  461. Для поиска заголовка, содержащего слово "return" и фразу "pink
  462. panther" используйте запрос:
  463. <!--
  464. To search for a title that contains both the word "return" and the phrase "pink panther" use the query:
  465. -->
  466. <programlisting language="querystring"><![CDATA[title:(+return +"pink panther")]]></programlisting>
  467. Zend_Search_Lucene поддердивает подзапросы любого уровня
  468. вложенности.
  469. <!--
  470. Zend_Search_Lucene supports subqueries of any level.
  471. -->
  472. </para>
  473. </sect2>
  474. <sect2 id="zend.search.lucene.query-language.escaping">
  475. <title>Экранирование специальных символов<!--Escaping Special Characters--></title>
  476. <para>
  477. Lucene поддерживает экранирование тех специальных символов, которые
  478. являются частью синтаксиса запросов. Список специальных символов:
  479. <!--
  480. Lucene supports escaping special characters that are part of the query syntax. The current list special
  481. characters are:
  482. -->
  483. </para>
  484. <para>
  485. + - &amp;&amp; || ! ( ) { } [ ] ^ " ~ * ? : \
  486. </para>
  487. <para>
  488. + и - внутри элемента обрабатываются как обычные символы.
  489. <!--
  490. + and - inside single terms are treated as common characters.
  491. -->
  492. </para>
  493. <para>
  494. Для того, чтобы экранировать эти символы, используйте \ перед
  495. символом. Например, для поиска (1+1):2 используйте запрос:
  496. <!--
  497. To escape these character use the \ before the character. For example to search for (1+1):2 use the query:
  498. -->
  499. <programlisting language="querystring"><![CDATA[\(1\+1\)\:2]]></programlisting>
  500. </para>
  501. </sect2>
  502. </sect1>