Zend_Search_Lucene-Extending.xml 19 KB

123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124125126127128129130131132133134135136137138139140141142143144145146147148149150151152153154155156157158159160161162163164165166167168169170171172173174175176177178179180181182183184185186187188189190191192193194195196197198199200201202203204205206207208209210211212213214215216217218219220221222223224225226227228229230231232233234235236237238239240241242243244245246247248249250251252253254255256257258259260261262263264265266267268269270271272273274275276277278279280281282283284285286287288289290291292293294295296297298299300301302303304305306307308309310311312313314315316317318319320321322323324325326327328329330331332333334335336337338339340341342343344345346347348349350351352353354355356357358359360361362363364365366367368369370371372373374375376377378379380381382383384385386387388389390391392393394395396397398399400401402403404405406407408409410411412413414415416417418419420421422423424425426427428429430431432433434435436437438439440441442443444445446447448449450451452453454455456457458459460461462463464465466467468469470471472473474475476477478479480481482483484485486487488489490491492493494495496497498499500501502503504505506507508509510511512513514
  1. <?xml version="1.0" encoding="UTF-8"?>
  2. <!-- Reviewed: no -->
  3. <!-- EN-Revision: 24249 -->
  4. <sect1 id="zend.search.lucene.extending">
  5. <title>拡張性</title>
  6. <sect2 id="zend.search.lucene.extending.analysis">
  7. <title>テキスト解析</title>
  8. <para>
  9. <classname>Zend_Search_Lucene_Analysis_Analyzer</classname> クラスは、
  10. ドキュメントのテキストフィールドをトークン化 (単語に分解)
  11. する際にインデクサが使用します。
  12. </para>
  13. <para>
  14. <methodname>Zend_Search_Lucene_Analysis_Analyzer::getDefault()</methodname> および
  15. <methodname>Zend_Search_Lucene_Analysis_Analyzer::setDefault()</methodname>
  16. メソッドで、デフォルトの解析器を取得あるいは設定します。
  17. </para>
  18. <para>
  19. したがって、独自のテキスト解析器を指定したり、
  20. 定義済みの解析器である
  21. <classname>Zend_Search_Lucene_Analysis_Analyzer_Common_Text</classname> および
  22. <classname>Zend_Search_Lucene_Analysis_Analyzer_Common_Text_CaseInsensitive</classname> (デフォルト)
  23. の中から選んだものを指定したりできることになります。
  24. これらの解析器はどちらもトークンを文字列として解釈しますが、
  25. <classname>Zend_Search_Lucene_Analysis_Analyzer_Common_Text_CaseInsensitive</classname>
  26. はトークンを小文字に変換します。
  27. </para>
  28. <para>
  29. 解析器を変更するには、以下のようにします。
  30. </para>
  31. <programlisting language="php"><![CDATA[
  32. Zend_Search_Lucene_Analysis_Analyzer::setDefault(
  33. new Zend_Search_Lucene_Analysis_Analyzer_Common_Text());
  34. ...
  35. $index->addDocument($doc);
  36. ]]></programlisting>
  37. <para>
  38. ユーザ定義の解析器のための共通の親クラスとして設計されているのが
  39. <classname>Zend_Search_Lucene_Analysis_Analyzer_Common</classname> です。
  40. ユーザが定義しなければならないのは <methodname>reset()</methodname> および
  41. <methodname>nextToken()</methodname> メソッドのみで、
  42. これは文字列を $_input から受け取って順に返します
  43. (<constant>NULL</constant> が最後のデータを表します)。
  44. </para>
  45. <para>
  46. <methodname>nextToken()</methodname> メソッドでは、各トークンに対して
  47. <methodname>normalize()</methodname> メソッドを適用しなければなりません。
  48. これにより、作成した解析器をトークンフィルタとして使用できるようになります。
  49. </para>
  50. <para>
  51. 独自のテキスト解析器の例を示します。
  52. これは、数字つきの単語をひとつの言葉として扱います。
  53. <example id="zend.search.lucene.extending.analysis.example-1">
  54. <title>独自のテキスト解析器</title>
  55. <programlisting language="php"><![CDATA[
  56. /**
  57. * これは独自のテキスト解析器で、数字つきの単語をひとつの言葉として
  58. * 扱います
  59. */
  60. class My_Analyzer extends Zend_Search_Lucene_Analysis_Analyzer_Common
  61. {
  62. private $_position;
  63. /**
  64. * トークンストリームをリセットします
  65. */
  66. public function reset()
  67. {
  68. $this->_position = 0;
  69. }
  70. /**
  71. * トークンストリーム API
  72. * 次のトークンを取得します。
  73. * ストリームの最後に達すると null を返します。
  74. *
  75. * @return Zend_Search_Lucene_Analysis_Token|null
  76. */
  77. public function nextToken()
  78. {
  79. if ($this->_input === null) {
  80. return null;
  81. }
  82. while ($this->_position < strlen($this->_input)) {
  83. // 空白を読み飛ばします
  84. while ($this->_position < strlen($this->_input) &&
  85. !ctype_alnum( $this->_input[$this->_position] )) {
  86. $this->_position++;
  87. }
  88. $termStartPosition = $this->_position;
  89. // トークンを読み込みます
  90. while ($this->_position < strlen($this->_input) &&
  91. ctype_alnum( $this->_input[$this->_position] )) {
  92. $this->_position++;
  93. }
  94. // 空のトークン、あるいはストリームが終了
  95. if ($this->_position == $termStartPosition) {
  96. return null;
  97. }
  98. $token = new Zend_Search_Lucene_Analysis_Token(
  99. substr($this->_input,
  100. $termStartPosition,
  101. $this->_position -
  102. $termStartPosition),
  103. $termStartPosition,
  104. $this->_position);
  105. $token = $this->normalize($token);
  106. if ($token !== null) {
  107. return $token;
  108. }
  109. // トークンがスキップされた場合は継続します
  110. }
  111. return null;
  112. }
  113. }
  114. Zend_Search_Lucene_Analysis_Analyzer::setDefault(
  115. new My_Analyzer());
  116. ]]></programlisting>
  117. </example>
  118. </para>
  119. </sect2>
  120. <sect2 id="zend.search.lucene.extending.filters">
  121. <title>トークンのフィルタリング</title>
  122. <para>
  123. <classname>Zend_Search_Lucene_Analysis_Analyzer_Common</classname>
  124. 解析器には、トークンをフィルタリングする仕組みもあります。
  125. mechanism.
  126. </para>
  127. <para>
  128. <classname>Zend_Search_Lucene_Analysis_TokenFilter</classname>
  129. クラスは、このフィルタリングの仕組みを抽象化したものです。
  130. 自分でフィルタを作成する際には、これを継承します。
  131. </para>
  132. <para>
  133. 独自に作成するフィルタは、
  134. <methodname>normalize()</methodname> メソッドを実装する必要があります。
  135. このメソッドは、入力トークンを変換したり
  136. トークンを読み飛ばす指示を出したりします。
  137. </para>
  138. <para>
  139. Analysis のサブパッケージとして、これらの三つのフィルタが定義されています。
  140. <itemizedlist>
  141. <listitem>
  142. <para>
  143. <classname>Zend_Search_Lucene_Analysis_TokenFilter_LowerCase</classname>
  144. </para>
  145. </listitem>
  146. <listitem>
  147. <para>
  148. <classname>Zend_Search_Lucene_Analysis_TokenFilter_ShortWords</classname>
  149. </para>
  150. </listitem>
  151. <listitem>
  152. <para>
  153. <classname>Zend_Search_Lucene_Analysis_TokenFilter_StopWords</classname>
  154. </para>
  155. </listitem>
  156. </itemizedlist>
  157. </para>
  158. <para>
  159. <code>LowerCase</code> フィルタは、既に
  160. <classname>Zend_Search_Lucene_Analysis_Analyzer_Common_Text_CaseInsensitive</classname>
  161. 解析器で使用されています。これはデフォルトの解析器です。
  162. </para>
  163. <para>
  164. <code>ShortWords</code> および <code>StopWords</code>
  165. は、定義済み解析器あるいは独自の解析器でこのように使用します。
  166. </para>
  167. <programlisting language="php"><![CDATA[
  168. $stopWords = array('a', 'an', 'at', 'the', 'and', 'or', 'is', 'am');
  169. $stopWordsFilter =
  170. new Zend_Search_Lucene_Analysis_TokenFilter_StopWords($stopWords);
  171. $analyzer =
  172. new Zend_Search_Lucene_Analysis_Analyzer_Common_TextNum_CaseInsensitive();
  173. $analyzer->addFilter($stopWordsFilter);
  174. Zend_Search_Lucene_Analysis_Analyzer::setDefault($analyzer);
  175. ]]></programlisting>
  176. <programlisting language="php"><![CDATA[
  177. $shortWordsFilter = new Zend_Search_Lucene_Analysis_TokenFilter_ShortWords();
  178. $analyzer =
  179. new Zend_Search_Lucene_Analysis_Analyzer_Common_TextNum_CaseInsensitive();
  180. $analyzer->addFilter($shortWordsFilter);
  181. Zend_Search_Lucene_Analysis_Analyzer::setDefault($analyzer);
  182. ]]></programlisting>
  183. <para>
  184. <classname>Zend_Search_Lucene_Analysis_TokenFilter_StopWords</classname>
  185. のコンストラクタには、禁止単語の配列を入力として渡します。
  186. この禁止単語はファイルから読み込ませることもできます。
  187. </para>
  188. <programlisting language="php"><![CDATA[
  189. $stopWordsFilter = new Zend_Search_Lucene_Analysis_TokenFilter_StopWords();
  190. $stopWordsFilter->loadFromFile($my_stopwords_file);
  191. $analyzer =
  192. new Zend_Search_Lucene_Analysis_Analyzer_Common_TextNum_CaseInsensitive();
  193. $analyzer->addFilter($stopWordsFilter);
  194. Zend_Search_Lucene_Analysis_Analyzer::setDefault($analyzer);
  195. ]]></programlisting>
  196. <para>
  197. ファイル形式は一般的なテキストファイルで、各文字列にひとつの単語が含まれるものとなります。
  198. '#' を指定すると、その文字列はコメントであるとみなします。
  199. </para>
  200. <para>
  201. <classname>Zend_Search_Lucene_Analysis_TokenFilter_ShortWords</classname>
  202. のコンストラクタには、オプションの引数をひとつ指定できます。
  203. これは単語長の制限を表し、デフォルト値は 2 です。
  204. </para>
  205. </sect2>
  206. <sect2 id="zend.search.lucene.extending.scoring">
  207. <title>重み付けのアルゴリズム</title>
  208. <para>
  209. クエリ <literal>q</literal> の、ドキュメント <literal>d</literal>
  210. に対するスコアは以下のように定義されます。
  211. </para>
  212. <para>
  213. <code>score(q,d) = sum( tf(t in d) * idf(t) * getBoost(t.field in d) * lengthNorm(t.field in d) ) *
  214. coord(q,d) * queryNorm(q)</code>
  215. </para>
  216. <para>
  217. tf(t in d) - <classname>Zend_Search_Lucene_Search_Similarity::tf($freq)</classname> -
  218. ドキュメント内での単語あるいは熟語の出現頻度に基づく重み要素。
  219. </para>
  220. <para>
  221. idf(t) - <classname>Zend_Search_Lucene_Search_Similarity::idf($input, $reader)</classname> -
  222. 指定したインデックスに対する単純な単語の重み要素。
  223. </para>
  224. <para>
  225. getBoost(t.field in d) - 単語のフィールドの重み。
  226. </para>
  227. <para>
  228. lengthNorm($term) - フィールド内に含まれる単語の総数を正規化した値。
  229. この値はインデックスに保存されます。
  230. これらの値はフィールドの重みとともにインデックスに保存され、
  231. 検索コードによってヒットした各フィールドのスコアに掛けられます。
  232. </para>
  233. <para>
  234. 長いフィールドでマッチした場合は、あまり的確であるとはいえません。
  235. そのため、このメソッドの実装は通常、
  236. numTokens が大きいときにはより小さな値、
  237. numTokens が小さいときにはより大きな値を返すようになっています。
  238. </para>
  239. <para>
  240. coord(q,d) - <methodname>Zend_Search_Lucene_Search_Similarity::coord($overlap, $maxOverlap)</methodname> -
  241. ドキュメントに含まれる、検索対象の全単語の部分一致に基づく重み要素。
  242. </para>
  243. <para>
  244. 検索対象の単語のより多くの部分が存在しているほど、
  245. 検索結果としてよいものであるといえます。そのため、このメソッドの実装は通常、
  246. これらのパラメータの割合が大きいときにはより大きな値、
  247. 割合が小さいときにはより小さな値を返すようになっています。
  248. </para>
  249. <para>
  250. queryNorm(q) -
  251. 検索対象の各単語の重みの二乗の和で与えられる、クエリの正規化値。
  252. この値は、検索対象の各単語の重みに掛けられます。
  253. </para>
  254. <para>
  255. これは重み付けには影響しません。単に別のクエリの結果との差をなくすために使用されます。
  256. </para>
  257. <para>
  258. 重み付けのアルゴリズムを変更するには、独自の Similatity
  259. クラスを定義します。そのためには以下のように
  260. <classname>Zend_Search_Lucene_Search_Similarity</classname> クラスを継承し、
  261. <classname>Zend_Search_Lucene_Search_Similarity::setDefault($similarity);</classname>
  262. メソッドでそれをデフォルトとして設定します。
  263. </para>
  264. <programlisting language="php"><![CDATA[
  265. class MySimilarity extends Zend_Search_Lucene_Search_Similarity {
  266. public function lengthNorm($fieldName, $numTerms) {
  267. return 1.0/sqrt($numTerms);
  268. }
  269. public function queryNorm($sumOfSquaredWeights) {
  270. return 1.0/sqrt($sumOfSquaredWeights);
  271. }
  272. public function tf($freq) {
  273. return sqrt($freq);
  274. }
  275. /**
  276. * 現在は使用しません。曖昧検索の曖昧度を計算します。
  277. */
  278. public function sloppyFreq($distance) {
  279. return 1.0;
  280. }
  281. public function idfFreq($docFreq, $numDocs) {
  282. return log($numDocs/(float)($docFreq+1)) + 1.0;
  283. }
  284. public function coord($overlap, $maxOverlap) {
  285. return $overlap/(float)$maxOverlap;
  286. }
  287. }
  288. $mySimilarity = new MySimilarity();
  289. Zend_Search_Lucene_Search_Similarity::setDefault($mySimilarity);
  290. ]]></programlisting>
  291. </sect2>
  292. <sect2 id="zend.search.lucene.extending.storage">
  293. <title>保存先</title>
  294. <para>
  295. 抽象クラス Zend_Search_Lucene_Storage_Directory では、ディレクトリ機能を提供しています。
  296. </para>
  297. <para>
  298. Zend_Search_Lucene のコンストラクタでは、文字列あるいは
  299. Zend_Search_Lucene_Storage_Directory オブジェクトを入力として使用します。
  300. </para>
  301. <para>
  302. Zend_Search_Lucene_Storage_Directory_Filesystem クラスは、
  303. ファイルシステム用のディレクトリ機能を実装しています。
  304. </para>
  305. <para>
  306. Zend_Search_Lucene コンストラクタの入力に文字列を使用すると、
  307. インデックスリーダ (Zend_Search_Lucene オブジェクト)
  308. はそれをファイルシステムのパスと解釈し、
  309. Zend_Search_Lucene_Storage_Directory_Filesystem
  310. オブジェクトのインスタンスを作成します。
  311. </para>
  312. <para>
  313. 独自のディレクトリ機能を実装するには、
  314. Zend_Search_Lucene_Storage_Directory クラスを継承します。
  315. </para>
  316. <para>
  317. Zend_Search_Lucene_Storage_Directory のメソッドは以下のとおりです。
  318. </para>
  319. <programlisting language="php"><![CDATA[
  320. abstract class Zend_Search_Lucene_Storage_Directory {
  321. /**
  322. * 保存先を閉じます
  323. *
  324. * @return void
  325. */
  326. abstract function close();
  327. /**
  328. * $filename という名前の新しい空のファイルを、ディレクトリ内に作成します
  329. *
  330. * @param string $name
  331. * @return void
  332. */
  333. abstract function createFile($filename);
  334. /**
  335. * 既存の $filename をディレクトリから削除します
  336. *
  337. * @param string $filename
  338. * @return void
  339. */
  340. abstract function deleteFile($filename);
  341. /**
  342. * $filename で指定したファイルが存在する場合に true を返します
  343. *
  344. * @param string $filename
  345. * @return boolean
  346. */
  347. abstract function fileExists($filename);
  348. /**
  349. * ディレクトリ内の $filename の長さを返します
  350. *
  351. * @param string $filename
  352. * @return integer
  353. */
  354. abstract function fileLength($filename);
  355. /**
  356. * $filename の最終更新日時を UNIX タイムスタンプで返します
  357. *
  358. * @param string $filename
  359. * @return integer
  360. */
  361. abstract function fileModified($filename);
  362. /**
  363. * ディレクトリ内の既存のファイルの名前を変更します
  364. *
  365. * @param string $from
  366. * @param string $to
  367. * @return void
  368. */
  369. abstract function renameFile($from, $to);
  370. /**
  371. * $filename の更新時刻を現在の時刻にします
  372. *
  373. * @param string $filename
  374. * @return void
  375. */
  376. abstract function touchFile($filename);
  377. /**
  378. * ディレクトリ内の $filename についての
  379. * Zend_Search_Lucene_Storage_File オブジェクトを返します
  380. *
  381. * @param string $filename
  382. * @return Zend_Search_Lucene_Storage_File
  383. */
  384. abstract function getFileObject($filename);
  385. }
  386. ]]></programlisting>
  387. <para>
  388. Zend_Search_Lucene_Storage_Directory クラスの
  389. <methodname>getFileObject($filename)</methodname> メソッドは、
  390. Zend_Search_Lucene_Storage_File オブジェクトを返します。
  391. </para>
  392. <para>
  393. 抽象クラス Zend_Search_Lucene_Storage_File では、
  394. ファイルの抽象化およびインデックスファイルの基本的な読み込み機能を実装しています。
  395. </para>
  396. <para>
  397. ディレクトリ機能を実装するには Zend_Search_Lucene_Storage_File
  398. クラスを継承しなければなりません。
  399. </para>
  400. <para>
  401. Zend_Search_Lucene_Storage_File クラスを実装する際に
  402. オーバーロードしなければならないメソッドは 2 つだけです。
  403. </para>
  404. <programlisting language="php"><![CDATA[
  405. class MyFile extends Zend_Search_Lucene_Storage_File {
  406. /**
  407. * ファイル上の位置を指定し、そこにファイルポインタを進めます。
  408. * 新しい位置は、whence で指定した場所からオフセットのバイト数だけ
  409. * 進めた位置になります。whence に指定できる値は以下のいずれかです。
  410. * SEEK_SET - 先頭からオフセット分進めた位置に移動します。
  411. * SEEK_CUR - 現在位置からオフセット分だけ進めた位置に移動します。
  412. * SEEK_END - ファイルの終端からオフセット分だけ進めた位置に移動します。
  413. * (ファイルの終端から戻った位置を指定するには、オフセットに負の値を
  414. * 指定する必要があります)
  415. * 成功した場合に 0、それ以外の場合に -1 を返します。
  416. *
  417. * @param integer $offset
  418. * @param integer $whence
  419. * @return integer
  420. */
  421. public function seek($offset, $whence=SEEK_SET) {
  422. ...
  423. }
  424. /**
  425. * ファイルから $length バイトを読み込み、ファイルポインタを進めます。
  426. *
  427. * @param integer $length
  428. * @return string
  429. */
  430. protected function _fread($length=1) {
  431. ...
  432. }
  433. }
  434. ]]></programlisting>
  435. </sect2>
  436. </sect1>
  437. <!--
  438. vim:se ts=4 sw=4 et:
  439. -->