Zend_Dom-Query.xml 12 KB

123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124125126127128129130131132133134135136137138139140141142143144145146147148149150151152153154155156157158159160161162163164165166167168169170171172173174175176177178179180181182183184185186187188189190191192193194195196197198199200201202203204205206207208209210211212213214215216217218219220221222223224225226227228229230231232233234235236237238239240241242243244245246247248249250251252253254255256257258259260261262263264265266267268269270271
  1. <?xml version="1.0" encoding="UTF-8"?>
  2. <!-- Reviewed: no -->
  3. <!-- EN-Revision: 15103 -->
  4. <sect1 id="zend.dom.query">
  5. <title>Zend_Dom_Query</title>
  6. <para>
  7. <classname>Zend_Dom_Query</classname> を使用すると、XML や (X)HTML ドキュメントに対して
  8. XPath あるいは CSS セレクタを用いた問い合わせができるようになります。
  9. MVC アプリケーションの機能テストを支援するために作られたものですが、
  10. スクリーンスクレイパーを手早く作成するためにも使うことができます。
  11. </para>
  12. <para>
  13. CSS セレクタ記法は、ウェブ開発者にとってはシンプルでなじみのある記法です。
  14. XML 構造のドキュメントに対する問い合わせに使用できます。
  15. この記法は、スタイルシートを扱ったことのある人ならきっとおなじみでしょうし、
  16. Javascript のツールキットの中にも
  17. CSS セレクタを使用してノードを選択できる機能を持つものがあります
  18. (<ulink url="http://prototypejs.org/api/utility/dollar-dollar">Prototype の
  19. $$()</ulink> や
  20. <ulink url="http://api.dojotoolkit.org/jsdoc/dojo/HEAD/dojo.query">Dojo の
  21. dojo.query</ulink> をヒントにしてこのコンポーネントを作成しました)。
  22. </para>
  23. <sect2 id="zend.dom.query.operation">
  24. <title>動作原理</title>
  25. <para>
  26. <classname>Zend_Dom_Query</classname> を使用するには、
  27. <classname>Zend_Dom_Query</classname> オブジェクトのインスタンスを作成します。
  28. その際に、問い合わせたいドキュメント (文字列)
  29. をオプションで渡すことができます。
  30. ドキュメントを用意すれば、
  31. <code>query()</code> メソッドあるいは <code>queryXpath()</code>
  32. メソッドを使用することができます。どちらのメソッドも、
  33. マッチしたノードを含む <classname>Zend_Dom_Query_Result</classname>
  34. オブジェクトを返します。
  35. </para>
  36. <para>
  37. <classname>Zend_Dom_Query</classname> を使うことと
  38. DOMDocument + DOMXPath を使うことの最大の違いは、
  39. CSS セレクタによる選択が可能かどうかということです。
  40. 以下の内容を、任意の組み合わせで使用することができます。
  41. </para>
  42. <itemizedlist>
  43. <listitem><para>
  44. <emphasis>要素型</emphasis>: マッチさせたい要素の型を指定します。
  45. 'div', 'a', 'span', 'h2' などです。
  46. </para></listitem>
  47. <listitem><para>
  48. <emphasis>style 属性</emphasis>: マッチさせたい CSS style
  49. 属性を指定します。'.error', 'div.error', 'label.required'
  50. などです。ひとつの要素に複数のスタイルが定義されている場合は
  51. 指定したスタイルがスタイル宣言のどこかに存在すればマッチします。
  52. </para></listitem>
  53. <listitem><para>
  54. <emphasis>id 属性</emphasis>: マッチさせたい要素 ID 属性を指定します。
  55. '#content', 'div#nav' などです。
  56. </para></listitem>
  57. <listitem>
  58. <para>
  59. <emphasis>任意の属性</emphasis>:
  60. マッチさせたい任意の要素属性を指定します。
  61. 以下の 3 種類のマッチ形式を用意しています。
  62. </para>
  63. <itemizedlist>
  64. <listitem><para>
  65. <emphasis>完全マッチ</emphasis>: その文字列に完全にマッチする属性。
  66. 'div[bar="baz"]' は、"bar" 属性の値が正確に "baz"
  67. と一致する div 要素にマッチします。
  68. </para></listitem>
  69. <listitem><para>
  70. <emphasis>単語マッチ</emphasis>:
  71. 指定した文字列に一致する単語を含む属性。
  72. 'div[bar~="baz"]' は、"bar" 属性の値に単語 "baz"
  73. を含む div 要素にマッチします。
  74. '&lt;div bar="foo baz"&gt;' はマッチしますが、 '&lt;div
  75. bar="foo bazbat"&gt;' はマッチしません。
  76. </para></listitem>
  77. <listitem><para>
  78. <emphasis>部分文字列マッチ</emphasis>:
  79. その文字列を含む属性。'div[bar*="baz"]' は、
  80. "bar" 属性の値のどこかに文字列 "baz"
  81. を含む div 要素にマッチします。
  82. </para></listitem>
  83. </itemizedlist>
  84. </listitem>
  85. <listitem><para>
  86. <emphasis>直接の子孫</emphasis>:
  87. セレクタの間で '&gt;' を使用すると、
  88. 直接の子要素であることを表します。'div > span'
  89. は、'span' 要素のうち 'div' の直接の子であるものだけを選択します。
  90. 上のセレクタのどれとでも共用できます。
  91. </para></listitem>
  92. <listitem>
  93. <para>
  94. <emphasis>子孫</emphasis>:
  95. 複数のセレクタをひとつの文字列にまとめると、
  96. 探す階層を指定することができます。
  97. 'div .foo span #one' が探すのは id が 'one'
  98. である要素です。その要素は、'span'
  99. 要素の子孫 (その間の階層の数は問わない) であり、
  100. さらにその 'span' 要素はクラス 'foo' の要素の子孫
  101. (その間の階層の数は問わない) です。
  102. 同様に、そのクラス 'foo' の要素は 'div' 要素の子孫
  103. (その間の階層の数は問わない) となります。
  104. これは、たとえば以下のリストにおける単語 'One'
  105. へのリンクにマッチします。
  106. </para>
  107. <programlisting role="html"><![CDATA[
  108. <div>
  109. <table>
  110. <tr>
  111. <td class="foo">
  112. <div>
  113. Lorem ipsum <span class="bar">
  114. <a href="/foo/bar" id="one">One</a>
  115. <a href="/foo/baz" id="two">Two</a>
  116. <a href="/foo/bat" id="three">Three</a>
  117. <a href="/foo/bla" id="four">Four</a>
  118. </span>
  119. </div>
  120. </td>
  121. </tr>
  122. </table>
  123. </div>
  124. ]]>
  125. </programlisting>
  126. </listitem>
  127. </itemizedlist>
  128. <para>
  129. 問い合わせを実行したら、その結果のオブジェクトを用いてノードの情報を取得したり、
  130. そのノード (あるいはノードの内容) を取り出して操作したりすることができます。
  131. <classname>Zend_Dom_Query_Result</classname> は <code>Countable</code>
  132. と <code>Iterator</code> を実装しており、内部では結果を
  133. DOMNodes/DOMElements で保持しています。
  134. たとえば、次のようなコードを上の HTML に対して実行することを考えてみましょう。
  135. </para>
  136. <programlisting role="php"><![CDATA[
  137. $dom = new Zend_Dom_Query($html);
  138. $results = $dom->query('.foo .bar a');
  139. $count = count($results); // マッチした数: 4
  140. foreach ($results as $result) {
  141. // $result は DOMElement です
  142. }
  143. ]]>
  144. </programlisting>
  145. <para>
  146. <classname>Zend_Dom_Query</classname> では、
  147. <code>queryXpath()</code> メソッドで
  148. XPath クエリを直接使用することもできます。
  149. XPath クエリとして正しいものならなんでもこのメソッドに渡すことができ、
  150. 結果は <classname>Zend_Dom_Query_Result</classname> オブジェクトで返されます。
  151. </para>
  152. </sect2>
  153. <sect2 id="zend.dom.query.methods">
  154. <title>使用可能なメソッド</title>
  155. <para>
  156. <classname>Zend_Dom_Query</classname> 系のクラスでは、次のメソッドが使用できます。
  157. </para>
  158. <sect3 id="zend.dom.query.methods.zenddomquery">
  159. <title>Zend_Dom_Query</title>
  160. <para>
  161. 次のメソッドが
  162. <classname>Zend_Dom_Query</classname> で使用できます。
  163. </para>
  164. <itemizedlist>
  165. <listitem><para>
  166. <code>setDocumentXml($document)</code>:
  167. 対象となる XML 文字列を指定します。
  168. </para></listitem>
  169. <listitem><para>
  170. <code>setDocumentXhtml($document)</code>:
  171. 対象となる XHTML 文字列を指定します。
  172. </para></listitem>
  173. <listitem><para>
  174. <code>setDocumentHtml($document)</code>:
  175. 対象となる HTML 文字列を指定します。
  176. </para></listitem>
  177. <listitem><para>
  178. <code>setDocument($document)</code>:
  179. 対象となる文字列を指定します。<classname>Zend_Dom_Query</classname>
  180. がドキュメントの形式を自動判定します。
  181. </para></listitem>
  182. <listitem><para>
  183. <code>getDocument()</code>:
  184. オブジェクトに渡した元の文字列を取得します。
  185. </para></listitem>
  186. <listitem><para>
  187. <code>getDocumentType()</code>:
  188. オブジェクトに渡したドキュメントの形式を取得します。
  189. クラス定数 <code>DOC_XML</code>、<code>DOC_XHTML</code>
  190. あるいは <code>DOC_HTML</code> のいずれかとなります。
  191. </para></listitem>
  192. <listitem><para>
  193. <code>query($query)</code>:
  194. CSS セレクタ記法でドキュメントへの問い合わせを行います。
  195. </para></listitem>
  196. <listitem><para>
  197. <code>queryXpath($xPathQuery)</code>:
  198. XPath 記法でドキュメントへの問い合わせを行います。
  199. </para></listitem>
  200. </itemizedlist>
  201. </sect3>
  202. <sect3 id="zend.dom.query.methods.zenddomqueryresult">
  203. <title>Zend_Dom_Query_Result</title>
  204. <para>
  205. 先ほど説明したように、<classname>Zend_Dom_Query_Result</classname>
  206. は <code>Iterator</code> と
  207. <code>Countable</code> を実装しており、
  208. <code>foreach</code> ループで使用したり
  209. <code>count()</code> 関数を利用したりすることができます。
  210. さらに、次のメソッドを公開しています。
  211. </para>
  212. <itemizedlist>
  213. <listitem><para>
  214. <code>getCssQuery()</code>:
  215. その結果を得る元となった CSS セレクタクエリを
  216. (もし存在すれば) 返します。
  217. </para></listitem>
  218. <listitem><para>
  219. <code>getXpathQuery()</code>:
  220. その結果を得る元となった XPath クエリを返します。
  221. 内部的には、<classname>Zend_Dom_Query</classname> は
  222. CSS セレクタクエリを XPath に変換しています。
  223. そのため、このメソッドは常に結果を返します。
  224. </para></listitem>
  225. <listitem><para>
  226. <code>getDocument()</code>:
  227. 問い合わせ対象となった DOMDocument を取得します。
  228. </para></listitem>
  229. </itemizedlist>
  230. </sect3>
  231. </sect2>
  232. </sect1>
  233. <!--
  234. vim:se ts=4 sw=4 et:
  235. -->