Class 14 - 3 解析库 -- pyquery

与Beautifu Soup 一样，初始化 pyquery 的时候，也需要传入 HTML 文本来初始化一个 PyQuery 对象。初始化方式有多种，如：直接传入字符串，传入 URL ，传人文件名等。

初始化

字符串初始化　　

html = '''
<div>
<ul>
<li class="item-0">first item</li>
<li class="item-1"><a href="link2.html">second item</a></li>
<li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></li>
<li class="item-1 active"><a href="link4.html">fourth item</a></li>
<li class="item-0"><a href="link5.html">fifth item</a></li>
</ul>
</div>
'''
from pyquery import PyQuery as pq
doc =pq(html)
print(doc('li'))
输出：

<li class="item-0">first item</li>
<li class="item-1"><a href="link2.html">second item</a></li>
<li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>
<li class="item-1 active"><a href="link4.html">fourth item</a></li>
<li class="item-0"><a href="link5.html">fifth item</a></li>

View Code

引PyQuery对象，取别名为 pq。声明了一个长 HTML字符串，并将其当作参数传递给 PyQuery 类，这样就成功完成了初始化。接下来，将初始化的对象传入 css 选择器。传入 li 节点，这样就可选择所有的 li 节点。　　

URL初始化
- 初始化参数不仅可以以字符串的形式传递，可以传入网页的URL，此时只需要指定参数为 url 即可：
```
from pyquery import PyQuery as pq
doc =pq(url='https://cuiqingcai.com')
print(doc('title'))
输出：
```
 <title>静觅丨崔庆才的个人博客</title>
 View Code
 PyQuery 对象会首先请求这个 URL，用得到的 HTML内容完成初始化，相当于用网页的源代码以字符串的形式传递给PyQuery 类来初始化。与以下功能相同：
```
from pyquery import PyQuery as pq
import requests
doc =pq(requests.get(url='https://cuiqingcai.com').text)
print(doc('title'))
```
文件初始化
- 除了传递 URL，还可以传递本地的文件名，此时将参数指定为filename即可：
```
from pyquery import PyQuery as pq
doc =pq(filename='demo.html')
print(doc('li'))
```
  这里需要有一个本地 HTML 文件 demo.html，其内容是待解析 HTML 字符串。它会首先读取本地的文件内容，再用文件内容以字符串形式传递给PyQuery 类来初始化。

基本CSS选择器

pyquery的CSS选择示例：

from pyquery import PyQuery as pq
doc =pq('html')
print(doc('#container .list li'))
print(type(doc('#container .list li')))
输出：

<li class="item-0">first item</li>
<li class="item-1"><a href="link2.html">second item</a></li>
<li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>
<li class="item-1 active"><a href="link4.html">fourth item</a></li>
<li class="item-0"><a href="link5.html">fifth item</a></li>

<class 'pyquery.pyquery.PyQuery'>

View Code

初始化 PyQuery 对象后，传入了 CSS 选择器＃container .list li ，意思是先选取 id container 的节点，然后再选取其内部的 class 为list 的节点内部的所有 li 节点。然后输出，成功获取到了符合条件的节点。它的类型依然是 PyQuery 类型。

查找节点

子节点

查找子节点时，需要用到干find（）方法，此时传人的参数是 CSS 选择器。前面的 HTML 为例：

from pyquery import PyQuery as pq
doc =pq(html)
items =doc('.list')
print(type(items))
print(items)
lis = items.find('li')
print(type(lis))
print(lis)
输出：

<class 'pyquery.pyquery.PyQuery'>
<ul class="list">
<li class="item-0">first item</li>
<li class="item-1"><a href="link2.html">second item</a></li>
<li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>
<li class="item-1 active"><a href="link4.html">fourth item</a></li>
<li class="item-0"><a href="link5.html">fifth item</a></li>
</ul>

<class 'pyquery.pyquery.PyQuery'>
<li class="item-0">first item</li>
<li class="item-1"><a href="link2.html">second item</a></li>
<li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>
<li class="item-1 active"><a href="link4.html">fourth item</a></li>
<li class="item-0"><a href="link5.html">fifth item</a></li>

View Code

首先，选取 class 为 list 的节点，再调用了 find（）方法，传入 CSS 选择器，选取其内部 li 节点，最后输出。find（）方法会将符合条件的所有节点选择出来，结果是 PyQuery 类型。

其实find（）的查找范围是节点的所有子孙节点，如果只想查找子节点，那么可以用 children（）方法：

lis = items.children()
print(type(lis))
print(lis)
输出：

<class 'pyquery.pyquery.PyQuery'>
<li class="item-0">first item</li>
<li class="item-1"><a href="link2.html">second item</a></li>
<li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>
<li class="item-1 active"><a href="link4.html">fourth item</a></li>
<li class="item-0"><a href="link5.html">fifth item</a></li>

View Code

如果要筛选所有子节点中符合条件的节点，如：筛选出子节点中 class 为 active 节点，可以向 children（）方法传入 CSS 选择器 .active:

lis = items.children('.active')
print(lis)
输出：

<li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>
<li class="item-1 active"><a href="link4.html">fourth item</a></li>

View Code

输出结果已经做了筛选，留下了 class为 active 的节点。

父节点

可以用 parent（）方法来获取某个节点的父节点，示例：

html = '''
<div class="wrap">
<div id="container">
<ul class="list">
<li class="item-0">first item</li>
<li class="item-1"><a href="link2.html">second item</a></li>
<li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>
<li class="item-1 active"><a href="link4.html">fourth item</a></li>
<li class="item-0"><a href="link5.html">fifth item</a></li>
</ul>
</div>
</div>
'''
from pyquery import PyQuery as pq
doc=pq(html)
items =doc('.list')
container =items.parent()
print(type(container))
print(container)
输出：

<class 'pyquery.pyquery.PyQuery'>
<div id="container">
<ul class="list">
<li class="item-0">first item</li>
<li class="item-1"><a href="link2.html">second item</a></li>
<li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>
<li class="item-1 active"><a href="link4.html">fourth item</a></li>
<li class="item-0"><a href="link5.html">fifth item</a></li>
</ul>
</div>

View Code

首先用 .list 选取 class为 list 的节点，然后调用 parent（）方法得到其父节点，其类型依然是 PyQuery 类型。

父节点是该节点的直接父节点，也就是说，它不会再去查找父节点的父节点，即祖先节点　　

如果想获取某个祖先节点，这时可以用 parents（）方法：

from pyquery import PyQuery as pq
doc=pq(html)
items=doc('.list')
parents =items.parents()
print(parents)

输出：
<div class="wrap">
<div id="container">
<ul class="list">
<li class="item-0">first item</li>
<li class="item-1"><a href="link2.html">second item</a></li>
<li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>
<li class="item-1 active"><a href="link4.html">fourth item</a></li>
<li class="item-0"><a href="link5.html">fifth item</a></li>
</ul>
</div>
</div><div id="container">
<ul class="list">
<li class="item-0">first item</li>
<li class="item-1"><a href="link2.html">second item</a></li>
<li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>
<li class="item-1 active"><a href="link4.html">fourth item</a></li>
<li class="item-0"><a href="link5.html">fifth item</a></li>
</ul>
</div>

View Code

输出结果有两个：一个是 class为wrap 的节点，一个是 id 为 container 的节点。parents（）方法会返回所有的祖先节点。

如果想要筛选某个祖先节点，可以向 parents（）方法传入 CSS 选择器，这样就会返回祖先节点中符合 CSS 选择器的节点：

from pyquery import PyQuery as pq
doc=pq(html)
items=doc('.list')
parent=items.parents('.wrap')
print(parent)
输出：

<div class="wrap">
<div id="container">
<ul class="list">
<li class="item-0">first item</li>
<li class="item-1"><a href="link2.html">second item</a></li>
<li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>
<li class="item-1 active"><a href="link4.html">fourth item</a></li>
<li class="item-0"><a href="link5.html">fifth item</a></li>
</ul>
</div>
</div>

View Code

输出结果只保留了 class 为 wrap 的节点

兄弟节点

如果要获取兄弟节点，可以使用 siblings（）方法。以上面 TML 为例：

from pyquery import PyQuery as pq
doc =pq(html)
li =doc('.list .item-0.active')
print(li.siblings())
输出：

<li class="item-1"><a href="link2.html">second item</a></li>
<li class="item-0">first item</li>
<li class="item-1 active"><a href="link4.html">fourth item</a></li>
<li class="item-0"><a href="link5.html">fifth item</a></li>

View Code

首先选择 class为 list 的节点内部 class 为 item-0 和 active 的节点，也就是第三个 li 节点。它的兄弟节点有 4 个，那就是第一、二、四、五个 li 节点。

如果要筛选某个兄弟节点，依然可以向 siblings 方法传入 css 选择器，这样就会从所有兄弟节点中挑选符合条件的节点了：

from pyquery import PyQuery as pq
doc =pq(html)
li =doc('.list .item-0.active')
print(li.siblings(' .active'))
输出：

<li class="item-1 active"><a href="link4.html">fourth item</a></li>

筛选了 class 为 active 的节点。

遍历　　　　

pyquery 选择结果可能是多个节点，也可能是单个节点。都是PyQuery 类型，并没有返回像 Beautiful Soup 那样的列表。　　

对于单个节点来说，可以直接打印输出，也可以直接转成字符串：

from pyquery import PyQuery as pq
doc = pq(html)
li = doc('.item-0.active')
print(li)
print(str(li))
输出：

<li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>

<li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>

View Code

对于多个节点的结果，就需要遍历来获取。如，这里把每一个 li 节点进行遍历，需要调用 items（）方法：

from pyquery import PyQuery as pq
doc= pq(html)
lis = doc('li').items()
for li in lis:
    print(li,type(li))
输出：

<li class="item-0">first item</li>
 <class 'pyquery.pyquery.PyQuery'>
<li class="item-1"><a href="link2.html">second item</a></li>
 <class 'pyquery.pyquery.PyQuery'>
<li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>
 <class 'pyquery.pyquery.PyQuery'>
<li class="item-1 active"><a href="link4.html">fourth item</a></li>
 <class 'pyquery.pyquery.PyQuery'>
<li class="item-0"><a href="link5.html">fifth item</a></li>
 <class 'pyquery.pyquery.PyQuery'>

View Code

调用 items（）方法后, 会得到生成器, 遍历, 可以逐个得到 li 节点，也是PyQuery 类型。每个 li 节点还可以调用前面所说的方法进行选择，如：继续查询子节点，寻找某个祖先节点等。

获取信息　　
- 提取节后，最终目是提取节点所包含的信息。比较重要的信息有两类，一是获取属’性，二是获取文本
- 获取属性
 - 提取到某个 PyQuery 类型的节点后，就可以调用 attr （）方法来获取属性：
```
from pyquery import PyQuery as pq
doc =pq(html)
a=doc('.item-0.active a')
print(a,type(a))
print(a.attr('href'))
输出：
```
 <a href="link3.html">third item</a> <class 'pyquery.pyquery.PyQuery'> link3.html
 
 View Code
 首先选中 class 为 item-0 和 active 的 li 节点内的 a 节点，是 PyQuery 类型。然后调用 attr（）方法。在这个方法中传入属性的名称，就可以得到这个属性值了。
 也可以通过调用 attr 属性来获取属性，用法：
```
print(a.attr.href)
输出：
link3.html
```
 这两种方法的结果完全一样。
 如果选中的是多个元素，然后调用 attr（）方法：
```
from pyquery import PyQuery as pq
doc = pq(html)
a = doc('a')
print(a,type(a))
print(a.attr('href'))
print(a.attr.href)
输出：
```
 <a href="link2.html">second item</a><a href="link3.html">third item</a><a href="link4.html">fourth item</a><a href="link5.html">fifth item</a> <class 'pyquery.pyquery.PyQuery'> link2.html link2.html
 
 View Code
 选中的 a 节点应该有 4个，而且打印结果也应该是 4 个，但是当我们调用 attr() 方法时，返回结果却只是第一个。因为，当返回结果包含多个节点时，调用attr（）方法，只会得到第一个节点的属性。
 遇到这种情况，如果想获取所有的 a 节点的属性，就要用到前面的遍历：
```
from pyquery import PyQuery as pq
doc =pq(html)
a= doc('a')
for item in a.items():
 print(item.attr('href'))
输出：
```
 link2.html link3.html link4.html link5.html
 
 View Code
 在进行属性获取时，可以观察返回节点是一个还是多个，如果是多个，需要遍历才能依次获取每个节点的属性。
- 获取文本
 - 获取节点后的另一个主要操作就是获取其内部的文本，此时可以调用 text（）方法来实现：
```
from pyquery import PyQuery as pq
doc =pq(html)
a =doc('.item-0.active a')
print(a)
print(a.text()
输出：
```
 <a href="link3.html">third item</a> third item
 
 View Code
 这里首先选中一个 a 节点，然后调用 text（）方法，就可以获取其内部的文本信息。此时它会忽略掉节点内部包含的所有 HTML ，只返回纯文字内容
 如果想要获取这个节点内部的 HTML 文本，就要用 html（）方法了：
```
from pyquery import PyQuery as pq
doc =pq(html)
li =doc('.item-0.active')
print(li)
print(li.html())
输出：
```
 <li class="item-0 active"><a href="link3.html">third item</a></li> <a href="link3.html">third item</a>
 
 View Code
 这里我们选中了第三个 li 节点，然后调用了 html（）方法，返回的结果应该是 li 节点内的所有 HTML 文本。
 如果选中的结果是多个节点， text（）或 html（）返回结果各不相同，实例：
```
from pyquery import PyQuery as pq
doc = pq(html)
li =doc('li')
print(li.html())
print(li.text())
print(type(li.text()))
输出：
```
 first item first item second item third item fourth item fifth item <class 'str'>
 
 View Code
 html（）方法返回的是第一个 li 节点的内部 HTML 文本，而 text（）返回所有 li 节点内部的纯文本，中间用个空格分割开，即返回结果是一个字符串。
 注意：如果得到的结果是多个节点，且想要获取每个节点的内部 HTML 文本，则需要遍历每个节点。text （）方法不需要遍历就可以获取，它将所有节点取文本之后合并成一个字符串。
节点操作
- pyquery 提供了一系列方法来对节点进行动态修改，如为某个节点添加一个 class，移除某个节点等，例：
- addClass（）和 removeClass（）方法可以动态改变节点的 class 属性。
 - ```
 from pyquery import PyQuery as pq
 doc = pq(html)
 li = doc('.item-0.active')
 print(li)
 li.removeClass('active')
 print(li)
 li.addClass('active')
 print(li)
 输出：
```
 <li class="item-0 active"><a href="link3.html">third item</a></li> <li class="item-0"><a href="link3.html">third item</a></li> <li class="item-0 active"><a href="link3.html">third item</a></li>
 
 View Code
 首先选中了第三个 li 节点，然后调用 removeClass（）方法，将 li 节点的 active 这个 class 移除，后来在调用 addClass（）方法，将 class 添加回来。每执行一次操作，就打印输出当前 li 节点的内容。
- attr()、text() 和 html() 方法对属性进行操作，来改变节点内部的内容。示例:　
 - 如果 attr（）方法只传入第一个参数的属性名，则是获取这个属性值；如果传入第二个参数，可以用来修改属性值。 text（）和 html（）方法如果不传参数，则是获取节点内纯文本和 HTML 文本；如果传人参数，则进行赋值。
 - ```
 html = '''
 <ul class="list">
 <li class="item-0 active"><a href="link3.html">third item</a></li>
 </ul>
 '''
 from pyquery import PyQuery as pq
 doc = pq(html)
 li =doc('.item-0.active')
 print(li)
 li.attr('name','link')
 print(li)
 li.text('changed item')
 print(li)
 li.html('changed item')
 print(li)
 输出：
```
 <li class="item-0 active"><a href="link3.html">third item</a></li> <li class="item-0 active" name="link"><a href="link3.html">third item</a></li> <li class="item-0 active" name="link">changed item</li> <li class="item-0 active" name="link">changed item</li>
 
 View Code
 首先选中 li 节点，然后调用 attr（）方法来修改属性，该方法的第一个参数为属性名，第二个参数为属性值。接着，调用 text（）和 html（）方法来改变节点内部的内容。三次操作后，分别打印输出当前的 li 节点。
 
 调用 attr（）方法后，li 节点多了一个原本不存在的属性 name，其值为 link。接着调用 text（）方法，传人文本之后， li 节点内部的文本全被改为传人的字符串文本了。最后，调用 html() 方法传人 HTML 文本后 li 节点内部又变为传人的 HTML 文本了。
- remove（）
 - ```
 html = '''
 <div class="wrap">
 Hello,World
 This is a paragraph.
 </div>
 '''
 from pyquery import PyQuery as pq
 doc =pq(html)
 wrap = doc('.wrap')
 print(wrap.text())
 输出：
```
 Hello,World This is a paragraph.
 
 View Code
 因为text（）把所有的存文本都提取出来，如果需要提取Hello，world这个字符串，而不需要P节点内部的字符串，可使用remove.
```
 from pyquery import PyQuery as pq
 doc =pq(html)
 wrap = doc('.wrap')
 wrap.find('p').remove()
 print(wrap.text())
 输出：
 Hello,World
```
 首先选中 p 节点，然后调用了 remove（）方法将其移除，这时 wrap 内部就只剩下 Hello, World 这句话了，再利用 text（）方法提取即可。
 实还有很多节点操作的方法，比如 append（）、 empty（）和 prepend（）等方法， jQuery 的用法完全一致，详细的用法可以参考官方文档： http://pyquery.readthedocs.io/en/latest/api.html

伪类选择器

CSS 选择器之所以强大，就是它支持多种多样的伪类选择器，如：选择第一个节点、最后一个节点、奇偶数节点、包含某一文本的节点等。示例：

from pyquery import PyQuery as pq
doc = pq(html)
li=doc('li:first-child')
print(li)
li =doc('li:last-child')
print(li)
li=doc('li:nth-child(2)')
print(li)
li=doc('li:gt(2)')
print(li)
li=doc('li:nth-child(2n)')
print(li)
li=doc('li:contains(second)')
print(li)
输出：

<li class="item-0">first item</li>

<li class="item-0"><a href="link5.html">fifth item</a></li>

<li class="item-1"><a href="link2.html">second item</a></li>

<li class="item-1 active"><a href="link4.html">fourth item</a></li>
<li class="item-0"><a href="link5.html">fifth item</a></li>

<li class="item-1"><a href="link2.html">second item</a></li>
<li class="item-1 active"><a href="link4.html">fourth item</a></li>

<li class="item-1"><a href="link2.html">second item</a></li>

View Code

这里使用 CSS3 的伪类选择器，依次选择了第一个 li 节点、最后一个 li 节点、第二个 li 节点、第三个 li 之后的 li 节点、偶数位置的 li 节点、包含 second 文本的 li 节点。
关于 css 选择器的更多用法，可以参考 http://www.w3school.com.cn/css/index.asp。
更多内容，可以参考 pyquery 的官方文档： http://pyquery.readthedocs.io

posted @ 2018-12-13 15:46 独行头狼阅读(254) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

独行头狼

Class 14 - 3 解析库 -- pyquery

公告