pyquery模块和fake_useragent

一、我们在使用爬虫时，通常需要加入请求头，一般都是手动在网页开发者工具众找到user-agent的值，由此导入一个新的库：fake_useragent

有两种写法：1、

from fake_useragent import UserAgent

headers={
   "User-Agent": UserAgent().random
}
2、指定浏览器：

headers = {"user-agent": ua.chrome}  # 指定浏览器 user-agent
二、pyquery模块（比较常用的用法）
通过url初始化有二种方法：1、doc=pq("https://www.baidu.com/") 直接将url丢给pquery

2、reps=requests.get(url="https://www.baidu.com/",headers=headers)推荐使用第二种，一般网站都需要加入请求头
访问节点元素
doc('#id的值')根据id的值来定位
doc('.class')根据class的值来定位’
doc('p')根据标签来定位
在doc('p'）。eq(0)定位到索引的值
使用attr()方法访问节点的属性:from pyquery import PyQuery as pq li = pq('<li id="test1" class="test1"></li><li id="test2" class="test2"></li>')('li') print(li.attr("id"))
结果是：test1
PyQuery提供text()和html()方法获取节点的文本属性值
示例：doc('.div_tag #ul_tag li') 上述代码是通过.div_tag获取class为div_tag的节点，然后通过#ul_tag获取id为ul_tag的节点，最后返回所有的li节点
find(“li”)是把所有li节点及子节点都查找出来

posted @ 2022-11-08 15:06 guorunbin 阅读(22) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

guorunbin

pyquery模块 和fake_useragent

公告

pyquery模块和fake_useragent