会员
周边
众包
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
风影H
Powered by
博客园
博客园
|
首页
|
新随笔
|
联系
|
订阅
|
管理
2018年7月22日
爬虫解析内容的四种方法(推荐使用xpath)
摘要: 四种方法: 第一种:正则表达式,写法比较灵活(过于灵活导致写法很多); 第二种:xpath(推荐使用); 第三种:bs4(BeatifulSoup),使用选择器获取节点对象(不好记); 第四种:jsonpath,类似xpath。 获取节点写法: 1、xpath写法: 比如获取src地址,.../im
阅读全文
posted @ 2018-07-22 12:02 风影H
阅读(822)
评论(0)
推荐(0)
编辑
解决简单的反爬问题(使用python)
摘要: 一、技术和方法: 1、在请求头headers里设置User-Agent(浏览器内核); 2、当碰到post请求方式时,一般需要在请求头里设置Cookie的数据; 3、当本机ip由于短时间频繁访问受限时,可以设置代理ip(免费ip推荐西次代理); 4、如果需要登录的,可以通过fiddler抓包工具抓取
阅读全文
posted @ 2018-07-22 11:16 风影H
阅读(181)
评论(0)
推荐(0)
编辑