2019 年 3月随笔档案 - 乔儿

extract()函数，将selector对象中data的值取出来；extract_first()函数，将列表中第0个selector对象拿出来，然后取data的值。

摘要：阅读全文

posted @ 2019-03-29 16:59 乔儿阅读(386) 评论(0) 推荐(0) 编辑

打印出来的文字乱码怎么办（还有一种可能是由于Accept-Encoding: gzip, deflate, br导致的，还有'Content-Encoding: gzip'）

摘要：例如： response = requests.get(url=url,headers=headers) print(response.encoding) text = response.text html = etree.HTML(text) title = html.xpath("//div[c 阅读全文

posted @ 2019-03-29 10:47 乔儿阅读(1621) 评论(0) 推荐(0) 编辑

筛除掉不符合条件的标签

摘要：就是将图片中<li class="row">的标签删除掉，因为这个标签是广告标签，所以需要将这个标签剔除掉。阅读全文

posted @ 2019-03-28 18:26 乔儿阅读(83) 评论(0) 推荐(0) 编辑

format 插入一个字符，%d,%n

摘要：阅读全文

posted @ 2019-03-21 23:09 乔儿阅读(181) 评论(0) 推荐(0) 编辑

xpath提取到的中文乱码时的解决办法

摘要：Î²Ò³转换为正常的中文：阅读全文

posted @ 2019-03-21 22:49 乔儿阅读(4383) 评论(1) 推荐(1) 编辑

过滤函数 filter

摘要：过滤函数，作用就是将“以‘居’结尾的字段都过滤出来，其它的字段都删除掉。” 阅读全文

posted @ 2019-03-20 22:05 乔儿阅读(291) 评论(0) 推荐(0) 编辑

redis设置过期时间

摘要：阅读全文

posted @ 2019-03-19 10:57 乔儿阅读(122) 评论(0) 推荐(0) 编辑

split根据一个元素分割语句

摘要：a = ‘https://www.baidu.com/s?wd=%E7%AE%80%E4%B9%A6&rsv_spt=1&rsv_iqid=0xdfa3666f00083a6f&issp=1&f=8&rsv_bp=0&rsv_idx=2&ie=utf-8&tn=baiduhome_pg&rsv_en 阅读全文

posted @ 2019-03-17 16:16 乔儿阅读(584) 评论(0) 推荐(0) 编辑

scrapy中crawlspide中callback和follow函数的作用及使用方法

摘要：Rule(LinkExtractor(allow=r'i/tems'),callback='parse_item',follow=True) 当前代码的含义就是将当前页面及按照allow=r'i/tems'规则找出来的url的代码返回给callback='parse_item'或者供下一个rule使阅读全文

posted @ 2019-03-16 11:54 乔儿阅读(455) 评论(0) 推荐(0) 编辑

一个class标签里面有多个属性时的提取标签

摘要：<div class="uibox-con carpic-list03 border-b-solid"> #即这个标签同时满足三个class:“uibox”、“carpic-list03”、“border-b-solid”。提取此标签时：html.xpath("//div[contains(@cl 阅读全文

posted @ 2019-03-14 21:58 乔儿阅读(347) 评论(0) 推荐(0) 编辑

查看当前文件位置，及创建文件夹

摘要：阅读全文

posted @ 2019-03-14 15:49 乔儿阅读(104) 评论(0) 推荐(0) 编辑

for循环遍历改用map函数

摘要：# for url in urls:# url = response.urljoin(url)# print(url)urls = map(lambda url:response.urljoin(url),urls)print(urls)在这里要情调的是map函数运行完之后会生成一个map对象(<m 阅读全文

posted @ 2019-03-14 13:45 乔儿阅读(788) 评论(0) 推荐(0) 编辑

scrapy中自动补全url

摘要：url = "https:" + url 或者url = response.urljoin(url) #这里代表的是自动补全url 阅读全文

posted @ 2019-03-14 13:38 乔儿阅读(702) 评论(0) 推荐(0) 编辑

识别图片验证码的三种方式(scrapy模拟登陆豆瓣网)

摘要：1.通过肉眼识别，然后输入到input里面 from PIL import image Image request.urlretrieve(url,'image') #下载验证码图片 image = Image.open('image') #程序内部打开图片 image.show() #将图片显示出阅读全文

posted @ 2019-03-14 10:42 乔儿阅读(575) 评论(0) 推荐(0) 编辑

下载从网页里面提取出来的图片（将url指向的图片下载并保存、从命名）

摘要：import os #创建文件夹 from urllib import request #下载图片 if not os.path.exists('文件夹名字'): #创建文件夹名字 os.mkdir('文件夹名字') img_path = '文件夹名字/' + 图片名字 request.urlretrieve(url=url,filename=img_path) #u... 阅读全文

posted @ 2019-03-14 09:12 乔儿阅读(991) 评论(0) 推荐(0) 编辑

css选择器

摘要：标签如下：<img id="captcha_image" src="https://www.douban.com/misc/cantcha?id=jskdjf" alt="captcha" class="captcha_image"> 使用css选择器：captcha_img = html.css( 阅读全文

posted @ 2019-03-14 09:09 乔儿阅读(95) 评论(0) 推荐(0) 编辑

scrapy框架发送post请求

摘要：注：scrapy框架默认发送get请求 1. scrapy.FormRequest(url,formdata=data,callback=self.parse_page) 2. scrapy.Request(url=url, cookies=self.cookie, headers=self.hea 阅读全文

posted @ 2019-03-13 22:34 乔儿阅读(528) 评论(0) 推荐(0) 编辑

scrapy shell的作用

摘要：1.可以方便我们做一些数据提取的测试代码； 2.如果想要执行scrapy命令，那么毫无疑问，肯定是要先进入到scrapy所在的环境中； 3.如果想要读取某个项目的配置信息，那么应该先进入到这个项目中。再执行scrapy shell + url 命令。阅读全文

posted @ 2019-03-13 20:16 乔儿阅读(220) 评论(0) 推荐(0) 编辑

scrapy-CrawlSpider的rules使用规则

摘要：1.allow设置规则的方法：要能够限制在我们想要的url上面。不要跟其他的url产生相同的正则表达式即可； 2.什么情况下使用follow：如果在爬取页面的时候，需要将满足当前条件的url再进行跟进，那么就设置为True。否则设置为False； 3.什么情况下该指定callback：如果这个url 阅读全文

posted @ 2019-03-13 18:28 乔儿阅读(425) 评论(0) 推荐(0) 编辑

‘’.join(列表)--列表转化为一个语句。 strip()删除掉str中的左右的空白字符

摘要："".join(列表) 的作用是将列表中的元素拿出来组成一个语句。比如图片一，但是列表中的数据必须得是str，int类型不行，如果是数字，可以用“int”来代表。阅读全文

posted @ 2019-03-12 23:55 乔儿阅读(150) 评论(0) 推荐(0) 编辑

删除掉str上下两行的空白字符（strip（））

摘要：阅读全文

posted @ 2019-03-12 23:46 乔儿阅读(145) 评论(0) 推荐(0) 编辑

正则表达式去空白字符

摘要：1、用正则表达式将空格去掉：re.sub(r"\s","",str) #\s表示空白字符，""表示要替换成的空白字符,str表示一个语句。 2、阅读全文

posted @ 2019-03-10 17:28 乔儿阅读(1326) 评论(0) 推荐(0) 编辑

xpath语法

摘要：阅读全文