03 2019 档案
摘要:
阅读全文
摘要:例如: response = requests.get(url=url,headers=headers) print(response.encoding) text = response.text html = etree.HTML(text) title = html.xpath("//div[c
阅读全文
摘要:就是将图片中<li class="row">的标签删除掉,因为这个标签是广告标签,所以需要将这个标签剔除掉。
阅读全文
摘要:过滤函数,作用就是将“以‘居’结尾的字段都过滤出来,其它的字段都删除掉。”
阅读全文
摘要:a = ‘https://www.baidu.com/s?wd=%E7%AE%80%E4%B9%A6&rsv_spt=1&rsv_iqid=0xdfa3666f00083a6f&issp=1&f=8&rsv_bp=0&rsv_idx=2&ie=utf-8&tn=baiduhome_pg&rsv_en
阅读全文
摘要:Rule(LinkExtractor(allow=r'i/tems'),callback='parse_item',follow=True) 当前代码的含义就是将当前页面及按照allow=r'i/tems'规则找出来的url的代码返回给callback='parse_item'或者供下一个rule使
阅读全文
摘要:<div class="uibox-con carpic-list03 border-b-solid"> #即这个标签同时满足三个class:“uibox”、“carpic-list03”、“border-b-solid”。 提取此标签时:html.xpath("//div[contains(@cl
阅读全文
摘要:# for url in urls:# url = response.urljoin(url)# print(url)urls = map(lambda url:response.urljoin(url),urls)print(urls)在这里要情调的是map函数运行完之后会生成一个map对象(<m
阅读全文
摘要:url = "https:" + url 或者url = response.urljoin(url) #这里代表的是自动补全url
阅读全文
摘要:1.通过肉眼识别,然后输入到input里面 from PIL import image Image request.urlretrieve(url,'image') #下载验证码图片 image = Image.open('image') #程序内部打开图片 image.show() #将图片显示出
阅读全文
摘要:import os #创建文件夹 from urllib import request #下载图片 if not os.path.exists('文件夹名字'): #创建文件夹名字 os.mkdir('文件夹名字') img_path = '文件夹名字/' + 图片名字 request.urlretrieve(url=url,filename=img_path) #u...
阅读全文
摘要:标签如下:<img id="captcha_image" src="https://www.douban.com/misc/cantcha?id=jskdjf" alt="captcha" class="captcha_image"> 使用css选择器:captcha_img = html.css(
阅读全文
摘要:注:scrapy框架默认发送get请求 1. scrapy.FormRequest(url,formdata=data,callback=self.parse_page) 2. scrapy.Request(url=url, cookies=self.cookie, headers=self.hea
阅读全文
摘要:1.可以方便我们做一些数据提取的测试代码; 2.如果想要执行scrapy命令,那么毫无疑问,肯定是要先进入到scrapy所在的环境中; 3.如果想要读取某个项目的配置信息,那么应该先进入到这个项目中。再执行scrapy shell + url 命令。
阅读全文
摘要:1.allow设置规则的方法:要能够限制在我们想要的url上面。不要跟其他的url产生相同的正则表达式即可; 2.什么情况下使用follow:如果在爬取页面的时候,需要将满足当前条件的url再进行跟进,那么就设置为True。否则设置为False; 3.什么情况下该指定callback:如果这个url
阅读全文
摘要:"".join(列表) 的作用是将列表中的元素拿出来组成一个语句。比如图片一,但是列表中的数据必须得是str,int类型不行,如果是数字,可以用“int”来代表。
阅读全文
摘要:1、用正则表达式将空格去掉:re.sub(r"\s","",str) #\s表示空白字符,""表示要替换成的空白字符,str表示一个语句。 2、
阅读全文
摘要:如果相同了会出现下面的问题: 代码文件的名字是selenium,所以在程序中,selenium下面没有红色下划线,但是webdriver下面有下划线
阅读全文
摘要:1.为什么重写父类? 所谓重写,就是子类中,有一个和父类相同名字的方法(包括__init__方法),在子类的方法会覆盖掉父类中同名的方法。 2.如何重写父类? (1).
阅读全文