08 2018 档案
摘要:items.py,根据需求确定自己的数据要求 setting.py 设置headers和items pipelines.py 将图片下载到指定文件夹 爬虫文件 tuchong.py 图片的url可以直接拼接
阅读全文
摘要:学了这么久爬虫,今天整理一下相关知识点,还会继续更新 HTTP和HTTPS HTTP协议(HyperText Transfer Protocol,超文本传输协议):是一种发布和接收 HTML页面的方法。 HTTPS(Hypertext Transfer Protocol over Secure So
阅读全文
摘要:利用多线程检测代理网站提供的免费代理是否可用
阅读全文
摘要:1 from lxml import etree 2 from selenium import webdriver 3 import pymysql 4 5 def Geturl(fullurl):#获取每个招聘网页的链接 6 browser.get(fullurl) 7 shouye_html_text = browser.page_source 8 ...
阅读全文
摘要:新学习了selenium,啪一下腾讯招聘 1 from lxml import etree 2 from selenium import webdriver 3 import pymysql 4 def Geturl(fullurl):#获取每个招聘网页的链接 5 browser.get(fullurl) 6 shouye_html_text = browse...
阅读全文
摘要:# 头条街拍图片爬取 1 import re 2 import requests 3 from urllib import request 4 import json 5 import os 6 i = 0 7 headers = { 8 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537...
阅读全文
摘要:#对第一章的百度翻译封装的函数进行更新 1 from urllib import request, parse 2 from urllib.error import HTTPError, URLError 3 # 保存cookie 4 from http import cookiejar 5 6 class session(object): 7 def __init__(...
阅读全文
摘要:cookiejar模块: 管理储存cookie,将传出的http请求添加cookie cookie存储在内存中,CookieJar示例回收后cookie将自动消失 实例:用cookjar访问人人网主页 python Proxy代理 有道词典翻译接口
阅读全文
摘要:爬: 爬一个网站需要几步? 确定用户的需求 根据需求,寻找网址 读取网页 urllib request requests 定位并提取数据 存储数据 mysql redis 文件存储 爬取百度首页:(确定用户需求) cookie和session之间的爱情故事: 啥是cookie: 当你在浏览网站的时候
阅读全文
摘要:一.镜像下载: 根据需求下载自己需要的版本 从官网下载kali 2018.2 的安装包:https://www.kali.org/downloads/ 二.烧录: 这里推荐用 win32 disk imager 尝试了好几款烧录工具,这个是相对最稳定的 打开win32后 第一步 选中镜像位置 ,第二
阅读全文
摘要:什么是多态?多态就像是人有多种心情,场景不一样心情就会不一样. this is dogthis is 哈士奇
阅读全文
摘要:what the f**k!!这个知识点学不好的最大元凶就是,我还单身??? python基础(四): 面向对象的三个特点: 封装,继承,多态 类: 对象是面向对象编程的核心,在使用对象的过程中,为了将具有共同特征和行为的一组对象抽象定义,提出了另外一个新的概念——类 类就相当于制造飞机时的图纸,用
阅读全文
摘要:python基础(三): 文件打开和关闭: 打开: 可以用open函数打开一个已经存在的文件或者创建一个新的文件, open('文件名','访问模式) f = open('test.txt','w') 关闭: close() 文件读写: 读(read): 我有一个 1.text 的文档,文档里面的内
阅读全文