2019 年 1月随笔档案 - 山…隹

scrapy之Crawspider 腾讯招聘实战案例

摘要：1. 在虚拟机中cd到项目目录,再运行下面代码创建spider文件： scrapy genspider -t crawl test www.baidu.com 2. spider.py代码 3. items代码： 4. pipelines代码：阅读全文

posted @ 2019-01-28 16:52 山…隹阅读(179) 评论(0) 推荐(0) 编辑

scrapy选择器归纳

摘要：python 爬虫： srcrapy框架xpath和css选择器语法 Xpath基本语法一、常用的路径表达式：举例元素标签为artical标签二、谓语谓语被嵌在方括号内，用来查找某个特定的节点或包含某个制定的值的节点三、通配符 Xpath通过通配符来选取未知的XML元素表达式| 结果// 阅读全文

posted @ 2019-01-27 19:50 山…隹阅读(199) 评论(0) 推荐(0) 编辑

scrapy response.xpath可以提取包含字符XX的标签

摘要：1. 筛选属性包含某字符串的标签（如id = 'bigbaong' 查询包含'big'字符的就可以筛选到）阅读全文

posted @ 2019-01-26 19:06 山…隹阅读(2270) 评论(0) 推荐(0) 编辑

爬虫之案列1补充（pipelines优化）

摘要：1. 先打开settings.py文件将 'ITEM_PIPELINES'启动（取消注释即可） 2. spider代码 3. pipelines.py代码 4. 补充2，防止item不规范，可以使用items.py文件对其限制（还要改spider中的item代码）（还要修改pipelines中的代码阅读全文

posted @ 2019-01-26 14:46 山…隹阅读(235) 评论(0) 推荐(0) 编辑

scrapy 第一个案例（爬取腾讯招聘职位信息）

摘要：import scrapy import json class TzcSpider(scrapy.Spider): # spider的名字，唯一 name = 'tzc' # 起始地址 start_urls = ['https://hr.tencent.com/position.php?keywords=python&tid=0&lid=2268'] ... 阅读全文

posted @ 2019-01-21 16:56 山…隹阅读(161) 评论(0) 推荐(0) 编辑

scrapy 代码调试用 shell

摘要：在虚拟机里CD到你的scrapy某个项目的目录,再 1. scrapy shell + '网址'（注意引号） 2. response.xpath(' ')来提取如: response.xpath('//table[@class="tablelist"]/tr[2]/td/a/text()').ex 阅读全文

posted @ 2019-01-21 15:23 山…隹阅读(205) 评论(0) 推荐(0) 编辑

scrapy 命令行创建启动跟踪

摘要：不是python文件中的，而是在虚拟机中运行的命令行，先要workon进入虚拟环境 2.scrapy 框架的使用 -1.新建项目命令：scrapy startproject <project_name> [project_dir] 注意：cd到想要创建项目的目录下 -2.编写爬虫 -手动编写 -1 阅读全文

posted @ 2019-01-21 12:07 山…隹阅读(167) 评论(0) 推荐(0) 编辑

scrapy 手动编写模板

摘要：import scrapy class Tzspider(scrapy.Spider): # spider的名字，唯一 name = 'tz' # 初始url列表 start_urls = ['https://www.shiguangkey.com/course/list'] # 每个url爬取之后会调用这个方法 def parse(self,... 阅读全文

posted @ 2019-01-21 12:05 山…隹阅读(290) 评论(0) 推荐(0) 编辑

scrapy安装

摘要：1.scrapy的安装 -前提，最好用virtualenv 创建的虚拟环境安装 -windows -官方推荐用anaconda -自定已安装 -1.https://www.lfd.uci.edu/~gohlke/pythonlibs/ 下载对应的twisted ，注意python的版本和32/64 阅读全文

posted @ 2019-01-21 11:28 山…隹阅读(97) 评论(0) 推荐(0) 编辑

爬虫之xpath用法

摘要：导包用： from lxml import etree 阅读全文

posted @ 2019-01-19 18:17 山…隹阅读(127) 评论(0) 推荐(0) 编辑

爬虫之 beautifusoup4

摘要：1. 使用方法 2.解析器 3. 详细用法 4. find_all方法 5. 遍历文档树阅读全文

posted @ 2019-01-18 22:57 山…隹阅读(148) 评论(0) 推荐(0) 编辑

抓包工具fiddler

摘要：1. 查找域名用find 2. 筛选用filters 3. 命令行查询 select text 查询text 格式的 ?域名查询域名 =状态码查询状态码是...的 4. 设置全局断点方式 (After || Before) Rules --Automatic Breakpoints 5. 命令行阅读全文

posted @ 2019-01-17 15:37 山…隹阅读(128) 评论(0) 推荐(0) 编辑

12306登录爬虫 session版本

摘要：import requests import re import base64 # 定义session headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3664.3 Safari/537.36' } ... 阅读全文

posted @ 2019-01-15 18:46 山…隹阅读(604) 评论(0) 推荐(0) 编辑

12306登录爬虫 cookies版本

摘要：import requests import re import base64 cookies = None # 进入主页，保留cookies login_url = 'https://kyfw.12306.cn/otn/resources/login.html' headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; ... 阅读全文

posted @ 2019-01-15 18:40 山…隹阅读(1216) 评论(0) 推荐(0) 编辑

爬虫3 requests之json 把json数据转化为字典

摘要：#json 将json数据转化为字典，方便操作数据 res = requests.get('http://httpbin.org/get') print(res.json()) #res.json()返回的是字典 print(type(res.json())) 阅读全文

posted @ 2019-01-14 19:36 山…隹阅读(1221) 评论(0) 推荐(0) 编辑

爬虫3 requests基础之下载图片用content(二进制内容)

摘要：res = requests.get('http://soso3.gtimg.cn/sosopic/0/11129365531347748413/640') # print(res.content) with open('img/test.jpg','wb') as f: f.write(res.content) 阅读全文

posted @ 2019-01-14 19:29 山…隹阅读(565) 评论(0) 推荐(0) 编辑

爬虫3 requests基础之乱码编码问题

摘要：html中若有编码在html中Ctrl+f 搜索charset查看网站的编码方式然后res.encoding=。。。加上编码格式，再打印阅读全文

posted @ 2019-01-14 19:22 山…隹阅读(230) 评论(0) 推荐(0) 编辑

爬虫3 requests基础2 代理证书重定向响应时间

摘要：import requests # 代理 # proxy = { # 'http':'http://182.61.29.114.6868' # } # res = requests.get('http://httpbin.org/ip',proxies = proxy) # print(res.text) ################# #取消重定向 # res = requests... 阅读全文

posted @ 2019-01-14 19:13 山…隹阅读(182) 评论(0) 推荐(0) 编辑

爬虫3 requests基础

摘要：import requests # get实例 # res = requests.get('http://httpbin.org/get') # # res.encoding='utf-8' # print(res.encoding) #编码格式 # print(res.text)#获取文本 ##################### #post实例 # info = { # ... 阅读全文

posted @ 2019-01-14 18:45 山…隹阅读(133) 评论(0) 推荐(0) 编辑

爬虫2 urllib3 爬取30张百度图片

摘要：import urllib3 import re # 下载百度首页页面的所有图片 # 1. 找到目标数据 # page_url = 'http://image.baidu.com/search/index?tn=baiduimage&ct=201326592&lm=-1&cl=2&ie=gb18030&word=%CD%BC%C6%AC&fr=ala&ala=1&alatpl=others... 阅读全文

posted @ 2019-01-12 19:56 山…隹阅读(915) 评论(0) 推荐(0) 编辑

爬虫2 urllib3用法

摘要：import urllib3 import json # 实例化一个连接池 # http = urllib3.PoolManager() # res = http.request('get','http://httpbin.org/get') # res_json = res.data.decode() # res_dict = json.loads(res_json) # print(res... 阅读全文

posted @ 2019-01-08 22:02 山…隹阅读(384) 评论(0) 推荐(0) 编辑

爬虫2 urllib用法

摘要：from urllib import request,parse # 1. 解析数据 # 解析一条 # response = request.urlopen(url='http://httpbin.org/get?username={}'.format(parse.quote('哈哈'))) # print(response.read()) # # 解析字典 # data1 = { # ... 阅读全文

posted @ 2019-01-08 21:39 山…隹阅读(136) 评论(0) 推荐(0) 编辑

爬虫1 socket方式下载一张图片

摘要：import socket import re client = socket.socket() # 图片url img_url = 'https://img03.sogoucdn.com/app/a/100520093/10e8b9550acde0b8-459f14f6a089053d-e879bbcb128a7b240716f9531571fc2c.jpg' # 构造报文 data = '... 阅读全文

posted @ 2019-01-08 19:12 山…隹阅读(168) 评论(0) 推荐(0) 编辑

linux创建虚拟环境

摘要：1. mkvirtualenv -p /usr/bin/python3(python所在位置) Name(自定义环境名) 创建自定义虚拟环境 2. workon py3env(环境名) 进入环境 3. deactivate 退出虚拟环境 4. rmvirtualenv envname 删除虚拟环境阅读全文

posted @ 2019-01-04 19:34 山…隹阅读(255) 评论(0) 推荐(0) 编辑

山…隹

01 2019 档案

公告

搜索

常用链接

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论

看懂了