01 2019 档案

摘要:1. 在虚拟机中cd到项目目录,再运行下面代码创建spider文件: scrapy genspider -t crawl test www.baidu.com 2. spider.py代码 3. items代码: 4. pipelines代码: 阅读全文
posted @ 2019-01-28 16:52 山…隹 阅读(179) 评论(0) 推荐(0) 编辑
摘要:python 爬虫: srcrapy框架xpath和css选择器语法 Xpath基本语法 一、常用的路径表达式: 举例元素标签为artical标签 二、谓语 谓语被嵌在方括号内,用来查找某个特定的节点或包含某个制定的值的节点 三、通配符 Xpath通过通配符来选取未知的XML元素 表达式| 结果// 阅读全文
posted @ 2019-01-27 19:50 山…隹 阅读(199) 评论(0) 推荐(0) 编辑
摘要:1. 筛选属性包含某字符串的标签(如id = 'bigbaong' 查询包含'big'字符的就可以筛选到) 阅读全文
posted @ 2019-01-26 19:06 山…隹 阅读(2270) 评论(0) 推荐(0) 编辑
摘要:1. 先打开settings.py文件将 'ITEM_PIPELINES'启动(取消注释即可) 2. spider代码 3. pipelines.py代码 4. 补充2,防止item不规范,可以使用items.py文件对其限制(还要改spider中的item代码)(还要修改pipelines中的代码 阅读全文
posted @ 2019-01-26 14:46 山…隹 阅读(235) 评论(0) 推荐(0) 编辑
摘要:import scrapy import json class TzcSpider(scrapy.Spider): # spider的名字,唯一 name = 'tzc' # 起始地址 start_urls = ['https://hr.tencent.com/position.php?keywords=python&tid=0&lid=2268'] ... 阅读全文
posted @ 2019-01-21 16:56 山…隹 阅读(161) 评论(0) 推荐(0) 编辑
摘要:在虚拟机里CD到你的scrapy某个项目的目录,再 1. scrapy shell + '网址'(注意引号) 2. response.xpath(' ')来提取 如: response.xpath('//table[@class="tablelist"]/tr[2]/td/a/text()').ex 阅读全文
posted @ 2019-01-21 15:23 山…隹 阅读(205) 评论(0) 推荐(0) 编辑
摘要:不是python文件中的,而是在虚拟机中运行的命令行,先要workon进入虚拟环境 2.scrapy 框架的使用 -1.新建项目 命令:scrapy startproject <project_name> [project_dir] 注意:cd到想要创建项目的目录下 -2.编写爬虫 -手动编写 -1 阅读全文
posted @ 2019-01-21 12:07 山…隹 阅读(167) 评论(0) 推荐(0) 编辑
摘要:import scrapy class Tzspider(scrapy.Spider): # spider的名字,唯一 name = 'tz' # 初始url列表 start_urls = ['https://www.shiguangkey.com/course/list'] # 每个url爬取之后会调用这个方法 def parse(self,... 阅读全文
posted @ 2019-01-21 12:05 山…隹 阅读(290) 评论(0) 推荐(0) 编辑
摘要:1.scrapy的安装 -前提,最好用virtualenv 创建的虚拟环境安装 -windows -官方推荐用anaconda -自定已安装 -1.https://www.lfd.uci.edu/~gohlke/pythonlibs/ 下载对应的twisted ,注意python的版本和32/64 阅读全文
posted @ 2019-01-21 11:28 山…隹 阅读(97) 评论(0) 推荐(0) 编辑
摘要:导包用: from lxml import etree 阅读全文
posted @ 2019-01-19 18:17 山…隹 阅读(127) 评论(0) 推荐(0) 编辑
摘要:1. 使用方法 2.解析器 3. 详细用法 4. find_all方法 5. 遍历文档树 阅读全文
posted @ 2019-01-18 22:57 山…隹 阅读(148) 评论(0) 推荐(0) 编辑
摘要:1. 查找域名用find 2. 筛选用filters 3. 命令行查询 select text 查询text 格式的 ?域名 查询域名 =状态码 查询状态码是...的 4. 设置全局断点方式 (After || Before) Rules --Automatic Breakpoints 5. 命令行 阅读全文
posted @ 2019-01-17 15:37 山…隹 阅读(128) 评论(0) 推荐(0) 编辑
摘要:import requests import re import base64 # 定义session headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3664.3 Safari/537.36' } ... 阅读全文
posted @ 2019-01-15 18:46 山…隹 阅读(604) 评论(0) 推荐(0) 编辑
摘要:import requests import re import base64 cookies = None # 进入主页,保留cookies login_url = 'https://kyfw.12306.cn/otn/resources/login.html' headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; ... 阅读全文
posted @ 2019-01-15 18:40 山…隹 阅读(1216) 评论(0) 推荐(0) 编辑
摘要:#json 将json数据转化为字典,方便操作数据 res = requests.get('http://httpbin.org/get') print(res.json()) #res.json()返回的是字典 print(type(res.json())) 阅读全文
posted @ 2019-01-14 19:36 山…隹 阅读(1221) 评论(0) 推荐(0) 编辑
摘要:res = requests.get('http://soso3.gtimg.cn/sosopic/0/11129365531347748413/640') # print(res.content) with open('img/test.jpg','wb') as f: f.write(res.content) 阅读全文
posted @ 2019-01-14 19:29 山…隹 阅读(565) 评论(0) 推荐(0) 编辑
摘要:html中若有编码 在html中Ctrl+f 搜索charset查看网站的编码方式 然后res.encoding=。。。 加上编码格式,再打印 阅读全文
posted @ 2019-01-14 19:22 山…隹 阅读(230) 评论(0) 推荐(0) 编辑
摘要:import requests # 代理 # proxy = { # 'http':'http://182.61.29.114.6868' # } # res = requests.get('http://httpbin.org/ip',proxies = proxy) # print(res.text) ################# #取消重定向 # res = requests... 阅读全文
posted @ 2019-01-14 19:13 山…隹 阅读(182) 评论(0) 推荐(0) 编辑
摘要:import requests # get实例 # res = requests.get('http://httpbin.org/get') # # res.encoding='utf-8' # print(res.encoding) #编码格式 # print(res.text)#获取文本 ##################### #post实例 # info = { # ... 阅读全文
posted @ 2019-01-14 18:45 山…隹 阅读(133) 评论(0) 推荐(0) 编辑
摘要:import urllib3 import re # 下载百度首页页面的所有图片 # 1. 找到目标数据 # page_url = 'http://image.baidu.com/search/index?tn=baiduimage&ct=201326592&lm=-1&cl=2&ie=gb18030&word=%CD%BC%C6%AC&fr=ala&ala=1&alatpl=others... 阅读全文
posted @ 2019-01-12 19:56 山…隹 阅读(915) 评论(0) 推荐(0) 编辑
摘要:import urllib3 import json # 实例化一个连接池 # http = urllib3.PoolManager() # res = http.request('get','http://httpbin.org/get') # res_json = res.data.decode() # res_dict = json.loads(res_json) # print(res... 阅读全文
posted @ 2019-01-08 22:02 山…隹 阅读(384) 评论(0) 推荐(0) 编辑
摘要:from urllib import request,parse # 1. 解析数据 # 解析一条 # response = request.urlopen(url='http://httpbin.org/get?username={}'.format(parse.quote('哈哈'))) # print(response.read()) # # 解析字典 # data1 = { # ... 阅读全文
posted @ 2019-01-08 21:39 山…隹 阅读(136) 评论(0) 推荐(0) 编辑
摘要:import socket import re client = socket.socket() # 图片url img_url = 'https://img03.sogoucdn.com/app/a/100520093/10e8b9550acde0b8-459f14f6a089053d-e879bbcb128a7b240716f9531571fc2c.jpg' # 构造报文 data = '... 阅读全文
posted @ 2019-01-08 19:12 山…隹 阅读(168) 评论(0) 推荐(0) 编辑
摘要:1. mkvirtualenv -p /usr/bin/python3(python所在位置) Name(自定义环境名) 创建自定义虚拟环境 2. workon py3env(环境名) 进入环境 3. deactivate 退出虚拟环境 4. rmvirtualenv envname 删除虚拟环境 阅读全文
posted @ 2019-01-04 19:34 山…隹 阅读(255) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示