摘要:
Python os包功能 (图片为Windows10环境) 1.os.name # 导入依赖操作系统模块的名字 2.os.environ # 一个mapping对象表示环境 3.os.curdir # 一个mapping对象表示环境 4.os.pardir # 操作系统用此常数字符串作为父文件夹的引 阅读全文
摘要:
一些国内的pip源: 阿里云 http://mirrors.aliyun.com/pypi/simple/ 中国科技大学 https://pypi.mirrors.ustc.edu.cn/simple/ 豆瓣(douban) http://pypi.douban.com/simple/ 清华大学 h 阅读全文
摘要:
搬运出处: https://github.com/0voice/interview_internal_reference 超键(super key): 在关系中能唯一标识元组的属性集称为关系模式的超键 候选键(candidate key): 不含有多余属性的超键称为候选键。也就是在候选键中,若再删除 阅读全文
摘要:
1 scrapy中间件的分类和作用 1.1 scrapy中间件的分类 根据scrapy运行流程中所在位置不同分为: 下载中间件 爬虫中间件 1.2 scrapy中间的作用 主要功能是在爬虫运行过程中进行一些处理,如对非200响应的重试(重新构造Request对象yield给引擎) 也可以对heade 阅读全文
摘要:
从response中提取所有的满足规则的url地址 自动的构造自己requests请求,发送给引擎 2.1 创建crawlspider爬虫: scrapy genspider -t crawl tencent hr.tencent.com 2.3 观察跟普通的scrapy.spider的区别 在cr 阅读全文
摘要:
rapy的安装:pip install scrapy 创建scrapy的项目: scrapy startproject myspider 创建scrapy爬虫:在项目目录下执行 scrapy genspider itcast itcast.cn 运行scrapy爬虫:在项目目录下执行 scrapy 阅读全文
摘要:
1. mongodb服务端启动 sudo mongod --auth # 以权限认证的方式启动 --fork # 后台运行 --logpath= # 指定日志文件路径 --logappend # 声明日志以追加方式写入 --dbpath= # 指定数据库文件夹所在路径 2. 进入mongo shel 阅读全文
摘要:
2 通过headers字段来反爬 headers中有很多字段,这些字段都有可能会被对方服务器拿过来进行判断是否为爬虫 2.1 通过headers中的User-Agent字段来反爬 反爬原理:爬虫默认情况下没有User-Agent 解决方法:请求之前添加User-Agent即可;更好的方式是使用Use 阅读全文
摘要:
1 selenium 处理cookie driver.get_cookies()获取的是完整的cookie信息!不光有name、value,还有domain等其他信息! # 把cookie转为字典cookies_dict = {cookie['name']: cookie['value'] for 阅读全文
摘要:
1 加载网页: selenium通过控制浏览器,所以对应的获取的数据都是elements中的内容 from selenium import webdriver # 指定driver的绝对路径 # driver = webdriver.PhantomJS(executable_path='/home/ 阅读全文