摘要: Python os包功能 (图片为Windows10环境) 1.os.name # 导入依赖操作系统模块的名字 2.os.environ # 一个mapping对象表示环境 3.os.curdir # 一个mapping对象表示环境 4.os.pardir # 操作系统用此常数字符串作为父文件夹的引 阅读全文
posted @ 2020-01-14 15:00 小小小光子 阅读(866) 评论(0) 推荐(0) 编辑
摘要: 一些国内的pip源: 阿里云 http://mirrors.aliyun.com/pypi/simple/ 中国科技大学 https://pypi.mirrors.ustc.edu.cn/simple/ 豆瓣(douban) http://pypi.douban.com/simple/ 清华大学 h 阅读全文
posted @ 2020-01-13 15:32 小小小光子 阅读(2150) 评论(0) 推荐(0) 编辑
摘要: 搬运出处: https://github.com/0voice/interview_internal_reference 超键(super key): 在关系中能唯一标识元组的属性集称为关系模式的超键 候选键(candidate key): 不含有多余属性的超键称为候选键。也就是在候选键中,若再删除 阅读全文
posted @ 2020-01-08 16:19 小小小光子 阅读(1814) 评论(0) 推荐(1) 编辑
摘要: 1 scrapy中间件的分类和作用 1.1 scrapy中间件的分类 根据scrapy运行流程中所在位置不同分为: 下载中间件 爬虫中间件 1.2 scrapy中间的作用 主要功能是在爬虫运行过程中进行一些处理,如对非200响应的重试(重新构造Request对象yield给引擎) 也可以对heade 阅读全文
posted @ 2020-01-08 15:02 小小小光子 阅读(141) 评论(0) 推荐(0) 编辑
摘要: 从response中提取所有的满足规则的url地址 自动的构造自己requests请求,发送给引擎 2.1 创建crawlspider爬虫: scrapy genspider -t crawl tencent hr.tencent.com 2.3 观察跟普通的scrapy.spider的区别 在cr 阅读全文
posted @ 2020-01-08 15:01 小小小光子 阅读(236) 评论(0) 推荐(0) 编辑
摘要: rapy的安装:pip install scrapy 创建scrapy的项目: scrapy startproject myspider 创建scrapy爬虫:在项目目录下执行 scrapy genspider itcast itcast.cn 运行scrapy爬虫:在项目目录下执行 scrapy 阅读全文
posted @ 2020-01-08 15:00 小小小光子 阅读(137) 评论(0) 推荐(0) 编辑
摘要: 1. mongodb服务端启动 sudo mongod --auth # 以权限认证的方式启动 --fork # 后台运行 --logpath= # 指定日志文件路径 --logappend # 声明日志以追加方式写入 --dbpath= # 指定数据库文件夹所在路径 2. 进入mongo shel 阅读全文
posted @ 2020-01-08 14:58 小小小光子 阅读(141) 评论(0) 推荐(0) 编辑
摘要: 2 通过headers字段来反爬 headers中有很多字段,这些字段都有可能会被对方服务器拿过来进行判断是否为爬虫 2.1 通过headers中的User-Agent字段来反爬 反爬原理:爬虫默认情况下没有User-Agent 解决方法:请求之前添加User-Agent即可;更好的方式是使用Use 阅读全文
posted @ 2020-01-08 14:57 小小小光子 阅读(405) 评论(0) 推荐(0) 编辑
摘要: 1 selenium 处理cookie driver.get_cookies()获取的是完整的cookie信息!不光有name、value,还有domain等其他信息! # 把cookie转为字典cookies_dict = {cookie['name']: cookie['value'] for 阅读全文
posted @ 2020-01-08 14:55 小小小光子 阅读(135) 评论(0) 推荐(0) 编辑
摘要: 1 加载网页: selenium通过控制浏览器,所以对应的获取的数据都是elements中的内容 from selenium import webdriver # 指定driver的绝对路径 # driver = webdriver.PhantomJS(executable_path='/home/ 阅读全文
posted @ 2020-01-08 14:43 小小小光子 阅读(109) 评论(0) 推荐(0) 编辑