小小小光子

2020年1月14日

摘要： Python os包功能 (图片为Windows10环境) 1.os.name # 导入依赖操作系统模块的名字 2.os.environ # 一个mapping对象表示环境 3.os.curdir # 一个mapping对象表示环境 4.os.pardir # 操作系统用此常数字符串作为父文件夹的引阅读全文

posted @ 2020-01-14 15:00 小小小光子阅读(866) 评论(0) 推荐(0) 编辑

2020年1月13日

Windows永久修改pip安装源

摘要：一些国内的pip源：阿里云 http://mirrors.aliyun.com/pypi/simple/ 中国科技大学 https://pypi.mirrors.ustc.edu.cn/simple/ 豆瓣(douban) http://pypi.douban.com/simple/ 清华大学 h 阅读全文

posted @ 2020-01-13 15:32 小小小光子阅读(2150) 评论(0) 推荐(0) 编辑

2020年1月8日

MySQL 超键候选键主键外键是什么

摘要：搬运出处: https://github.com/0voice/interview_internal_reference 超键(super key): 在关系中能唯一标识元组的属性集称为关系模式的超键候选键(candidate key): 不含有多余属性的超键称为候选键。也就是在候选键中，若再删除阅读全文

posted @ 2020-01-08 16:19 小小小光子阅读(1814) 评论(0) 推荐(1) 编辑

scrapy中间件

摘要： 1 scrapy中间件的分类和作用 1.1 scrapy中间件的分类根据scrapy运行流程中所在位置不同分为：下载中间件爬虫中间件 1.2 scrapy中间的作用主要功能是在爬虫运行过程中进行一些处理，如对非200响应的重试（重新构造Request对象yield给引擎）也可以对heade 阅读全文

posted @ 2020-01-08 15:02 小小小光子阅读(141) 评论(0) 推荐(0) 编辑

crawlspider

摘要：从response中提取所有的满足规则的url地址自动的构造自己requests请求，发送给引擎 2.1 创建crawlspider爬虫： scrapy genspider -t crawl tencent hr.tencent.com 2.3 观察跟普通的scrapy.spider的区别在cr 阅读全文

posted @ 2020-01-08 15:01 小小小光子阅读(236) 评论(0) 推荐(0) 编辑

scrapy

摘要： rapy的安装：pip install scrapy 创建scrapy的项目: scrapy startproject myspider 创建scrapy爬虫：在项目目录下执行 scrapy genspider itcast itcast.cn 运行scrapy爬虫：在项目目录下执行 scrapy 阅读全文

posted @ 2020-01-08 15:00 小小小光子阅读(137) 评论(0) 推荐(0) 编辑

MongoDB 命令

摘要： 1. mongodb服务端启动 sudo mongod --auth # 以权限认证的方式启动 --fork # 后台运行 --logpath= # 指定日志文件路径 --logappend # 声明日志以追加方式写入 --dbpath= # 指定数据库文件夹所在路径 2. 进入mongo shel 阅读全文

posted @ 2020-01-08 14:58 小小小光子阅读(141) 评论(0) 推荐(0) 编辑

如何反扒

摘要： 2 通过headers字段来反爬 headers中有很多字段，这些字段都有可能会被对方服务器拿过来进行判断是否为爬虫 2.1 通过headers中的User-Agent字段来反爬反爬原理：爬虫默认情况下没有User-Agent 解决方法：请求之前添加User-Agent即可；更好的方式是使用Use 阅读全文

posted @ 2020-01-08 14:57 小小小光子阅读(405) 评论(0) 推荐(0) 编辑

selenium的其他方法

摘要： 1 selenium 处理cookie driver.get_cookies()获取的是完整的cookie信息！不光有name、value，还有domain等其他信息！ # 把cookie转为字典cookies_dict = {cookie['name']: cookie['value'] for 阅读全文

posted @ 2020-01-08 14:55 小小小光子阅读(135) 评论(0) 推荐(0) 编辑

selenium

摘要： 1 加载网页： selenium通过控制浏览器，所以对应的获取的数据都是elements中的内容 from selenium import webdriver # 指定driver的绝对路径 # driver = webdriver.PhantomJS(executable_path='/home/ 阅读全文

posted @ 2020-01-08 14:43 小小小光子阅读(109) 评论(0) 推荐(0) 编辑

公告