摘要: 1.scrapy创建爬虫,cd进入爬虫的项目文件夹,输入:scrapy genspider zhihu03 www.zhihu.com 打开pycharm发现新增一个zhihu03.py 2.爬取网页时,当我们爬取(table)中的内容时,用xpath解析不到表格中td的值 原因:浏览器会在tabl 阅读全文
posted @ 2018-04-01 17:50 zzzzzhangrui 阅读(933) 评论(0) 推荐(0) 编辑
摘要: 1.virtualenvwrapper安装指定版本的python mkvirtualenv --python=D:\python3.5\python.exe testenv 阅读全文
posted @ 2018-05-27 18:08 zzzzzhangrui 阅读(93) 评论(0) 推荐(0) 编辑
摘要: github下载安装Elasticsearch-rtf,安装head和kibana插件,head安装好后修改Elasticsearch-rtf的配置文件elasticsearch.yml,增加如下内容,连接head和Elasticsearch: 1.启动Elasticsearch:进入Elastic 阅读全文
posted @ 2018-04-26 17:03 zzzzzhangrui 阅读(121) 评论(0) 推荐(0) 编辑
摘要: 基本概念 爬虫:自动获取网站数据的程序,关键是批量的获取 反爬虫:使用技术手段防止爬虫程序的方法 误伤:反爬虫技术将普通用户识别为爬虫,如果误伤过高,效果再好也不能用 成本:反爬虫需要的人力和机器成本 拦截:成功拦截,一般拦截率越高,误伤率越高 反爬虫的目的: 初级爬虫:简单粗暴,不管对服务器造成了 阅读全文
posted @ 2018-04-20 10:04 zzzzzhangrui 阅读(239) 评论(0) 推荐(0) 编辑
摘要: 1.创建spider,scrapy genspider -t crawl lagou lagou.com 阅读全文
posted @ 2018-04-18 17:04 zzzzzhangrui 阅读(326) 评论(0) 推荐(0) 编辑
摘要: 1.出现'geckodriver' executable needs to be in PATH错误,将下载下来的浏览器驱动(geckodriver.exe)放在浏览器的安装目录之下,我的firefox安装目录:C:\Program Files (x86)\Mozilla Firefox,再将安装目 阅读全文
posted @ 2018-04-18 15:52 zzzzzhangrui 阅读(150) 评论(0) 推荐(0) 编辑
摘要: 由于2018知乎改版,增加了几个登录所需要的post_data,让我这个初出茅庐的小白头疼了几天,经过一番search(github和各种大佬的博客),最终成功的模拟登录的2018新版知乎。 方法如下: 1.谷歌浏览器,打开知乎登录页面,F12打开调试,F5刷新,选中Network,输入账号,错误的 阅读全文
posted @ 2018-04-15 15:15 zzzzzhangrui 阅读(3656) 评论(2) 推荐(3) 编辑
摘要: New Build System: 插件: Package Control A File Icon SideBarEnhancements Theme Flatland 阅读全文
posted @ 2017-11-06 17:07 zzzzzhangrui 阅读(172) 评论(0) 推荐(0) 编辑
摘要: 1.基本数据类型 byte ,short ,int ,long ,double ,float,boolean,char 他们之间的比较,应用双等号(==),比较的是他们的值。 2.复合数据类型(类) 当他们用(==)进行比较的时候,比较的是他们在内存中的存放地址,所以,除非是同一个new出来的对象, 阅读全文
posted @ 2017-09-05 22:13 zzzzzhangrui 阅读(161) 评论(0) 推荐(0) 编辑
摘要: |和&:按位或和与运算。会判断每一个条件的真伪。在再做运算。 ||和&&:逻辑或和与运算。遇到第一个条件为true或者为false就不再判断后面的条件(会短路) 阅读全文
posted @ 2017-09-05 14:20 zzzzzhangrui 阅读(286) 评论(0) 推荐(0) 编辑