摘要:
1.scrapy创建爬虫,cd进入爬虫的项目文件夹,输入:scrapy genspider zhihu03 www.zhihu.com 打开pycharm发现新增一个zhihu03.py 2.爬取网页时,当我们爬取(table)中的内容时,用xpath解析不到表格中td的值 原因:浏览器会在tabl 阅读全文
摘要:
1.virtualenvwrapper安装指定版本的python mkvirtualenv --python=D:\python3.5\python.exe testenv 阅读全文
摘要:
github下载安装Elasticsearch-rtf,安装head和kibana插件,head安装好后修改Elasticsearch-rtf的配置文件elasticsearch.yml,增加如下内容,连接head和Elasticsearch: 1.启动Elasticsearch:进入Elastic 阅读全文
摘要:
基本概念 爬虫:自动获取网站数据的程序,关键是批量的获取 反爬虫:使用技术手段防止爬虫程序的方法 误伤:反爬虫技术将普通用户识别为爬虫,如果误伤过高,效果再好也不能用 成本:反爬虫需要的人力和机器成本 拦截:成功拦截,一般拦截率越高,误伤率越高 反爬虫的目的: 初级爬虫:简单粗暴,不管对服务器造成了 阅读全文
摘要:
1.创建spider,scrapy genspider -t crawl lagou lagou.com 阅读全文
摘要:
1.出现'geckodriver' executable needs to be in PATH错误,将下载下来的浏览器驱动(geckodriver.exe)放在浏览器的安装目录之下,我的firefox安装目录:C:\Program Files (x86)\Mozilla Firefox,再将安装目 阅读全文
摘要:
由于2018知乎改版,增加了几个登录所需要的post_data,让我这个初出茅庐的小白头疼了几天,经过一番search(github和各种大佬的博客),最终成功的模拟登录的2018新版知乎。 方法如下: 1.谷歌浏览器,打开知乎登录页面,F12打开调试,F5刷新,选中Network,输入账号,错误的 阅读全文
摘要:
New Build System: 插件: Package Control A File Icon SideBarEnhancements Theme Flatland 阅读全文