摘要: 使用shadowsocks开启代理,只支持浏览器开启代理,其他软件是不能够开启代理的,因为这个问题,自己一直无法用本地终端 git clone 一些库,网上查找方法,总结如下: 步骤一:开启shadowsocks,打开自动代理模式,选择节点。 步骤二:打开终端,用 vim 打开 .zshrc(zsh 阅读全文
posted @ 2018-04-05 11:11 希希里之海 阅读(3961) 评论(0) 推荐(0) 编辑
摘要: 如题,开启节能模式代码不会自动补全。 阅读全文
posted @ 2018-03-23 16:40 希希里之海 阅读(1073) 评论(0) 推荐(0) 编辑
摘要: 写爬虫时获取网页的请求头时,拿到的数据往往不是字典类型,我们可以使用 Pycharm 的正则表达式替换功能,替换为字典类型。 阅读全文
posted @ 2018-03-17 14:50 希希里之海 阅读(770) 评论(0) 推荐(0) 编辑
摘要: 思路: 使用搜狗搜索爬取微信文章时由于官方有反爬虫措施,不更换代理容易被封,所以使用更换代理的方法爬取微信文章,代理池使用的是GitHub上的开源项目,地址如下:https://github.com/jhao104/proxy_pool,代理池配置参考开源项目的配置。 步骤: 1)分析网页结构,拿到 阅读全文
posted @ 2018-03-15 18:21 希希里之海 阅读(1329) 评论(0) 推荐(0) 编辑
摘要: 思路:通过获取知乎某个大V的关注列表和被关注列表,查看该大V和其关注用户和被关注用户的详细信息,然后通过层层递归调用,实现获取关注用户和被关注用户的关注列表和被关注列表,最终实现获取大量用户信息。 一、新建一个scrapy项目 移动到新建目录下: 新建spider项目: 二、这里以爬取知乎大V轮子哥 阅读全文
posted @ 2018-02-16 13:52 希希里之海 阅读(1496) 评论(3) 推荐(2) 编辑
摘要: 1.构造选择器: 2.使用选择器(在response使用xpath或CSS查询): .xpath() 及 .css() 方法返回一个类 SelectorList 的实例, 它是一个新选择器的列表。 xpath中 //选取标签,/选择属性, CSS中用 :: 选取属性。 调用 extract() 来获 阅读全文
posted @ 2018-02-09 12:29 希希里之海 阅读(211) 评论(0) 推荐(0) 编辑
摘要: 1.创建一个新项目: 2.在新项目中创建一个新的spider文件: mydomain为spider文件名,mydomain.com为爬取网站域名 3.全局命令: 4.只在项目中使用的命令(局部命令): 5.运行spider文件: 6.检查spider文件有无语法错误: 7.列出spider路径下的s 阅读全文
posted @ 2018-02-08 14:14 希希里之海 阅读(8266) 评论(0) 推荐(1) 编辑
摘要: Mac下安装Redis使用home-brew一键安装:brew install redis启动Redis服务:brew services start redis 或 redis-server /usr/local/etc/redis.conf关闭Redis服务:brew services stop 阅读全文
posted @ 2018-01-17 23:12 希希里之海 阅读(3458) 评论(0) 推荐(0) 编辑
摘要: 利用框架 pyspider 能实现快速抓取网页信息,而且代码简洁,抓取速度也不错。 环境:macOS;Python 版本:Python3。 1.首先,安装 pyspider 框架,使用pip3一键安装: 2.终端输入 pyspider all 启动 pyspider: 打开 Chrome,地址栏输入 阅读全文
posted @ 2017-09-10 20:54 希希里之海 阅读(724) 评论(0) 推荐(0) 编辑
摘要: 首先分析街拍图集的网页请求头部: 在 preview 选项卡我们可以找到 json 文件,分析 data 选项,找到我们要找到的图集地址 article_url: 选中其中一张图片,分析 json 请求,可以找到图片地址在 gallery 一栏: 找到图片地址,接下来我们就可以来写代码了: 1.导入 阅读全文
posted @ 2017-08-21 11:24 希希里之海 阅读(576) 评论(0) 推荐(0) 编辑