希希里之海

2018年4月5日

摘要：使用shadowsocks开启代理，只支持浏览器开启代理，其他软件是不能够开启代理的，因为这个问题，自己一直无法用本地终端 git clone 一些库，网上查找方法，总结如下：步骤一：开启shadowsocks，打开自动代理模式，选择节点。步骤二：打开终端，用 vim 打开 .zshrc（zsh 阅读全文

posted @ 2018-04-05 11:11 希希里之海阅读(3961) 评论(0) 推荐(0) 编辑

2018年3月23日

Pycharm节能模式

摘要：如题，开启节能模式代码不会自动补全。阅读全文

posted @ 2018-03-23 16:40 希希里之海阅读(1073) 评论(0) 推荐(0) 编辑

2018年3月17日

使用正则表达式替换构造字典

摘要：写爬虫时获取网页的请求头时，拿到的数据往往不是字典类型，我们可以使用 Pycharm 的正则表达式替换功能，替换为字典类型。阅读全文

posted @ 2018-03-17 14:50 希希里之海阅读(770) 评论(0) 推荐(0) 编辑

2018年3月15日

使用代理爬取微信文章

摘要：思路：使用搜狗搜索爬取微信文章时由于官方有反爬虫措施，不更换代理容易被封，所以使用更换代理的方法爬取微信文章，代理池使用的是GitHub上的开源项目，地址如下：https://github.com/jhao104/proxy_pool，代理池配置参考开源项目的配置。步骤： 1）分析网页结构，拿到阅读全文

posted @ 2018-03-15 18:21 希希里之海阅读(1329) 评论(0) 推荐(0) 编辑

2018年2月16日

利用 Scrapy 爬取知乎用户信息

摘要：思路：通过获取知乎某个大V的关注列表和被关注列表，查看该大V和其关注用户和被关注用户的详细信息，然后通过层层递归调用，实现获取关注用户和被关注用户的关注列表和被关注列表，最终实现获取大量用户信息。一、新建一个scrapy项目移动到新建目录下：新建spider项目：二、这里以爬取知乎大V轮子哥阅读全文

posted @ 2018-02-16 13:52 希希里之海阅读(1496) 评论(3) 推荐(2) 编辑

2018年2月9日

Scrapy选择器的用法

摘要： 1.构造选择器： 2.使用选择器（在response使用xpath或CSS查询）： .xpath() 及 .css() 方法返回一个类 SelectorList 的实例, 它是一个新选择器的列表。 xpath中 //选取标签，/选择属性， CSS中用 :: 选取属性。调用 extract() 来获阅读全文

posted @ 2018-02-09 12:29 希希里之海阅读(211) 评论(0) 推荐(0) 编辑

2018年2月8日

Scrapy命令行基本用法

摘要： 1.创建一个新项目： 2.在新项目中创建一个新的spider文件： mydomain为spider文件名，mydomain.com为爬取网站域名 3.全局命令： 4.只在项目中使用的命令（局部命令）： 5.运行spider文件： 6.检查spider文件有无语法错误： 7.列出spider路径下的s 阅读全文

posted @ 2018-02-08 14:14 希希里之海阅读(8266) 评论(0) 推荐(1) 编辑

2018年1月17日

Mac下安装Redis

摘要： Mac下安装Redis使用home-brew一键安装：brew install redis启动Redis服务：brew services start redis 或 redis-server /usr/local/etc/redis.conf关闭Redis服务：brew services stop 阅读全文

posted @ 2018-01-17 23:12 希希里之海阅读(3458) 评论(0) 推荐(0) 编辑

2017年9月10日

利用 pyspider 框架抓取猫途鹰酒店信息

摘要：利用框架 pyspider 能实现快速抓取网页信息，而且代码简洁，抓取速度也不错。环境：macOS；Python 版本：Python3。 1.首先，安装 pyspider 框架，使用pip3一键安装： 2.终端输入 pyspider all 启动 pyspider：打开 Chrome，地址栏输入阅读全文

posted @ 2017-09-10 20:54 希希里之海阅读(724) 评论(0) 推荐(0) 编辑

2017年8月21日

分析 ajax 请求并抓取今日头条街拍美图

摘要：首先分析街拍图集的网页请求头部：在 preview 选项卡我们可以找到 json 文件，分析 data 选项，找到我们要找到的图集地址 article_url: 选中其中一张图片，分析 json 请求，可以找到图片地址在 gallery 一栏：找到图片地址，接下来我们就可以来写代码了： 1.导入阅读全文

posted @ 2017-08-21 11:24 希希里之海阅读(576) 评论(0) 推荐(0) 编辑

Java 小码农一枚，喜欢分享写作交流，欢迎关注我的个人公众号：希希里之海。

公告