随笔分类 -  python 爬虫

摘要:``` python USER_AGENTS = [ "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1", "Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/53... 阅读全文
posted @ 2017-12-08 19:11 xushukui 阅读(1256) 评论(0) 推荐(0) 编辑
摘要:``` python 一些常见的状态码为: 200 - 服务器成功返回网页 404 - 请求的网页不存在 503 - 服务不可用 详细分解: 1xx(临时响应) 表示临时响应并需要请求者继续执行操作的状态代码。 代码 说明 100 (继续) 请求者应当继续提出请求。服务器返回此代码表示已收到请求的第一部分,正在等待其余部分。 101 (切换协议) 请求者已要求服务器切换协议,服务器已确认... 阅读全文
posted @ 2017-12-06 15:59 xushukui 阅读(282) 评论(0) 推荐(0) 编辑
摘要:原文地址: http://blog.csdn.net/djskl/article/details/44357389 这四个方法是从某个字符串中寻找特定子串或判断某个字符串是否符合某个模式的常用方法。 阅读全文
posted @ 2017-12-04 18:38 xushukui 阅读(37287) 评论(0) 推荐(0) 编辑
摘要:原文地址 : http://blog.csdn.net/jiangchao858/article/details/63314426 阅读全文
posted @ 2017-11-25 17:33 xushukui 阅读(1307) 评论(0) 推荐(0) 编辑
摘要:1.前置安裝,確保你的系統是64位 2.添加Docker官方GPG key 验证key 确保key fingerprint是 :9DC8 5822 9FC7 DD38 854A E2D8 8D81 803C 0EBF CD88 3.安装仓库 4.安装Docker 5.测试Doker 解决apt ge 阅读全文
posted @ 2017-11-23 17:43 xushukui 阅读(906) 评论(0) 推荐(0) 编辑
摘要:``` python !/usr/bin/python coding:utf 8 爬取世纪佳缘 这个网站是真的烦,刚开始的时候用scrapy框架写,但是因为刚接触框架,碰到js渲染的页面之后就没办法了,所以就采用一般的爬虫了 js渲染过的数据,可能在网页源码里面没有数据,需要js异步请求提取数据,然 阅读全文
posted @ 2017-11-21 20:54 xushukui 阅读(4962) 评论(1) 推荐(1) 编辑
摘要:原文地址: http://www.cnblogs.com/ruoniao/p/6878731.html 阅读全文
posted @ 2017-10-09 20:47 xushukui 阅读(161) 评论(1) 推荐(0) 编辑

点击右上角即可分享
微信分享提示