随笔分类 -  爬虫

摘要:常用请求头: 协议头 说明 示例 状态 Accept 可接受的响应内容类型(Content-Types)。 Accept: text/plain 固定 Accept-Encoding 可接受的响应内容的编码方式。 Accept-Encoding: gzip, deflate 固定 Accept-Da 阅读全文
posted @ 2019-10-14 10:41 ma_fighting 阅读(535) 评论(0) 推荐(0) 编辑
摘要:https://m.jb51.net/article/159533.htm 阅读全文
posted @ 2019-08-13 11:27 ma_fighting 阅读(528) 评论(0) 推荐(0) 编辑
摘要:本文地址:http://www.cnblogs.com/likeli/p/5719230.html 前言 本文不提供任何搭梯子之类的内容,我在这里仅仅讨论网络爬虫遇到的IP封杀,然后使用Tor如何对抗这种封杀。作为一种技术上的研究讨论。 场景 我们编写的网络爬虫全网采集的时候总会有一些网站有意识的保 阅读全文
posted @ 2017-10-23 10:05 ma_fighting 阅读(400) 评论(0) 推荐(0) 编辑
摘要:概述 PhantomJS is a headless WebKit scriptable with a JavaScript API. It has fast and native support for various web standards: DOM handling, CSS select 阅读全文
posted @ 2017-08-25 16:45 ma_fighting 阅读(8783) 评论(0) 推荐(0) 编辑
摘要:首先要开启redis服务, 然后就可以了. 阅读全文
posted @ 2017-05-02 14:36 ma_fighting 阅读(1083) 评论(0) 推荐(0) 编辑
摘要:工具/原料 电脑 火狐浏览器 工具/原料 电脑 火狐浏览器 电脑 火狐浏览器 电脑 火狐浏览器 方法/步骤 在电脑用火狐浏览器打开想要的网站的网址。 需要用到火狐浏览器的一个插件 scrapbook 插件,没有的可以下载一个。 选择 上方工具栏中的 scrapbook 选项。 选择 scrapboo 阅读全文
posted @ 2017-01-04 09:38 ma_fighting 阅读(17534) 评论(0) 推荐(1) 编辑
摘要:python的编码问题比较恶心。 阅读全文
posted @ 2016-07-18 20:02 ma_fighting 阅读(2496) 评论(0) 推荐(0) 编辑
摘要:win7 64位系统依赖的scrapy文件链接:http://pan.baidu.com/s/1mgJS7BM 一个很好的python 64位包下载页面:http://www.lfd.uci.edu/~gohlke/pythonlibs/ 第一步:当然是安装python了,本人安装的是2.7.3版本 阅读全文
posted @ 2016-07-14 08:59 ma_fighting 阅读(256) 评论(0) 推荐(0) 编辑
摘要:1、爬虫技术概述 网络爬虫(Web crawler),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本,它们被广泛用于互联网搜索引擎或其他类似网站,可以自动采集所有其能够访问到的页面内容,以获取或更新这些网站的内容和检索方式。从功能上来讲,爬虫一般分为数据采集,处理,储存三个部分。传统爬虫从 阅读全文
posted @ 2016-07-07 19:08 ma_fighting 阅读(89072) 评论(1) 推荐(5) 编辑

历史天气查
点击右上角即可分享
微信分享提示