11 2017 档案

摘要: 阅读全文
posted @ 2017-11-10 19:58 少年努力吧 阅读(106) 评论(0) 推荐(0) 编辑
摘要:这是一款基于谷歌搜索引擎的自动化爬虫。 爬虫介绍 爬虫大体机制就是: 先进行一次谷歌搜索,将结果解析为特定格式,然后再提供给exp使用。 大家可以尝试使用–help来列出所有参数。 这个项目笔者会持续更新,以后再添加新的exp进行升级。此外,它会利用google_parsers模块去构建exp解析搜 阅读全文
posted @ 2017-11-09 18:39 少年努力吧 阅读(850) 评论(0) 推荐(0) 编辑
摘要:一阶爬虫(技术篇) 应用场景一:静态结果页,无频率限制,无黑名单。 攻:直接采用scrapy爬取 防:nginx层写lua脚本,将爬虫IP加入黑名单,屏蔽一段时间(不提示时间) 应用场景二:静态结果页,无频率限制,有黑名单 攻:使用代理(http proxy、VPN),随机user-agent 防: 阅读全文
posted @ 2017-11-09 14:49 少年努力吧 阅读(548) 评论(0) 推荐(0) 编辑
摘要:vim是一款支持插件、功能无比强大的编辑器,无论你的系统是linux、unix、mac还是windows,都能够选择他来编辑文件或是进行工程级别 的coding。如果能把vim用好了,不仅编程效率能得到大幅度提高,周围人也会因此而看得头晕眼花佩服不已,自己心里当然也会心花怒放啦。下面就让我 来介绍一 阅读全文
posted @ 2017-11-08 22:26 少年努力吧 阅读(5491) 评论(0) 推荐(0) 编辑
摘要:你被爬虫侵扰过么?当你看到“爬虫”两个字的时候,是不是已经有点血脉贲张的感觉了?千万要忍耐,稍稍做点什么,就可以在名义上让他们胜利,实际上让他们受损失。 一、为什么要反爬虫 1、爬虫占总PV比例较高,这样浪费钱(尤其是三月份爬虫)。 三月份爬虫是个什么概念呢?每年的三月份我们会迎接一次爬虫高峰期。 阅读全文
posted @ 2017-11-08 15:42 少年努力吧 阅读(244) 评论(0) 推荐(0) 编辑
摘要:0x01 前言 一般而言,抓取稍微正规一点的网站,都会有反爬虫的制约。反爬虫主要有以下几种方式: 0x02 概要 今天我们先主要来讲一讲,如何应对第2条的反反爬虫,如何通过多IP抓取。 通过多IP爬虫,又分为以下几种形式: 0x03 正文 1. ADSL拨号 我一般是在windows平台ADSL拨号 阅读全文
posted @ 2017-11-07 13:34 少年努力吧 阅读(2300) 评论(0) 推荐(0) 编辑
摘要:爬虫(Spider),反爬虫(Anti-Spider),反反爬虫(Anti-Anti-Spider),这之间的斗争恢宏壮阔... Day 1小莫想要某站上所有的电影,写了标准的爬虫(基于HttpClient库),不断地遍历某站的电影列表页面,根据 Html 分析电影名字存进自己的数据库。这个站点的运 阅读全文
posted @ 2017-11-07 11:35 少年努力吧 阅读(1657) 评论(0) 推荐(0) 编辑
摘要:从功能上来讲,爬虫一般分为数据采集,处理,储存三个部分。这里我们只讨论数据采集部分。 一般网站从三个方面反爬虫:用户请求的Headers,用户行为,网站目录和数据加载方式。前两种比较容易遇到,大多数网站都从这些角度来反爬虫。第三种一些应用ajax的网站会采用,这样增大了爬取的难度。 0x02 通过H 阅读全文
posted @ 2017-11-07 11:16 少年努力吧 阅读(195) 评论(0) 推荐(0) 编辑
摘要:1、何为爬虫 爬虫的概念就是能按照给定的目标及规则实现自动化采集网络数据的程序或脚本。通俗的来说,就是通过程序来模拟人登陆网站去获取想要数据,就是这么简单。 爬虫的本质是直接用程序脚本去实现http请求,访问目标网站或数据接口,然后对获得的数据去进行解析,从而得到你想要的数据。 本人认为爬虫的最高境 阅读全文
posted @ 2017-11-07 10:40 少年努力吧 阅读(1456) 评论(0) 推荐(0) 编辑
摘要:一、基础知识篇: Http Header之User-Agent User Agent中文名为用户代理,是Http协议中的一部分,属于头域的组成部分,User Agent也简称UA。它是一个特殊字符串头,是一种向访问网站提供你所使用的浏览器类型及版本、操作系统及版本、浏览器内核、等信息的标识。通过这个 阅读全文
posted @ 2017-11-05 16:30 少年努力吧 阅读(534) 评论(0) 推荐(0) 编辑
摘要:您可能听说过,带有 yield 的函数在 Python 中被称之为 generator(生成器),何谓 generator ? 我们先抛开 generator,以一个常见的编程题目来展示 yield 的概念。 如何生成斐波那契數列 斐波那契(Fibonacci)數列是一个非常简单的递归数列,除第一个 阅读全文
posted @ 2017-11-02 19:44 少年努力吧 阅读(680) 评论(0) 推荐(0) 编辑
摘要:方法/步骤 找到配置文件先进行备份: cp ~/.bashrc ~/.bashrc-bak 找到配置文件修改: vi ~/.bashrc 备份是为了防止配置修改出错,可以还原; 下面是我的/home/vagrant/.bashrc,真正修改到就一行代码: 找到: 62 PS1='${debian_c 阅读全文
posted @ 2017-11-02 16:30 少年努力吧 阅读(1585) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示