少年努力吧 - 博客园

2017年11月8日

摘要：你被爬虫侵扰过么？当你看到“爬虫”两个字的时候，是不是已经有点血脉贲张的感觉了？千万要忍耐，稍稍做点什么，就可以在名义上让他们胜利，实际上让他们受损失。一、为什么要反爬虫 1、爬虫占总PV比例较高，这样浪费钱（尤其是三月份爬虫）。三月份爬虫是个什么概念呢？每年的三月份我们会迎接一次爬虫高峰期。阅读全文

posted @ 2017-11-08 15:42 少年努力吧阅读(242) 评论(0) 推荐(0) 编辑

2017年11月7日

反反爬虫 IP代理

摘要： 0x01 前言一般而言，抓取稍微正规一点的网站，都会有反爬虫的制约。反爬虫主要有以下几种方式： 0x02 概要今天我们先主要来讲一讲，如何应对第2条的反反爬虫，如何通过多IP抓取。通过多IP爬虫，又分为以下几种形式： 0x03 正文 1. ADSL拨号我一般是在windows平台ADSL拨号阅读全文

posted @ 2017-11-07 13:34 少年努力吧阅读(2258) 评论(0) 推荐(0) 编辑

爬虫(Spider)，反爬虫(Anti-Spider)，反反爬虫(Anti-Anti-Spider)

摘要：爬虫(Spider)，反爬虫(Anti-Spider)，反反爬虫(Anti-Anti-Spider)，这之间的斗争恢宏壮阔... Day 1小莫想要某站上所有的电影，写了标准的爬虫(基于HttpClient库)，不断地遍历某站的电影列表页面，根据 Html 分析电影名字存进自己的数据库。这个站点的运阅读全文

posted @ 2017-11-07 11:35 少年努力吧阅读(1482) 评论(0) 推荐(0) 编辑

反爬虫总结

摘要：从功能上来讲，爬虫一般分为数据采集，处理，储存三个部分。这里我们只讨论数据采集部分。一般网站从三个方面反爬虫：用户请求的Headers，用户行为，网站目录和数据加载方式。前两种比较容易遇到，大多数网站都从这些角度来反爬虫。第三种一些应用ajax的网站会采用，这样增大了爬取的难度。 0x02 通过H 阅读全文

posted @ 2017-11-07 11:16 少年努力吧阅读(189) 评论(0) 推荐(0) 编辑

爬虫小技巧

摘要： 1、何为爬虫爬虫的概念就是能按照给定的目标及规则实现自动化采集网络数据的程序或脚本。通俗的来说，就是通过程序来模拟人登陆网站去获取想要数据，就是这么简单。爬虫的本质是直接用程序脚本去实现http请求，访问目标网站或数据接口，然后对获得的数据去进行解析，从而得到你想要的数据。本人认为爬虫的最高境阅读全文

posted @ 2017-11-07 10:40 少年努力吧阅读(1438) 评论(0) 推荐(0) 编辑

2017年11月5日

User-Agent大全

摘要：一、基础知识篇： Http Header之User-Agent User Agent中文名为用户代理，是Http协议中的一部分，属于头域的组成部分，User Agent也简称UA。它是一个特殊字符串头，是一种向访问网站提供你所使用的浏览器类型及版本、操作系统及版本、浏览器内核、等信息的标识。通过这个阅读全文

posted @ 2017-11-05 16:30 少年努力吧阅读(527) 评论(0) 推荐(0) 编辑

2017年11月2日

Python yield 使用浅析

摘要：您可能听说过，带有 yield 的函数在 Python 中被称之为 generator（生成器），何谓 generator ？我们先抛开 generator，以一个常见的编程题目来展示 yield 的概念。如何生成斐波那契數列斐波那契（Fibonacci）數列是一个非常简单的递归数列，除第一个阅读全文

posted @ 2017-11-02 19:44 少年努力吧阅读(678) 评论(0) 推荐(0) 编辑

解决Ubuntu终端里面显示路径名称太长

摘要：方法/步骤找到配置文件先进行备份： cp ~/.bashrc ~/.bashrc-bak 找到配置文件修改： vi ~/.bashrc 备份是为了防止配置修改出错，可以还原；下面是我的/home/vagrant/.bashrc，真正修改到就一行代码：找到： 62 PS1='${debian_c 阅读全文

posted @ 2017-11-02 16:30 少年努力吧阅读(1562) 评论(0) 推荐(0) 编辑

2017年10月31日

百度搜索URL中的参数都是什么

摘要：最近，点石排名更新了一个新功能——站内搜索。其实理解起来也很简单，就是通过URL限定搜索结果为某个网站，从而参与点击（例如：https://www.baidu.com/s?wd=SEO&si=www.4xseo.com&ct=2097152）。这样是否能够提升排名还不得而知。不过弄清楚百度搜索URL 阅读全文

posted @ 2017-10-31 20:55 少年努力吧阅读(1062) 评论(0) 推荐(0) 编辑

Fiddler 网页采集抓包利器__手机app抓包

摘要：用curl技术开发了一个微信文章聚合类产品，把抓取到的数据转换成json格式，并在android端调用json数据接口加以显示；基于weiphp做了一个掌上头条插件，也是用的网页采集技术；和一个创业团队一起在做一个高考志愿填报系统，所有的数据也是从别的地方抓取。总而言之，网页抓取与网页采集技术是阅读全文

posted @ 2017-10-31 16:58 少年努力吧阅读(3742) 评论(0) 推荐(0) 编辑

公告