摘要: 前言 仅仅伪装网页agent是不够的,你还需要一点新东西 今天主要讲解两个比较知名的国内免费IP代理网站:西刺代理&快代理,我们主要的目标是爬取其免费的高匿代理,这些IP有两大特点: 免费,不稳定 (至于为什么要爬不稳定的免费的代理,你心里难道没点B+树么,高富帅谁 过来学爬虫,还爬代理,人家直接买 阅读全文
posted @ 2019-01-25 14:36 wxplmm 阅读(13667) 评论(0) 推荐(0) 编辑
摘要: 总览 今天我们就来小用一下Jsoup,从一个整体的角度来看一看爬虫 一个基本的爬虫框架包括: [x] 解析网页 [x] 失败重试 [x] 抓取内容保存至本地 [x] 多线程抓取 分模块讲解 将上述基本框架的模块按逻辑顺序讲解,一步一步复现代码实现过程 失败重试 一个好的模块必然有异常捕捉和处理 在之 阅读全文
posted @ 2019-01-23 14:27 wxplmm 阅读(936) 评论(0) 推荐(0) 编辑
摘要: 认识Jsoup 一个解析网页的工具 无论你用什么语言爬虫,都要解析网页,今天,我们用一款常用的网页解析Jsoup,来开启爬虫的第一课 认识网页,认识爬虫,认识你自己 快速上手 了解一个新东西最快的方法就是频繁的使用和练习,让我们从最基础的地方开始 解析一个HTML字符串 输出如图: 解析一个body 阅读全文
posted @ 2019-01-17 10:36 wxplmm 阅读(213) 评论(0) 推荐(0) 编辑
摘要: 遇到的问题 在处理数据过程中,遇到需要取(n)个数的问题,而当样本量过大的时候,就不能简单的take(n),这类问题一般有两种情况: 有序取 TopN 无序取 N 先来讨论 无序取N 的情况: sample 函数 sample(boolean, fraction,seed) : 按比例抽取 返回一个 阅读全文
posted @ 2019-01-16 14:26 wxplmm 阅读(816) 评论(0) 推荐(0) 编辑
摘要: 前传 传闻在一个叫做互联网的神奇世界里,有一群神秘的人,每到夜深人静,黑夜笼罩大地的时刻,他们才揭开神秘的面纱,显露出各种各样的神奇能力,他们有的会搬砖,有的会造轮子,当然最厉害的还是一种叫做拷贝的术法... 据说这个神秘的团体流派众多Java派,PHP派,C++派,等等等等,不过奇怪的是,不论他们 阅读全文
posted @ 2019-01-10 20:45 wxplmm 阅读(342) 评论(2) 推荐(2) 编辑
摘要: 第一次“北漂” 准备了一个星期的Hadoop,把林子雨老师的视频刷了一遍,翻出了好久没用的小本本,密密麻麻的记了一大堆。刷了网上能找到的Hadoop的所有面试题(这个真的很重要) 然后,启程,北上,还好我对铺的小胖子陪着我(md回来的时候他竟然找到工作了...) 第一天上午蓝色光标,下午品友 蓝色光 阅读全文
posted @ 2017-11-14 20:25 wxplmm 阅读(389) 评论(0) 推荐(0) 编辑
摘要: <!--[endif]--> <!--[endif]--> <!--[endif]--> <!--[endif]--> package com.hadoop.hdfs.api.test.mr.wc; import java.io.IOException; import org.apache.hado 阅读全文
posted @ 2017-07-29 10:33 wxplmm 阅读(5592) 评论(0) 推荐(0) 编辑
摘要: 概览 首先我们来认识一下HDFS, HDFS(Hadoop Distributed File System )Hadoop分布式文件系统。它其实是将一个大文件分成若干块保存在不同服务器的多个节点中。通过联网让用户感觉像是在本地一样查看文件,为了降低文件丢失造成的错误,它会为每个小文件复制多个副本(默 阅读全文
posted @ 2017-07-26 14:03 wxplmm 阅读(25811) 评论(4) 推荐(10) 编辑