爬虫 - 随笔分类 - 努力哥

摘要：一、Twisted的使用二、自定义爬虫包阅读全文

posted @ 2017-05-24 10:16 努力哥阅读(440) 评论(0) 推荐(0)

摘要：Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。其可以应用在数据挖掘，信息处理或存储历史数据等一系列的程序中。其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的，也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 阅读全文

posted @ 2017-05-17 10:12 努力哥阅读(945) 评论(0) 推荐(0)

爬虫之多线程多进程自定义异步IO框架

摘要：什么是进程？进程是程序运行的实例，是系统进行资源分配和调度的一个独立单位，它包括独立的地址空间，资源以及1个或多个线程。什么是线程？线程可以看成是轻量级的进程，是CPU调度和分派的基本单位。进程和线程的区别？ 1.调度：从上面的定义可以看出一个是调度和分派的基本单位，一个是拥有资源的基本单阅读全文

posted @ 2017-05-16 10:37 努力哥阅读(470) 评论(0) 推荐(0)

爬虫之爬汽车之家

摘要：一、话说爬虫先说说爬虫，爬虫常被用来抓取特定网站网页的HTML数据，定位在后端数据的获取,而对于网站而言，爬虫给网站带来流量的同时，一些设计不好的爬虫由于爬得太猛，导致给网站来带很大的负担，当然再加上一些网站并不希望被爬取，所以就出现了许许多多的反爬技术。二、安装模块 1. requests 模阅读全文

posted @ 2017-05-10 08:53 努力哥阅读(2184) 评论(0) 推荐(0)

爬百度小说内容

摘要：用爬虫爬百度小说,示例为python2版本什么是爬虫？1、爬取数据，数据采集获取网页源代码：urllib.urlopen.read()读取所有 readline 读取第一行匹配你想要的一些内容: re.findall 列表返回爬的网页地址： http://tieba.baidu.com/p/4 阅读全文

posted @ 2016-11-16 14:17 努力哥阅读(1079) 评论(0) 推荐(0)

努力哥-运维自动化

随笔分类 - 爬虫

公告