随笔分类 -  爬虫

摘要:一、Twisted的使用 二、自定义爬虫包 阅读全文
posted @ 2017-05-24 10:16 努力哥 阅读(428) 评论(0) 推荐(0) 编辑
摘要:Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 其可以应用在数据挖掘,信息处理或存储历史数据等一系列的程序中。其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的, 也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 阅读全文
posted @ 2017-05-17 10:12 努力哥 阅读(918) 评论(0) 推荐(0) 编辑
摘要:什么是进程? 进程是程序运行的实例,是系统进行资源分配和调度的一个独立单位,它包括独立的地址空间,资源以及1个或多个线程。 什么是线程? 线程可以看成是轻量级的进程,是CPU调度和分派的基本单位。 进程和线程的区别? 1.调度 :从上面的定义可以看出一个是调度和分派的基本单位,一个是拥有资源的基本单 阅读全文
posted @ 2017-05-16 10:37 努力哥 阅读(456) 评论(0) 推荐(0) 编辑
摘要:一、话说爬虫 先说说爬虫,爬虫常被用来抓取特定网站网页的HTML数据,定位在后端数据的获取,而对于网站而言,爬虫给网站带来流量的同时,一些设计不好的爬虫由于爬得太猛,导致给网站来带很大的负担,当然再加上一些网站并不希望被爬取,所以就出现了许许多多的反爬技术。 二、安装模块 1. requests 模 阅读全文
posted @ 2017-05-10 08:53 努力哥 阅读(2115) 评论(0) 推荐(0) 编辑
摘要:用爬虫爬百度小说,示例为python2版本 什么是爬虫?1、爬取数据,数据采集 获取网页源代码:urllib.urlopen.read()读取所有 readline 读取第一行匹配你想要的一些内容: re.findall 列表返回 爬的网页地址: http://tieba.baidu.com/p/4 阅读全文
posted @ 2016-11-16 14:17 努力哥 阅读(1045) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示