摘要:
上一篇多文章,是二级目录,根目录“小说”,二级目录“作品名称”,之后就是小说文件。 本篇改造了部分代码,将目录设置为根目录->作者目录->作品目录->作品章节.txt. 但这并不是本章内容当重点,重点是使用这个爬虫程序抓取当时候,经常会因为网络丢包等原因导致程序中断, 本来想着是循环获取网站状态,然 阅读全文
摘要:
本章学习内容:将网站上的小说都爬下来,存储到本地。 目标网站:www.cuiweijuxs.com 分析页面,发现一共4步:从主页进入分版打开分页列表、打开分页下所有链接、打开作品页面、打开单章内容。 所以实现步骤如下: 1、进入分版页面,www.cuiweijuxs.com/jingpinxiao 阅读全文
摘要:
打印出 b'<!doctype html>\r\n<html>\r\n<head>\r\n<title>\xbe\xab\xc6\xb7\xd0\xa1\xcb\xb5_……………… 这样的内容,这个是编码格式的问题,在zipfile解压乱码的文章中已经说过了,所以需要先看下这个html网页的头部, 阅读全文
摘要:
本次学习重点: 1、使用urllib的request进行网页请求,获取当前url整版网页内容 2、对于多级抓取,先想好抓取思路,再动手 3、BeautifulSoup获取html网页中的指定内容 4、使用多线程,加快抓取速度 本次抓取不涉及反爬虫知识。 本章学习内容: 1、最简单的request请求 阅读全文