2018 年 4月 8 日随笔档案 - 姚毛毛

2018年4月8日

摘要：上一篇多文章，是二级目录，根目录“小说”，二级目录“作品名称”，之后就是小说文件。本篇改造了部分代码，将目录设置为根目录->作者目录->作品目录->作品章节.txt. 但这并不是本章内容当重点，重点是使用这个爬虫程序抓取当时候，经常会因为网络丢包等原因导致程序中断，本来想着是循环获取网站状态，然阅读全文

posted @ 2018-04-08 17:27 姚毛毛阅读(1206) 评论(0) 推荐(0) 编辑

python3+beautifulSoup4.6抓取某网站小说（三）网页分析，BeautifulSoup解析

摘要：本章学习内容：将网站上的小说都爬下来，存储到本地。目标网站：www.cuiweijuxs.com 分析页面，发现一共4步：从主页进入分版打开分页列表、打开分页下所有链接、打开作品页面、打开单章内容。所以实现步骤如下： 1、进入分版页面，www.cuiweijuxs.com/jingpinxiao 阅读全文

posted @ 2018-04-08 15:41 姚毛毛阅读(2120) 评论(0) 推荐(0) 编辑

python3+beautifulSoup4.6抓取某网站小说（二）基础功能设计

摘要：打印出 b'<!doctype html>\r\n<html>\r\n<head>\r\n<title>\xbe\xab\xc6\xb7\xd0\xa1\xcb\xb5_……………… 这样的内容，这个是编码格式的问题，在zipfile解压乱码的文章中已经说过了，所以需要先看下这个html网页的头部，阅读全文

posted @ 2018-04-08 12:01 姚毛毛阅读(419) 评论(0) 推荐(0) 编辑

python3+beautifulSoup4.6抓取某网站小说（一）爬虫初探

摘要：本次学习重点： 1、使用urllib的request进行网页请求，获取当前url整版网页内容 2、对于多级抓取，先想好抓取思路，再动手 3、BeautifulSoup获取html网页中的指定内容 4、使用多线程，加快抓取速度本次抓取不涉及反爬虫知识。本章学习内容： 1、最简单的request请求阅读全文

posted @ 2018-04-08 11:26 姚毛毛阅读(427) 评论(0) 推荐(0) 编辑

姚毛毛

左手代码，右手写诗

linuxido.com

姚毛毛-linuxido.com

公告