上善若水,不进则退

姚毛毛

左手代码,右手写诗

linuxido.com

04 2018 档案

摘要:title: python3爬取女神图片,破解盗链问题 date: 2018 04 22 08:26:00 tags: [python3,美女,图片抓取,爬虫, 盗链] comments: true 前言 其实,抓取图片和抓取小说内容没有任何本质的区别,步骤都是一样的。 但是图片读取的时候,会遇到一 阅读全文
posted @ 2018-04-22 10:30 姚毛毛 阅读(4678) 评论(0) 推荐(0) 编辑
摘要:title: 个人建站&mac下安装hexo date: 2018 04 18 16:34:02 tags: [mac,blog,个人建站,markdown] 这两天使用了markdown来写文章,发觉甚是好用。条理清晰,排版清爽。so,萌生了使用支持markdown的hexo来进行个人建站。 <! 阅读全文
posted @ 2018-04-21 22:51 姚毛毛 阅读(754) 评论(0) 推荐(0) 编辑
摘要:网上一堆答案全是ggyG,根本不行, 正确答案应该是 gg" yG 或者 gg" +yG 下面是在stack overflow 上找到的答案,亲测有效,在此记录下 "stackoverflow原文,点这个链接,或看下面内容:" You should yank the text to the or + 阅读全文
posted @ 2018-04-19 10:14 姚毛毛 阅读(435) 评论(0) 推荐(0) 编辑
摘要:markdown 学习笔记 忽然才发现使用markdown来记笔记很强大。以下是markdown的百度定义: Markdown是一种可以使用普通文本编辑器编写的标记语言, 通过简单的标记语法,它可以使普通文本内容具有一定的格式。 Markdown具有一系列衍生版本, 用于扩展Markdown的功能( 阅读全文
posted @ 2018-04-16 17:52 姚毛毛 阅读(455) 评论(0) 推荐(0) 编辑
摘要:上一篇多文章,是二级目录,根目录“小说”,二级目录“作品名称”,之后就是小说文件。 本篇改造了部分代码,将目录设置为根目录->作者目录->作品目录->作品章节.txt. 但这并不是本章内容当重点,重点是使用这个爬虫程序抓取当时候,经常会因为网络丢包等原因导致程序中断, 本来想着是循环获取网站状态,然 阅读全文
posted @ 2018-04-08 17:27 姚毛毛 阅读(1209) 评论(0) 推荐(0) 编辑
摘要:本章学习内容:将网站上的小说都爬下来,存储到本地。 目标网站:www.cuiweijuxs.com 分析页面,发现一共4步:从主页进入分版打开分页列表、打开分页下所有链接、打开作品页面、打开单章内容。 所以实现步骤如下: 1、进入分版页面,www.cuiweijuxs.com/jingpinxiao 阅读全文
posted @ 2018-04-08 15:41 姚毛毛 阅读(2125) 评论(0) 推荐(0) 编辑
摘要:打印出 b'<!doctype html>\r\n<html>\r\n<head>\r\n<title>\xbe\xab\xc6\xb7\xd0\xa1\xcb\xb5_……………… 这样的内容,这个是编码格式的问题,在zipfile解压乱码的文章中已经说过了,所以需要先看下这个html网页的头部, 阅读全文
posted @ 2018-04-08 12:01 姚毛毛 阅读(422) 评论(0) 推荐(0) 编辑
摘要:本次学习重点: 1、使用urllib的request进行网页请求,获取当前url整版网页内容 2、对于多级抓取,先想好抓取思路,再动手 3、BeautifulSoup获取html网页中的指定内容 4、使用多线程,加快抓取速度 本次抓取不涉及反爬虫知识。 本章学习内容: 1、最简单的request请求 阅读全文
posted @ 2018-04-08 11:26 姚毛毛 阅读(429) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示