摘要: 转载自廖飞的博客        在第5部分讲到,构建一个tornado网站,必须包含一个或者多个handler,这些handler是RequestHandler的子类。每个请求都会被映射到handler中进行处理,处理后再将结果返回给客户端 阅读全文
posted @ 2018-11-23 22:20 silence-cc 阅读(2030) 评论(1) 推荐(0) 编辑
摘要: 目的:使用selenium + Chrome爬取某网站指定类型的乌云公开漏洞文章,即在win10终端输入漏洞类型(如未授权),则爬取所有该类型的漏洞文章,并把每个分页的数字作为文件夹名,来保存该分页下面的所有的漏洞文章。 总结:本例只是能简单的爬取某一类型漏洞的所有文章,但不能爬取多个类型漏洞的所有 阅读全文
posted @ 2018-08-12 15:50 silence-cc 阅读(2435) 评论(0) 推荐(0) 编辑
摘要: 1. 创建爬虫项目douban 2. 设置items.py文件,存储要保存的数据类型和字段名称 3. 设置爬虫文件doubanmovies.py coding: utf 8 import scrapy from douban.items import DoubanItem class Doubanm 阅读全文
posted @ 2018-07-31 23:43 silence-cc 阅读(712) 评论(0) 推荐(0) 编辑
摘要: 鼎鼎大名的乌云网站,仅存在6年左右,就停摆,真是可惜。。。 从某网站爬取所有公开的乌云漏洞文章,保存为pdf格式,以作纪念学习使用 首先创建一个文件夹wooyun,把下面代码保存为test.py,然后放在该文件夹 测试效果如下 阅读全文
posted @ 2018-07-31 23:35 silence-cc 阅读(560) 评论(0) 推荐(0) 编辑
摘要: 目的:爬取 "阳光热线问政平台问题反映" 每个帖子里面的标题、内容、编号和帖子url CrawlSpider版流程如下: 1. 创建爬虫项目dongguang 2. 设置items.py文件 3. 在spiders目录里面,创建并编写爬虫文件sun.py 4. 编写管道pipelines.py文件 阅读全文
posted @ 2018-07-20 14:46 silence-cc 阅读(440) 评论(0) 推荐(0) 编辑
摘要: 目的:通过fiddler在电脑上对手机版 "斗鱼主播" 进行抓包,爬取所有主播的昵称和图片链接 关于使用fiddler抓取手机包的设置: 把手机和装有fiddler的电脑处在同一个网段(同一个wifi),手机连接好wifi后,点击手机wifi的连接,把代理改为手动,主机地址设置为fiddler所在的 阅读全文
posted @ 2018-07-16 18:18 silence-cc 阅读(303) 评论(0) 推荐(0) 编辑
摘要: 目的:使用selenium + chrome爬取 "中国大学Mooc网" 计算机学科的所有的课程链接列表 思路:找到每个分页的节点属性为class=”m course list” 的div元素,再找到该元素下面的类属性为class = “u clist f bg f cb f pr j href g 阅读全文
posted @ 2018-07-12 18:18 silence-cc 阅读(1027) 评论(0) 推荐(0) 编辑
摘要: 目的:把 "腾讯社招" 的每个分页的职位名称及链接、类型、人数、工作地点、发布日期爬取下来,然后存储到json文件里面 思路: 1. 新建爬虫项目 2. 在items.py文件里面设置存储的字段名称及类型 3. 在spiders文件夹里面设置爬虫文件 4. 设置管道文件 5. 设置settings. 阅读全文
posted @ 2018-07-11 19:04 silence-cc 阅读(744) 评论(0) 推荐(0) 编辑
摘要: 目的:获取 "腾讯社招" 这个页面的职位名称及超链接 职位类别 人数 地点和发布时间 要求:使用bs4进行解析,并把结果以json文件形式存储 注意:如果直接把python列表没有序列化为json数组,写入到json文件,会产生中文写不进去到文件,所以要序列化并进行utf 8编码后写入文件。 阅读全文
posted @ 2018-07-11 18:50 silence-cc 阅读(571) 评论(0) 推荐(0) 编辑
摘要: 目的:在百度贴吧输入关键字和要查找的起始结束页,获取帖子里面楼主所发的图片 思路: 1. 获取分页里面的帖子链接列表 2. 获取帖子里面楼主所发的图片链接列表 3. 保存图片到本地 注意事项: 问题:在谷歌浏览器使用xpath helper插件时有匹配结果,但在程序里面使用python内带的xpat 阅读全文
posted @ 2018-06-27 11:14 silence-cc 阅读(292) 评论(0) 推荐(0) 编辑