摘要: 初次学习scrapy ,觉得spider代码才是最重要的,越往后学,发现pipeline中的代码也很有趣, 今天顺便把pipeline中三种储存方法写下来,算是对自己学习的一点鼓励吧,也可以为后来者的学习提供 绵薄之力,写的不怎么好,谅解 爬虫7部曲,虽然我不知道其他人是规划的 1.创建工程 scr 阅读全文
posted @ 2018-10-23 16:11 【十一】 阅读(7586) 评论(1) 推荐(1) 编辑
摘要: 为了把数据保存到mysql费了很多周折,早上再来折腾,终于折腾好了 安装数据库 1、pip install pymysql(根据版本来装) 2、创建数据 打开终端 键入mysql -u root -p 回车输入密码 create database scrapy (我新建的数据库名称为scrapy) 阅读全文
posted @ 2018-10-18 11:43 【十一】 阅读(4673) 评论(0) 推荐(1) 编辑
摘要: 本不想使用这个玩意,奈何看到很多地方使用,随手整理下 urllib模块提供的urlretrieve()函数,urlretrieve()方法直接将远程数据下载到本地<!--5f39ae17-8c62-4a45-bc43-b32064c9388a:W3siYmxvY2tJZCI6IjIyNDYtMTUz 阅读全文
posted @ 2018-10-11 11:10 【十一】 阅读(216) 评论(0) 推荐(0) 编辑
摘要: 之所以写这个因为自己总是弄混了,容易弄错,记下来有事没事看看 序列化是指把变量从内存中变成可存储或传输的过程称之为序列化用(使用dump或者dumps),把变量内容从序列化的对象重新读到 内存里称之为反序列化(使用load或者loads) 如果我们要在不同的编程语言之间传递对象,就必须把对象序列化为 阅读全文
posted @ 2018-09-29 11:19 【十一】 阅读(4174) 评论(0) 推荐(0) 编辑
摘要: 学了大概一个月Scrapy,自己写了些东东,遇到很多问题,这几天心情也不大好,小媳妇人也不舒服,休假了,自己研究了很久,有些眉目了 利用scrapy 框架爬取慕课网的一些信息 步骤一:新建项目 scrapy startproject muke 进入muke scrapy genspider muke 阅读全文
posted @ 2018-09-27 15:21 【十一】 阅读(557) 评论(1) 推荐(0) 编辑
摘要: 纪念我们闹过的矛盾,只想平淡如水import requestsimport reurl = 'http://www.xiaohuar.com/list-1-%s.html'for i in range(4): temp = url % i response =requests.get(temp) h 阅读全文
posted @ 2018-09-21 16:15 【十一】 阅读(655) 评论(2) 推荐(0) 编辑