摘要: 之前介绍过将数据写入mysql数据库中,但是对于那些没有数据库的,可以通过写入json文件中或者是写入到csv或者xls;这里只介绍写入json文件中,也为再练习一下自定义的pipeline 思路: 1,写入数据库中,从数据库中可以以各种形式导出 2,自定义pipeline,注册在setting中 阅读全文
posted @ 2017-05-24 20:36 若鸟 阅读(2983) 评论(0) 推荐(0) 编辑
摘要: 前面讲解到将Item中的所有字段都已经填写完成,那么接下来就是将他们存储到mysql数据库中,那就用到了pipeline项目管道了; 对项目管道的理解:做一个比喻,爬取好比是开采石油,Item装的都是原油,需要通过一系列的管道和工艺进行提炼,而这些原油都是通过pipeline进行加工的,才能真正的到 阅读全文
posted @ 2017-05-24 19:24 若鸟 阅读(1755) 评论(0) 推荐(0) 编辑
摘要: mysql连接本地数据库遇到 can't get hostname for your address 不明原因的本地mysql数据库连接不上,总是显示can't get hostname for your address 百度googel资料终于解决,记录下解决方式 一:检查了自己的hosts文件, 阅读全文
posted @ 2017-05-23 20:09 若鸟 阅读(3716) 评论(1) 推荐(1) 编辑
摘要: 前面讲到将每篇文章的URL写入Item,但是每个url的长度是不同的,可以在Item中设置一个字段怎样使得每个URL的长度相同,这就需要对每个URL进行md5运算,使得长度统一,再加入到设定的Item字段中 从项目的根目录下新建一个文件夹,把所有能用到的自定义方法写入,,命名为util并从util下 阅读全文
posted @ 2017-05-23 14:39 若鸟 阅读(623) 评论(0) 推荐(0) 编辑
摘要: 前边讲到简单的图片下载,但是怎样将图片的本地路径和存储在Item中的数据对应起来,所以本篇博文讲解到如何将 本地的下载后的图片路径写入到Item中 思路:自定义pipline,多加个管道,该管道继承下载图片的类,并重写与Item 交互的方法,从众提取到本地路径,并返回这个Item交给下一个pipli 阅读全文
posted @ 2017-05-22 20:42 若鸟 阅读(478) 评论(0) 推荐(0) 编辑
摘要: scrapy 提供了自动下载图片到本地的功能,通过项目管道设置 一: 在setting 文件中ITEM_PIPELINE添加: 'scrapy.pipelines.images.ImagesPipeline':1 1为处理顺序,顺序越小,越先处理; 二: 继续在setting中添加图片URL地址获取 阅读全文
posted @ 2017-05-22 20:01 若鸟 阅读(333) 评论(0) 推荐(0) 编辑
摘要: 需求: 一个文件夹中有个文件,要求对特定的文件加入可执行权限 某文件系统目录下有一系列文件: quicksort graph.py heap.java install.sh stack.cpp .....编写程序对所有的.sh文件和.py文件加上用户可执行权限 解决方法: 使用字符串的str.sta 阅读全文
posted @ 2017-05-22 17:21 若鸟 阅读(2806) 评论(0) 推荐(0) 编辑
摘要: 上次我们介绍了scrapy的安装和加入debug的main文件,这次重要介绍创建的爬虫的基本爬取有用信息 通过命令(这篇博文)创建了jobbole这个爬虫,并且生成了jobbole.py这个文件,又写了xpath和css的基本用法的博文 首先分析网页的结构和抓取流程: 1,下载start_urls, 阅读全文
posted @ 2017-05-19 15:37 若鸟 阅读(2535) 评论(0) 推荐(0) 编辑
摘要: 基本语法: * 选择所有节点#container 选择id为container的节点.container 选择所有class包含container的节点li a 选取所有li 下所有a节点ul + p 选取ul后面的第一个p元素div#container > ul 选取id为container的di 阅读全文
posted @ 2017-05-18 19:39 若鸟 阅读(6376) 评论(0) 推荐(1) 编辑
摘要: #-*-coding:utf-8-*-''' 字符串的切割 当需要的分隔符是一个是: s.split("分隔符") 当分隔符是多个时: s = "abcd,1313|;gg2*hhh" 方法一: 将多个分隔符每个每个的拆开分隔 方法二: 通过re模块的split()方法'''#方法一 #方法二: 阅读全文
posted @ 2017-05-17 20:01 若鸟 阅读(23586) 评论(0) 推荐(0) 编辑