摘要: 配置环境:已安装好Scrapy库,MySQL,Navicat for MySQL 可视化工具; 基本思路: 1.pipeline文件处理的是spider爬取得到的item进行处理,包括导入数据库,保存图片及json文件,以及各种处理。 2.通过Navicat可视化工具先对MySQL数据库进行预处理, 阅读全文
posted @ 2018-02-02 12:50 小虾饺 阅读(320) 评论(0) 推荐(0)
摘要: Scrapy 的图片管道,是通过内置的ImagesPipeline类实现的,源码在site-packages\scrapy\pipelines\images.py中;可以查看内置函数和方法。 将所有下载的图片转换成通用的格式(JPG)和模式(RGB) 避免重新下载最近已经下载过的图片 缩略图生成 检 阅读全文
posted @ 2018-01-31 16:42 小虾饺 阅读(442) 评论(0) 推荐(0)
摘要: 1. 正则表达式是用来匹配字符串的,使用模块re进行匹配; 2. 特殊字符: . 任意字符(除了换行都包括) * 任意次数,+任意≥1次数,{2}出现2次,{2,}出现≥2次,{2,5}出现2-5次 ^a 以a开头 $a 以a结尾 [A-Za-z0-9_]限定范围,[^]限定不是 \s 空格,\S不 阅读全文
posted @ 2018-01-26 15:36 小虾饺 阅读(159) 评论(0) 推荐(0)
摘要: 早几天刚好2017年的豆瓣电影榜单web也出来了,于是打算实践一下,用的chrome浏览器。 图1 0. 观察网页元素 由于是一个动态的网页,动态效果主要由翻页或者右边的按钮实现,另外,也可以从首页的导航栏直接跳转到某一页。 首页导航栏 利用了google Chrome浏览器自带的API netwo 阅读全文
posted @ 2018-01-02 10:58 小虾饺 阅读(691) 评论(0) 推荐(0)
摘要: 安装教程来源:https://jingyan.baidu.com/album/d5c4b52bef7268da560dc5f8.html?picindex=1 第一步:下载安装包并添加path MongoDB官网网址 mongoDB容易被墙,如果不能download,请点 mongodb-win32 阅读全文
posted @ 2017-12-28 12:01 小虾饺 阅读(119) 评论(0) 推荐(0)