小虾饺

2018年2月2日

摘要：配置环境：已安装好Scrapy库，MySQL，Navicat for MySQL 可视化工具；基本思路： 1.pipeline文件处理的是spider爬取得到的item进行处理，包括导入数据库，保存图片及json文件，以及各种处理。 2.通过Navicat可视化工具先对MySQL数据库进行预处理，阅读全文

posted @ 2018-02-02 12:50 小虾饺阅读(338) 评论(0) 推荐(0)

2018年1月31日

Scrapy 下载图片

摘要： Scrapy 的图片管道，是通过内置的ImagesPipeline类实现的，源码在site-packages\scrapy\pipelines\images.py中；可以查看内置函数和方法。将所有下载的图片转换成通用的格式（JPG）和模式（RGB）避免重新下载最近已经下载过的图片缩略图生成检阅读全文

posted @ 2018-01-31 16:42 小虾饺阅读(450) 评论(0) 推荐(0)

2018年1月26日

正则表达式

摘要： 1. 正则表达式是用来匹配字符串的，使用模块re进行匹配； 2. 特殊字符： . 任意字符（除了换行都包括） * 任意次数，+任意≥1次数，{2}出现2次，{2，}出现≥2次，{2,5}出现2-5次 ^a 以a开头 $a 以a结尾 [A-Za-z0-9_]限定范围，[^]限定不是 \s 空格，\S不阅读全文

posted @ 2018-01-26 15:36 小虾饺阅读(164) 评论(0) 推荐(0)

2018年1月2日

爬取动态网页（2017年年度豆瓣电影榜单）

摘要：早几天刚好2017年的豆瓣电影榜单web也出来了，于是打算实践一下，用的chrome浏览器。图1 0. 观察网页元素由于是一个动态的网页，动态效果主要由翻页或者右边的按钮实现，另外，也可以从首页的导航栏直接跳转到某一页。首页导航栏利用了google Chrome浏览器自带的API netwo 阅读全文

posted @ 2018-01-02 10:58 小虾饺阅读(698) 评论(0) 推荐(0)

2017年12月28日

windows下安装mongoDB

摘要：安装教程来源：https://jingyan.baidu.com/album/d5c4b52bef7268da560dc5f8.html?picindex=1 第一步：下载安装包并添加path MongoDB官网网址 mongoDB容易被墙，如果不能download，请点 mongodb-win32 阅读全文

posted @ 2017-12-28 12:01 小虾饺阅读(128) 评论(0) 推荐(0)

公告