会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
小虾饺
博客园
首页
新随笔
联系
订阅
管理
2018年2月2日
Scrapy 将数据导入MySQL
摘要: 配置环境:已安装好Scrapy库,MySQL,Navicat for MySQL 可视化工具; 基本思路: 1.pipeline文件处理的是spider爬取得到的item进行处理,包括导入数据库,保存图片及json文件,以及各种处理。 2.通过Navicat可视化工具先对MySQL数据库进行预处理,
阅读全文
posted @ 2018-02-02 12:50 小虾饺
阅读(320)
评论(0)
推荐(0)
2018年1月31日
Scrapy 下载图片
摘要: Scrapy 的图片管道,是通过内置的ImagesPipeline类实现的,源码在site-packages\scrapy\pipelines\images.py中;可以查看内置函数和方法。 将所有下载的图片转换成通用的格式(JPG)和模式(RGB) 避免重新下载最近已经下载过的图片 缩略图生成 检
阅读全文
posted @ 2018-01-31 16:42 小虾饺
阅读(442)
评论(0)
推荐(0)
2018年1月26日
正则表达式
摘要: 1. 正则表达式是用来匹配字符串的,使用模块re进行匹配; 2. 特殊字符: . 任意字符(除了换行都包括) * 任意次数,+任意≥1次数,{2}出现2次,{2,}出现≥2次,{2,5}出现2-5次 ^a 以a开头 $a 以a结尾 [A-Za-z0-9_]限定范围,[^]限定不是 \s 空格,\S不
阅读全文
posted @ 2018-01-26 15:36 小虾饺
阅读(159)
评论(0)
推荐(0)
2018年1月2日
爬取动态网页(2017年年度豆瓣电影榜单)
摘要: 早几天刚好2017年的豆瓣电影榜单web也出来了,于是打算实践一下,用的chrome浏览器。 图1 0. 观察网页元素 由于是一个动态的网页,动态效果主要由翻页或者右边的按钮实现,另外,也可以从首页的导航栏直接跳转到某一页。 首页导航栏 利用了google Chrome浏览器自带的API netwo
阅读全文
posted @ 2018-01-02 10:58 小虾饺
阅读(691)
评论(0)
推荐(0)
2017年12月28日
windows下安装mongoDB
摘要: 安装教程来源:https://jingyan.baidu.com/album/d5c4b52bef7268da560dc5f8.html?picindex=1 第一步:下载安装包并添加path MongoDB官网网址 mongoDB容易被墙,如果不能download,请点 mongodb-win32
阅读全文
posted @ 2017-12-28 12:01 小虾饺
阅读(119)
评论(0)
推荐(0)
公告