随笔- 179 文章- 6 评论- 2 阅读- 10万

03 2019 档案

摘要：redis数据库属于非关系型数据库，数据存放在内存堆栈中，效率比较高。其存储数据是以json格式字符串存储字典的，而类似的关系型数据库无法实现这种数据的存储。在爬取数据时，将数据暂存到redis中，等数据采集完成后，在从redis里将数据读取，并写入mysql数据库中。在数据采集方面不在多说，阅读全文

posted @ 2019-03-29 15:15 青红*皂了个白阅读(4926) 评论(0) 推荐(0) 编辑

用crawl spider爬取起点网小说信息

摘要：起点作为主流的小说网站，在防止数据采集反面还是做了准备的，其对主要的数字采用了自定义的编码映射取值，想直接通过页面来实现数据的获取，是无法实现的。单独获取数字还是可以实现的，通过requests发送请求，用正则去匹配字符元素，并再次匹配其映射关系的url,获取到的数据通过font包工具解析成字典格阅读全文

posted @ 2019-03-28 13:05 青红*皂了个白阅读(852) 评论(0) 推荐(0) 编辑

分布式集群之redis数据库操作

摘要：如果采用redis数据库集群操作方式爬取数据源，那么爬虫客户端最好设置redis数据库的密码，否则对方将无法进行数据库链接操作，并且会报未知错误。 redis-cli -h 192.168.1.53 -p 6379 -a 12345 (依次是目标主机地址，端口号，对方数据库密码）如此能确保集群的阅读全文

posted @ 2019-03-23 21:42 青红*皂了个白阅读(1676) 评论(0) 推荐(1) 编辑

利用scrapy爬取汽车排行榜的所有信息并保存至本地数据库（详解）

摘要：创建scrapy项目：scrapy startproject car 创建spider文件：scrapy genspider suv price.pcauto.com.cn 当前项目的目标站点：https://price.pcauto.com.cn/top/k75-p1.html（太平洋汽车suv销阅读全文

posted @ 2019-03-21 17:07 青红*皂了个白阅读(856) 评论(0) 推荐(0) 编辑

Scrapy爬虫库的使用技巧

摘要：要使用scrapy库，必须先安装开发依赖，最好先使用pip安装，如果安装twisted提示缺少vc或者框架，可以下载至本地后安装。第三方扩展库地址：https://www.lfd.uci.edu/~gohlke/pythonlibs/ 下载至本地后运行 pip install 库文件.wel 建阅读全文

posted @ 2019-03-07 15:32 青红*皂了个白阅读(693) 评论(0) 推荐(0) 编辑

关于selenium库与webdriver Chrome环境的搭建

摘要：在pycharm里面默认就可以通过pip来安装selenium库，但是在在安装PhantomJS时需要手动去下载开发库，然后将其下的bin目录添加至系统环境变量。但是需要注意，最好直接将PhantomJS可执行文件直接移动到python安装根目录下。否则pycharm会提示找不到它的路径。（pip 阅读全文

posted @ 2019-03-03 17:26 青红*皂了个白阅读(497) 评论(0) 推荐(0) 编辑