Fork me on GitHub

随笔分类 -  爬虫

摘要:一、环境搭建 由于条件有限,一台虚拟机,一台笔记本。 在虚拟机上装上mongodb数据库、redis数据库、redis_scrapy、pymongo、scrapyd 在本地电脑上装上monodb数据库、redis数据库、redis_scrapy、pymongo、scrapyd-clientl、scr 阅读全文
posted @ 2019-05-30 18:17 iveBoy 阅读(3895) 评论(0) 推荐(0) 编辑
摘要:利用selenium以及pyquery,爬取当当网图书信息,并且将数据存入文件以及MongoDB数据库中。 配置文件: dangdang.py 存入到文件中的数据: 存入到MongoDB中: 阅读全文
posted @ 2019-05-27 11:47 iveBoy 阅读(257) 评论(0) 推荐(0) 编辑
摘要:通过爬取猫眼电影top100,利用正则表达式进行实现,注意在匹配过程中,将需要匹配的内容的开始和结束用关键标志进行区分。 maoyan.py 爬取的内容: 阅读全文
posted @ 2019-05-27 11:35 iveBoy 阅读(482) 评论(0) 推荐(0) 编辑
摘要:selenium主要解决浏览器中javascript渲染问题而存在的,有时我们爬取过来的网页内容与实际看到的内容是由差别的,这很有可能就是一些数据是由javascript渲染出来的,如何解决这个问题呢?这时可以引入selenium。 1、申明浏览器对象 2、访问页面 3、查找元素 (1)单个元素 另 阅读全文
posted @ 2019-05-25 11:43 iveBoy 阅读(336) 评论(0) 推荐(0) 编辑
摘要:正则表达式无论是在爬虫还是其它的应用中都是有一定作用的。 1、常见的匹配模式 2、re.match() re.match()方法会从字符的第一个位置匹配起。如果第一个位置匹配失败的话,就会返回none。 常规匹配 泛匹配 利用.*匹配多个字符 目标匹配 匹配字符串中的数字,正则表达式加上括号表示一个 阅读全文
posted @ 2019-05-24 22:21 iveBoy 阅读(498) 评论(0) 推荐(0) 编辑

TOP
点击右上角即可分享
微信分享提示