随笔分类 - 爬虫
摘要:一、环境搭建 由于条件有限,一台虚拟机,一台笔记本。 在虚拟机上装上mongodb数据库、redis数据库、redis_scrapy、pymongo、scrapyd 在本地电脑上装上monodb数据库、redis数据库、redis_scrapy、pymongo、scrapyd-clientl、scr
阅读全文
摘要:利用selenium以及pyquery,爬取当当网图书信息,并且将数据存入文件以及MongoDB数据库中。 配置文件: dangdang.py 存入到文件中的数据: 存入到MongoDB中:
阅读全文
摘要:通过爬取猫眼电影top100,利用正则表达式进行实现,注意在匹配过程中,将需要匹配的内容的开始和结束用关键标志进行区分。 maoyan.py 爬取的内容:
阅读全文
摘要:selenium主要解决浏览器中javascript渲染问题而存在的,有时我们爬取过来的网页内容与实际看到的内容是由差别的,这很有可能就是一些数据是由javascript渲染出来的,如何解决这个问题呢?这时可以引入selenium。 1、申明浏览器对象 2、访问页面 3、查找元素 (1)单个元素 另
阅读全文
摘要:正则表达式无论是在爬虫还是其它的应用中都是有一定作用的。 1、常见的匹配模式 2、re.match() re.match()方法会从字符的第一个位置匹配起。如果第一个位置匹配失败的话,就会返回none。 常规匹配 泛匹配 利用.*匹配多个字符 目标匹配 匹配字符串中的数字,正则表达式加上括号表示一个
阅读全文