随笔- 395 文章- 46 评论- 26 阅读- 82万

随笔分类 - 爬虫

摘要：一、环境搭建由于条件有限，一台虚拟机，一台笔记本。在虚拟机上装上mongodb数据库、redis数据库、redis_scrapy、pymongo、scrapyd 在本地电脑上装上monodb数据库、redis数据库、redis_scrapy、pymongo、scrapyd-clientl、scr 阅读全文

posted @ 2019-05-30 18:17 iveBoy 阅读(3895) 评论(0) 推荐(0) 编辑

selenium实战演练

摘要：利用selenium以及pyquery，爬取当当网图书信息，并且将数据存入文件以及MongoDB数据库中。配置文件： dangdang.py 存入到文件中的数据：存入到MongoDB中：阅读全文

posted @ 2019-05-27 11:47 iveBoy 阅读(257) 评论(0) 推荐(0) 编辑

正则表达式实战演练

摘要：通过爬取猫眼电影top100,利用正则表达式进行实现，注意在匹配过程中，将需要匹配的内容的开始和结束用关键标志进行区分。 maoyan.py 爬取的内容：阅读全文

posted @ 2019-05-27 11:35 iveBoy 阅读(482) 评论(0) 推荐(0) 编辑

selenium学习笔记

摘要：selenium主要解决浏览器中javascript渲染问题而存在的，有时我们爬取过来的网页内容与实际看到的内容是由差别的，这很有可能就是一些数据是由javascript渲染出来的，如何解决这个问题呢？这时可以引入selenium。 1、申明浏览器对象 2、访问页面 3、查找元素（1）单个元素另阅读全文

posted @ 2019-05-25 11:43 iveBoy 阅读(336) 评论(0) 推荐(0) 编辑

正则表达式学习笔记

摘要：正则表达式无论是在爬虫还是其它的应用中都是有一定作用的。 1、常见的匹配模式 2、re.match() re.match()方法会从字符的第一个位置匹配起。如果第一个位置匹配失败的话，就会返回none。常规匹配泛匹配利用.*匹配多个字符目标匹配匹配字符串中的数字，正则表达式加上括号表示一个阅读全文

posted @ 2019-05-24 22:21 iveBoy 阅读(498) 评论(0) 推荐(0) 编辑

公告

您的浏览器不兼容canvas

昵称： iveBoy
园龄： 7年11个月
粉丝： 132
关注： 15

+加关注

2025年3月

日

一

二

三

四

五

六

iveBoy

随笔分类 - 爬虫

公告

搜索

我的标签

积分与排名

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论