爬虫 - 随笔分类 - zengsf

Scrapy对接selenium+phantomjs

摘要：1、创建项目：Jd 2、middlewares.py中添加selenium 1、导模块：from selenium import webdriver 2、定义中间件 class seleniumMiddleware(object): ... def process_request(self,re 阅读全文

posted @ 2018-12-01 17:54 zengsf 阅读(541) 评论(0) 推荐(0)

利用scrapy下载图片保存到本地

摘要：1.先声明一下，起始位置已经是将所有的图片链接都能到pipelines.py中 2.创建一个类，继承于ImagesPipeline，因此也就需要导入ImagesPipeline 3.由于继承自ImagesPipeline类，且该类下有一个get_media_requests方法需要被重写 4.由于是阅读全文

posted @ 2018-12-01 14:08 zengsf 阅读(843) 评论(0) 推荐(0)

将scrapy项目运行在pycharm中

摘要：1.在scrapy项目中创建一个py脚本，且尽量在scrapy.cfg同级目录下。我创建的是begin.py 2.配置begin.py。写上这一句就相等于一点开始，就在终端上输入了scrapy crawl daomu这条命令 3.进入到run -> Edit Configurations中还要配置一阅读全文

posted @ 2018-12-01 13:25 zengsf 阅读(977) 评论(0) 推荐(0)

爬取不得姐网站，利用多线程来爬取

摘要：利用到的库 time, requests, lxml, queue, threading 功能爬取不得姐网站中前二十页的段子数据阅读全文

posted @ 2018-11-29 18:41 zengsf 阅读(252) 评论(0) 推荐(0)

scrapy常用命令

摘要：终端命令 1. 创建一个项目: scrapy startproject name 2. 利用蜘蛛名创建一个py文件: scrapy genspider name domain.name 3. 在终端运行：scrapy shell url 得到response 4. 利用蜘蛛名进行相对应的运行: sc 阅读全文

posted @ 2018-11-29 16:21 zengsf 阅读(484) 评论(0) 推荐(0)

摘要：from selenium import webdriver import selenium.webdriver.support.ui as ui import time opt = webdriver.ChromeOptions() # 无界面 opt.set_headless() # 设置分辨率 opt.add_argument("window-size=1900x3000") drive... 阅读全文

posted @ 2018-11-28 16:15 zengsf 阅读(210) 评论(0) 推荐(0)

selenium和PhantomJS的使用

摘要：利用selenium来进行爬取数据如果要用chrome浏览器的话，则将浏览器对象改为Chrome就可以若要将有头浏览器变成无头浏览器的话，这添加还有好多方法，查看文档即可：https://python-selenium-zh.readthedocs.io/zh_CN/latest/ 阅读全文

posted @ 2018-11-28 14:28 zengsf 阅读(372) 评论(0) 推荐(0)

爬取百度贴吧中的图片以及视频

摘要：将爬取下来的内容保存到本地阅读全文

posted @ 2018-11-27 20:23 zengsf 阅读(454) 评论(0) 推荐(0)

爬取糗事百科中的数据

摘要：将爬取出来的数据存入mongodb中阅读全文

posted @ 2018-11-27 20:05 zengsf 阅读(108) 评论(0) 推荐(0)

urllib.request中Handler处理器

摘要：1、定义自定义的urlopen()方法,urlopen()方法是一个特殊的opener(模块已定义好),不支持代理等功能,通过Handler处理器对象来自定义opener对象 2、常用方法 1、build_opener(Handler处理器对象) ：创建opener对象 2、opener.open 阅读全文

posted @ 2018-11-27 09:21 zengsf 阅读(1078) 评论(0) 推荐(0)

爬取链家二手房

摘要：1.将爬取出来的数据存储到scv， mysql， mongo数据库中，利用正则的方式爬取。得到csv中的结果，mysql和mongo结果就不显示了：阅读全文

posted @ 2018-11-26 18:52 zengsf 阅读(202) 评论(0) 推荐(0)

python中把数据存入csv中

摘要：得到结果：阅读全文

posted @ 2018-11-23 14:15 zengsf 阅读(2052) 评论(0) 推荐(0)

爬取贴吧中的html，并保存到相对应的文件夹中

摘要：功能：输入要爬取的贴吧名称，起始页和终止页即可。运行结果：请输入你要搜索的贴吧名：海贼王请输入起始页：1 请输入终止页：5200 保存成功ok 阅读全文

posted @ 2018-11-23 10:10 zengsf 阅读(258) 评论(0) 推荐(0)

urllib模块通过post请求获取数据

摘要：功能：输入你要查找的单词，会返回相对应的结果运行结果：请输入要翻译的单词:hello你好阅读全文

posted @ 2018-11-23 09:11 zengsf 阅读(185) 评论(0) 推荐(0)

直接复制浏览器Request headers中的进行copyheaders进行转换

摘要：先导入函数库然后复制请求头在请求的时候进行转换阅读全文

posted @ 2018-10-25 18:38 zengsf 阅读(1330) 评论(0) 推荐(0)

scrapt中的数据提取，采用js2xml库

摘要：这个一个爬去美团的例子，应为数据都是在script中，小心封ip，尽量少运行。先导入库几个库发送请求，获取到script里面的数据然后在利用js2xml方法格式化之后再利用xpath来提取数据就ok了阅读全文

posted @ 2018-10-21 11:09 zengsf 阅读(1484) 评论(0) 推荐(0)

pycharm中如何安装Scrapy库

摘要：先打开pycharm软件。然后先安装pywin32和setuptools库。安装成功后再尝试Twisted库，如果失败，就去晚上下载一个库：https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted 然后在pip install 路径就ok了。之后再阅读全文

posted @ 2018-10-17 08:59 zengsf 阅读(6441) 评论(0) 推荐(0)

requests中获取请求到文本编码格式

摘要：1.使用requests模块： 2.通过网络请求，并获取到数据 3.通过获取到的请求结果，调用encoding方法即可得到文本的编码格式输出结果： 4.如果要将现在显示的编码改变成utf-8格式，通过如下操作：阅读全文

posted @ 2018-10-09 12:44 zengsf 阅读(3070) 评论(0) 推荐(0)

zengsf

随笔分类 - 爬虫