Mrterrific

2021年5月17日

摘要：对excel表的操作主要通过xlwt,xlrd模块。创建excel表 import xlwtworkbook = xlwt.Workbook(encoding='utf-8') worksheet = workbook.add_sheet('worksheet') worksheet.write( 阅读全文

posted @ 2021-05-17 19:15 Mrterrific 阅读(59) 评论(0) 推荐(0) 编辑

2020年7月26日

(十)selenium实现微博高级搜索信息爬取

摘要： 1.selenium模拟登陆 2.定位进入高级搜索页面 3.对高级搜索进行定位，设置。 4.代码实现 import time from selenium import webdriver from lxml import etree from selenium.webdriver import Ch 阅读全文

posted @ 2020-07-26 22:39 Mrterrific 阅读(1253) 评论(0) 推荐(0) 编辑

(九)selenium实现12306模拟登录

摘要：登陆的唯一困难在于验证码的识别，此处使用第三方平台超级鹰进行验证码识别。 from selenium import webdriver import time from PIL import Image from selenium.webdriver import ActionChains impo 阅读全文

posted @ 2020-07-26 22:29 Mrterrific 阅读(323) 评论(0) 推荐(0) 编辑

2020年7月2日

(八)分布式爬取58同城二手房信息

摘要： - 实现流程 - 创建一个工程 - 创建一个基于CrawlSpider的爬虫文件 - 修改当前的爬虫文件： - 导包：from scrapy_redis.spiders import RedisCrawlSpider - 将start_urls和allowed_domains进行注释 - 添加一个新阅读全文

posted @ 2020-07-02 11:07 Mrterrific 阅读(581) 评论(0) 推荐(0) 编辑

(六)基于Scrapy爬取网易新闻中的新闻数据

摘要：需求：爬取这国内、国际、军事、航空、无人机模块下的新闻信息 1.找到这五个板块对应的url 2.进入每个模块请求新闻信息我们可以明显发现‘’加载中‘’，因此我们判断新闻数据是动态加载出来的。 3.拿到新闻的标题和详情url 4.请求详情页获取新闻内容 5.思路：思路已经很清晰了，请求五大板块拿到阅读全文

posted @ 2020-07-02 10:50 Mrterrific 阅读(2015) 评论(0) 推荐(0) 编辑

(七)多线程爬取牛客网并生成词云图

摘要：异步爬取牛客网帖子信息并作出高频词汇词云图流程分析： 1.打开对应的url='https://www.nowcoder.com/discuss?type=0&order=0' 2.获取每一条帖子的通用的标签位置不难看出每一条帖子都在li标签下，因此我们应该首先定位到ul标签下的所有li标签，再对阅读全文

posted @ 2020-07-02 10:19 Mrterrific 阅读(480) 评论(0) 推荐(0) 编辑

2020年6月30日

Scrapy框架(十)--增量式爬虫

摘要：增量式爬虫 - 概念：监测网站数据更新的情况，只会爬取网站最新更新出来的数据。 - 分析： - 指定一个起始url - 基于CrawlSpider获取其他页码链接 - 基于Rule将其他页码链接进行请求 - 从每一个页码对应的页面源码中解析出每一个电影详情页的URL - 核心：检测电影详情页的url 阅读全文

posted @ 2020-06-30 21:43 Mrterrific 阅读(272) 评论(0) 推荐(0) 编辑

Scrapy框架(九)--分布式爬虫

摘要：分布式爬虫 - 概念：我们需要搭建一个分布式的机群，让其对一组资源进行分布联合爬取。 - 作用：提升爬取数据的效率 - 如何实现分布式？ - 安装一个scrapy-redis的组件爬取到的数据自动存放在redis中 - 原生的scarapy是不可以实现分布式爬虫，必须要让scrapy结合着scra 阅读全文

posted @ 2020-06-30 21:36 Mrterrific 阅读(155) 评论(0) 推荐(0) 编辑

Scrapy框架(八)--CrawlSpider

摘要： CrawlSpider类，Spider的一个子类 - 全站数据爬取的方式 - 基于Spider：手动请求 - 基于CrawlSpider - CrawlSpider的使用： - 创建一个工程 - cd XXX - 创建爬虫文件（CrawlSpider）： - scrapy genspider -t 阅读全文

posted @ 2020-06-30 21:27 Mrterrific 阅读(233) 评论(0) 推荐(0) 编辑

Scrapy框架(七)--中间件及Selenium应用

摘要：中间件下载中间件（Downloader Middlewares）位于scrapy引擎和下载器之间的一层组件。作用：批量拦截到整个工程中所有的请求和响应 - 拦截请求： - UA伪装:process_request - 代理IP:process_exception:return request 阅读全文

posted @ 2020-06-30 21:12 Mrterrific 阅读(622) 评论(0) 推荐(0) 编辑

公告