07 2020 档案

摘要:1.selenium模拟登陆 2.定位进入高级搜索页面 3.对高级搜索进行定位,设置。 4.代码实现 import time from selenium import webdriver from lxml import etree from selenium.webdriver import Ch 阅读全文
posted @ 2020-07-26 22:39 Mrterrific 阅读(1325) 评论(0) 推荐(0) 编辑
摘要:登陆的唯一困难在于验证码的识别,此处使用第三方平台超级鹰进行验证码识别。 from selenium import webdriver import time from PIL import Image from selenium.webdriver import ActionChains impo 阅读全文
posted @ 2020-07-26 22:29 Mrterrific 阅读(339) 评论(0) 推荐(0) 编辑
摘要:- 实现流程 - 创建一个工程 - 创建一个基于CrawlSpider的爬虫文件 - 修改当前的爬虫文件: - 导包:from scrapy_redis.spiders import RedisCrawlSpider - 将start_urls和allowed_domains进行注释 - 添加一个新 阅读全文
posted @ 2020-07-02 11:07 Mrterrific 阅读(609) 评论(0) 推荐(0) 编辑
摘要:需求:爬取这国内、国际、军事、航空、无人机模块下的新闻信息 1.找到这五个板块对应的url 2.进入每个模块请求新闻信息 我们可以明显发现‘’加载中‘’,因此我们判断新闻数据是动态加载出来的。 3.拿到新闻的标题和详情url 4.请求详情页 获取新闻内容 5.思路:思路已经很清晰了,请求五大板块拿到 阅读全文
posted @ 2020-07-02 10:50 Mrterrific 阅读(2061) 评论(0) 推荐(0) 编辑
摘要:异步爬取牛客网帖子信息并作出高频词汇词云图 流程分析: 1.打开对应的url='https://www.nowcoder.com/discuss?type=0&order=0' 2.获取每一条帖子的通用的标签位置 不难看出每一条帖子都在li标签下,因此我们应该首先定位到ul标签下的所有li标签,再对 阅读全文
posted @ 2020-07-02 10:19 Mrterrific 阅读(505) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示