随笔分类 - 爬虫实战系列
摘要:import random import os import re import requests import asyncio import aiohttp import time from lxml import etree from Crypto.Cipher import AES from
阅读全文
摘要:1.selenium模拟登陆 2.定位进入高级搜索页面 3.对高级搜索进行定位,设置。 4.代码实现 import time from selenium import webdriver from lxml import etree from selenium.webdriver import Ch
阅读全文
摘要:登陆的唯一困难在于验证码的识别,此处使用第三方平台超级鹰进行验证码识别。 from selenium import webdriver import time from PIL import Image from selenium.webdriver import ActionChains impo
阅读全文
摘要:- 实现流程 - 创建一个工程 - 创建一个基于CrawlSpider的爬虫文件 - 修改当前的爬虫文件: - 导包:from scrapy_redis.spiders import RedisCrawlSpider - 将start_urls和allowed_domains进行注释 - 添加一个新
阅读全文
摘要:需求:爬取这国内、国际、军事、航空、无人机模块下的新闻信息 1.找到这五个板块对应的url 2.进入每个模块请求新闻信息 我们可以明显发现‘’加载中‘’,因此我们判断新闻数据是动态加载出来的。 3.拿到新闻的标题和详情url 4.请求详情页 获取新闻内容 5.思路:思路已经很清晰了,请求五大板块拿到
阅读全文
摘要:异步爬取牛客网帖子信息并作出高频词汇词云图 流程分析: 1.打开对应的url='https://www.nowcoder.com/discuss?type=0&order=0' 2.获取每一条帖子的通用的标签位置 不难看出每一条帖子都在li标签下,因此我们应该首先定位到ul标签下的所有li标签,再对
阅读全文
摘要:这里介绍一款强大验证码识别平台:超级鹰 - 超级鹰:http://www.chaojiying.com/about.html - 注册:普通用户 - 登录:普通用户 - 题分查询:充值 - 创建一个软件(id) - 下载示例代码 1. 打开url 一打开是扫码登陆的页面,这显然不是我们想要的,因此我
阅读全文
摘要:功能:爬取梨视频科技栏最热的几个视频。 1. 找到视频对应的通用标签 可以看出关于视频的信息都存放在li标签中 2. 拿到视频的名称以及对应的url 3.进入Video的url,找到视频信息的地址 你会发现没有这个视频的url,那么说明这个视频可能是动态加载出来的。 4. 打开抓包工具,找到视频对应
阅读全文
摘要:功能:通过xpath爬取彼岸图网的高清美女壁纸 url = 'http://pic.netbian.com/4kmeinv/' 1. 通过url请求整张页面的数据 2.通过页面的标签定位图片所在的位置 3.找到所有图片的通用的标签 向图片标签的父级查找,可以发现每一张图片都在ul下的li标签下。 4
阅读全文
摘要:首先访问这个页面 url = 'http://125.35.6.84:81/xk/' 我们的目标是抓取这里的每一个企业的详情页数据,但是可以发现这里只有企业的简介信息,所以这就意味着我们要发送两次get请求。 在写代码之前,我们可以大概看一下我们想要的数据大概在什么位置。 1. 我们打开一个公司的详
阅读全文
摘要:1.需求:爬取豆瓣电影分类排行榜 https://movie.douban.com/中的电影详情数据 (此处以抓取科幻电影分类的信息为例) import requests import json url = 'https://movie.douban.com/j/new_search_subject
阅读全文