随笔分类 - 爬虫学习
摘要:#前言 每个网站都有很多页码,将网站中某板块下的全部页码对应的页面数据进行爬取 实现方式有两种: 1、将所有页面的url添加到start_urls列表(不推荐) 2、自行手动进行请求发送(推荐)yield scrapy.Request(url,callback):callback专门用做于数据解析
阅读全文
摘要:基于终端指令 执行成功后数据存储在指定位置 执行存储文件格式不正确时提示报错,提示指定的格式 总结 要求:只可以将parse方法的返回值存储到本地的文本文件中 注意:持久化存储对应的文本文件的类型只可以为:'json', 'jsonlines', 'jl', 'csv', 'xml', 'marsh
阅读全文
摘要:##安装scrapy ###安装命令 pip install wheel pip install twisted pip install pywin32 pip install scrapy ###测试 在终端里录入scrapy指令,没有报错即表示安装成功! ##创建项目 创建工程命令 scrapy
阅读全文
摘要:12306模拟登录 - 超级鹰:http://www.chaojiying.com/about.html - 注册:普通用户 - 登录:普通用户 - 题分查询:充值 - 创建一个软件(id) - 下载示例代码 - 12306模拟登录编码流程: - 使用selenium打开登录页面 - 对当前sele
阅读全文
摘要:from selenium import webdriver from time import sleep #实现无可视化界面 from selenium.webdriver.chrome.options import Options #实现规避检测 from selenium.webdriver
阅读全文
摘要:- selenium处理iframe - 如果定位的标签存在于iframe标签之中,则必须使用switch_to.frame(id) - 动作链(拖动):from selenium.webdriver import ActionChains - 实例化一个动作链对象:action = ActionC
阅读全文
摘要:单线程+异步协程(推荐): event_loop:事件循环,相当于一个无限循环,我们可以把一些函数注册到这个事件循环上, 当满足某些条件的时候,函数就会被循环执行。 coroutine:协程对象,我们可以将协程对象注册到事件循环中,它会被事件循环调用。 我们可以使用 async 关键字来定义一个方法
阅读全文
摘要:反爬机制:验证码.识别验证码图片中的数据,用于模拟登陆操作。 识别验证码的操作: - 人工肉眼识别。(不推荐) - 第三方自动识别(推荐) - 云打码:http://www.yundama.com/demo.html 云打码的使用流程: - 注册:普通和开发者用户 - 登录: - 普通用户的登录:查
阅读全文
摘要:- xpath解析原理: - 1.实例化一个etree的对象,且需要将被解析的页面源码数据加载到该对象中。 - 2.调用etree对象中的xpath方法结合着xpath表达式实现标签的定位和内容的捕获。 - 环境的安装: - pip install lxml - 如何实例化一个etree对象:fro
阅读全文
摘要:###bs4数据解析的原理: - 1.实例化一个BeautifulSoup对象,并且将页面源码数据加载到该对象中 - 2.通过调用BeautifulSoup对象中相关的属性或者方法进行标签定位和数据提取 - 环境安装: - pip install bs4 - pip install lxml - 如
阅读全文
摘要:有一个需求,爬取网页中的图片 思路: 1、先爬取整个网页 2、通过控制台找到图片地址的的规则,使用正则获取图片地址 由此看出地址的规则为 <p class="one-p"><img class="content-picture" src="//inews.gtimg.com/newsapp_bt/0
阅读全文
摘要:破解百度翻译为例 import requests import json if __name__ == "__main__": #1.指定url post_url = 'https://fanyi.baidu.com/sug' #2.进行UA伪装 headers = { 'User-Agent':
阅读全文
摘要:UA:User-Agent(请求载体的身份标识) UA检测:门户网站的服务器会检测对应请求的载体身份标识,如果检测到请求的载体身份标识为某一款浏览器, 说明该请求是一个正常的请求。但是,如果检测到请求的载体身份标识不是基于某一款浏览器的,则表示该请求 为不正常的请求(爬虫),则服务器端就很有可能拒绝
阅读全文
摘要:###前言 最近对爬虫比较感兴趣,在学习python之余也抽空学习,毕竟等自己老了之后也可以靠爬虫搞兼职。当然了,也看看机会能否转行爬虫吧哈哈。言归正传,开搞! ###第一篇程序 需求:爬取搜狗首页的页面数据 # -*- encoding: utf-8 -*- """ @File : request
阅读全文