爬虫学习 - 随笔分类(第2页) - simon_T

scrapy框架全站数据爬取

摘要：#前言每个网站都有很多页码，将网站中某板块下的全部页码对应的页面数据进行爬取实现方式有两种: 1、将所有页面的url添加到start_urls列表（不推荐） 2、自行手动进行请求发送（推荐）yield scrapy.Request(url,callback):callback专门用做于数据解析阅读全文

posted @ 2022-05-24 20:55 simon_T 阅读(135) 评论(0) 推荐(0) 编辑

scrapy框架持久化存储

摘要：基于终端指令执行成功后数据存储在指定位置执行存储文件格式不正确时提示报错，提示指定的格式总结要求：只可以将parse方法的返回值存储到本地的文本文件中注意：持久化存储对应的文本文件的类型只可以为：'json', 'jsonlines', 'jl', 'csv', 'xml', 'marsh 阅读全文

posted @ 2022-05-23 21:39 simon_T 阅读(32) 评论(0) 推荐(0) 编辑

scrapy框架安装及使用

摘要：##安装scrapy ###安装命令 pip install wheel pip install twisted pip install pywin32 pip install scrapy ###测试在终端里录入scrapy指令，没有报错即表示安装成功！ ##创建项目创建工程命令 scrapy 阅读全文

posted @ 2022-05-23 21:21 simon_T 阅读(84) 评论(0) 推荐(0) 编辑

python爬虫学习（十二）：12306网站模拟登录（超级鹰验证码识别）

摘要：12306模拟登录 - 超级鹰：http://www.chaojiying.com/about.html - 注册：普通用户 - 登录：普通用户 - 题分查询：充值 - 创建一个软件（id） - 下载示例代码 - 12306模拟登录编码流程： - 使用selenium打开登录页面 - 对当前sele 阅读全文

posted @ 2022-04-05 15:12 simon_T 阅读(436) 评论(0) 推荐(0) 编辑

python爬虫学习（十一）：selenium谷歌无头浏览器（无可视化界面）

摘要：from selenium import webdriver from time import sleep #实现无可视化界面 from selenium.webdriver.chrome.options import Options #实现规避检测 from selenium.webdriver 阅读全文

posted @ 2022-04-05 14:27 simon_T 阅读(327) 评论(0) 推荐(0) 编辑

python爬虫学习（十）：selenium处理iframe + 动作链

摘要：- selenium处理iframe - 如果定位的标签存在于iframe标签之中，则必须使用switch_to.frame(id) - 动作链（拖动）：from selenium.webdriver import ActionChains - 实例化一个动作链对象：action = ActionC 阅读全文

posted @ 2022-04-05 14:25 simon_T 阅读(135) 评论(0) 推荐(0) 编辑

python爬虫学习（九）：单线程+异步协程实现

摘要：单线程+异步协程（推荐）： event_loop：事件循环，相当于一个无限循环，我们可以把一些函数注册到这个事件循环上，当满足某些条件的时候，函数就会被循环执行。 coroutine：协程对象，我们可以将协程对象注册到事件循环中，它会被事件循环调用。我们可以使用 async 关键字来定义一个方法阅读全文

posted @ 2022-04-05 11:01 simon_T 阅读(126) 评论(0) 推荐(0) 编辑

python爬虫学习（八）：线程池、进程池

该文被密码保护。

posted @ 2022-04-04 19:21 simon_T 阅读(0) 评论(0) 推荐(0) 编辑

python爬虫学习（七）：验证码识别

摘要：反爬机制：验证码.识别验证码图片中的数据，用于模拟登陆操作。识别验证码的操作： - 人工肉眼识别。（不推荐） - 第三方自动识别（推荐） - 云打码：http://www.yundama.com/demo.html 云打码的使用流程： - 注册：普通和开发者用户 - 登录： - 普通用户的登录：查阅读全文

posted @ 2022-04-04 18:02 simon_T 阅读(296) 评论(0) 推荐(0) 编辑

python爬虫学习（六）：xpath解析

摘要：- xpath解析原理： - 1.实例化一个etree的对象，且需要将被解析的页面源码数据加载到该对象中。 - 2.调用etree对象中的xpath方法结合着xpath表达式实现标签的定位和内容的捕获。 - 环境的安装： - pip install lxml - 如何实例化一个etree对象:fro 阅读全文

posted @ 2022-03-20 17:20 simon_T 阅读(423) 评论(0) 推荐(0) 编辑

python爬虫学习（五）：bs4数据解析-爬取小说

摘要：###bs4数据解析的原理： - 1.实例化一个BeautifulSoup对象，并且将页面源码数据加载到该对象中 - 2.通过调用BeautifulSoup对象中相关的属性或者方法进行标签定位和数据提取 - 环境安装： - pip install bs4 - pip install lxml - 如阅读全文

posted @ 2022-03-11 12:57 simon_T 阅读(327) 评论(0) 推荐(0) 编辑

python爬虫学习（四）：爬取网页图片-正则解析数据

摘要：有一个需求，爬取网页中的图片思路： 1、先爬取整个网页 2、通过控制台找到图片地址的的规则，使用正则获取图片地址由此看出地址的规则为 <p class="one-p"><img class="content-picture" src="//inews.gtimg.com/newsapp_bt/0 阅读全文

posted @ 2022-03-10 13:23 simon_T 阅读(1061) 评论(0) 推荐(0) 编辑

python爬虫学习（三）：requests模块post请求处理 json

摘要：破解百度翻译为例 import requests import json if __name__ == "__main__": #1.指定url post_url = 'https://fanyi.baidu.com/sug' #2.进行UA伪装 headers = { 'User-Agent': 阅读全文

posted @ 2022-03-02 23:06 simon_T 阅读(615) 评论(0) 推荐(0) 编辑

python爬虫学习（二）：requests模块网页采集器--get请求

摘要：UA：User-Agent（请求载体的身份标识） UA检测：门户网站的服务器会检测对应请求的载体身份标识，如果检测到请求的载体身份标识为某一款浏览器，说明该请求是一个正常的请求。但是，如果检测到请求的载体身份标识不是基于某一款浏览器的，则表示该请求为不正常的请求（爬虫），则服务器端就很有可能拒绝阅读全文

posted @ 2022-03-02 23:01 simon_T 阅读(122) 评论(0) 推荐(0) 编辑

python爬虫学习（一）：requests第一血

摘要：###前言最近对爬虫比较感兴趣，在学习python之余也抽空学习，毕竟等自己老了之后也可以靠爬虫搞兼职。当然了，也看看机会能否转行爬虫吧哈哈。言归正传，开搞！ ###第一篇程序需求：爬取搜狗首页的页面数据 # -*- encoding: utf-8 -*- """ @File : request 阅读全文

posted @ 2022-03-01 23:02 simon_T 阅读(40) 评论(0) 推荐(0) 编辑

simon成长日记

有缘相见万里来，志气相投常相见！

随笔分类 - 爬虫学习

公告

搜索

常用链接

随笔分类

随笔档案

阅读排行榜

评论排行榜

最新评论