随笔分类 - [后端技术栈] Spider

Scrapy数据解析和持久化

摘要：Scrapy框架的使用 - pySpider - 什么是框架？ - 就是一个具有很强通用性且集成了很多功能的项目模板（可以被应用在各种需求中） - scrapy集成好的功能： - 高性能的数据解析操作（xpath） - 高性能的数据下载 - 高性能的持久化存储 - 中间件 - 全栈数据爬取操作 - 阅读全文

posted @ 2020-05-08 11:59 佛祖让我来巡山阅读(281) 评论(0) 推荐(0) 编辑

梨视频网站视频下载

摘要：# 抓取梨视频网站的短视频 from lxml import etree import os import requests import re dirName="./videoLibs" if not os.path.exists(dirName): os.mkdir(dirName) url=" 阅读全文

posted @ 2020-05-08 00:06 佛祖让我来巡山阅读(192) 评论(0) 推荐(0) 编辑

selenium

摘要：- selenium模块在爬虫中的使用 - 概念：是一个基于浏览器自动化的模块。 - 爬虫之间的关联： - 便捷的捕获到动态加载到的数据。（可见即可得） - 实现模拟登陆 - 环境安装：pip install selenium - 基本使用： - 准备好某一款浏览器的驱动程序：http://chro 阅读全文

posted @ 2020-05-08 00:04 佛祖让我来巡山阅读(161) 评论(0) 推荐(0) 编辑

requests模块的高级应用

摘要：requests抓取数据报错 - HttpConnectinPool: - 原因： - 1.短时间内发起了高频的请求导致ip被禁 - 2.http连接池中的连接资源被耗尽 - 解决： - 1.代理 - 2.headers中加入Conection：“close” 代理服务器 - 代理：代理服务器，可以阅读全文

posted @ 2020-05-05 22:48 佛祖让我来巡山编辑

数据解析的方式

摘要：数据解析 - 数据解析 - 数据解析的作用： - 可以帮助我们实现聚焦爬虫 - 数据解析的实现方式： - 正则 - bs4 - xpath - pyquery - 数据解析的通用原理 - 问题1:聚焦爬虫爬取的数据是存储在哪里的？ - 都被存储在了相关的标签之中and相关标签的属性中 - 1.定位标阅读全文

posted @ 2020-05-05 12:25 佛祖让我来巡山阅读(317) 评论(0) 推荐(0) 编辑

requests抓取数据示例

摘要：requests操作流程分析 - requests作用：模拟浏览器发起请求 - urllib：requests的前身 - requests模块的编码流程： - 指定url - 发起请求： - get（url,params,headers） - post（url,data,headers） - 获取响阅读全文

posted @ 2020-05-04 16:15 佛祖让我来巡山阅读(1434) 评论(0) 推荐(0) 编辑

scrapy抓取校花网图片

摘要：一：基础版（抓取首页图片）爬虫py文件代码： 1 # -*- coding: utf-8 -*- 2 import scrapy 3 import sys 4 import io 5 from scrapy.selector import Selector 6 from scrapy.http i 阅读全文

posted @ 2020-04-17 22:45 佛祖让我来巡山阅读(162) 评论(0) 推荐(0) 编辑

自定义异步IO框架

摘要：1 # __author__:Kelvin 2 # date:2020/4/16 21:55 3 import socket 4 import select 5 6 # 自定义异步IO框架内容 7 #用来封装socket对象，host，和回调函数 8 class HttpRequest: 9 def 阅读全文

posted @ 2020-04-17 09:07 佛祖让我来巡山阅读(146) 评论(0) 推荐(0) 编辑

公告

昵称：佛祖让我来巡山
园龄： 6年6个月
粉丝： 40
关注： 13

+加关注

2025年3月

日

一

二

三

四

五

六

佛祖让我来巡山

碰撞只相信实力，不相信眼泪

随笔分类 - [后端技术栈] Spider

公告

最新随笔

积分与排名

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论