随笔分类 -  [后端技术栈] Spider

摘要:Scrapy框架的使用 - pySpider - 什么是框架? - 就是一个具有很强通用性且集成了很多功能的项目模板(可以被应用在各种需求中) - scrapy集成好的功能: - 高性能的数据解析操作(xpath) - 高性能的数据下载 - 高性能的持久化存储 - 中间件 - 全栈数据爬取操作 - 阅读全文
posted @ 2020-05-08 11:59 佛祖让我来巡山 阅读(279) 评论(0) 推荐(0) 编辑
摘要:# 抓取梨视频网站的短视频 from lxml import etree import os import requests import re dirName="./videoLibs" if not os.path.exists(dirName): os.mkdir(dirName) url=" 阅读全文
posted @ 2020-05-08 00:06 佛祖让我来巡山 阅读(189) 评论(0) 推荐(0) 编辑
摘要:- selenium模块在爬虫中的使用 - 概念:是一个基于浏览器自动化的模块。 - 爬虫之间的关联: - 便捷的捕获到动态加载到的数据。(可见即可得) - 实现模拟登陆 - 环境安装:pip install selenium - 基本使用: - 准备好某一款浏览器的驱动程序:http://chro 阅读全文
posted @ 2020-05-08 00:04 佛祖让我来巡山 阅读(160) 评论(0) 推荐(0) 编辑
摘要:requests抓取数据报错 - HttpConnectinPool: - 原因: - 1.短时间内发起了高频的请求导致ip被禁 - 2.http连接池中的连接资源被耗尽 - 解决: - 1.代理 - 2.headers中加入Conection:“close” 代理服务器 - 代理:代理服务器,可以 阅读全文
posted @ 2020-05-05 22:48 佛祖让我来巡山 编辑
摘要:数据解析 - 数据解析 - 数据解析的作用: - 可以帮助我们实现聚焦爬虫 - 数据解析的实现方式: - 正则 - bs4 - xpath - pyquery - 数据解析的通用原理 - 问题1:聚焦爬虫爬取的数据是存储在哪里的? - 都被存储在了相关的标签之中and相关标签的属性中 - 1.定位标 阅读全文
posted @ 2020-05-05 12:25 佛祖让我来巡山 阅读(316) 评论(0) 推荐(0) 编辑
摘要:requests操作流程分析 - requests作用:模拟浏览器发起请求 - urllib:requests的前身 - requests模块的编码流程: - 指定url - 发起请求: - get(url,params,headers) - post(url,data,headers) - 获取响 阅读全文
posted @ 2020-05-04 16:15 佛祖让我来巡山 阅读(1431) 评论(0) 推荐(0) 编辑
摘要:一:基础版(抓取首页图片) 爬虫py文件代码: 1 # -*- coding: utf-8 -*- 2 import scrapy 3 import sys 4 import io 5 from scrapy.selector import Selector 6 from scrapy.http i 阅读全文
posted @ 2020-04-17 22:45 佛祖让我来巡山 阅读(161) 评论(0) 推荐(0) 编辑
摘要:1 # __author__:Kelvin 2 # date:2020/4/16 21:55 3 import socket 4 import select 5 6 # 自定义异步IO框架内容 7 #用来封装socket对象,host,和回调函数 8 class HttpRequest: 9 def 阅读全文
posted @ 2020-04-17 09:07 佛祖让我来巡山 阅读(144) 评论(0) 推荐(0) 编辑

佛祖让我来巡山博客站 - 创建于 2018-08-15

开发工程师个人站,内容主要是网站开发方面的技术文章,大部分来自学习或工作,部分来源于网络,希望对大家有所帮助。

Bootstrap中文网