随笔分类 - 爬虫
平时常用爬虫的技术积累
摘要:Header:请求头参数详解 Header 解释 示例 Accept 指定客户端能够接收的内容类型 Accept: text/plain, text/html,application/json Accept-Charset 浏览器可以接受的字符编码集。 Accept-Charset: iso-885
阅读全文
摘要:requests 模块基本介绍 requests模块,是一个支持HTTP服务的模块,主要用于HTTP请求编程:网络编程 官方文档:https://requests.readthedocs.io/en/master/ requests模块中的常用操作方式: 操作方式 描述 R.get(url [,pa
阅读全文
摘要:1. json.load(file):将文件中的json数据,直接读取到程序中 2. json.loads(str_json):将一个字符串json数据,转换成 json对象/字典数据 3. json.dump(json_obj, file):将一个json对象,存储到文件file中 4. json
阅读全文
摘要:操作方式 描述 R.get(url [,params=..]) 发起一个get请求,附带params查询参数列表 R.post(url [, data=...]) 发起一个post请求,附带data表单参数列表 RESP.encoding 表示请求结果(响应)文本数据编码格式 RESP.text 表
阅读全文
摘要:##1 将项目纳入Git管理 初始化远程仓库:gitee-码云 创建远程的仓库,配置个人开发秘钥[ssh-key] (ssh-genkey[公钥|私钥]) 获取远程仓库的开发地址:https://www.gitee.com/example/xxxx.ssh 初始化本地仓库:初始化项目空间,本地安装好
阅读全文
摘要:1 为什么要做爬虫 未来软件定义世界! 软件只是一个工具,决定软件的作用影响力的是数据 数据是软件的核心 数据量一旦达到一定的规模,价值非常高,不是一般的中小型公司可以承担的!在这样的模式下,一些数据交易公司、一些需要数据的中小型公司,就需要寻求一种成本低的数据获取手段:雇佣爬虫工程师采集数据! 爬
阅读全文
摘要:#安装Scrapy Scrapy是一个Python第三方模块,执行命令直接安装即可: pip install scrapy #了解常见命令 scrapy安装好之后,基本使用命令如下: (venv) e:\work_0720\venv\Scripts>scrapy Scrapy 2.4.0 - no
阅读全文
摘要:##Python邮件发送 import email, smtplib from email.mime.text import MIMEText from email.header import Header from email.utils import parseaddr,formataddr #
阅读全文
摘要:#Gerapy Gerapy是Scrapy界面调度框架,通过gerapy和scrapyd配合可以完成爬虫项目的在线管理,安装gerapy pip install gerapy 进入gerepy工作目录,初始化项目 cd e:/work_spider/ # 进入工作目录 gerapy init # 初
阅读全文
摘要:#scrapy 文件下载配置 ##爬取matplotlib作图库 matplotlib是非常有用的作图库,官网上提供了许多实例,可在’http://matplotlib.org/examples/index.html’ 查到,我们就把这些文件下载到本地,方便以后查找使用。 ###1 pipeline
阅读全文
摘要:#scrapy 设置图片下载 ##1 setting.py配置 ITEM_PIPELINES = { # 'img_spider.pipelines.ImgSpiderPipeline': 300, # 图片处理的管道中间件 'scrapy.pipelines.images.ImagesPipeli
阅读全文
摘要:第一种安装 Python中存在大量的第三方模块,使用的时候需要执行命令安装 默认的安装方式,会从pypi.org网站仓库下载安装,仓库是国外的服务器,所以下载速率收到一定的限制,下载过程中很容易出现Readtime out问题 C:\Users\Administrator> pip install
阅读全文