随笔分类 -  爬虫

平时常用爬虫的技术积累
摘要:Header:请求头参数详解 Header 解释 示例 Accept 指定客户端能够接收的内容类型 Accept: text/plain, text/html,application/json Accept-Charset 浏览器可以接受的字符编码集。 Accept-Charset: iso-885 阅读全文
posted @ 2022-01-17 11:17 小杜打醋尢买布 阅读(164) 评论(0) 推荐(0) 编辑
摘要:requests 模块基本介绍 requests模块,是一个支持HTTP服务的模块,主要用于HTTP请求编程:网络编程 官方文档:https://requests.readthedocs.io/en/master/ requests模块中的常用操作方式: 操作方式 描述 R.get(url [,pa 阅读全文
posted @ 2022-01-10 17:12 小杜打醋尢买布 阅读(199) 评论(0) 推荐(0) 编辑
摘要:1. json.load(file):将文件中的json数据,直接读取到程序中 2. json.loads(str_json):将一个字符串json数据,转换成 json对象/字典数据 3. json.dump(json_obj, file):将一个json对象,存储到文件file中 4. json 阅读全文
posted @ 2020-11-05 09:09 小杜打醋尢买布 阅读(161) 评论(0) 推荐(0) 编辑
摘要:操作方式 描述 R.get(url [,params=..]) 发起一个get请求,附带params查询参数列表 R.post(url [, data=...]) 发起一个post请求,附带data表单参数列表 RESP.encoding 表示请求结果(响应)文本数据编码格式 RESP.text 表 阅读全文
posted @ 2020-11-02 17:41 小杜打醋尢买布 阅读(79) 评论(0) 推荐(0) 编辑
摘要:##1 将项目纳入Git管理 初始化远程仓库:gitee-码云 创建远程的仓库,配置个人开发秘钥[ssh-key] (ssh-genkey[公钥|私钥]) 获取远程仓库的开发地址:https://www.gitee.com/example/xxxx.ssh 初始化本地仓库:初始化项目空间,本地安装好 阅读全文
posted @ 2020-11-02 11:24 小杜打醋尢买布 阅读(122) 评论(0) 推荐(0) 编辑
摘要:1 为什么要做爬虫 未来软件定义世界! 软件只是一个工具,决定软件的作用影响力的是数据 数据是软件的核心 数据量一旦达到一定的规模,价值非常高,不是一般的中小型公司可以承担的!在这样的模式下,一些数据交易公司、一些需要数据的中小型公司,就需要寻求一种成本低的数据获取手段:雇佣爬虫工程师采集数据! 爬 阅读全文
posted @ 2020-10-30 16:36 小杜打醋尢买布 阅读(493) 评论(0) 推荐(0) 编辑
摘要:#安装Scrapy Scrapy是一个Python第三方模块,执行命令直接安装即可: pip install scrapy #了解常见命令 scrapy安装好之后,基本使用命令如下: (venv) e:\work_0720\venv\Scripts>scrapy Scrapy 2.4.0 - no 阅读全文
posted @ 2020-10-22 09:04 小杜打醋尢买布 阅读(223) 评论(0) 推荐(0) 编辑
摘要:##Python邮件发送 import email, smtplib from email.mime.text import MIMEText from email.header import Header from email.utils import parseaddr,formataddr # 阅读全文
posted @ 2020-10-21 21:16 小杜打醋尢买布 阅读(77) 评论(0) 推荐(0) 编辑
摘要:#Gerapy Gerapy是Scrapy界面调度框架,通过gerapy和scrapyd配合可以完成爬虫项目的在线管理,安装gerapy pip install gerapy 进入gerepy工作目录,初始化项目 cd e:/work_spider/ # 进入工作目录 gerapy init # 初 阅读全文
posted @ 2020-10-21 19:44 小杜打醋尢买布 阅读(207) 评论(0) 推荐(0) 编辑
摘要:#scrapy 文件下载配置 ##爬取matplotlib作图库 matplotlib是非常有用的作图库,官网上提供了许多实例,可在’http://matplotlib.org/examples/index.html’ 查到,我们就把这些文件下载到本地,方便以后查找使用。 ###1 pipeline 阅读全文
posted @ 2020-10-21 19:37 小杜打醋尢买布 阅读(233) 评论(0) 推荐(0) 编辑
摘要:#scrapy 设置图片下载 ##1 setting.py配置 ITEM_PIPELINES = { # 'img_spider.pipelines.ImgSpiderPipeline': 300, # 图片处理的管道中间件 'scrapy.pipelines.images.ImagesPipeli 阅读全文
posted @ 2020-10-20 22:16 小杜打醋尢买布 阅读(180) 评论(0) 推荐(0) 编辑
摘要:第一种安装 Python中存在大量的第三方模块,使用的时候需要执行命令安装 默认的安装方式,会从pypi.org网站仓库下载安装,仓库是国外的服务器,所以下载速率收到一定的限制,下载过程中很容易出现Readtime out问题 C:\Users\Administrator> pip install 阅读全文
posted @ 2020-10-12 20:55 小杜打醋尢买布 阅读(312) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示