上一页 1 2 3 4 5 6 7 8 ··· 26 下一页
摘要: 编辑本随笔 一、单页面爬取 class QiubaibypagesItem(scrapy.Item): # define the fields for your item here like: # name = scrapy.Field() author = scrapy.Field() conte 阅读全文
posted @ 2019-02-20 09:39 丫丫625202 阅读(1489) 评论(0) 推荐(0) 编辑
摘要: 编辑本随笔 简介: Scrapy:为了爬去网站数据而编写的一款应用框架,即集成了相应功能且具有很强通用性的项目模板。 功能: 安装:linux用pip install scrapy安装即可,win安装查找其他资料 基础使用: 1.创建一个工程 命令:scrapy startproject first 阅读全文
posted @ 2019-02-19 14:20 丫丫625202 阅读(250) 评论(0) 推荐(0) 编辑
摘要: 编辑本随笔 selenum打开浏览器进行操作: 可以实现让浏览器完成自动化操作 使用步骤: 环境搭建,安装selenum。pip install selenium 获取浏览器的驱动程序,下载地址,另一个下载地址,浏览器与驱动版本对应关系 环境搭建,安装selenum。pip install sele 阅读全文
posted @ 2019-02-18 18:42 丫丫625202 阅读(252) 评论(0) 推荐(0) 编辑
摘要: 编辑本随笔 爬虫步骤: 数据解析的三种方式: 项目一、正则解析 #需求:使用正则对糗事百科中的图片进行解析和下载操作 import requests import re import os #指定url url="https://www.qiushibaike.com/pic/" #自定义heade 阅读全文
posted @ 2019-02-18 13:51 丫丫625202 阅读(200) 评论(0) 推荐(0) 编辑
摘要: 编辑本随笔 1、手动识别 2、打码平台自动识别验证码 对携带验证码的的页面数据进行抓取 可以将页面数据中验证码进行解析,将验证码图片下载到本地 打码兔平台: 云打码平台: 注册开发者账号和普通账号 登录开发者账号,下载事例代码(开发文档-调用示例及最新DELL),点击PythonHTTP示例下载 创 阅读全文
posted @ 2019-02-18 09:56 丫丫625202 阅读(1623) 评论(0) 推荐(0) 编辑
摘要: 编辑本随笔 一、Cookie cookie作用:服务器使用cookie来记录客户端的状态信息 实现流程: 执行登陆操作(获取cookie) 在发起个人主页请求时,需要将cookie携带到该请求中 注意:session对象,也可以发送请求,如果服务器端会给客户端返回cookie,session对象自动 阅读全文
posted @ 2019-02-14 17:32 丫丫625202 阅读(165) 评论(0) 推荐(0) 编辑
摘要: 编辑本随笔 一、request模块简介 python原生基于网络请求的模块,模拟浏览器发起请求。 urllib需要手动处理url编码,使用quote()处理中文编码 urllib需要手动处理post请求的参数,将请求参数封装到字典后用urlencode()处理,在用encode()进行编码 urll 阅读全文
posted @ 2019-02-12 17:26 丫丫625202 阅读(237) 评论(0) 推荐(0) 编辑
摘要: 编辑本随笔 urllib模块 python中自带的一个基于爬虫的模块。 作用 可以使用代码模拟浏览器发起请求 子模块 request parse 使用流程 尝试用urllib获取指定url代码: url编码处理 UA身份伪装 反爬机制: 反反爬机制: User-Agent:请求载体的身份标识 POS 阅读全文
posted @ 2019-01-23 13:44 丫丫625202 阅读(127) 评论(0) 推荐(0) 编辑
摘要: 编辑本随笔 简介: 以网页形式打开的代码编辑器,可以用于全过程的编码开发,文档编写、运行代码和展示结果 Anaconda包含了Jupyter notebook 启动:jupyter notebook,命令在那个目录下执行,则打开的主目录就在那个目录 快捷键: b:向下插入一个cell a:向上插入要 阅读全文
posted @ 2019-01-23 11:34 丫丫625202 阅读(171) 评论(0) 推荐(0) 编辑
摘要: 编辑本随笔 爬虫分类: 通用爬虫:将互联网上得网页下载到本地,形成一个互联网得备份。 聚焦爬虫:根据指定需求抓取网络上指定数据,而不是获取整张页面中所有得数据。 robots.txt协议 不想让爬虫爬取,可以写一个robots.txt协议,可参考淘宝的robots.txt协议(www.taobao. 阅读全文
posted @ 2019-01-23 11:31 丫丫625202 阅读(113) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 8 ··· 26 下一页