丫丫625202

2019年2月20日

摘要：编辑本随笔一、单页面爬取 class QiubaibypagesItem(scrapy.Item): # define the fields for your item here like: # name = scrapy.Field() author = scrapy.Field() conte 阅读全文

posted @ 2019-02-20 09:39 丫丫625202 阅读(1489) 评论(0) 推荐(0) 编辑

2019年2月19日

scrapy基础使用

摘要：编辑本随笔简介： Scrapy：为了爬去网站数据而编写的一款应用框架，即集成了相应功能且具有很强通用性的项目模板。功能：安装：linux用pip install scrapy安装即可，win安装查找其他资料基础使用： 1.创建一个工程命令：scrapy startproject first 阅读全文

posted @ 2019-02-19 14:20 丫丫625202 阅读(250) 评论(0) 推荐(0) 编辑

2019年2月18日

selenuim

摘要：编辑本随笔 selenum打开浏览器进行操作：可以实现让浏览器完成自动化操作使用步骤：环境搭建，安装selenum。pip install selenium 获取浏览器的驱动程序，下载地址，另一个下载地址，浏览器与驱动版本对应关系环境搭建，安装selenum。pip install sele 阅读全文

posted @ 2019-02-18 18:42 丫丫625202 阅读(252) 评论(0) 推荐(0) 编辑

数据解析

摘要：编辑本随笔爬虫步骤：数据解析的三种方式：项目一、正则解析 #需求：使用正则对糗事百科中的图片进行解析和下载操作 import requests import re import os #指定url url="https://www.qiushibaike.com/pic/" #自定义heade 阅读全文

posted @ 2019-02-18 13:51 丫丫625202 阅读(200) 评论(0) 推荐(0) 编辑

链接打码平台

摘要：编辑本随笔 1、手动识别 2、打码平台自动识别验证码对携带验证码的的页面数据进行抓取可以将页面数据中验证码进行解析，将验证码图片下载到本地打码兔平台：云打码平台：注册开发者账号和普通账号登录开发者账号，下载事例代码（开发文档-调用示例及最新DELL），点击PythonHTTP示例下载创阅读全文

posted @ 2019-02-18 09:56 丫丫625202 阅读(1623) 评论(0) 推荐(0) 编辑

2019年2月14日

requests模块高级使用

摘要：编辑本随笔一、Cookie cookie作用：服务器使用cookie来记录客户端的状态信息实现流程：执行登陆操作（获取cookie）在发起个人主页请求时，需要将cookie携带到该请求中注意：session对象，也可以发送请求，如果服务器端会给客户端返回cookie，session对象自动阅读全文

posted @ 2019-02-14 17:32 丫丫625202 阅读(165) 评论(0) 推荐(0) 编辑

2019年2月12日

request模块

摘要：编辑本随笔一、request模块简介 python原生基于网络请求的模块，模拟浏览器发起请求。 urllib需要手动处理url编码，使用quote()处理中文编码 urllib需要手动处理post请求的参数，将请求参数封装到字典后用urlencode()处理，在用encode()进行编码 urll 阅读全文

posted @ 2019-02-12 17:26 丫丫625202 阅读(237) 评论(0) 推荐(0) 编辑

2019年1月23日

urllib模块

摘要：编辑本随笔 urllib模块 python中自带的一个基于爬虫的模块。作用可以使用代码模拟浏览器发起请求子模块 request parse 使用流程尝试用urllib获取指定url代码： url编码处理 UA身份伪装反爬机制：反反爬机制： User-Agent：请求载体的身份标识 POS 阅读全文

posted @ 2019-01-23 13:44 丫丫625202 阅读(127) 评论(0) 推荐(0) 编辑

Jupyter Notebook

摘要：编辑本随笔简介：以网页形式打开的代码编辑器，可以用于全过程的编码开发，文档编写、运行代码和展示结果 Anaconda包含了Jupyter notebook 启动：jupyter notebook，命令在那个目录下执行，则打开的主目录就在那个目录快捷键： b：向下插入一个cell a：向上插入要阅读全文

posted @ 2019-01-23 11:34 丫丫625202 阅读(171) 评论(0) 推荐(0) 编辑

爬虫介绍

摘要：编辑本随笔爬虫分类：通用爬虫：将互联网上得网页下载到本地，形成一个互联网得备份。聚焦爬虫：根据指定需求抓取网络上指定数据，而不是获取整张页面中所有得数据。 robots.txt协议不想让爬虫爬取，可以写一个robots.txt协议，可参考淘宝的robots.txt协议(www.taobao. 阅读全文

posted @ 2019-01-23 11:31 丫丫625202 阅读(113) 评论(0) 推荐(0) 编辑

公告