2019 年 5月 21 日随笔档案 - zx1

2019年5月21日

摘要：在pycharm中创建Scrapy项目：一：创建项目： 1：打开命令提示符，cd命令进入想要创建的文件的文件夹，然后利用命令scrapy startproject 项目名字二：在pycharm中打开爬虫项目：打开pycharm→file→open→找到文件位置打开打开文件之后，如下所示：阅读全文

posted @ 2019-05-21 22:59 zx1 阅读(195) 评论(0) 推荐(0) 编辑

爬虫-xpath表达式符号用法

摘要： Xpath表达式： /:表示从头开始提取 @：提取标签属性值(@href) //：提取当前页面下左右的某个属性值(//li) text():提取标签下的值 []：提取标签下的属性：//li[@class = '']/ 阅读全文

posted @ 2019-05-21 22:54 zx1 阅读(559) 评论(0) 推荐(0) 编辑

爬虫-Scrapy框架

摘要：什么是Scrapy框架:Scrapy是一个Python爬虫框架，非常适合做一些大型爬虫项目，并且开发者利用这个框架，可以不用过多的关注细节。 Scrapy的官网地址：http://scrapy.org/ 安装Scrapy框架及各种常见错误解决技巧：少坑版安装方式：由于Scrapy框架涉及太多依赖库阅读全文

posted @ 2019-05-21 22:53 zx1 阅读(109) 评论(0) 推荐(0) 编辑

爬虫-多线程爬虫

摘要：什么是多线程爬虫：所谓多线程，即程序中的某些程序段并行执行，合理的设置多线程，可以让爬虫效率更高多线程爬虫必须导入threading模块，import threading 固定格式： import threading class A(threading.Thread): def __init__ 阅读全文

posted @ 2019-05-21 22:52 zx1 阅读(114) 评论(0) 推荐(0) 编辑

爬虫-图片爬虫

摘要：什么是图片爬虫：所谓图片爬虫，就是从互联网中自动把对方服务器上的图片爬下来的爬虫程序。淘宝图片爬虫实战：网址:http://taobao.com/ import urllib.request import re headers = ("user-agent","Mozilla/5.0 (Wind 阅读全文

posted @ 2019-05-21 22:51 zx1 阅读(510) 评论(0) 推荐(0) 编辑

爬虫的浏览器伪装技术

摘要：爬虫的浏览器伪装技术原理：在爬取某些浏览器的时候，对方服务器会对爬虫进行屏蔽，此时，我们需要伪装成浏览器才能爬取。浏览器伪装一般通过报头进行。实战： import urllib.request url = 'http://blog.csdn.net' headers = ("User-Agent 阅读全文

posted @ 2019-05-21 22:50 zx1 阅读(198) 评论(0) 推荐(0) 编辑

爬虫-爬虫防屏蔽手段之代理服务器

摘要：设置好代理headers = ('User-Agent',‘...’)后，使用opener = urllib.request.biuld_opener()对象设置好对象代理服务器：opener.addheader = [headers] 然后必须设置全局代理:urllib.request.ins 阅读全文

posted @ 2019-05-21 22:49 zx1 阅读(392) 评论(0) 推荐(0) 编辑

爬虫-自动模拟http请求

摘要：自动模拟http请求：客户端如何要与服务器端进行通信，需要通过http请求进行，http请求有很多种 post请求方式： get请求方式：示例代码: import urllib.request keywd = 'python' url = 'http://baidu.com/s?wd='+ke 阅读全文

posted @ 2019-05-21 22:48 zx1 阅读(413) 评论(0) 推荐(0) 编辑

爬虫

摘要：爬虫：什么是爬虫：爬虫就是写一个程序，从互联网上抓取数据的过程 Url模块： 1:urlretrieve(url,filename):urlretrieve()模块有两个参数，url = 要爬取的网址 filename = 本地的目录(本地的存储地址) 2：urlcleanup() :将urlr 阅读全文

posted @ 2019-05-21 22:47 zx1 阅读(134) 评论(0) 推荐(0) 编辑

给我小叮当一个面子

公告