摘要: 在pycharm中创建Scrapy项目: 一:创建项目: 1:打开命令提示符,cd命令进入想要创建的文件的文件夹,然后利用命令scrapy startproject 项目名字 二:在pycharm中打开爬虫项目: 打开pycharm→file→open→找到文件位置打开 打开文件之后,如下 所示: 阅读全文
posted @ 2019-05-21 22:59 zx1 阅读(195) 评论(0) 推荐(0) 编辑
摘要: Xpath表达式: /:表示从头开始提取 @:提取标签属性值(@href) //:提取当前页面下左右的某个属性值(//li) text():提取标签下的值 []:提取标签下的属性://li[@class = '']/ 阅读全文
posted @ 2019-05-21 22:54 zx1 阅读(559) 评论(0) 推荐(0) 编辑
摘要: 什么是Scrapy框架:Scrapy是一个Python爬虫框架,非常适合做一些大型爬虫项目,并且开发者利用这个框架,可以不用过多的关注细节。 Scrapy的官网地址:http://scrapy.org/ 安装Scrapy框架及各种常见错误解决技巧: 少坑版安装方式:由于Scrapy框架涉及太多依赖库 阅读全文
posted @ 2019-05-21 22:53 zx1 阅读(109) 评论(0) 推荐(0) 编辑
摘要: 什么是多线程爬虫: 所谓多线程,即程序中的某些程序段并行执行,合理的设置多线程,可以让爬虫效率更高 多线程爬虫必须导入threading模块,import threading 固定格式: import threading class A(threading.Thread): def __init__ 阅读全文
posted @ 2019-05-21 22:52 zx1 阅读(114) 评论(0) 推荐(0) 编辑
摘要: 什么是图片爬虫:所谓图片爬虫,就是从互联网中自动把对方服务器上的图片爬下来的爬虫程序。 淘宝图片爬虫实战: 网址:http://taobao.com/ import urllib.request import re headers = ("user-agent","Mozilla/5.0 (Wind 阅读全文
posted @ 2019-05-21 22:51 zx1 阅读(510) 评论(0) 推荐(0) 编辑
摘要: 爬虫的浏览器伪装技术原理: 在爬取某些浏览器的时候,对方服务器会对爬虫进行屏蔽,此时,我们需要伪装成浏览器才能爬取。浏览器伪装一般通过报头进行。 实战: import urllib.request url = 'http://blog.csdn.net' headers = ("User-Agent 阅读全文
posted @ 2019-05-21 22:50 zx1 阅读(198) 评论(0) 推荐(0) 编辑
摘要: 设置好代理headers = ('User-Agent',‘...’)后, 使用opener = urllib.request.biuld_opener()对象 设置好对象代理服务器:opener.addheader = [headers] 然后必须设置全局代理:urllib.request.ins 阅读全文
posted @ 2019-05-21 22:49 zx1 阅读(392) 评论(0) 推荐(0) 编辑
摘要: 自动模拟http请求: 客户端如何要与服务器端进行通信,需要通过http请求进行,http请求 有很多种 post请求方式: get请求方式: 示例代码: import urllib.request keywd = 'python' url = 'http://baidu.com/s?wd='+ke 阅读全文
posted @ 2019-05-21 22:48 zx1 阅读(413) 评论(0) 推荐(0) 编辑
摘要: 爬虫: 什么是爬虫: 爬虫就是写一个程序,从互联网上抓取数据的过程 Url模块: 1:urlretrieve(url,filename):urlretrieve()模块有两个参数,url = 要爬取的网址 filename = 本地的目录(本地的存储地址) 2:urlcleanup() :将urlr 阅读全文
posted @ 2019-05-21 22:47 zx1 阅读(134) 评论(0) 推荐(0) 编辑