zx1 - 博客园

2019年8月8日

selenium.common.exceptions.WebDriverException: Message: 'chromedriver' executable needs to be in PATH. Please see https://sites.google.com/a/chromium.org/chromedriver/home

摘要：最近在学习python爬虫时，使用selenium中webdriver类报错如题。经过网上经验和自己的摸索，终于找到了解决方法。这里使用的是Chrome，可以先打开Chrome，网址搜索栏搜索Chrome://version,查看自己的Chrome版本。查看到自己Chrome版本之后，输入网址阅读全文

posted @ 2019-08-08 19:57 zx1 阅读(194) 评论(0) 推荐(0)

2019年5月31日

re正则表达式初识

摘要： re正则表达式：导入方法:import re example: import re pat = "yue" string = "https://yue.com" result = re.search(pat,string) print(result) 通用字符也可以作为原子： \w:可以匹配任意的阅读全文

posted @ 2019-05-31 21:19 zx1 阅读(178) 评论(0) 推荐(0)

2019年5月21日

爬虫-创建Scrapy项目

摘要：在pycharm中创建Scrapy项目：一：创建项目： 1：打开命令提示符，cd命令进入想要创建的文件的文件夹，然后利用命令scrapy startproject 项目名字二：在pycharm中打开爬虫项目：打开pycharm→file→open→找到文件位置打开打开文件之后，如下所示：阅读全文

posted @ 2019-05-21 22:59 zx1 阅读(210) 评论(0) 推荐(0)

爬虫-xpath表达式符号用法

摘要： Xpath表达式： /:表示从头开始提取 @：提取标签属性值(@href) //：提取当前页面下左右的某个属性值(//li) text():提取标签下的值 []：提取标签下的属性：//li[@class = '']/ 阅读全文

posted @ 2019-05-21 22:54 zx1 阅读(573) 评论(0) 推荐(0)

爬虫-Scrapy框架

摘要：什么是Scrapy框架:Scrapy是一个Python爬虫框架，非常适合做一些大型爬虫项目，并且开发者利用这个框架，可以不用过多的关注细节。 Scrapy的官网地址：http://scrapy.org/ 安装Scrapy框架及各种常见错误解决技巧：少坑版安装方式：由于Scrapy框架涉及太多依赖库阅读全文

posted @ 2019-05-21 22:53 zx1 阅读(118) 评论(0) 推荐(0)

爬虫-多线程爬虫

摘要：什么是多线程爬虫：所谓多线程，即程序中的某些程序段并行执行，合理的设置多线程，可以让爬虫效率更高多线程爬虫必须导入threading模块，import threading 固定格式： import threading class A(threading.Thread): def __init__ 阅读全文

posted @ 2019-05-21 22:52 zx1 阅读(118) 评论(0) 推荐(0)

爬虫-图片爬虫

摘要：什么是图片爬虫：所谓图片爬虫，就是从互联网中自动把对方服务器上的图片爬下来的爬虫程序。淘宝图片爬虫实战：网址:http://taobao.com/ import urllib.request import re headers = ("user-agent","Mozilla/5.0 (Wind 阅读全文

posted @ 2019-05-21 22:51 zx1 阅读(528) 评论(0) 推荐(0)

爬虫的浏览器伪装技术

摘要：爬虫的浏览器伪装技术原理：在爬取某些浏览器的时候，对方服务器会对爬虫进行屏蔽，此时，我们需要伪装成浏览器才能爬取。浏览器伪装一般通过报头进行。实战： import urllib.request url = 'http://blog.csdn.net' headers = ("User-Agent 阅读全文

posted @ 2019-05-21 22:50 zx1 阅读(206) 评论(0) 推荐(0)

爬虫-爬虫防屏蔽手段之代理服务器

摘要：设置好代理headers = ('User-Agent',‘...’)后，使用opener = urllib.request.biuld_opener()对象设置好对象代理服务器：opener.addheader = [headers] 然后必须设置全局代理:urllib.request.ins 阅读全文

posted @ 2019-05-21 22:49 zx1 阅读(394) 评论(0) 推荐(0)

爬虫-自动模拟http请求

摘要：自动模拟http请求：客户端如何要与服务器端进行通信，需要通过http请求进行，http请求有很多种 post请求方式： get请求方式：示例代码: import urllib.request keywd = 'python' url = 'http://baidu.com/s?wd='+ke 阅读全文

posted @ 2019-05-21 22:48 zx1 阅读(415) 评论(0) 推荐(0)

给我小叮当一个面子

公告