会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
给我小叮当一个面子
博客园
首页
新随笔
联系
管理
订阅
2019年8月8日
selenium.common.exceptions.WebDriverException: Message: 'chromedriver' executable needs to be in PATH. Please see https://sites.google.com/a/chromium.org/chromedriver/home
摘要: 最近在学习python爬虫时,使用selenium中webdriver类报错如题。 经过网上经验和自己的摸索,终于找到了解决方法。 这里使用的是Chrome,可以先打开Chrome,网址搜索栏搜索Chrome://version,查看自己的Chrome版本。 查看到自己Chrome版本之后,输入网址
阅读全文
posted @ 2019-08-08 19:57 zx1
阅读(194)
评论(0)
推荐(0)
2019年5月31日
re正则表达式初识
摘要: re正则表达式: 导入方法:import re example: import re pat = "yue" string = "https://yue.com" result = re.search(pat,string) print(result) 通用字符也可以作为原子: \w:可以匹配任意的
阅读全文
posted @ 2019-05-31 21:19 zx1
阅读(178)
评论(0)
推荐(0)
2019年5月21日
爬虫-创建Scrapy项目
摘要: 在pycharm中创建Scrapy项目: 一:创建项目: 1:打开命令提示符,cd命令进入想要创建的文件的文件夹,然后利用命令scrapy startproject 项目名字 二:在pycharm中打开爬虫项目: 打开pycharm→file→open→找到文件位置打开 打开文件之后,如下 所示:
阅读全文
posted @ 2019-05-21 22:59 zx1
阅读(210)
评论(0)
推荐(0)
爬虫-xpath表达式符号用法
摘要: Xpath表达式: /:表示从头开始提取 @:提取标签属性值(@href) //:提取当前页面下左右的某个属性值(//li) text():提取标签下的值 []:提取标签下的属性://li[@class = '']/
阅读全文
posted @ 2019-05-21 22:54 zx1
阅读(573)
评论(0)
推荐(0)
爬虫-Scrapy框架
摘要: 什么是Scrapy框架:Scrapy是一个Python爬虫框架,非常适合做一些大型爬虫项目,并且开发者利用这个框架,可以不用过多的关注细节。 Scrapy的官网地址:http://scrapy.org/ 安装Scrapy框架及各种常见错误解决技巧: 少坑版安装方式:由于Scrapy框架涉及太多依赖库
阅读全文
posted @ 2019-05-21 22:53 zx1
阅读(118)
评论(0)
推荐(0)
爬虫-多线程爬虫
摘要: 什么是多线程爬虫: 所谓多线程,即程序中的某些程序段并行执行,合理的设置多线程,可以让爬虫效率更高 多线程爬虫必须导入threading模块,import threading 固定格式: import threading class A(threading.Thread): def __init__
阅读全文
posted @ 2019-05-21 22:52 zx1
阅读(118)
评论(0)
推荐(0)
爬虫-图片爬虫
摘要: 什么是图片爬虫:所谓图片爬虫,就是从互联网中自动把对方服务器上的图片爬下来的爬虫程序。 淘宝图片爬虫实战: 网址:http://taobao.com/ import urllib.request import re headers = ("user-agent","Mozilla/5.0 (Wind
阅读全文
posted @ 2019-05-21 22:51 zx1
阅读(528)
评论(0)
推荐(0)
爬虫的浏览器伪装技术
摘要: 爬虫的浏览器伪装技术原理: 在爬取某些浏览器的时候,对方服务器会对爬虫进行屏蔽,此时,我们需要伪装成浏览器才能爬取。浏览器伪装一般通过报头进行。 实战: import urllib.request url = 'http://blog.csdn.net' headers = ("User-Agent
阅读全文
posted @ 2019-05-21 22:50 zx1
阅读(206)
评论(0)
推荐(0)
爬虫-爬虫防屏蔽手段之代理服务器
摘要: 设置好代理headers = ('User-Agent',‘...’)后, 使用opener = urllib.request.biuld_opener()对象 设置好对象代理服务器:opener.addheader = [headers] 然后必须设置全局代理:urllib.request.ins
阅读全文
posted @ 2019-05-21 22:49 zx1
阅读(394)
评论(0)
推荐(0)
爬虫-自动模拟http请求
摘要: 自动模拟http请求: 客户端如何要与服务器端进行通信,需要通过http请求进行,http请求 有很多种 post请求方式: get请求方式: 示例代码: import urllib.request keywd = 'python' url = 'http://baidu.com/s?wd='+ke
阅读全文
posted @ 2019-05-21 22:48 zx1
阅读(415)
评论(0)
推荐(0)
下一页
公告