摘要:
最近在学习python爬虫时,使用selenium中webdriver类报错如题。 经过网上经验和自己的摸索,终于找到了解决方法。 这里使用的是Chrome,可以先打开Chrome,网址搜索栏搜索Chrome://version,查看自己的Chrome版本。 查看到自己Chrome版本之后,输入网址 阅读全文
摘要:
re正则表达式: 导入方法:import re example: import re pat = "yue" string = "https://yue.com" result = re.search(pat,string) print(result) 通用字符也可以作为原子: \w:可以匹配任意的 阅读全文
摘要:
在pycharm中创建Scrapy项目: 一:创建项目: 1:打开命令提示符,cd命令进入想要创建的文件的文件夹,然后利用命令scrapy startproject 项目名字 二:在pycharm中打开爬虫项目: 打开pycharm→file→open→找到文件位置打开 打开文件之后,如下 所示: 阅读全文
摘要:
Xpath表达式: /:表示从头开始提取 @:提取标签属性值(@href) //:提取当前页面下左右的某个属性值(//li) text():提取标签下的值 []:提取标签下的属性://li[@class = '']/ 阅读全文
摘要:
什么是Scrapy框架:Scrapy是一个Python爬虫框架,非常适合做一些大型爬虫项目,并且开发者利用这个框架,可以不用过多的关注细节。 Scrapy的官网地址:http://scrapy.org/ 安装Scrapy框架及各种常见错误解决技巧: 少坑版安装方式:由于Scrapy框架涉及太多依赖库 阅读全文
摘要:
什么是多线程爬虫: 所谓多线程,即程序中的某些程序段并行执行,合理的设置多线程,可以让爬虫效率更高 多线程爬虫必须导入threading模块,import threading 固定格式: import threading class A(threading.Thread): def __init__ 阅读全文
摘要:
什么是图片爬虫:所谓图片爬虫,就是从互联网中自动把对方服务器上的图片爬下来的爬虫程序。 淘宝图片爬虫实战: 网址:http://taobao.com/ import urllib.request import re headers = ("user-agent","Mozilla/5.0 (Wind 阅读全文
摘要:
爬虫的浏览器伪装技术原理: 在爬取某些浏览器的时候,对方服务器会对爬虫进行屏蔽,此时,我们需要伪装成浏览器才能爬取。浏览器伪装一般通过报头进行。 实战: import urllib.request url = 'http://blog.csdn.net' headers = ("User-Agent 阅读全文
摘要:
设置好代理headers = ('User-Agent',‘...’)后, 使用opener = urllib.request.biuld_opener()对象 设置好对象代理服务器:opener.addheader = [headers] 然后必须设置全局代理:urllib.request.ins 阅读全文
摘要:
自动模拟http请求: 客户端如何要与服务器端进行通信,需要通过http请求进行,http请求 有很多种 post请求方式: get请求方式: 示例代码: import urllib.request keywd = 'python' url = 'http://baidu.com/s?wd='+ke 阅读全文