(一 )安装爬虫库

selenium 安装与 chromedriver安装

参考:https://www.cnblogs.com/technologylife/p/5829944.html

因为版本必须对应 :2019 Selenium Chrome版本与chromedriver兼容版本对照表

https://blog.csdn.net/yoyocat915/article/details/80580066

 s1:直接使用pip安装

pip install selenium

s2:用 Chrome 浏览器来测试

from selenium import webdriver

browser = webdriver.Chrome()

这个首次可能会报错,找不到chromedriver.exe.此时就需要去下载,下载的时候,要根据自己的chrome的版本去下载对应的版本的chromedriver.exe。

下载地址:http://npm.taobao.org/mirrors/chromedriver/

参照表:

注意 :chromedriver的版本要与你使用的chrome版本对应,对应关系如下:

下面是谷歌浏览器与chromedriver的版本对应关系,供参考:

ChromeDriver v2.46 (2019-02-01)----------Supports Chrome v71-73

 

-------以下为2018年兼容版本对照表,以上为2019年兼容版本对照表------

 

ChromeDriver v2.45 (2018-12-10)----------Supports Chrome v70-72

ChromeDriver v2.44 (2018-11-19)----------Supports Chrome v69-71

ChromeDriver v2.43 (2018-10-16)----------Supports Chrome v69-71

ChromeDriver v2.42 (2018-09-13)----------Supports Chrome v68-70

ChromeDriver v2.41 (2018-07-27)----------Supports Chrome v67-69

ChromeDriver v2.40 (2018-06-07)----------Supports Chrome v66-68

ChromeDriver v2.39 (2018-05-30)----------Supports Chrome v66-68

ChromeDriver v2.38 (2018-04-17)----------Supports Chrome v65-67

ChromeDriver v2.37 (2018-03-16)----------Supports Chrome v64-66

ChromeDriver v2.36 (2018-03-02)----------Supports Chrome v63-65

ChromeDriver v2.35 (2018-01-10)----------Supports Chrome v62-64

ChromeDriver v2.34 (2017-12-10)----------Supports Chrome v61-63

chromedriver版本

支持的Chrome版本

v2.33

v60-62

v2.32

v59-61

v2.31

v58-60

v2.30

v58-60

v2.29

v56-58

v2.28

v55-57

v2.27

v54-56

v2.26

v53-55

v2.25

v53-55

v2.24

v52-54

v2.23

v51-53

v2.22

v49-52

v2.21

v46-50

v2.20

v43-48

v2.19

v43-47

v2.18

v43-46

v2.17

v42-43

v2.13

v42-45

v2.15

v40-43

v2.14

v39-42

v2.13

v38-41

v2.12

v36-40

v2.11

v36-40

v2.10

v33-36

v2.9

v31-34

v2.8

v30-33

v2.7

v30-33

v2.6

v29-32

v2.5

v29-32

v2.4

v29-32

下载解压完之后添加到python/scripts目录下,因为这个目录是已经放在环境变量中的;当然也可以自己把解压路径添加到环境变量

from selenium import webdriver

driver=webdriver.Chrome()

此时弹出下面:

然后

driver.get(“http://www.baidu.com”)

此时弹出:

driver.get("http://www.python.org")

弹出:

driver.page_source   #获得网页源代码

有时候在爬虫的时候一直采用chrome不是很方便,因此可以采用一个无界面浏览器:phantomjs:

安装phantomjs

下载地址:http://phantomjs.org/download.html

解压:

进入bin目录:

将phantomjs.exe目录配置到环境变量中去:

打开电脑》》属性》》高级系统设置》》高级》》环境变量》》path中添加环境变量(记得路径之间加分号)

然后测试:

安装正确,ctrl+c退出;

接下来爬取网页:

from selenium import webdriver
driver=webdriver.PhantomJS()

driver.get("http://www.baidu.com")#爬取网页

driver.page_source#获取网页内容

安装lxml用来解析网页

pip install lxml
#或者另一个方式:
前提安装pip install wheel

安装beautifulsoup库:

pip install beautifulsoup4
from bs4 import BeautifulSoup

安装pyquery:网页解析库(比bs4更方便)

安装数据库

pip install pymysql

测试:

import pymysql
conn=pymysql.connect(host='localhost',user='root',password='123456',port=3306,db='mysql')
cursor=conn.cursor()#建立操纵对象
cursor.execute('select * from db')

输出:

2

cursor.fetchone()#取出里面的内容

输出:

('localhost', 'performance_schema', 'mysql.session', 'Y', 'N', 'N', 'N', 'N', 'N', 'N', 'N', 'N', 'N', 'N', 'N', 'N', 'N', 'N', 'N', 'N', 'N', 'N')

安装pymongo

#键值形式存放,非关系型数据库,不需要见表,不需要关心表的结构,动态增加键名,完成数据存储

pip install pymongo#安装

测试:

import pymongo
client=pymongo.MongoClient('localhost')#mongodb的连接对象
db=client['newtestdb']#声明一个数据库
db['table'].insert({'name':'Bob'})#声明表名,并插入一条数据

输出:

ObjectId('5c94e991fb8cf862d46be74c')

db['table'].find_one({'name':'Bob'})#利用函数将数据传送过来,查询数据

输出:

{'_id': ObjectId('5c94e991fb8cf862d46be74c'), 'name': 'Bob'}

 安装Redis

Redis也是key-value形式存在,分布式爬虫,维护爬取序列的数据库

import redis
r=redis.Redis('localhost',6379)#建立数据库对象
r.set('name','Bob')#添加键值

输出:

True

>>> r.get('name')#查询键值

b'Bob'

 安装flask库

之后因为要用到web代理,进行代理的获取,代理的存储

pip install flask

安装django

web服务器框架,提供了后台管理,一些模板,引擎,接口,路由

pip install django

安装jupyter

pip install jupyter

 

posted @ 2019-04-23 16:19  每天坚持一点点  阅读(1233)  评论(0编辑  收藏  举报