Python爬虫

1、先安装requests库 pip install requests

2、安装selenium库 pip ..
配置浏览器驱动文件  http://npm.taobao.org/mirrors/chromedriver/  选择对应 浏览器版本的驱动 

将驱动放入python路径下 scra

启动浏览器  browser = webdriver.Chrome()

import selenium
from selenium import webdriver

driver = webdriver.Chrome() 
driver.get('http://www.baidu.com')
print(driver.page_source)#browser.page_source是获取网页的全部html
driver.close()

  

因为用webdriver打开chrom是有界面的,我们经常用无界面浏览器进行爬虫工程

使用phantomjs可以实现无界面后台静默运行 下载地址 http://phantomjs.org/download.html

下载后需要配环境变量 一直到bin目录下

但是 提示错误 

UserWarning: Selenium support for PhantomJS has been deprecated, please use headless versions of Chrome or Firefox instead
warnings.warn('Selenium support for PhantomJS has been deprecated, please use headless '

标记为过时,代表着将在未来版本摒弃掉这个支持。所以还是先弃用掉PhantomJS改用推荐的Headless Chrome比较好。

 

 

from selenium import webdriver
from selenium.webdriver.chrome.options import Options

chrome_options = Options()
chrome_options.add_argument('--headless')
chrome_options.add_argument('--disable-gpu')
driver = webdriver.Chrome(chrome_options=chrome_options)
driver.get("https://www.baidu.com")
print(driver.page_source)

  

lxml 库 提供了 xpath解析方式

安装 lxml     cmd    pip install lxml

 

beautifulsoup 库 依赖于lxml

安装  pip install beautifulsoup4

from bs4 import BeautifulSoup
soup = BeautifulSoup('(html)(/html)','lxml')

  

pyquery 网页解析库

安装 pip3 install pyquery

导入 from pyquery import PyQuery as pq

 

存储库 

pymysql

安装 pip3 install pymysql

conn = pymysql.connect(host= 'localhost',
                       user = 'root',
                       password = '123456',port = 3306,
                       db = 'mysql')
cursor = conn.cursor()
cursor.execute('select * from db')
cursor.fetchone()
 
调用结果
可以看到调用结果与数据库中的内容一一对应

  

pytmongo 

安装

pip3 install pymongo

 

30分钟

 

 

redis 

非关系行数据库

安装

pip3 install redis

import redis
r = redis.Redis('localhost',6379)
r.set('name','liu')
返回值为True

  

flask

安装 pip3 install flask

 

django

安装 pip3 install django

jupyter 相当于notebook 

 

pip3 install jupyter

安装后在命令行直接输入jupyter notebook

按B键可以增加一个命令行

ctrl+enter 运行

标题模式 markdowm

 

posted @ 2018-11-01 12:21  犀利的攻城狮  阅读(251)  评论(0编辑  收藏  举报