Python爬虫

1、先安装requests库 pip install requests

2、安装selenium库 pip ..
配置浏览器驱动文件 http://npm.taobao.org/mirrors/chromedriver/ 选择对应浏览器版本的驱动

将驱动放入python路径下 scra

启动浏览器 browser = webdriver.Chrome()

import selenium
from selenium import webdriver

driver = webdriver.Chrome() 
driver.get('http://www.baidu.com')
print(driver.page_source)#browser.page_source是获取网页的全部html
driver.close()

因为用webdriver打开chrom是有界面的，我们经常用无界面浏览器进行爬虫工程

使用phantomjs可以实现无界面后台静默运行下载地址 http://phantomjs.org/download.html

下载后需要配环境变量一直到bin目录下

但是提示错误

UserWarning: Selenium support for PhantomJS has been deprecated, please use headless versions of Chrome or Firefox instead
warnings.warn('Selenium support for PhantomJS has been deprecated, please use headless '

标记为过时，代表着将在未来版本摒弃掉这个支持。所以还是先弃用掉PhantomJS改用推荐的Headless Chrome比较好。

from selenium import webdriver
from selenium.webdriver.chrome.options import Options

chrome_options = Options()
chrome_options.add_argument('--headless')
chrome_options.add_argument('--disable-gpu')
driver = webdriver.Chrome(chrome_options=chrome_options)
driver.get("https://www.baidu.com")
print(driver.page_source)

lxml 库提供了 xpath解析方式

安装 lxml cmd pip install lxml

beautifulsoup 库依赖于lxml

安装 pip install beautifulsoup4

from bs4 import BeautifulSoup
soup = BeautifulSoup('(html)(/html)','lxml')

pyquery 网页解析库

安装 pip3 install pyquery

导入 from pyquery import PyQuery as pq

存储库

pymysql

安装 pip3 install pymysql

conn = pymysql.connect(host= 'localhost',
                       user = 'root',
                       password = '123456',port = 3306,
                       db = 'mysql')
cursor = conn.cursor()
cursor.execute('select * from db')
cursor.fetchone()
 
调用结果
可以看到调用结果与数据库中的内容一一对应

pytmongo

安装

pip3 install pymongo

30分钟

redis

非关系行数据库

安装

pip3 install redis

import redis
r = redis.Redis('localhost',6379)
r.set('name','liu')
返回值为True

flask

安装 pip3 install flask

django

安装 pip3 install django

jupyter 相当于notebook

pip3 install jupyter

安装后在命令行直接输入jupyter notebook

按B键可以增加一个命令行

ctrl+enter 运行

标题模式 markdowm

posted @ 2018-11-01 12:21 犀利的攻城狮阅读(274) 评论(0) 收藏举报

攻城狮之家

犀利的工程狮

Python爬虫

公告