Python爬虫
1、先安装requests库 pip install requests
2、安装selenium库 pip ..
配置浏览器驱动文件 http://npm.taobao.org/mirrors/chromedriver/ 选择对应 浏览器版本的驱动
将驱动放入python路径下 scra
启动浏览器 browser = webdriver.Chrome()
import selenium from selenium import webdriver driver = webdriver.Chrome() driver.get('http://www.baidu.com') print(driver.page_source)#browser.page_source是获取网页的全部html driver.close()
因为用webdriver打开chrom是有界面的,我们经常用无界面浏览器进行爬虫工程
使用phantomjs可以实现无界面后台静默运行 下载地址 http://phantomjs.org/download.html
下载后需要配环境变量 一直到bin目录下
但是 提示错误
UserWarning: Selenium support for PhantomJS has been deprecated, please use headless versions of Chrome or Firefox instead
warnings.warn('Selenium support for PhantomJS has been deprecated, please use headless '
标记为过时,代表着将在未来版本摒弃掉这个支持。所以还是先弃用掉PhantomJS改用推荐的Headless Chrome比较好。
from selenium import webdriver from selenium.webdriver.chrome.options import Options chrome_options = Options() chrome_options.add_argument('--headless') chrome_options.add_argument('--disable-gpu') driver = webdriver.Chrome(chrome_options=chrome_options) driver.get("https://www.baidu.com") print(driver.page_source)
lxml 库 提供了 xpath解析方式
安装 lxml cmd pip install lxml
beautifulsoup 库 依赖于lxml
安装 pip install beautifulsoup4
from bs4 import BeautifulSoup soup = BeautifulSoup('(html)(/html)','lxml')
pyquery 网页解析库
安装 pip3 install pyquery
导入 from pyquery import PyQuery as pq
存储库
pymysql
安装 pip3 install pymysql
conn = pymysql.connect(host= 'localhost', user = 'root', password = '123456',port = 3306, db = 'mysql') cursor = conn.cursor() cursor.execute('select * from db') cursor.fetchone() 调用结果 可以看到调用结果与数据库中的内容一一对应
pytmongo
安装
pip3 install pymongo
30分钟
redis
非关系行数据库
安装
pip3 install redis
import redis r = redis.Redis('localhost',6379) r.set('name','liu') 返回值为True
flask
安装 pip3 install flask
django
安装 pip3 install django
jupyter 相当于notebook
pip3 install jupyter
安装后在命令行直接输入jupyter notebook
按B键可以增加一个命令行
ctrl+enter 运行
标题模式 markdowm