爬虫之路之爬虫初体验
嗯,我从今天开始接触了爬虫;主要感受一下爬虫的诱惑,写个hello world;
准备工作:
1.安装PyCharm (下载地址:http://www.jetbrains.com/pycharm/download/#section=windows)
2.安装Python环境 (下载地址:https://www.python.org/downloads/)(我选择的是python3.6.4版本的)
3.安装pipenv 简称pip (下载地址:https://pypi.python.org/pypi/pip)
下载pi的时候选择第二个这个,然后解压;
4.引入一些爬虫基础库:
4.1:requests (网络库)
4.2:lxml (HTML/xml解析器)
这两个是基本的,还有很多python库,可以参考,日后也能用到
Python常用库:http://blog.csdn.net/woshisunchi/article/details/60877817
5.python和pip安装好以后需要配置环境变量,我这是win10:
配置环境变量之后检查是否安装成功:
##以下命令都是再CMD中输入,命令运行根目录无影响,避免出现不可预知的错误,尽量再C:\下服用 ##检查python是否安装成功 python ##直接输入python标识符 ##推出python环境:exit(); ##检查pip是否安装成功 pip -v
到这里基本的学习环境搞定;
然后是爬去豆瓣上的一些信息的代码,我也是从网上抄的,你们就复制粘体,体验一下把:
import requests from lxml import html url = 'https://movie.douban.com' page=requests.Session().get(url) tree=html.fromstring(page.text) result=tree.xpath('//td[@class="title"]//a/text()') print(result)
怎么使用PyCharm.....
就跟webstorm一样使用,新建文件----》粘贴代码----》右键----》run 文件名.py
控制台得到结果;
你的日积月累,总有一天会成为别人的望尘莫及!