爬虫
爬虫
一、网络基础
客户端: web app 输入url 访问 服务器
服务器: 提供API 实际API即为url
url的演化:起初,只有ip的域名像是电话号码,要用户自己记住这个域名是干什么的,后来百度将域名和作用联系起来,记录在自己的数据库中,方便用户访问查询。
百度是怎么在网络上收集到这些信息的? 先按照关键字在本地的数据库搜索匹配,或在网络中搜索web中的title,description,content等内容,匹配到以后显示网页,收录在数据库,而且也访问这个网页中的所有链接的url,循环下去。
二、爬虫
1、爬虫三要素
1)发送请求
2)获取内容
3)获取其他url
循环这三个操作
三、爬虫的安装
1、由于异步回调机制基于Twisted,而现阶段只有python27可以完美支持。
所以现阶段爬虫基于python27
2、pip install scrapy
3、依赖模块
windows平台需要依赖pywin32,请根据自己系统32/64位选择下载安装,https://sourceforge.net/projects/pywin32/
进入
选择对应版本python27.
注意:可能还需要辅助安装 lxml-2.3.win-amd64-py2.7.exe
lxml-2.3win32-py2.7.exe
https://pypi.python.org/pypi/lxml/2.3/
还是有问题可以 再安装 VCForPython27.msi
4、安装
注意 安装pip补充
1)安装setuptools.py
https://bootstrap.pypa.io/ez_setup.py
下载 ez_setup.py
安装 python ez_setup.py
2)安装pip
https://pypi.python.org/packages/e7/a8 ...
下载pip
进入目录
python setup.py install
3)pip install xx