python爬虫笔记

　　学了一波爬虫，很好玩，是使用python实现的。爬虫要做的工作基本上分为三步：

　　（1）爬取网页源码；

　　（2）解析/过滤源码获得需要的信息；

　　（3）保存爬取的信息。

　　先来介绍如何爬取网页源码，我学到的是使用requests库的requests.get()函数实现的，这个函数的参数是一个url地址，返回url对应网站的源码信息，有时候需要对返回信息的编码格式做处理，模板代码如下：

import requests

def get_response(url):
    url = "www.baidu.com"
    res = requests.get(url)
    res.encoding = "UTF-8"
    return res.text

　　接下来介绍如何对爬取到的网页源码进行解析过滤得到所需信息，可以使用beautifulSoup、xpath、正则表达式等方式，这里介绍xpath，我认为它很好用。假如我们需要获得某个html源码中全部h1标签的文本信息，模板代码如下：

from lxml import etree

def parse_html(html):
	tree = etree.HTML(html)
	ls = tree.xpath("//h1")
	return ls

在xpath函数的参数中，//表示从任意位置开始查找。同时，可以对所需查找的标签进行谓语修饰，假如我们需要查找所有class属性为abc的div标签，谓语修饰格式如下：

ls = tree.xpath("//div[@class='abc']")

再假如，我们需要找到所有div标签中的a标签，可以这么写：

ls = tree.xpath("//div/a")

　　第三，关于信息的保存，我自己使用过保存为.txt文件或者excel表格，很简单的文件读写操作，不再记录。

　　最后，记录一下关于爬虫的伪装：

　　（1）修改get()函数的headers参数值，假装成浏览器；

　　（2）time.sleep(sec)设置延时，模拟人类用户操作；

　　（3）代理ip池，动态改变ip代理，ip代理也可以通过对get()函数的proxies参数进行修改实现，构建代理ip池可以参考西刺代理；

　　（4）使用其他的库模拟浏览器。

posted @ 2019-04-17 15:36 potato226 阅读(143) 评论(0) 编辑收藏举报

刷新页面返回顶部

即兴判断