关于爬虫的学习
最近一直在学习PYTHON语言,想学会一门编程语言,因为PYTHON简单易学,另外功能强大,只有我想不到的,没有PYTHON做不到的,所以就选择了这门编程语言。
学习完它的基础语法后,想进一步的提升,此时同事介绍了两个方法,一个是去GITHUB网站做练习题,一个是去学习爬虫,到网站中爬数据,去数据库中爬数据。
我刚开始时去做习题,但发现有些习题不会做,不如爬虫实战的效果明显。故开始学习爬虫。
学会一门编程语言就是要来解决实际工作中的需求,从这个角度来看,直接学爬虫吧。
学习爬虫也只有一个星期的时间,大体的学习思路与流程简单说明一下吧,方便后来者借鉴(我也不能说自己的方法一定正确,如果有用,能帮助到人,也不枉自己花的这点时间了。)
python爬虫主要用到的几个库,urllib,urllib2,cookielib,re,这是我这周碰到的几个。
首先从最基本的,爬取一个网页的HTML码。
然后难度升级,加入HEADERS的信息,再爬,如:headers中的user——agent信息,data信息,timeout信息,设置代理等。
get 请求,post请求不同的爬取方式。
获取cookie信息,保存cookie信息到文本,从文本中读取保存的cookie信息,保存登录的cookie后,再读取登录后别的页面的信息。
再次,学习正则表达式,用来匹配与筛选信息。PYTHON中的正则表达式的用法,可以系统性的学习下。
最后,当以上的基础打牢后,就进行一些实战了。
在实战中巩固基础,在实战中提高。
每天坚持练习一个小时的代码,一直坚持下去,会达到“悟”的水平的。