Python爬虫

爬虫不外乎是为了获取网络上的信息，要取得信息，你就得给给服务器发请求，然后服务器把信息发给你，这一步一般较为简单。服务器发给你的一般是一个html文件，拿到文件后，你可能会觉得这是什么乱七八糟的东西，怎么都看不懂。我觉得对于一个非计算机系的人来说，想要做点东西出来，最大的困难是缺的知识太多了，html看不懂，http原理也不懂。所以这时候你会发现你需要去学一点html，去w3cschool看一看教程，你并不需要懂很多，弄懂各种标签的含义，能看懂html文件里的内容就行。

拿到html文件，接下来你要做的就是提取信息，准确地说，是你感兴趣的信息。你需要两样东西，一样用来快速定位你要获取的信息在html源文件中的位置，让你知道要提取什么；另一样用来提取信息。第一样可以选firefox或chrome，都自带开发者功能，第二样可以用Beautiful Soup。所以你需要花一点时间了解开发者功能怎么用，以及Beautiful Soup这个库的用法。会发请求，会提取信息，这些就够了，赶紧做点东西，找点成就感，这样才能有动力继续做下去。比如可以做下载某些网站的图片，把知乎上的答案抓到本地。有点成就感之后就有动力更深入学习了。

在做的过程中，你可能会遇到一些困难，比如你拿到的html跟浏览器看到的html不一样，你上网找一找就会发现，你需要了解一个叫http请求头的东西。找一点资料看看，知道http请求头是怎么回事就行了，不需要完全弄懂http的原理，解决当下的问题才是最重要的，有什么不懂的稍后再补。学了点东西后，你就知道这怎么解决这个问题了，只需在发请求的时候加一个参数，带上http请求头即可，这叫做模拟浏览器的行为。把这个问题解决后，抓取大多数网站都没有问题了。成就感又提升了一点。

有时候你又会发现，有一些网站需要登录才能取得一些信息。找一找资料，你就会接触到“模拟登录”，“post请求”等名词。这时候，你又需要去学习一些http的知识，了解“get”，“post”是怎么回事，以及如何发post请求。为了方便处理http的相关东西，你最好学习一下requests这个库。学习之后，参照网上的代码，我相信模拟登录的问题也解决了。比如，你就可以模拟登录知乎，然后抓取知乎的首页看看，是不是跟你用浏览器中看到的一样？

继续深入，你就会发现这些也不够了，有些信息我需要点一下“更多”按钮才会加载，如何获取这些信息呢？这时候你就需要分析在点“更多”按钮的时候浏览器做了什么，然后去模拟浏览器的行为。如何分析呢？我一般用firebug，看看点击更多按钮的时候，浏览器做了什么，浏览器一般会发一个post请求，会带上一些参数，你需要知道的就是要带上哪些参数，发请求给谁。这一步可能会有点困难，可以慢慢体会怎么做。一旦越过了这这道坎，你就几乎可以取得任何你想要的信息了。

假设你已经成功了，得到了服务器传回来的数据，你可能会发现，这又跟html不一样了。这是一个叫json的东西，传回来的数据都在里面了，接下来就是要提取数据了。所以你又要去了解json是什么，如何用python处理json。

基本上做完这些，爬虫就算入了门。接下来为了提高性能，扩大规模，再去搞多线程，分布式什么的吧，这也是我接下来需要努力和学习的方向。

最后说一些感想：

1. 不要急于求成，编程虽然不难，但也没有那么简单，不要想着速成，特别是对于计算机基础不是很好的人。

2. 学习的过程中可能会遇到很多困难（上面可能没有提到），或许会有很多你没有接触的东西冒出来，善用google，一个个问题地解决，缺什么补什么。

3. 对于初学者来讲，最重要的不是去学各种吊炸天的框架，追最新的技术。技术，框架是学不完的，永远都会层出不穷，最重要的是把基础学好。很多时候你有一个问题解决不了，都是你某些方面的知识缺了。慢慢来，不要急，随着学习的深入，再回过头来看以前的问题，会有豁然开朗的感觉。

4. 一定要动手做，找点成就感，对你继续做下去有很大的促进作用。不然的话，遇到点困难很容易就放弃了。

posted @ 2015-03-23 17:12 随风9 阅读(279) 评论(0) 收藏举报

刷新页面返回顶部

随风

Python爬虫

公告