古诗文网《三国志》爬虫

模仿自:http://blog.csdn.net/pleasecallmewhy/article/details/8932310

1、新建一个类,为Spider Module,有三个变量 page、pages、enable 分别代表 页数、内容、开关

2、开启一个线程,作为后台读取,此线程执行 LoadPage 方法,只要 enable 开关不关,就一直读取,但是读取页数不超过两页,超过两页就 sleep 1秒再判断

3、显示一页,删除一页,一页内容分很多段显示,每次显示一段都要输入一个回车,如果输入quit 就让 enable 关闭,然后退出

要点和问题:

  LoadPage 中虽然用搜狗浏览器显示古诗文网是 unicode, 但是如果不用 decode 转码,会出现乱码

posted @ 2014-09-19 15:30  闭目人  阅读(621)  评论(0)    收藏  举报