ZoneSpider Day2

Day2

今天主要是摸清html代码结构和编码。
赞的html结构如下:

评论的html结构如下:

其实结构都不太重要,xpath直接找class=‘’相关值的就行了

至此,网页结构全部摸清。可以开始编码了。
现在的问题是解析不规范json太费时间了QAQ,所以爬起来很慢。

程序结构如下:
Network.py :处理json获取及cookie验证
HTMLParse.py:处理HTML
DataAnalyze.py:处理获得的数据
Loginfo.py:记录登录相关信息
Run.py:丑陋的主程序
效果:

项目已经放在github上。地址:ZoneSpider

posted @ 2020-03-01 21:03  DengHaoyu  阅读(110)  评论(0编辑  收藏  举报