ZoneSpider Day2
Day2
今天主要是摸清html代码结构和编码。
赞的html结构如下:
评论的html结构如下:
其实结构都不太重要,xpath直接找class=‘’相关值的就行了
至此,网页结构全部摸清。可以开始编码了。
现在的问题是解析不规范json太费时间了QAQ,所以爬起来很慢。
程序结构如下:
Network.py :处理json获取及cookie验证
HTMLParse.py:处理HTML
DataAnalyze.py:处理获得的数据
Loginfo.py:记录登录相关信息
Run.py:丑陋的主程序
效果:
项目已经放在github上。地址:ZoneSpider