Fork me on GitHub
摘要: 修复每次都从种子网站爬取的bug,针对"程序运行,从种子地址开始,对于每次爬取的网站地址先查询数据库是否存在该条记录,如果不存在,则立即插入","当前网站地址爬取完毕后,查找数据库从中取出第一个crawled为0的记录进行爬取,每次只取一条;"以及"存储电影详情页记录以及短评数据都是采用解析一条则立即存储到数据库"等问题使用批量读写减少与数据库的交互以及频繁的方法调用。 阅读全文
posted @ 2017-02-05 20:36 JackieZheng 阅读(1441) 评论(3) 推荐(0) 编辑