会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
杰锅锅(Jackie)
宁肯像种子一样等待 也不愿像疲惫的陀螺 旋转得那样勉强
博客园
首页
新随笔
联系
订阅
管理
2017年2月5日
Java豆瓣电影爬虫——减少与数据库交互实现批量插入
摘要: 修复每次都从种子网站爬取的bug,针对"程序运行,从种子地址开始,对于每次爬取的网站地址先查询数据库是否存在该条记录,如果不存在,则立即插入","当前网站地址爬取完毕后,查找数据库从中取出第一个crawled为0的记录进行爬取,每次只取一条;"以及"存储电影详情页记录以及短评数据都是采用解析一条则立即存储到数据库"等问题使用批量读写减少与数据库的交互以及频繁的方法调用。
阅读全文
posted @ 2017-02-05 20:36 JackieZheng
阅读(1444)
评论(3)
推荐(0)
编辑
公告