2013年8月22日
摘要: 前几天遇到一个问题,自己处理了一下但是觉得还是不是能好吧,数据量大概是2百w左右吧,就是处理一类产品,实际需求是这样的:比如你要处理的产品信息会来自京东、当当、亚马逊、淘宝等等不同的站点,你需要自作自己的爬虫去爬取他们的数据,然后整合到自己的系统中去。这是遇到的问题是你在整合数据时会出现产品在不同的站点中都存在,整合数据会去掉重复的。产品可能是同一个,但是名称不同,整合的数据取什么名称。最开始是自己老老实实的写了这个完成了一切的工作,但是发现系统的瓶颈很快就到了,最开始使用的jdbc原始操作也就是开链接à使用链接à关闭链接,最好改成了c3p0,这样就好些了,但是任然还是跑的 阅读全文
posted @ 2013-08-22 13:18 刀锋诚心 阅读(1380) 评论(9) 推荐(4) 编辑