图书信息库完整解决方案(七)补充说明

1、当当的数据远远比豆瓣的数据丰富,所以图书基础数据应该以当当的为基准,豆瓣的为完善补充。

2、当当每个分类下只能获取前100页数据,100之后的数据无法用技术手段进行抓取。

3、无法抓取到的当当数据,当有需要的时候可以模拟当当的搜索接口,然后从搜索结果中分析对应的图书数据。

4、第一次抓取当当的全站数据完毕后, 我这边启动了一个定时任务,每周会抓取各个分类下的前10页数据,这样基本能保证最新的图书也能入库。

 

前前后后这个方案基本历时3-4个月才算完成开发,虽然说不上完美,仍然有部分图书无法获取到详情或者详情数据不是太精确,但大部分情况下还是能满足业务的需求了。这里简单总结下,也是对去年这段忙碌日子的一个回顾。

posted on 2018-08-13 15:42  麦克煎蛋  阅读(223)  评论(0编辑  收藏  举报