图书信息库完整解决方案(七)补充说明
1、当当的数据远远比豆瓣的数据丰富,所以图书基础数据应该以当当的为基准,豆瓣的为完善补充。
2、当当每个分类下只能获取前100页数据,100之后的数据无法用技术手段进行抓取。
3、无法抓取到的当当数据,当有需要的时候可以模拟当当的搜索接口,然后从搜索结果中分析对应的图书数据。
4、第一次抓取当当的全站数据完毕后, 我这边启动了一个定时任务,每周会抓取各个分类下的前10页数据,这样基本能保证最新的图书也能入库。
前前后后这个方案基本历时3-4个月才算完成开发,虽然说不上完美,仍然有部分图书无法获取到详情或者详情数据不是太精确,但大部分情况下还是能满足业务的需求了。这里简单总结下,也是对去年这段忙碌日子的一个回顾。