随笔 - 214  文章 - 12  评论 - 40  阅读 - 38万

图书信息库完整解决方案(七)补充说明

1、当当的数据远远比豆瓣的数据丰富,所以图书基础数据应该以当当的为基准,豆瓣的为完善补充。

2、当当每个分类下只能获取前100页数据,100之后的数据无法用技术手段进行抓取。

3、无法抓取到的当当数据,当有需要的时候可以模拟当当的搜索接口,然后从搜索结果中分析对应的图书数据。

4、第一次抓取当当的全站数据完毕后, 我这边启动了一个定时任务,每周会抓取各个分类下的前10页数据,这样基本能保证最新的图书也能入库。

 

前前后后这个方案基本历时3-4个月才算完成开发,虽然说不上完美,仍然有部分图书无法获取到详情或者详情数据不是太精确,但大部分情况下还是能满足业务的需求了。这里简单总结下,也是对去年这段忙碌日子的一个回顾。

posted on   麦克煎蛋  阅读(226)  评论(0编辑  收藏  举报
编辑推荐:
· 开发者必知的日志记录最佳实践
· SQL Server 2025 AI相关能力初探
· Linux系列:如何用 C#调用 C方法造成内存泄露
· AI与.NET技术实操系列(二):开始使用ML.NET
· 记一次.NET内存居高不下排查解决与启示
阅读排行:
· 阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
· 开源Multi-agent AI智能体框架aevatar.ai,欢迎大家贡献代码
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· AI技术革命,工作效率10个最佳AI工具
< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

点击右上角即可分享
微信分享提示