图书信息库完整解决方案(七)补充说明
1、当当的数据远远比豆瓣的数据丰富,所以图书基础数据应该以当当的为基准,豆瓣的为完善补充。
2、当当每个分类下只能获取前100页数据,100之后的数据无法用技术手段进行抓取。
3、无法抓取到的当当数据,当有需要的时候可以模拟当当的搜索接口,然后从搜索结果中分析对应的图书数据。
4、第一次抓取当当的全站数据完毕后, 我这边启动了一个定时任务,每周会抓取各个分类下的前10页数据,这样基本能保证最新的图书也能入库。
前前后后这个方案基本历时3-4个月才算完成开发,虽然说不上完美,仍然有部分图书无法获取到详情或者详情数据不是太精确,但大部分情况下还是能满足业务的需求了。这里简单总结下,也是对去年这段忙碌日子的一个回顾。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 开发者必知的日志记录最佳实践
· SQL Server 2025 AI相关能力初探
· Linux系列:如何用 C#调用 C方法造成内存泄露
· AI与.NET技术实操系列(二):开始使用ML.NET
· 记一次.NET内存居高不下排查解决与启示
· 阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
· 开源Multi-agent AI智能体框架aevatar.ai,欢迎大家贡献代码
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· AI技术革命,工作效率10个最佳AI工具