国外电商网站snapdeal爬取流程
首页爬取
1.首页获取各个目录的url 如所有优惠all_offers的其中urlhttps://www.snapdeal.com/products/men-apparel-shirts?sort=plrty
2.访问他的url获取bcrumbLabelId是由于js简单渲染出来的在id="labelId" value="(.*?)
中,如果取不到值该页面为一个优惠卷页面或者其他页面
3.url重新拼接http://www.snapdeal.com/acors/json/product/get/search/{bcrumbLabelId}/0/20
,0为起始,20为取的条数(固定)
4.会获得一个商品的页面非json,其中<div class="jsNumberFound hidden">(.*?)</div>
获取他的总条数
如果起始页码<总条数,起始页码+20>总条数 获得总条数-起始页码
5.可以通过正则或者xpath获取他的详情页的url
6.访问详情页url,返回的数据与页面显示的内容相同
如果是关键字搜索
1.访问https://www.snapdeal.com/search?keyword={搜索的内容}
2.批量http://www.snapdeal.com/acors/json/product/get/search/0/10/20?keyword={搜索的内容}
其中/0/20/20,0为固定,10为起始,20为取的条数(固定),
3.会获得一个商品的页面非json,其中<div class="jsNumberFound hidden">(.*?)</div>
获取他的总条数
如果起始页码<总条数,起始页码+20>总条数 获得总条数-起始页码
4.可以通过正则或者xpath获取他的详情页的url
5.访问详情页url,返回的数据与页面显示的内容相同
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
· SQL Server 2025 AI相关能力初探
· winform 绘制太阳,地球,月球 运作规律
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· AI与.NET技术实操系列(五):向量存储与相似性搜索在 .NET 中的实现
· 超详细:普通电脑也行Windows部署deepseek R1训练数据并当服务器共享给他人
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理