Flipcart 爬取流程

第一步:爬取分类url

复制from requests_html import  HTMLSession
session =HTMLSession()
#https://www.flipkart.com/lc/getData?dataSourceId=websiteNavigationMenuDS_1.0
#还有个t参数,目前可以不加
res =session.get('https://www.flipkart.com/lc/getData?dataSourceId=websiteNavigationMenuDS_1.0', verify=False)


appliances_columns_list=res.json().get('navData').get('appliances').get('tabs')[0].get('columns')
men_columns_list=res.json().get('navData').get('men').get('tabs')[0].get('columns')
women_columns_list=res.json().get('navData').get('women').get('tabs')[0].get('columns')
baby_kids_columns_list=res.json().get('navData').get('baby-kids').get('tabs')[0].get('columns')
home_kitchen_columns_list=res.json().get('navData').get('home-kitchen').get('tabs')[0].get('columns')
nav_columns_lists =appliances_columns_list+men_columns_list+women_columns_list+baby_kids_columns_list+home_kitchen_columns_list

for nav_columns_list in nav_columns_lists:
    for title_url_type_dict in nav_columns_list:
        print(title_url_type_dict.get('url'))

第二步:获取翻页

复制#page参数控制
如:https://www.flipkart.com/womens-footwear/pr?sid=osp,iko&page=3

第三步:获取详情页url

复制from requests_html import  HTMLSession
session =HTMLSession()

res =session.get('https://www.flipkart.com/womens-footwear/pr?sid=osp,iko&page=3', verify=False)

print(res.html.xpath('//*[@id="container"]/div/div[3]/div[2]/div[1]/div[2]/div/div/div/div/div/a[1]/@href')[4:])

第四步:详情页访问

posted @ 2019-12-10 20:26 小小咸鱼YwY 阅读(637) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

【推荐】还在用 ECharts 开发大屏？试试这款永久免费的开源 BI 工具！
【推荐】国内首个AI IDE，深度理解中文开发场景，立即下载体验Trae
【推荐】编程新体验，更懂你的AI，立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包，你的智能百科全书，全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell：AI 加持，快人一步

编辑推荐：
· AI与.NET技术实操系列：向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列：如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
· SQL Server 2025 AI相关能力初探

阅读排行：
· winform 绘制太阳，地球，月球运作规律
· 震惊！C++程序真的从main开始吗？99%的程序员都答错了
· AI与.NET技术实操系列（五）：向量存储与相似性搜索在 .NET 中的实现
· 超详细：普通电脑也行Windows部署deepseek R1训练数据并当服务器共享给他人
· 【硬核科普】Trae如何「偷看」你的代码？零基础破解AI编程运行原理

个人信息

loading

style='clear:both'

生命太短=

--------------------------------------------

--------------------------------------------

--------------------------------------------

QQ ： 568972484

点击这里QQ找我

微信： YwYbetheone
安卓逆向知识星球：点我加入

昵称：小小咸鱼YwY
园龄： 5年10个月
粉丝： 534
关注： 0

<

2025年3月

>

日

一

二

三

四

五

六

23

24

25

26

27

28

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

1

2

3

4

5

随笔分类 (753)

随笔档案 (705)

阅读排行榜

最新评论

1. Re:python爬虫（学习整理）
你好，觉得写的很好，那些加密文档怎么看呀
--逐梦之路
2. Re:关于最新版ios淘宝没法抓到包的问题
@小小咸鱼YwY 求一份hook的源代码...
--许狗蛋
3. Re:关于最新版ios淘宝没法抓到包的问题
@o0小白0o 你可以先去学习一下ios见到hook,然后看下spdy正向开发怎么发送请求,然后hook对应参数就好了,关键字都没混淆你找应该可以找到...
--小小咸鱼YwY
4. Re:关于最新版ios淘宝没法抓到包的问题
方法四能教教我吗
--o0小白0o
5. Re:ios下载指定版本frida
本来搜frida国内下载源的，无意间搜到这篇文章，惊讶原来也支持ios的hook，赶紧去搜索了一下，还真有很多相关文章。
--悟透
6. Re:爬虫指纹 JA3
pip install curl_cffi 试试，原生模拟浏览器指纹
--ospider
7. Re:python随机生成经纬度(用于爬虫参数伪造)
@小学堂你可以把金纬度理解成一个圆圈,中点选好了半径画个圆中间长度随机取一个...
--小小咸鱼YwY
8. Re:python随机生成经纬度(用于爬虫参数伪造)
请问一下
radius_in_degrees = radius / 111300
这一步里面的111300是什么意思
--小学堂
9. Re:python提取视频中的音频
大佬收下我的膝盖。
--黑化肥会挥发吗
10. Re:GO语言介绍以及开发环境配置
非常有用啊
--Why-L

目录导航