我的第一个爬虫【python selenium】
去年写的一个小功能,一年过得好快,好快!
目的:爬取京东商品详情页面的内容(商品名称、价格、评价数量)后存储到xls文档中,方便商家分析自己商品的动态。
软件:chrome(windows)、chromedriver.exe、phantomjs.exe 、anaconda、pycharm
实现:用selenium自动化工具实现内容抓取,模拟谷歌浏览器打开url,内容展示在浏览器后(js动态内容展示) 定位到各个文本和按钮的位置,然后抓取内容和模拟人工点击按钮继续操作浏览器来展示动态的内容(滚动页面,点击“下一页”等按钮),最后写入excel中。
打包发布:整个程序需要python环境,这样不方便客户使用,最终打包成双击可运行的win程序,不用安装任何编译工具,方便妹子使用。
目前的问题:多线程没有实现,不晓得哪里的问题,求指导!!!
chromedriver版本问题
py2exe--打包成双击可用的程序
运行日志
D:\python\app\anaconda2\python.exe D:/python/workspace/京东爬虫.py 17-01-07 发现URL文件,准备开始爬虫 2018-04-23 17:01:16 4 ############# 一共 4 条数据要爬虫 ############# http://item.jd.com/712579.html ############# 努力加载链接中,请耐心等待 ############# debugprint@@@ 打印url False RETURN_CODE ############# 网页已经被打开,耗时:5秒 ############# debugprint@@@ scrolldown1 debugprint@@@ 准备开始滚动500 debugprint@@@ 已向下滚动500 debugprint@@@ scrolldown2 debugprint@@@ start find name btn ############# 1名称: ############# 浪琴(Longines)瑞士手表 瑰丽系列机械男表L4.821.4.11.6 debugprint@@@ start getprice ############# 1价格: ############# 7599.00 商品评价(9400+) 好评度: 95% ############# 多线程开始 ############# ############# MyThread_totalcom线程开始 ############# 全部评价(9400+):9400 ############# 多线程结束 ############# 晒图(500):500 好评(8900+):8900 中评(200+):200 差评(200+):200 test111111111 ############# 准备插入第 1 条数据,一共:8列 ############# ############# 写入如下数据 ############# 链接 http://item.jd.com/712579.html 名称 浪琴(Longines)瑞士手表 瑰丽系列机械男表L4.821.4.11.6 价格 7599.00 晒图 500 好评 8900 中评 200 差评 200 全部评价 9400 ############# 该条数据写入完成耗时:7秒,还剩3条数据待分析,即将开始下一个链接的抓取!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!! ############# https://item.jd.com/7275691.html ############# 努力加载链接中,请耐心等待 ############# debugprint@@@ 打印url False RETURN_CODE ############# 网页已经被打开,耗时:4秒 ############# debugprint@@@ scrolldown1 debugprint@@@ 准备开始滚动500 debugprint@@@ 已向下滚动500 debugprint@@@ scrolldown2 debugprint@@@ start find name btn ############# 1名称: ############# 荣耀 MagicBook 14英寸超轻薄窄边框笔记本电脑(i7-8550U 8G 256G MX150 2G独显 指纹识别 正版Office)冰河银 debugprint@@@ start getprice ############# 3价格: ############# 5698.00 ############# 无法获取xpath如下 ############# //*[@id="detail"]/div[1]/ul/li[5] 商品评价(10+) 好评度: 100% ############# 多线程开始 ############# ############# MyThread_totalcom线程开始 ############# 全部评价(10+):10 ############# 多线程结束 ############# 晒图(0):0 好评(10+):10 中评(0):0 差评(0):0 test111111111 ############# 准备插入第 2 条数据,一共:8列 ############# ############# 写入如下数据 ############# 链接 https://item.jd.com/7275691.html 名称 荣耀 MagicBook 14英寸超轻薄窄边框笔记本电脑(i7-8550U 8G 256G MX150 2G独显 指纹识别 正版Office)冰河银 价格 5698.00 晒图 0 好评 10 中评 0 差评 0 全部评价 10 ############# 该条数据写入完成耗时:26秒,还剩2条数据待分析,即将开始下一个链接的抓取!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!! ############# http://www.qq.com ############# 努力加载链接中,请耐心等待 ############# debugprint@@@ 打印url 2 RETURN_CODE ############# 页面被跳转 ############# test111111111 ############# 准备插入第 3 条数据,一共:8列 ############# ############# 写入如下数据 ############# 链接 http://www.qq.com 名称 !!页面被跳转 价格 2 晒图 好评 中评 差评 全部评价 ############# 该条数据写入完成耗时:0秒,还剩1条数据待分析,即将开始下一个链接的抓取!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!! ############# https://item.jd.com/3347170.html ############# 努力加载链接中,请耐心等待 ############# debugprint@@@ 打印url False RETURN_CODE ############# 网页已经被打开,耗时:2秒 ############# debugprint@@@ scrolldown1 debugprint@@@ 准备开始滚动500 debugprint@@@ 已向下滚动500 debugprint@@@ scrolldown2 debugprint@@@ start find name btn ############# 1名称: ############# 南极人(NanJiren)套件 全棉纯棉双人四件套 1.8/2.0米床 被套220*240cm 抹茶花 debugprint@@@ start getprice ############# 1价格: ############# 268.00 商品评价(7500+) 好评度: 100% ############# 多线程开始 ############# ############# MyThread_totalcom线程开始 ############# 全部评价(7500+):7500 ############# 多线程结束 ############# 晒图(445):445 好评(7400+):7400 中评(20+):20 差评(10+):10 test111111111 ############# 准备插入第 4 条数据,一共:8列 ############# ############# 写入如下数据 ############# 链接 https://item.jd.com/3347170.html 名称 南极人(NanJiren)套件 全棉纯棉双人四件套 1.8/2.0米床 被套220*240cm 抹茶花 价格 268.00 晒图 445 好评 7400 中评 20 差评 10 全部评价 7500 ############# 该条数据写入完成耗时:3秒,还剩0条数据待分析,即将开始下一个链接的抓取!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!! ############# ############# @@@@@$$$$$$$$@@@@@ 所有代码正常运行 无报错 @@@@@@@@@@@$$$$$$$$$$$$$$$@@@@@@@@@@@@@@@@ ############# ############# 整个爬虫一共耗时:38秒,单条链接平均爬虫耗时:9.5秒 ############# ############# sleep 10s后关闭浏览器 #############
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· Manus的开源复刻OpenManus初探
· AI 智能体引爆开源社区「GitHub 热点速览」
· C#/.NET/.NET Core技术前沿周刊 | 第 29 期(2025年3.1-3.9)
· 从HTTP原因短语缺失研究HTTP/2和HTTP/3的设计差异
2015-04-23 java作用域public ,private ,protected 及不写时的区别
2015-04-23 JAVA的静态变量、静态方法、静态类