爬虫实战（三）：爬淘宝商品信息

爬淘宝商品数据

爬淘宝商品数据

免责声明：本文所记录的技术手段及实现过程，仅作为爬虫技术学习使用，不对任何人完全或部分地依据本文的全部或部分内容从事的任何事情和因其任何作为或不作为造成的后果承担任何责任

一、简介

于近年来淘宝的反爬措施逐渐完善，爬取难度变大，在爬取时必须要登录之后才能查看相关的商品信息，淘宝数据是通过动态加载的方式显示的，所以本文使用selenium模拟浏览器操作爬取商品页详情信息，需要提取安装和selenuim和浏览器驱动chromedriver

1、环境准备

使用的第三方库

 async-generator==1.10
attrs==21.4.0
beautifulsoup4==4.10.0
bs4==0.0.1
certifi==2021.10.8
cffi==1.15.0
charset-normalizer==2.0.12
cryptography==36.0.1
cssselect==1.1.0
fake-useragent==0.1.11
h11==0.13.0
HTMLParser==0.0.2
idna==3.3
logger==1.4
lxml==4.8.0
outcome==1.1.0
pinyin==0.4.0
pycparser==2.21
pyOpenSSL==22.0.0
pyquery==1.4.3
PySocks==1.7.1
requests==2.27.1
selenium==4.1.2
sniffio==1.2.0
sortedcontainers==2.4.0
soupsieve==2.3.1
trio==0.20.0
trio-websocket==0.9.2
urllib3==1.26.8
wsproto==1.1.0
xpinyin==0.7.6

2、页面分析

通过分析淘宝的页面的数据，可以知道淘宝页面的数据是通过 JS 动态加载出来的，再分析页面源码，可以发现每页的商品数据存储在 p_page_config这个变量里面

二、代码

1、使用 selenium 模拟登录

该文件名为 Login.py

 from selenium.webdriver import Chrome, ChromeOptions
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions
from selenium.webdriver.common.by import By
from fake_useragent import UserAgent
from time import sleep
 
 
# 获取登录状态
class Login:
    def __init__(self):  # 全部设置为私有属性，封装类
        self.driver = None
        self.__init_browser()  # 初始化浏览器
        self.__wait = WebDriverWait(self.driver, 180)  # 显示等待
        self.__main()  # 该方法也可以在外部调用
 
    def __init_browser(self) -> "初始化 浏览器":
        __options = ChromeOptions()
        __options.add_experimental_option('excludeSwitcher',
                                          ['enable-automation'])  # 设置开发者模式启动，该模式下webdriver属性为正常值
        __option = ChromeOptions()
        __option.add_argument(f'user-agent={UserAgent().random}')  # 设置请求头
        # __option.add_argument(
        #     r'--user-data-dir=C:\Users\35005\AppData\Local\Google\Chrome\User Data\Default')  # 加载自己的数据
        self.driver = Chrome(chrome_options=__option, options=__options)  # 添加到浏览器中
        self.driver.execute_cdp_cmd("Page.addScriptToEvaluateOnNewDocument", {
            "source": """
                Object.defineProperty(navigator, 'webdriver', {
                    get: () => undefined
                })
            """
        })  # 避免淘宝滑块验证
 
    def __login(self) -> "登 录":
        self.driver.maximize_window()  # 最大化窗口
        self.driver.get("https://login.taobao.com/member/login.jhtml")  # 请求登录网页
        self.driver.find_element(By.XPATH, "//div[@id='login']/div[1]/i").click()  # 二维码登录
        self.__wait.until(expected_conditions.presence_of_element_located((By.ID, "q")))  # 等待二维码登录，知道搜索框出现
        # cookie = self.driver.execute_script("return document.cookie")  # 调用 JS 代码，获得cookie
        # self.driver.close()  # 关闭浏览器
        # return cookie
 
    def __main(self):
        self.__login()  # 调用接口
        sleep(5)  # 停止 5 秒钟
        # cookie = self.__login()
        # with open("../Config/cookie.pickle", "wb") as f:
        #     pickle.dump(cookie, f)  # 将数据存储到二进制文件中
 
if __name__ == '__main__':
    driver = Login()  # 直接调用 main 方法

2、解析页面数据

 import re, json
from ConfiCode.Login import Login  # 登录淘宝
from selenium.webdriver.common.by import By
from selenium.webdriver.common.action_chains import ActionChains
from threading import Thread
from time import sleep, ctime
 
 
class SpiderGoods:
 
    def __init__(self, u) -> "初始化 对象":
        self.__driver = None  # 接收浏览器对象
        self.__url = u  # 接收 url
        self.__all_lis = []  # 存放所有字典类型数据
        self.__file = open("./Config/log.txt", "a", encoding="utf-8")
 
    def __verify(self) -> "滑块 问题":
        while True:
            try:
                self.__driver.find_element(By.XPATH, "//*[@id='nc_1__scale_text']/span")  # 如果找到滑块
                self.__file.write(f"出现滑块，正在处理！{ctime()}\n")
                self.__file.flush()
                sleep(2)
                print("出现滑块，正在处理！")
                ActionChains(self.__driver).click_and_hold().drag_and_drop_by_offset(260, 0).release().perform()  # 拖动滑块
            except:
                sleep(3)  # 如果没有找到滑块
 
    def __get_driver(self) -> "得到 浏览器对象":
        l = Login()  # 得到浏览器对象
        self.__driver = l.driver
 
    def __get_page_source(self) -> "获取 数据":
        self.__get_driver()
        self.__file.write(f"登录成功！{ctime()}\n")
        self.__file.flush()
        sleep(2)
        print("登录成功！")
        for i in range(100):  # 淘宝一共有 100 页
            every_page = []  # 存储每页的数据
            url = f"{self.__url}&s={44 * i}"  # 拼接 url
            self.__file.write(f"开始爬取第{i + 1}页！{ctime()}\n")
            self.__file.flush()
            sleep(2)
            print(f"开始爬取第{i + 1}页")
            self.__driver.get(url)  # 发送请求
            sleep(10)  # 停止 10 秒钟
            try:
                cot = re.search("g_page_config = {(?P<p_page_source>.*?)};",
                                self.__driver.page_source).group("p_page_source")  # 得到存储数据的页面
            except:
                continue
            cot = "{" + cot + "}"  # 拼接成 JSON 字符串
            cot_dic = json.loads(cot)  # 转换为字典
            data_lis = cot_dic["mods"]["itemlist"]["data"]["auctions"]  # 得到存储数据的列表
            for j in data_lis:
                # 标题
                try:
                    title = j["raw_title"]
                except:
                    title = "暂无"
 
                # 进入详情页的 url
                try:
                    detail_url = j["nid"]
                    detail_url = f"https://item.taobao.com/item.htm?&id={detail_url}"
                except:
                    detail_url = "暂无"
 
                # 图片 url
                try:
                    pic_url = j["pic_url"]
                    pic_url = f"https:{pic_url}"
                except:
                    pic_url = "暂无"
 
                # 价格
                try:
                    price = j["view_price"]
                except:
                    price = "-1"
 
                # 地址
                try:
                    location = j["item_loc"]
                except:
                    location = "暂无"
 
                # 销量
                try:
                    sales = j["view_sales"]
                except:
                    sales = "暂无"
 
                # 店铺
                try:
                    nick = j["nick"]
                except:
                    nick = "暂无"
 
                # 评论数量
                try:
                    comment = j["comment_count"]
                except:
                    comment = "-1"
 
                v_dic = {"标题": title, "详情页url": detail_url, "图片url": pic_url,
                         "最低价格": price, "发货地址": location, "销量": sales, "店铺名称": nick, "评论数量": comment}  # 保存数据
                # print(v_dic)
                every_page.append(v_dic)
            p_dic = {f"第{i + 1}页": every_page}  # 将页面内容添加的列表中
            self.__file.write(f"获取完第{i + 1}页！{ctime()}\n")
            self.__file.flush()
            sleep(2)
            print(f"获取完第{i + 1}页")
            self.__all_lis.append(p_dic)  # 把页面数据添加到列表中
            # print(self.__all_lis)
            sleep(5)  # 停止 3 秒钟
 
    def __save_to_json(self) -> "保存 数据":
        self.__get_page_source()
        name = self.__url.split("=")[-1]
        with open(f"./Source/{name}.json", "w", encoding="utf-8") as f:
            json.dump(self.__all_lis, f, indent=2, ensure_ascii=False)
 
    def main(self) -> "程序 入口":
        # 开启线程，无限判断是否有滑块
        t1 = Thread(target=self.__verify)
        t1.start()
        t2 = Thread(target=self.__save_to_json)
        t2.start()
        t1.join()
        t2.join()
        self.__driver.close()  # 关闭驱动
        self.__file.write(f"爬取完成！{ctime()}\n")
        self.__file.flush()
        sleep(2)
        print("爬取完成！")
        sleep(5)
        self.__file.truncate()
        self.__file.close()
 
 
if __name__ == '__main__':
    name = input("请输入关键词：\n")
    s = SpiderGoods(f"https://s.taobao.com/search?q={name}")
    s.main()

三、项目完整代码

在【https://download.csdn.net/download/qq_62789540/83519171】不需要积分哦！！！

posted @ 2022-03-05 22:18 Kenny_LZK 阅读(2925) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· Python 爬虫高阶

· 爬虫实战（六）：爬笔趣阁小说

· Selenium实战-模拟登录淘宝并爬取商品信息

· Python爬虫日记之爬取淘宝商品数据

· Python selenium库爬取淘宝网商品信息

阅读排行：
· DeepSeek 开源周回顾「GitHub 热点速览」
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布：重大改进与新特性概览！
· AI与.NET技术实操系列（二）：开始使用ML.NET
· 单线程的Redis速度为什么快？

公告

昵称： Kenny_LZK
园龄： 3年3个月
粉丝： 68
关注： 5

+加关注

2025年3月

日

一

二

三

四

五

六

随笔分类 (297)

随笔档案 (185)

文章分类 (5)

国学(5)

Kenny

爬虫实战（三）：爬淘宝商品信息

爬淘宝商品数据

一、简介

1、环境准备

2、页面分析

二、代码

1、使用 selenium 模拟登录

2、解析页面数据

三、项目完整代码

公告

搜索

常用链接

最新随笔

积分与排名

随笔分类 (297)

随笔档案 (185)

文章分类 (5)

文章档案 (5)

相册 (7)

阅读排行榜

评论排行榜

推荐排行榜

最新评论

	async-generator==1.10
	attrs==21.4.0
	beautifulsoup4==4.10.0
	bs4==0.0.1
	certifi==2021.10.8
	cffi==1.15.0
	charset-normalizer==2.0.12
	cryptography==36.0.1
	cssselect==1.1.0
	fake-useragent==0.1.11
	h11==0.13.0
	HTMLParser==0.0.2
	idna==3.3
	logger==1.4
	lxml==4.8.0
	outcome==1.1.0
	pinyin==0.4.0
	pycparser==2.21
	pyOpenSSL==22.0.0
	pyquery==1.4.3
	PySocks==1.7.1
	requests==2.27.1
	selenium==4.1.2
	sniffio==1.2.0
	sortedcontainers==2.4.0
	soupsieve==2.3.1
	trio==0.20.0
	trio-websocket==0.9.2
	urllib3==1.26.8
	wsproto==1.1.0
	xpinyin==0.7.6

	from selenium.webdriver import Chrome, ChromeOptions
	from selenium.webdriver.support.ui import WebDriverWait
	from selenium.webdriver.support import expected_conditions
	from selenium.webdriver.common.by import By
	from fake_useragent import UserAgent
	from time import sleep


	# 获取登录状态
	class Login:
	def __init__(self): # 全部设置为私有属性，封装类
	self.driver = None
	self.__init_browser() # 初始化浏览器
	self.__wait = WebDriverWait(self.driver, 180) # 显示等待
	self.__main() # 该方法也可以在外部调用

	def __init_browser(self) -> "初始化浏览器":
	__options = ChromeOptions()
	__options.add_experimental_option('excludeSwitcher',
	['enable-automation']) # 设置开发者模式启动，该模式下webdriver属性为正常值
	__option = ChromeOptions()
	__option.add_argument(f'user-agent={UserAgent().random}') # 设置请求头
	# __option.add_argument(
	# r'--user-data-dir=C:\Users\35005\AppData\Local\Google\Chrome\User Data\Default') # 加载自己的数据
	self.driver = Chrome(chrome_options=__option, options=__options) # 添加到浏览器中
	self.driver.execute_cdp_cmd("Page.addScriptToEvaluateOnNewDocument", {
	"source": """
	Object.defineProperty(navigator, 'webdriver', {
	get: () => undefined
	})
	"""
	}) # 避免淘宝滑块验证

	def __login(self) -> "登录":
	self.driver.maximize_window() # 最大化窗口
	self.driver.get("https://login.taobao.com/member/login.jhtml") # 请求登录网页
	self.driver.find_element(By.XPATH, "//div[@id='login']/div[1]/i").click() # 二维码登录
	self.__wait.until(expected_conditions.presence_of_element_located((By.ID, "q"))) # 等待二维码登录，知道搜索框出现
	# cookie = self.driver.execute_script("return document.cookie") # 调用 JS 代码，获得cookie
	# self.driver.close() # 关闭浏览器
	# return cookie

	def __main(self):
	self.__login() # 调用接口
	sleep(5) # 停止 5 秒钟
	# cookie = self.__login()
	# with open("../Config/cookie.pickle", "wb") as f:
	# pickle.dump(cookie, f) # 将数据存储到二进制文件中

	if __name__ == '__main__':
	driver = Login() # 直接调用 main 方法

	import re, json
	from ConfiCode.Login import Login # 登录淘宝
	from selenium.webdriver.common.by import By
	from selenium.webdriver.common.action_chains import ActionChains
	from threading import Thread
	from time import sleep, ctime


	class SpiderGoods:

	def __init__(self, u) -> "初始化对象":
	self.__driver = None # 接收浏览器对象
	self.__url = u # 接收 url
	self.__all_lis = [] # 存放所有字典类型数据
	self.__file = open("./Config/log.txt", "a", encoding="utf-8")

	def __verify(self) -> "滑块问题":
	while True:
	try:
	self.__driver.find_element(By.XPATH, "//*[@id='nc_1__scale_text']/span") # 如果找到滑块
	self.__file.write(f"出现滑块，正在处理！{ctime()}\n")
	self.__file.flush()
	sleep(2)
	print("出现滑块，正在处理！")
	ActionChains(self.__driver).click_and_hold().drag_and_drop_by_offset(260, 0).release().perform() # 拖动滑块
	except:
	sleep(3) # 如果没有找到滑块

	def __get_driver(self) -> "得到浏览器对象":
	l = Login() # 得到浏览器对象
	self.__driver = l.driver

	def __get_page_source(self) -> "获取数据":
	self.__get_driver()
	self.__file.write(f"登录成功！{ctime()}\n")
	self.__file.flush()
	sleep(2)
	print("登录成功！")
	for i in range(100): # 淘宝一共有 100 页
	every_page = [] # 存储每页的数据
	url = f"{self.__url}&s={44 * i}" # 拼接 url
	self.__file.write(f"开始爬取第{i + 1}页！{ctime()}\n")
	self.__file.flush()
	sleep(2)
	print(f"开始爬取第{i + 1}页")
	self.__driver.get(url) # 发送请求
	sleep(10) # 停止 10 秒钟
	try:
	cot = re.search("g_page_config = {(?P<p_page_source>.*?)};",
	self.__driver.page_source).group("p_page_source") # 得到存储数据的页面
	except:
	continue
	cot = "{" + cot + "}" # 拼接成 JSON 字符串
	cot_dic = json.loads(cot) # 转换为字典
	data_lis = cot_dic["mods"]["itemlist"]["data"]["auctions"] # 得到存储数据的列表
	for j in data_lis:
	# 标题
	try:
	title = j["raw_title"]
	except:
	title = "暂无"

	# 进入详情页的 url
	try:
	detail_url = j["nid"]
	detail_url = f"https://item.taobao.com/item.htm?&id={detail_url}"
	except:
	detail_url = "暂无"

	# 图片 url
	try:
	pic_url = j["pic_url"]
	pic_url = f"https:{pic_url}"
	except:
	pic_url = "暂无"

	# 价格
	try:
	price = j["view_price"]
	except:
	price = "-1"

	# 地址
	try:
	location = j["item_loc"]
	except:
	location = "暂无"

	# 销量
	try:
	sales = j["view_sales"]
	except:
	sales = "暂无"

	# 店铺
	try:
	nick = j["nick"]
	except:
	nick = "暂无"

	# 评论数量
	try:
	comment = j["comment_count"]
	except:
	comment = "-1"

	v_dic = {"标题": title, "详情页url": detail_url, "图片url": pic_url,
	"最低价格": price, "发货地址": location, "销量": sales, "店铺名称": nick, "评论数量": comment} # 保存数据
	# print(v_dic)
	every_page.append(v_dic)
	p_dic = {f"第{i + 1}页": every_page} # 将页面内容添加的列表中
	self.__file.write(f"获取完第{i + 1}页！{ctime()}\n")
	self.__file.flush()
	sleep(2)
	print(f"获取完第{i + 1}页")
	self.__all_lis.append(p_dic) # 把页面数据添加到列表中
	# print(self.__all_lis)
	sleep(5) # 停止 3 秒钟

	def __save_to_json(self) -> "保存数据":
	self.__get_page_source()
	name = self.__url.split("=")[-1]
	with open(f"./Source/{name}.json", "w", encoding="utf-8") as f:
	json.dump(self.__all_lis, f, indent=2, ensure_ascii=False)

	def main(self) -> "程序入口":
	# 开启线程，无限判断是否有滑块
	t1 = Thread(target=self.__verify)
	t1.start()
	t2 = Thread(target=self.__save_to_json)
	t2.start()
	t1.join()
	t2.join()
	self.__driver.close() # 关闭驱动
	self.__file.write(f"爬取完成！{ctime()}\n")
	self.__file.flush()
	sleep(2)
	print("爬取完成！")
	sleep(5)
	self.__file.truncate()
	self.__file.close()


	if __name__ == '__main__':
	name = input("请输入关键词：\n")
	s = SpiderGoods(f"https://s.taobao.com/search?q={name}")
	s.main()

Kenny

爬虫实战（三）：爬淘宝商品信息

爬淘宝商品数据

一、 简介

1、 环境准备

2、 页面分析

二、 代码

1、 使用 selenium 模拟登录

2、 解析页面数据

三、 项目完整代码

公告

搜索

常用链接

最新随笔

积分与排名

随笔分类 (297)

随笔档案 (185)

文章分类 (5)

文章档案 (5)

相册 (7)

阅读排行榜

评论排行榜

推荐排行榜

最新评论

一、简介

1、环境准备

2、页面分析

二、代码

1、使用 selenium 模拟登录

2、解析页面数据

三、项目完整代码