苏宁图书信息爬取

效果如下：

文档说明：

>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>

version_1

下页完美请求到了，果然世上无难事，只要敢放弃。

下页的构造请求应该请求静态接口，这样既会正确返回数据，而且数据也是完整的

总结：有时候在构造url的时候，不妨多删几个参数，在浏览器中尝试，排除非相关参数

current_page = re.findall(r'param.currentPage = "(.*?)";', response.body.decode(), re.S)
current_page = int(current_page[0]) if current_page else -1
# page_numbers = int(re.findall(r'param.pageNumbers = "(.*?)";', response.body.decode(), re.S)[0])
page_numbers = re.findall(r'param.pageNumbers = "(.*?)";', response.body.decode(), re.S)
page_numbers = int(page_numbers[0]) if page_numbers else -1
print("*"*50)
print("current_page:%s,page_numbers:%s"%(current_page,page_numbers))
print("*"*50)
ci = int(re.findall(r"cateid':\'(.*?)\'",response.body.decode(),re.S)[0])

url = "https://list.suning.com/1-{}-{}.html"    # 在浏览器端，后面加上一个页码编号，是可行的，但是当请求第4页时，就会抓不到数据
num = 1
# next_request_url = "https://list.suning.com/emall/showProductList.do?ci={}&pg=03&cp={}&il=0&iy=0&adNumber=0&n=1&ch=4&prune=0&sesab=ACBAABC&id=IDENTIFYING&cc=728"
while num < page_numbers:
    yield scrapy.Request(
        url = url.format(ci,num),
        callback = self.parse_s_cate_href,
        meta = {"item":deepcopy(response.meta["item"])}
    )
    num += 1

<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<

>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>

version_0


https://list.suning.com/1-502687-0.html页面分析

 <script type="text/javascript">
                        if (typeof param != 'undefined') {
                            param.currentPage = "0";
                            param.pageNumbers = "100";
                            param.numFound = "27537";
                            if ("ssdln_502687" == "{pageType}") {
                                makeProductName($("#filter-results,#bottom_pager"));
                            }
                            param.mutil = false;

记住每个页面都有记录当页currentpage和pagenumbers



class = filter-results productMain clearfix  temporary下为有用信息
分别有图书列表,和下一页拦

一定要要请求的url是否Filtered offsite request to 'list.suning.com':


分析价格的请求地址
https://product.suning.com/0071038629/11855521483.html

https://product.suning.com/0071014399/11516769347.html
https://pas.suning.com/nspcsale_0_000000011516769347_000000011516769347_0071014399_
    170_728_7280100_502282_1000149_9149_11181_Z001___R9011205_3.0________0___0.0_2_.html

https://product.suning.com/0071038629/11855521483.html
https://pas.suning.com/nspcsale_0_000000011855521483_000000011855521483_0071038629_
    170_728_7280100_502282_1000149_9149_11181_Z001___R9011205_10.0________0___0.0_2_.html

https://product.suning.com/0070091633{shopid}/10717510914{prdid}.html
https://pas.suning.com/nspcsale_0_000000010717510914_000000010717510914_0070091633_
    170_728_7280100_502282_1000149_9149_11181_Z001___R9011205_1.0________0___1.0_2_.html

# 构造请求价格的url
https://pas.suning.com/nspcsale_0_0000000{prdid}_0000000{prdid}_{shopid}_
    170_728.html


小分类的下页分析

第一页 一个小分类下，有一个ci
    ci的获取方式
https://list.suning.com/emall/showProductList.do?ci=502675&pg=03&cp=0&il=0&iy=0
    &adNumber=0&n=1&ch=4&prune=0&sesab=ACBAABC&id=IDENTIFYING&paging=1&sub=0
第二页
    第一次
https://list.suning.com/emall/showProductList.do?ci=502675&pg=03&cp=1&il=0&iy=0
    &adNumber=0&n=1&ch=4&prune=0&sesab=ACBAABC&id=IDENTIFYING&cc=728
    第二次
https://list.suning.com/emall/showProductList.do?ci=502675&pg=03&cp=1&il=0&iy=0
    &adNumber=0&n=1&ch=4&prune=0&sesab=ACBAABC&id=IDENTIFYING&cc=728&paging=1&sub=0
第三页
    第一次
https://list.suning.com/emall/showProductList.do?ci=502675&pg=03&cp=2&il=0&iy=0
    &adNumber=0&n=1&ch=4&prune=0&sesab=ACBAABC&id=IDENTIFYING&cc=728
    第二次
https://list.suning.com/emall/showProductList.do?ci=502675&pg=03&cp=2&il=0&iy=0
    &adNumber=0&n=1&ch=4&prune=0&sesab=ACBAABC&id=IDENTIFYING&cc=728&paging=1&sub=0

翻页功能未实现，构造下页请求失败。