.Tang - 博客园

公告

2019年5月10日

scrapy 分布式爬虫- RedisCrawlSpider

摘要： CrawlSpider 阅读全文

posted @ 2019-05-10 16:36 .Tang 阅读(121) 评论(0) 推荐(0)

scrapy 分布式爬虫- RedisSpider

摘要：爬去当当书籍信息多台机器同时爬取，共用一个redis记录 scrapy_redis 带爬取的request对象储存在redis中，每台机器读取request对象并删除记录，经行爬取。实现分布式爬虫阅读全文

posted @ 2019-05-10 16:27 .Tang 阅读(129) 评论(0) 推荐(0)

2019年5月7日

start django project

摘要： 1.django-admin startproject helloword 创建项目helloword 2.开始一个app，写一个hello worldpython manage.py startapp hello 4.settings db 4.view 5. 1.html 6.url路由阅读全文

posted @ 2019-05-07 15:23 .Tang 阅读(162) 评论(0) 推荐(0)

2019年4月28日

scrapy爬去京东书籍信息

摘要： # -*- coding: utf-8 -*- import scrapy import urllib import json from copy import deepcopy class JdSpider(scrapy.Spider): name = 'jd' allowed_domains = ['jd.com', 'p.3.cn'] start_urls ... 阅读全文

posted @ 2019-04-28 22:26 .Tang 阅读(316) 评论(0) 推荐(0)

hash加密

摘要： hash 阅读全文

posted @ 2019-04-28 17:17 .Tang 阅读(228) 评论(0) 推荐(0)

scrapy-redis

摘要： scrapy_redis的大概思路：将爬取的url通过 hashlin.sha1生成唯一的指纹，持久化存入redis，之后的url判断是否已经存在，达到去重的效果下载scrapy-redis settings 阅读全文

posted @ 2019-04-28 16:08 .Tang 阅读(251) 评论(0) 推荐(0)

xpath， urllib

摘要： xpath 响应的同类数据但是格式不同，比如此时取文本可以这样取响应的同类数据但是格式不同，比如完善url 阅读全文

posted @ 2019-04-28 14:01 .Tang 阅读(223) 评论(0) 推荐(0)

2019年4月27日

scrapy-middlewares

摘要： 1.scrapy中间件下载中间件Downloader Middlewares 下载器中间件处理请求与响应，对应两个方法 process_request(self, request, spider) 每个request通过下载器中间件时，该方法被调用 process_response(self, r 阅读全文

posted @ 2019-04-27 19:01 .Tang 阅读(591) 评论(0) 推荐(0)

scrpy-cookie

摘要：两种方法模拟登陆 1.直接携带cookie 2.找到发送post请求的url地址，带上信息，发送请求。 scrapy.FormRequest 阅读全文

posted @ 2019-04-27 17:34 .Tang 阅读(333) 评论(0) 推荐(0)

crawlspider

摘要： crawlspider提取url 创建一个crawlspider爬虫 scrapy genspider --t crawl baidu baidu.com py脚本启动多个spider from scrapy.utils.project import get_project_settings fro 阅读全文

posted @ 2019-04-27 14:40 .Tang 阅读(111) 评论(0) 推荐(0)