.Tang

  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

04 2019 档案

摘要:# -*- coding: utf-8 -*- import scrapy import urllib import json from copy import deepcopy class JdSpider(scrapy.Spider): name = 'jd' allowed_domains = ['jd.com', 'p.3.cn'] start_urls ... 阅读全文
posted @ 2019-04-28 22:26 .Tang 阅读(312) 评论(0) 推荐(0) 编辑

摘要:hash 阅读全文
posted @ 2019-04-28 17:17 .Tang 阅读(224) 评论(0) 推荐(0) 编辑

摘要:scrapy_redis的大概思路:将爬取的url通过 hashlin.sha1生成唯一的指纹,持久化存入redis,之后的url判断是否已经存在,达到去重的效果 下载scrapy-redis settings 阅读全文
posted @ 2019-04-28 16:08 .Tang 阅读(241) 评论(0) 推荐(0) 编辑

摘要:xpath 响应的同类数据但是格式不同,比如 此时取文本可以这样取 响应的同类数据但是格式不同,比如 完善url 阅读全文
posted @ 2019-04-28 14:01 .Tang 阅读(222) 评论(0) 推荐(0) 编辑

摘要:1.scrapy中间件 下载中间件Downloader Middlewares 下载器中间件处理请求与响应,对应两个方法 process_request(self, request, spider) 每个request通过下载器中间件时,该方法被调用 process_response(self, r 阅读全文
posted @ 2019-04-27 19:01 .Tang 阅读(590) 评论(0) 推荐(0) 编辑

摘要:两种方法模拟登陆 1.直接携带cookie 2.找到发送post请求的url地址,带上信息,发送请求 。 scrapy.FormRequest 阅读全文
posted @ 2019-04-27 17:34 .Tang 阅读(328) 评论(0) 推荐(0) 编辑

摘要:crawlspider提取url 创建一个crawlspider爬虫 scrapy genspider --t crawl baidu baidu.com py脚本启动多个spider from scrapy.utils.project import get_project_settings fro 阅读全文
posted @ 2019-04-27 14:40 .Tang 阅读(109) 评论(0) 推荐(0) 编辑

摘要:Q1:student表,name重复,去重查询 select distinct name from student group by需要配合聚合函数(avg, min, max, count, sum)使用 Q2:django中间件有哪些 Q3:django流程, django web架构 Q4: 阅读全文
posted @ 2019-04-23 15:43 .Tang 阅读(66) 评论(0) 推荐(0) 编辑

摘要:a 阅读全文
posted @ 2019-04-11 17:33 .Tang 阅读(143) 评论(0) 推荐(0) 编辑

摘要:进入scrapy shell交互终端 scrapy shell url settings配置文件 可以通过 spider对象调用 阅读全文
posted @ 2019-04-11 17:05 .Tang 阅读(276) 评论(0) 推荐(0) 编辑

摘要:items定义字段名字 当怕爬取到数据时 pipelines储存进mongodb, 需将数据转换成dict 阅读全文
posted @ 2019-04-10 18:34 .Tang 阅读(163) 评论(0) 推荐(0) 编辑

摘要:# -*- coding: utf-8 -*- import scrapy class HrSpider(scrapy.Spider): name = 'hr' allowed_domains = ['tencent.com'] start_urls = ['https://hr.tencent.com/position.php'] def parse(... 阅读全文
posted @ 2019-04-10 17:57 .Tang 阅读(551) 评论(0) 推荐(0) 编辑

摘要:import logging # 设置日志基础样式 logging.basicConfig(level=logging.INFO, format='levelname:%(levelname)s filename: %(filename)s ' 'outputNumber: [%(lineno)... 阅读全文
posted @ 2019-04-10 16:04 .Tang 阅读(113) 评论(0) 推荐(0) 编辑

摘要:settings 阅读全文
posted @ 2019-04-10 15:50 .Tang 阅读(124) 评论(0) 推荐(0) 编辑

摘要:scrapy中多个pipeline作用: 一个项目可能需要爬取多个网站,根据每个网站的数据量(处理方式)不同,可创建多个管道 pipeline pipeline的方法 mysql mongodb 阅读全文
posted @ 2019-04-10 15:28 .Tang 阅读(268) 评论(0) 推荐(0) 编辑

摘要:scrapy中间件 下载中间件Downloader Middlewares和开发代理中间件 1.创建一个scrapy项目 scrapy startproject SpiderAnything 2.生成一个爬虫 itcash爬虫名字, itcash.cn爬虫范围 scrapy genspider it 阅读全文
posted @ 2019-04-10 15:18 .Tang 阅读(201) 评论(0) 推荐(0) 编辑

摘要:greenlet: 原生的协程包 pip3 install greenlet 价值一:高性能的原生协程 价值二:语义更加明确的显示切换 价值三:直接将函数包装成协程,保持代码风格 gevent: 阅读全文
posted @ 2019-04-04 15:52 .Tang 阅读(258) 评论(0) 推荐(0) 编辑

该文被密码保护。
posted @ 2019-04-02 20:09 .Tang 阅读(5) 评论(0) 推荐(0) 编辑

摘要:进程池线程池并发服务器 奇怪的是在windows下运行出错,在linux没出错。 阅读全文
posted @ 2019-04-02 19:40 .Tang 阅读(162) 评论(0) 推荐(0) 编辑

摘要:进程池 线程池 阅读全文
posted @ 2019-04-02 17:38 .Tang 阅读(396) 评论(0) 推荐(0) 编辑

摘要:池:存任务的空间,存入多个线程就叫线程池。(每个线程开启关闭耗费资源,线程池统一管理,线程可重复使用) 重复利用的线程池,代码实现: 阅读全文
posted @ 2019-04-01 19:50 .Tang 阅读(131) 评论(0) 推荐(0) 编辑

摘要:可以重复利用的线程 阅读全文
posted @ 2019-04-01 19:30 .Tang 阅读(167) 评论(0) 推荐(0) 编辑

摘要:生产者与消费者模型,其实是把一个需要进程通信的问题 分开考虑 生产者,只需要王队列里存任务 消费者,只需要从队列里取任务 多线程版生产者与消费者模式 多进程版生产者与消费者模式 阅读全文
posted @ 2019-04-01 17:10 .Tang 阅读(366) 评论(0) 推荐(0) 编辑

摘要:队列有一个单独的计数器,值为0时代表队列操作完了(不阻塞)。 put一次计数器 +1,get一次计数器不变, task_done()计数器减一 队列特点:先进先出 阅读全文
posted @ 2019-04-01 16:33 .Tang 阅读(158) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示