摘要: # 2-快速入门 ## 安装和文档: 1. 安装:通过`pip install scrapy`即可安装。 2. Scrapy官方文档:http://doc.scrapy.org/en/latest 3. Scrapy中文文档:http://scrapy-chs.readthedocs.io/zh_C 阅读全文
posted @ 2020-03-15 23:44 胡辣汤王子 阅读(211) 评论(0) 推荐(0) 编辑
摘要: 1.安装scrapy框架:pip install scrapy 2.使用cmd窗口命令创建项目: ①进入要创建项目的路径 ②scrapy startproject qsbk(项目名),创建爬虫scrapy genspider qsbk_sqider ③pycharm下打开刚才创建的项目 ④修改set 阅读全文
posted @ 2020-03-15 21:18 胡辣汤王子 阅读(150) 评论(0) 推荐(0) 编辑
摘要: 1.tesseract import pytesseract from PIL import Image pytesseract.pytesseract.tesseract_cmd=r"H:\Python\Tesseract_dev20170510\Tesseract-OCR\tesseract.e 阅读全文
posted @ 2020-03-15 21:09 胡辣汤王子 阅读(141) 评论(0) 推荐(0) 编辑
摘要: 1.正常使用cookie爬取拉勾网ajax数据 import requests from lxml import etree import time import re headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) A 阅读全文
posted @ 2020-03-15 21:08 胡辣汤王子 阅读(579) 评论(0) 推荐(0) 编辑
摘要: 1.获取cookie信息 from selenium import webdriver driver=webdriver.Firefox() driver.get("https://www.baidu.com") for cookie in driver.get_cookies(): print(c 阅读全文
posted @ 2020-03-15 21:07 胡辣汤王子 阅读(186) 评论(0) 推荐(0) 编辑
摘要: from selenium import webdriver from selenium.webdriver.common.by import By #下载后的驱动放到火狐浏览器的根目录 #设置环境变量后就可以引用 driver=webdriver.Firefox() driver.get("htt 阅读全文
posted @ 2020-03-15 21:05 胡辣汤王子 阅读(329) 评论(0) 推荐(0) 编辑
摘要: import threading import random import time gMoney = 1000 gLock = threading.Lock() gTotalTimes = 10 gTimes = 0 class Producer(threading.Thread): def ru 阅读全文
posted @ 2020-03-15 21:03 胡辣汤王子 阅读(142) 评论(0) 推荐(0) 编辑
摘要: import requests from lxml import etree from urllib import request import os from queue import Queue import threading class Procuder(threading.Thread): 阅读全文
posted @ 2020-03-15 21:02 胡辣汤王子 阅读(129) 评论(0) 推荐(0) 编辑