2020 年 3月 15 日随笔档案 - 胡辣汤王子

2020年3月15日

摘要： # 2-快速入门 ## 安装和文档： 1. 安装：通过`pip install scrapy`即可安装。 2. Scrapy官方文档：http://doc.scrapy.org/en/latest 3. Scrapy中文文档：http://scrapy-chs.readthedocs.io/zh_C 阅读全文

posted @ 2020-03-15 23:44 胡辣汤王子阅读(213) 评论(0) 推荐(0) 编辑

爬虫24-scrapy框架部署

摘要： 1.安装scrapy框架：pip install scrapy 2.使用cmd窗口命令创建项目： ①进入要创建项目的路径 ②scrapy startproject qsbk(项目名)，创建爬虫scrapy genspider qsbk_sqider ③pycharm下打开刚才创建的项目 ④修改set 阅读全文

posted @ 2020-03-15 21:18 胡辣汤王子阅读(150) 评论(0) 推荐(0) 编辑

爬虫23-验证码识别

摘要： 1.tesseract import pytesseract from PIL import Image pytesseract.pytesseract.tesseract_cmd=r"H:\Python\Tesseract_dev20170510\Tesseract-OCR\tesseract.e 阅读全文

posted @ 2020-03-15 21:09 胡辣汤王子阅读(145) 评论(0) 推荐(0) 编辑

爬虫22-使用selenium爬取信息

摘要： 1.正常使用cookie爬取拉勾网ajax数据 import requests from lxml import etree import time import re headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) A 阅读全文

posted @ 2020-03-15 21:08 胡辣汤王子阅读(630) 评论(0) 推荐(0) 编辑

爬虫21-selenium用法

摘要： 1.获取cookie信息 from selenium import webdriver driver=webdriver.Firefox() driver.get("https://www.baidu.com") for cookie in driver.get_cookies(): print(c 阅读全文

posted @ 2020-03-15 21:07 胡辣汤王子阅读(189) 评论(0) 推荐(0) 编辑

爬虫20-浏览器自动运行简单方法

摘要： from selenium import webdriver from selenium.webdriver.common.by import By #下载后的驱动放到火狐浏览器的根目录 #设置环境变量后就可以引用 driver=webdriver.Firefox() driver.get("htt 阅读全文

posted @ 2020-03-15 21:05 胡辣汤王子阅读(338) 评论(0) 推荐(0) 编辑

爬虫19-线程生产者和消费者以及队列

摘要： import threading import random import time gMoney = 1000 gLock = threading.Lock() gTotalTimes = 10 gTimes = 0 class Producer(threading.Thread): def ru 阅读全文

posted @ 2020-03-15 21:03 胡辣汤王子阅读(146) 评论(0) 推荐(0) 编辑

爬虫18-多线程爬虫

摘要： import requests from lxml import etree from urllib import request import os from queue import Queue import threading class Procuder(threading.Thread): 阅读全文

posted @ 2020-03-15 21:02 胡辣汤王子阅读(133) 评论(0) 推荐(0) 编辑

胡辣汤王子

公告