返回顶部
扩大
缩小
大江东去,浪淘尽,千古风流人物。故垒西边,人道是,三国周郎赤壁。乱石穿空,惊涛拍岸,卷起千堆雪。江山如画,一时多少豪杰。遥想公瑾当年,小乔初嫁了,雄姿英发。羽扇纶巾,谈笑间,樯橹灰飞烟灭。故国神游,多情应笑我,早生华发。人生如梦,一尊还酹江月。

2020年11月8日

手撸分布式爬虫框架

摘要: 手撸分布式爬虫框架 分布式爬虫: 分布式爬虫: 分布式进程和进程间通信的内容 案例: 爬取 2000 个百度百科网络爬虫词条以及相关词条的标题、摘要和链接等信息,采用分布式结构改写基础爬虫,使功能更加强大 爬虫结构: 模式: 分布式爬虫采用主从模式。主从模式是指由一台主机作为控制节点负责所有运行网络 阅读全文

posted @ 2020-11-08 11:07 晨星_star 阅读(183) 评论(0) 推荐(0) 编辑

爬虫基础框架组成

摘要: 爬虫基础框架 爬虫调度器: 基础模块: URL 管理器、HTML 下载器、HTML 解析器和数据存储器等模块 调度器: 初始化各个模块,然后通过 crawl(root_url)方法传入入口 URL,方法内部实现按照运行流程控制各个模块的工作 spider 调度: from firstSpider.D 阅读全文

posted @ 2020-11-08 10:05 晨星_star 阅读(264) 评论(0) 推荐(0) 编辑

soup 解析

摘要: BeautifulSoup 数据解析 + 提取 soup = Beautifulsoup(html_str,'lxml',from_enconding='utf-8') soup = Beautifulsoup(open('index.html')) print(soup.prettify) # 输 阅读全文

posted @ 2020-11-08 09:37 晨星_star 阅读(462) 评论(0) 推荐(0) 编辑

2020年9月30日

tesserocr 使用

摘要: tesserocr 使用: 简单识别: import tesserocr from PIL import Image image = Image.open('code.jpg') result = tesserocr.image_to_text(image) print(result) 多余线条干扰 阅读全文

posted @ 2020-09-30 23:07 晨星_star 阅读(455) 评论(0) 推荐(0) 编辑

tesserocr 安装

摘要: tesserocr 介绍: tesserocr 是 Python 的一个 OCR 识别库 ,但其实是对 tesseract 做的一 层 Python API 封装,所以它的核心是 tesseract。 因此,在安装 tesserocr 之前,我们需要先安装 tesseract 验证码,可以通过 OC 阅读全文

posted @ 2020-09-30 22:53 晨星_star 阅读(187) 评论(0) 推荐(0) 编辑

2020年9月28日

python 环境配置

摘要: python环境安装: windows: 下载地址:https://www.python.org/downloads anaconda: https://www.continuum.io/downloads / https://mirrors.tuna.tsinghua.edu.cn/anacond 阅读全文

posted @ 2020-09-28 10:20 晨星_star 阅读(207) 评论(0) 推荐(0) 编辑

2020年9月27日

scrapy 爬取股票

摘要: scrapy 爬取股票 stock.py # -*- coding: utf-8 -*- import scrapy from items import StockstarItem, StockstarItemLoader class StockSpider(scrapy.Spider): name 阅读全文

posted @ 2020-09-27 16:28 晨星_star 阅读(478) 评论(0) 推荐(0) 编辑

爬虫多进程优化

摘要: 爬虫优化--多进程 多进程: from qunar import get_all_data from qunar import dep_list from multiprocessing import Pool # 多进程 if __name__ == "__main__": pool=Pool() 阅读全文

posted @ 2020-09-27 16:18 晨星_star 阅读(167) 评论(0) 推荐(0) 编辑

爬虫监控

摘要: 数据监控: import requests import urllib import time import pymongo # 必须写在外面,否则无法导入 client=pymongo.MongoClient('localhost',27017) book_qunar=client['qunar' 阅读全文

posted @ 2020-09-27 16:12 晨星_star 阅读(245) 评论(0) 推荐(0) 编辑

selenium 爬取去哪儿

摘要: selenium 爬取去哪儿 import requests import urllib.request import time import random from selenium import webdriver from selenium.webdriver.common.by import 阅读全文

posted @ 2020-09-27 16:07 晨星_star 阅读(244) 评论(0) 推荐(0) 编辑

导航