公告

随笔分类 - 爬虫

摘要：#-*- coding:utf-8 -*- # #爬取国税门户相关资源文件 # # #使用 requests 和lxml 模块 import requests from lxml import etree #定义请求的 url ，这里采用手动更换的方式爬取多个url 路径，并定义headers ur 阅读全文

posted @ 2021-06-07 11:42 zzzzy09 阅读(65) 评论(0) 推荐(0)

scrapy初步使用

摘要：使用scrapy 爬取数据 Scrapy is written in pure Python and depends on a few key Python packages (among others): lxml, an efficient XML and HTML parser parsel, 阅读全文

posted @ 2020-12-10 16:11 zzzzy09 阅读(109) 评论(0) 推荐(0)

通过 multiprocessing Pool 线程池加速爬虫的处理

摘要：#-*- coding:utf-8 -*- from multiprocessing import Pool from bs4 import BeautifulSoup import requests from lxml import etree import re import os import 阅读全文

posted @ 2020-12-08 15:36 zzzzy09 阅读(248) 评论(0) 推荐(0)

通过 PIL 和 Python-tesseract 模拟登陆

摘要：通过 PIL 和 Python-tesseract 处理验证码并且进行识别来模拟登陆，在测试中对像素进行增强能显著提升字符识别的能力 #-*- coding:utf-8 -*- try: from PIL import Image, ImageEnhance except ImportError: 阅读全文

posted @ 2020-12-07 15:25 zzzzy09 阅读(151) 评论(0) 推荐(0)

BeautifulSoup

摘要：关于爬虫的案例和方法，我们已讲过许多。不过在以往的文章中，大多是关注在如何把网页上的内容抓取下来。今天我们来分享下，当你已经把内容爬下来之后，如何提取出其中你需要的具体信息。 HTML 文档本身是结构化的文本，有一定的规则，通过它的结构可以简化信息提取。于是，就有了lxml、pyquery、Beau 阅读全文

posted @ 2020-12-03 16:01 zzzzy09 阅读(180) 评论(0) 推荐(0)

xpath

摘要：1.简介 XPath是一门在XML和HTML文档中查找信息的语言，可以用来在XML和HTML文档中对元素和属性进行遍历 XPath的安装 Chrome插件XPath Helper 点Chrome浏览器右上角：更多工具扩展程序谷歌商店勾选XPath Helper（需要FQ） 2.语法详解 - x 阅读全文

posted @ 2020-12-02 14:41 zzzzy09 阅读(180) 评论(0) 推荐(0)