zzzzy09

  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理
  445 随笔 :: 0 文章 :: 7 评论 :: 26万 阅读

随笔分类 -  爬虫

摘要:#-*- coding:utf-8 -*- # #爬取国税门户相关资源文件 # # #使用 requests 和lxml 模块 import requests from lxml import etree #定义请求的 url ,这里采用手动更换的方式爬取多个url 路径,并定义headers ur 阅读全文
posted @ 2021-06-07 11:42 zzzzy09 阅读(52) 评论(0) 推荐(0) 编辑

摘要:使用scrapy 爬取数据 Scrapy is written in pure Python and depends on a few key Python packages (among others): lxml, an efficient XML and HTML parser parsel, 阅读全文
posted @ 2020-12-10 16:11 zzzzy09 阅读(96) 评论(0) 推荐(0) 编辑

摘要:#-*- coding:utf-8 -*- from multiprocessing import Pool from bs4 import BeautifulSoup import requests from lxml import etree import re import os import 阅读全文
posted @ 2020-12-08 15:36 zzzzy09 阅读(231) 评论(0) 推荐(0) 编辑

摘要:通过 PIL 和 Python-tesseract 处理验证码并且进行识别来模拟登陆,在测试中对像素进行增强能显著提升 字符识别的能力 #-*- coding:utf-8 -*- try: from PIL import Image, ImageEnhance except ImportError: 阅读全文
posted @ 2020-12-07 15:25 zzzzy09 阅读(131) 评论(0) 推荐(0) 编辑

摘要:关于爬虫的案例和方法,我们已讲过许多。不过在以往的文章中,大多是关注在如何把网页上的内容抓取下来。今天我们来分享下,当你已经把内容爬下来之后,如何提取出其中你需要的具体信息。 HTML 文档本身是结构化的文本,有一定的规则,通过它的结构可以简化信息提取。于是,就有了lxml、pyquery、Beau 阅读全文
posted @ 2020-12-03 16:01 zzzzy09 阅读(158) 评论(0) 推荐(0) 编辑

摘要:1.简介 XPath是一门在XML和HTML文档中查找信息的语言,可以用来在XML和HTML文档中对元素和属性进行遍历 XPath的安装 Chrome插件XPath Helper 点Chrome浏览器右上角:更多工具 扩展程序 谷歌商店 勾选XPath Helper(需要FQ) 2.语法详解 - x 阅读全文
posted @ 2020-12-02 14:41 zzzzy09 阅读(151) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示