｜Thresh｜ - 博客园

2020年7月21日

摘要： Scrapy内置设置下面给出scrapy提供的常用内置设置列表,你可以在settings.py文件里面修改这些设置，以应用或者禁用这些设置项 BOT_NAME 默认: 'scrapybot' Scrapy项目实现的bot的名字。用来构造默认 User-Agent，同时也用来log。当你使用 st 阅读全文

posted @ 2020-07-21 11:21 ｜Thresh｜阅读(184) 评论(0) 推荐(0) 编辑

2020年7月20日

python爬虫学习笔记(二十)-Scrapy框架 Pipeline

摘要： 1. Item Pipeline 介绍当Item 在Spider中被收集之后，就会被传递到Item Pipeline中进行处理每个item pipeline组件是实现了简单的方法的python类，负责接收到item并通过它执行一些行为，同时也决定此Item是否继续通过pipeline,或者被丢弃阅读全文

posted @ 2020-07-20 23:32 ｜Thresh｜阅读(150) 评论(0) 推荐(0) 编辑

python爬虫学习笔记(十九)-Scrapy 数据的保存

摘要： 1. 数据的提取 1.1 控制台打印 import scrapy class DoubanSpider(scrapy.Spider): name = 'douban' allwed_url = 'douban.com' start_urls = [ 'https://movie.douban.com 阅读全文

posted @ 2020-07-20 23:30 ｜Thresh｜阅读(326) 评论(0) 推荐(0) 编辑

python爬虫学习笔记(十八)-Scrapy 数据的提取

摘要： 1 Scrapy提取项目从网页中提取数据，Scrapy 使用基于 XPath 和 CSS 表达式的技术叫做选择器。以下是 XPath 表达式的一些例子：这将选择 HTML 文档中的 <head> 元素中的 <title> 元素 /html/head/title 这将选择 <title> 元素中的阅读全文

posted @ 2020-07-20 23:29 ｜Thresh｜阅读(272) 评论(0) 推荐(0) 编辑

python爬虫学习笔记(十七)-框架使用

摘要： 1 基本使用 1.1 创建项目运行命令: scrapy startproject myfrist（your_project_name）文件说明：名称作用 scrapy.cfg 项目的配置信息，主要为Scrapy命令行工具提供一个基础的配置信息。（真正爬虫相关的配置信息在settings.py 阅读全文

posted @ 2020-07-20 23:28 ｜Thresh｜阅读(171) 评论(0) 推荐(0) 编辑

python爬虫学习笔记(十六)-Scrapy 框架介绍与安装

摘要： 1. Scrapy 框架介绍 Scrapy是Python开发的一个快速,高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中提取结构化的数据。Scrapy = Scrach+Python Scrapy用途广泛，可以用于数据挖掘、监测和自动化测试、信息处理和历史档案等大量应用范围内抽取结构化阅读全文

posted @ 2020-07-20 23:27 ｜Thresh｜阅读(209) 评论(0) 推荐(0) 编辑

python爬虫学习笔记(十五)-Tesseract Ocr引擎及安装介绍

摘要： 1. Tesseract介绍 tesseract 是一个google支持的开源ocr项目其项目地址：https://github.com/tesseract-ocr/tesseract 目前最新的源码可以在这里下载 2. Tesseract安装包下载 Tesseract的release版本下载地址阅读全文

posted @ 2020-07-20 23:26 ｜Thresh｜阅读(249) 评论(0) 推荐(0) 编辑

python爬虫学习笔记(十四)-Selenium处理滚动条

摘要： Selenium 处理滚动条 selenium并不是万能的，有时候页面上操作无法实现的，这时候就需要借助JS来完成了当页面上的元素超过一屏后，想操作屏幕下方的元素，是不能直接定位到，会报元素不可见的。这时候需要借助滚动条来拖动屏幕，使被操作的元素显示在当前的屏幕上。滚动条是无法直接用定位工具来定位阅读全文

posted @ 2020-07-20 23:25 ｜Thresh｜阅读(308) 评论(0) 推荐(0) 编辑

python爬虫学习笔记(十三)-Selenium与PhantomJS

摘要： 1. Selenium Selenium是一个Web的自动化测试工具，最初是为网站自动化测试而开发的，类型像我们玩游戏用的按键精灵，可以按指定的命令自动操作，不同是Selenium 可以直接运行在浏览器上，它支持所有主流的浏览器（包括PhantomJS这些无界面的浏览器）。 Selenium 可以根阅读全文

posted @ 2020-07-20 23:24 ｜Thresh｜阅读(188) 评论(0) 推荐(0) 编辑

python爬虫学习笔记(十二)-爬虫之多线程

摘要： 1. 如何使用爬虫使用多线程来处理网络请求，使用线程来处理URL队列中的url，然后将url返回的结果保存在另一个队列中，其它线程在读取这个队列中的数据，然后写到文件中去 2. 主要组成部分 2.1 URL队列和结果队列将将要爬去的url放在一个队列中，这里使用标准库Queue。访问url后的结阅读全文

posted @ 2020-07-20 23:22 ｜Thresh｜阅读(168) 评论(0) 推荐(0) 编辑

｜Thresh｜的博客

公告