摘要: 1. Item Pipeline 介绍 当Item 在Spider中被收集之后,就会被传递到Item Pipeline中进行处理 每个item pipeline组件是实现了简单的方法的python类,负责接收到item并通过它执行一些行为,同时也决定此Item是否继续通过pipeline,或者被丢弃 阅读全文
posted @ 2020-07-20 23:32 |Thresh| 阅读(147) 评论(0) 推荐(0) 编辑
摘要: 1. 数据的提取 1.1 控制台打印 import scrapy class DoubanSpider(scrapy.Spider): name = 'douban' allwed_url = 'douban.com' start_urls = [ 'https://movie.douban.com 阅读全文
posted @ 2020-07-20 23:30 |Thresh| 阅读(320) 评论(0) 推荐(0) 编辑
摘要: 1 Scrapy提取项目 从网页中提取数据,Scrapy 使用基于 XPath 和 CSS 表达式的技术叫做选择器。以下是 XPath 表达式的一些例子: 这将选择 HTML 文档中的 <head> 元素中的 <title> 元素 /html/head/title 这将选择 <title> 元素中的 阅读全文
posted @ 2020-07-20 23:29 |Thresh| 阅读(268) 评论(0) 推荐(0) 编辑
摘要: 1 基本使用 1.1 创建项目 运行命令: scrapy startproject myfrist(your_project_name) 文件说明: 名称 作用 scrapy.cfg 项目的配置信息,主要为Scrapy命令行工具提供一个基础的配置信息。(真正爬虫相关的配置信息在settings.py 阅读全文
posted @ 2020-07-20 23:28 |Thresh| 阅读(169) 评论(0) 推荐(0) 编辑
摘要: 1. Scrapy 框架介绍 Scrapy是Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy = Scrach+Python Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试、信息处理和历史档案等大量应用范围内抽取结构化 阅读全文
posted @ 2020-07-20 23:27 |Thresh| 阅读(201) 评论(0) 推荐(0) 编辑
摘要: 1. Tesseract介绍 tesseract 是一个google支持的开源ocr项目 其项目地址:https://github.com/tesseract-ocr/tesseract 目前最新的源码可以在这里下载 2. Tesseract安装包下载 Tesseract的release版本下载地址 阅读全文
posted @ 2020-07-20 23:26 |Thresh| 阅读(240) 评论(0) 推荐(0) 编辑
摘要: Selenium 处理滚动条 selenium并不是万能的,有时候页面上操作无法实现的,这时候就需要借助JS来完成了 当页面上的元素超过一屏后,想操作屏幕下方的元素,是不能直接定位到,会报元素不可见的。这时候需要借助滚动条来拖动屏幕,使被操作的元素显示在当前的屏幕上。滚动条是无法直接用定位工具来定位 阅读全文
posted @ 2020-07-20 23:25 |Thresh| 阅读(272) 评论(0) 推荐(0) 编辑
摘要: 1. Selenium Selenium是一个Web的自动化测试工具,最初是为网站自动化测试而开发的,类型像我们玩游戏用的按键精灵,可以按指定的命令自动操作,不同是Selenium 可以直接运行在浏览器上,它支持所有主流的浏览器(包括PhantomJS这些无界面的浏览器)。 Selenium 可以根 阅读全文
posted @ 2020-07-20 23:24 |Thresh| 阅读(181) 评论(0) 推荐(0) 编辑
摘要: 1. 如何使用 爬虫使用多线程来处理网络请求,使用线程来处理URL队列中的url,然后将url返回的结果保存在另一个队列中,其它线程在读取这个队列中的数据,然后写到文件中去 2. 主要组成部分 2.1 URL队列和结果队列 将将要爬去的url放在一个队列中,这里使用标准库Queue。访问url后的结 阅读全文
posted @ 2020-07-20 23:22 |Thresh| 阅读(163) 评论(0) 推荐(0) 编辑
摘要: # Ubuntu重置Mysql密码 太久没有用Linux的Mysql,忘记密码。这里记录一下在Ubuntu下重置Mysql密码。 1.使用命令:cat /etc/mysql/debian.cnf 2.使用user和password登陆mysql,然后切换到mysql数据库。缺省有两个数据库:mys 阅读全文
posted @ 2020-07-20 23:20 |Thresh| 阅读(334) 评论(0) 推荐(0) 编辑
摘要: # 文件包含漏洞专题 文件包含漏洞基础 文件包含:程序开发人员通常会把可重复使用的函数写到单个文件中在使用某些函数时,直接调用此文件,而无须再次编写,这种调用文件的过程一般被称为包含。 漏洞成因:在通过动态包含的方式引入文件时,由于传入的文件名没有经过合理的校验,从而操作了预想之外的文件,就可以导 阅读全文
posted @ 2020-07-20 23:18 |Thresh| 阅读(561) 评论(0) 推荐(0) 编辑
摘要: # 文件上传漏洞专题 一、文件上传漏洞基础 ​ web应用程序在处理用户上传的文件操作时,如果用户上传的文件的路径、文件名、扩展名成为用户可控数据,就会导致直接上传脚本木马到web服务器,直接控制web服务器 ​ 文件上传:文件上传功能本身没有问题,有问题的是文件上传后,服务器怎么处理、解释文件。 阅读全文
posted @ 2020-07-20 23:17 |Thresh| 阅读(577) 评论(0) 推荐(0) 编辑