摘要:
Java IO学习笔记总结 前言 前面的八篇文章详细的讲述了Java IO的操作方法,文章列表如下 "基本的文件操作" "字符流和字节流的操作" "InputStreamReader和OutputStreamWriter操作" "内存操作流" "管道流" "打印流" "System对IO的支持" " 阅读全文
摘要:
BufferedReader和BufferedWriter 这两个类是高效率的提高文件的读取速度,它们为字符输入和输出提供了一个缓冲区,可以显著的调高写入和读取的速度,特别针对大量的磁盘文件读取的时候,下面着重的讲讲这两个类 BufferedReader 从字符输入流中读取文本,缓冲各个字符,从而实 阅读全文
摘要:
python大规模爬取京东 主要工具 分析步骤 打开京东首页,输入 裤子 将会看到页面跳转到了 "这里" ,这就是我们要分析的起点 我们可以看到这个页面并不是完全的,当我们往下拉的时候将会看到图片在不停的加载,这就是 ,但是当我们下拉到底的时候就会看到整个页面加载了60条裤子的信息,我们打开chro 阅读全文
摘要:
python爬虫之BeautifulSoup 简介 提供一些简单的、 式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。 自动将输入文档转换为 编码,输出文档转换为 编码。你不需要考虑编码方式 阅读全文
摘要:
python制作pdf电子书 准备 制作电子书使用的是 的`pdfkit pdfkit wkhtmltopdf Python wkhtmltopdf` 安装wkhtmltopdf ( 下,不过这里安装的时候可能对应的版本不同,会出现错误,如果不行的话还请自己百度下,我安装的时候是可以的) 下的用户直 阅读全文
摘要:
python实现微信接口(itchat) 安装 登录 这种方法将会通过微信扫描二维码登录,但是这种登录的方式确实短时间的登录,并不会保留登录的状态,也就是下次登录时还是需要扫描二维码,如果加上 ,那么就会保留登录的状态,至少在后面的几次登录过程中不会再次扫描二维码,该参数生成一个静态文件 用于存储登 阅读全文
摘要:
Scrapyd部署爬虫 准备工作 安装 ,安装完成以后将所在目录配置到环境变量中 开始部署 1. 修改 项目目录下的 文件,修改如下 2. 在任意目录下的打开终端,输入 ,观察是否运行成功,运行成功的话,就可以打开 看是否正常显示,如果正常显示则看到下面的这张图,这里的 是部署之后才能看到的,现在是 阅读全文
摘要:
python发送邮件 准备 python中发送邮件主要用的是smtplib和email两个模块,下面主要对这两个模块进行讲解 在讲解之前需要准备至少两个测试的邮箱,其中要在邮箱的设置中开启smtplib协议才可以进行发送和接受 smtplib 是`SMTP 163 smtp.163.com port 阅读全文
摘要:
scrapy抓取淘宝女郎 准备工作 首先在淘宝女郎的 "首页" 这里查看,当然想要爬取更多的话,当然这里要查看翻页的url,不过这操蛋的地方就是这里的翻页是使用javascript加载的,这个就有点尴尬了,找了好久没有找到,这里如果有朋友知道怎样翻页的话,麻烦告诉我一声,谢谢了...,不过就这样坐以 阅读全文
摘要:
Scrapy爬虫大战京东商城 引言 上一篇已经讲过怎样获取链接,怎样获得参数了,详情请看 "python爬取京东商城普通篇" 代码详解 首先应该构造请求,这里使用 "scrapy.Request" ,这个方法默认调用的是 构造请求,如果要改变默认的请求,那么必须重载该方法,这个方法的返回值必须是一个 阅读全文
摘要:
scrapy配置 增加并发 并发是指同时处理的request的数量。其有全局限制和局部(每个网站)的限制。 Scrapy默认的全局并发限制对同时爬取大量网站的情况并不适用,因此您需要增加这个值。 增加多少取决于您的爬虫能占用多少CPU。 一般开始可以设置为 100 。不过最好的方式是做一些测试,获得 阅读全文
摘要:
scrapy中的下载器中间件 下载中间件 下载器中间件是介于Scrapy的request/response处理的钩子框架。 是用于全局修改Scrapy request和response的一个轻量、底层的系统。 编写下载器中间件 1. 当每个 通过下载中间件时,该方法被调用。 必须返回其中之一: 返回 阅读全文
摘要:
scrapy设置"请求池" 引言 相信大家有时候爬虫发出请求的时候会被ban,返回的是403错误,这个就是请求头的问题,其实在python发出请求时,使用的是默认的自己的请求头,网站管理者肯定会不允许机器访问的,但是有些比较low的网站还是可以访问的,有时候网站管理者看到同一个请求头在一秒内请求多次 阅读全文
摘要:
Scrapy中使用cookie免于验证登录和模拟登录 引言 爬虫我认为最困难的问题一个是ip代理,另外一个就是模拟登录了,更操蛋的就是模拟登录了之后还有验证码,真的是不让人省心,不过既然有了反爬虫,那么就有反反爬虫的策略,这里就先介绍一个cookie模拟登陆,后续还有 模拟浏览器登录的文章。还不知道 阅读全文
摘要:
scrapy代理的设置 在我的上一篇文章介绍了 "scrapy下载器中间件的使用" ,这里的scrapy 的代理就是用这个原理实现的,重写了下载器中间件的 这个函数,这个函数的主要作用就是对request进行处理。 话不多说直接撸代码 import random import scrapy impo 阅读全文
摘要:
scrapy架构初探 引言 Python即时网络爬虫启动的目标是一起把互联网变成大数据库。单纯的开放源代码并不是开源的全部,开源的核心是“开放的思想”,聚合最好的想法、技术、人员,所以将会参照众多领先产品,比如,Scrapy,ScrapingHub, "import io" 等。 本文简单讲解一下S 阅读全文
摘要:
scrapy初试 创建项目 打开 ,在终端输入 ,这里将在指定的文件夹下创建一个 工程 其中将会创建以下的文件: : 项目的配置文件 : 该项目的python模块。之后您将在此加入代码。 : 项目中的item文件. : 项目中的pipelines文件. : 项目的设置文件. : 放置spider代码 阅读全文
摘要:
System对IO的支持 是系统的类,其中的方法都是在控制台的输入和输出,但是通过重定向也是可以对文件的输入输出 中定义了标准输入、标准输出和错误输出流,定义如下: 1. “标准”错误输出流。 2. “标准”输入流。 3. “标准”输出流。 从上面的定义可以知道这里的返回值都是字节的输入和输出流,因 阅读全文
摘要:
打印流 在整个 包中,打印流是输出信息最方便的类,主要包含 字节打印流 ( )和 字符打印流 ( )。打印流提供了非常方便的打印功能,可以打印任何的数据类型,例如:小数、整数、字符串等等,相对于前面学习的几个文件的操作来说,这里的打印流是最简便的一个类了 PrintStream 主要功能是格式化的将 阅读全文
摘要:
管道流 管道流的主要作用是可以进行两个 线程间的通讯 ,分为管道输出流( )、管道输入流( ),如果想要进行管道输出,则必须要把输出流连在输入流之上,在PipedOutputStream类上有如下的一个方法用于连接管道: 通常是创建两个单独的线程来实现通信,如果是单个线程的话容易出现线程堵塞,因为输 阅读全文