哈喽哈喽111111

2019年1月31日

摘要：前提工作：识别图形验证码需要库tesserocr 把图形验证码保存到项目根目录，然后利用程序识别方法1：方法2：识别度较差方法3：做一些灰度处理和二值化处理，推荐使用注意：使用这样的识别方法存在如下两种情况： 1.识别有误 2.完全识别不出来阅读全文

posted @ 2019-01-31 11:01 哈喽哈喽111111 阅读(607) 评论(0) 推荐(0) 编辑

2019年1月30日

Chrome Headless模式

摘要：在 Chrome 59 版本开始已经开始支持了 Headless 模式，也就是无界面模式，这样爬取的时候就不会弹出浏览器了，如果要使用此模式请把 Chrome 升级到 59 版本及以上，启用 Headless 模式的方式如下：首先创建一个 ChromeOptions 对象，添加一个 headles 阅读全文

posted @ 2019-01-30 16:57 哈喽哈喽111111 阅读(1485) 评论(1) 推荐(0) 编辑

Selenium的使用

摘要：直接使用模拟浏览器运行的方式来实现，这样我们就可以做到浏览器看到是什么样，抓取的源码就是什么样，也就是可见即可爬。这样我们就不用再去管网页内部的 JavaScript 用了什么算法渲染页面，不用管网页后台的 Ajax 接口到底有哪些参数，利用模拟浏览器的方式我们都可以直接获取 JavaScript 阅读全文

posted @ 2019-01-30 16:49 哈喽哈喽111111 阅读(490) 评论(0) 推荐(1) 编辑

Redis防护建议

摘要： 1、Redis本身防护（1）不要使用默认端口（6379）（2）增加Redis用户名和密码（3）在Redis绑定指定IP访问(位置配置文件[redis.config]中的bind节点)2、Linux服务器（1）Redis服务器不要暴露在外网（2）开启防火墙，限制IP可以访问(iptables 阅读全文

posted @ 2019-01-30 11:24 哈喽哈喽111111 阅读(782) 评论(0) 推荐(0) 编辑

爬虫文件存储-3：Redis

摘要：前提条件：安装并运行redis服务端程序，安装RedisPy库说明：Redis 是 StrictRedis 的子类，它的主要功能是用于向后兼容旧版本库里的几个方法，官方推荐使用 StrictRedis。 1.连接 2.key操作方法作用参数说明示例示例说明示例结果 exists(na 阅读全文

posted @ 2019-01-30 11:21 哈喽哈喽111111 阅读(880) 评论(0) 推荐(1) 编辑

2019年1月29日

爬虫文件存储-2：MongoDB

摘要： 1.连接MongoDB 连接 MongoDB 我们需要使用 PyMongo 库里面的 MongoClient，一般来说传入 MongoDB 的 IP 及端口即可，第一个参数为地址 host，第二个参数为端口 port，端口如果不传默认是 27017。 2.指定数据库 3.指定集合 MongoDB 的阅读全文

posted @ 2019-01-29 18:24 哈喽哈喽111111 阅读(279) 评论(0) 推荐(0) 编辑

爬虫文件存储-1：mysql

摘要： 1.连接并创建数据库执行结果： Database version: ('5.7.23',) 结果是创建一个名为spiders的数据库 2.创建数据表注意：这次连接数据库时需要指定创建数据表所在的数据库，也就是db参数的值 3.插入一条数据通用写法：这样一来，若是写入更多值的话直接给data字阅读全文

posted @ 2019-01-29 17:57 哈喽哈喽111111 阅读(443) 评论(0) 推荐(0) 编辑

爬虫文件存储:txt文档，json文件，csv文件

摘要： 5.1 文件存储文件存储形式可以是多种多样的，比如可以保存成 TXT 纯文本形式，也可以保存为 Json 格式、CSV 格式等，本节我们来了解下文本文件的存储方式。 5.1.1 TXT文本存储将数据保存到 TXT 文本的操作非常简单，而且 TXT 文本几乎兼容任何平台，但是有个缺点就是不利于检索，所以如果对检索和数据结构要求不高，追求方便第一的话，可以采用 TXT 文本存储，本节我们来看... 阅读全文

posted @ 2019-01-29 17:21 哈喽哈喽111111 阅读(2073) 评论(0) 推荐(0) 编辑

2019年1月24日

Python MongoDB 教程

摘要：基于菜鸟教程实际操作后总结而来 Python MongoDB MongoDB 是目前最流行的 NoSQL 数据库之一，使用的数据类型 BSON（类似 JSON）。 MongoDB 数据库安装与介绍可以查看我们的 MongoDB 教程。 PyMongo Python 要连接 MongoDB 需要 Mo 阅读全文

posted @ 2019-01-24 11:27 哈喽哈喽111111 阅读(1008) 评论(0) 推荐(0) 编辑

使用Robo 3T 软件管理MongoDB数据库如何执行命令行shell

摘要：比如使用命令行的方式查看数据库runoobdb中的sites集合(数据表)中的所有数据 1.在连接名的地方鼠标右键选择“open shell” 2.在出现的shell窗口中输入一下命令行，然后按ctrl+enter组合键执行命令或者在数据库runoobdb处右键选择“open shell”,直接输阅读全文

posted @ 2019-01-24 10:56 哈喽哈喽111111 阅读(4026) 评论(1) 推荐(0) 编辑

2019年1月23日

使用Scrapy爬取图书网站信息

摘要：重难点：使用scrapy获取的数值是unicode类型，保存到json文件时需要特别注意处理一下，具体请参考链接：https://www.cnblogs.com/sanduzxcvbnm/p/10309401.html 稍加改造也能保存到csv文件中网址：https://sobooks.net/ 阅读全文

posted @ 2019-01-23 16:38 哈喽哈喽111111 阅读(1074) 评论(0) 推荐(0) 编辑

解决Scrapy抓取中文网页保存为json文件时中文不显示而是显示unicode的问题

摘要：注意：此方法跟之前保存成json文件的写法有少许不同之处，注意区分情境再现：使用scrapy抓取中文网页，得到的数据类型是unicode，在控制台输出的话也是显示unicode,如下所示 {'author': u'\u51af\u53cb\u5170\u7b49', 'classificatio 阅读全文

posted @ 2019-01-23 15:47 哈喽哈喽111111 阅读(1105) 评论(0) 推荐(0) 编辑

Scrapy实战：使用IDE工具运行爬虫

摘要：一般我们运行爬虫程序都是使用命令行，比如：scrapy crwal sobook。不过这多少有些不方便，可以使用下面的方法使用IDE的方式运行爬虫我这边使用的是pycharm软件，在pycharm里运行这个文件就相当于使用命令行运行爬虫了。阅读全文

posted @ 2019-01-23 10:06 哈喽哈喽111111 阅读(1203) 评论(0) 推荐(0) 编辑

2019年1月22日

Scrapy实战：使用scrapy再再次爬取干货集中营的妹子图片

摘要：需要学习的知识： 1.获取到的json数据如何处理 2.保存到json文件 3.保存到MongoDB数据库 4.下载项目图片(含缩略图) 1.创建项目 scrapy startproject gank 2.生成项目爬虫文件 scrapy genspider gank_img gank.io 注意：项阅读全文

posted @ 2019-01-22 13:23 哈喽哈喽111111 阅读(391) 评论(0) 推荐(0) 编辑

2019年1月21日

六、Scrapy中Download Middleware的用法

摘要：本文转载自： https://scrapy-chs.readthedocs.io/zh_CN/latest/topics/downloader-middleware.html https://doc.scrapy.org/en/latest/topics/downloader-middleware. 阅读全文

posted @ 2019-01-21 17:20 哈喽哈喽111111 阅读(2209) 评论(0) 推荐(0) 编辑

五、Scrapy中Item Pipeline的用法

摘要：本文转载自以下链接： https://scrapy-chs.readthedocs.io/zh_CN/latest/topics/item-pipeline.html https://doc.scrapy.org/en/latest/topics/item-pipeline.html 当Item在S 阅读全文

posted @ 2019-01-21 16:15 哈喽哈喽111111 阅读(966) 评论(0) 推荐(0) 编辑

四、Spider用法

摘要：本文转载自以下链接： https://scrapy-chs.readthedocs.io/zh_CN/latest/topics/spiders.html https://doc.scrapy.org/en/latest/topics/spiders.html 1、Spiders对spider来说，阅读全文

posted @ 2019-01-21 15:59 哈喽哈喽111111 阅读(1716) 评论(0) 推荐(0) 编辑

2019年1月19日

Scrapy实战：爬取http://quotes.toscrape.com网站数据

摘要：需要学习的地方： 1.Scrapy框架流程梳理，各文件的用途等 2.在Scrapy框架中使用MongoDB数据库存储数据 3.提取下一页链接，回调自身函数再次获取数据重点：从当前页获取下一页的链接，传给函数自身继续发起请求 next = response.css('.pager .next a:: 阅读全文

posted @ 2019-01-19 18:18 哈喽哈喽111111 阅读(2495) 评论(0) 推荐(1) 编辑

一、Scrapy入门教程

摘要：本文转载自以下链接：https://scrapy-chs.readthedocs.io/zh_CN/latest/intro/tutorial.html 在本篇教程中，我们假定您已经安装好Scrapy。接下来以 Open Directory Project(dmoz) (dmoz) 为例来讲述爬取。阅读全文

posted @ 2019-01-19 17:55 哈喽哈喽111111 阅读(416) 评论(0) 推荐(0) 编辑

二、Scrapy命令行工具

摘要：本文转载自以下链接：https://scrapy-chs.readthedocs.io/zh_CN/latest/topics/commands.html Scrapy是通过 scrapy 命令行工具进行控制的。这里我们称之为 “Scrapy tool” 以用来和子命令进行区分。对于子命令，我们称为 “command” 或者 “Scrapy commands”。 Scrapy tool ... 阅读全文

posted @ 2019-01-19 17:51 哈喽哈喽111111 阅读(266) 评论(0) 推荐(0) 编辑

三、Scrapy中选择器用法

摘要：官方示例源码<html> <head> <base href='http://example.com/' /> <title>Example website</title> </head> <body> <div id='images'> <a href='image1.html'>Name: My 阅读全文

posted @ 2019-01-19 17:48 哈喽哈喽111111 阅读(403) 评论(0) 推荐(0) 编辑

2019年1月17日

使用Flask+uWsgi的方式部署一个blog网站

摘要：本文参考以下文章:https://www.yukunweb.com/2017/12/ubuntu-nginx-uwsgi-flask-app/ 需要学习的地方 nginx+uwsgi部署flask应用一 nginx配置: server { listen 80; server_name 192.16 阅读全文

posted @ 2019-01-17 15:06 哈喽哈喽111111 阅读(5535) 评论(0) 推荐(0) 编辑

2019年1月16日

以豌豆荚为例，用 Scrapy 爬取分类多级页面

摘要：本文转载自以下网站:以豌豆荚为例，用 Scrapy 爬取分类多级页面 https://www.makcyun.top/web_scraping_withpython17.html 需要学习的地方: 1.分析网站数据结构 (主要) 2.使用Scrapy框架构造代码参数 3.作图使用 Scrapy 爬阅读全文

posted @ 2019-01-16 15:43 哈喽哈喽111111 阅读(2762) 评论(0) 推荐(0) 编辑

使用for或while循环来处理处理不确定页数的网页数据爬取

摘要：本文转载自以下网站: Python For 和 While 循环爬取不确定页数的网页 https://www.makcyun.top/web_scraping_withpython16.html 需要学习的地方有两种方法。第一种方式使用 For 循环配合 break 语句，尾页的页数设置一个较阅读全文

posted @ 2019-01-16 15:31 哈喽哈喽111111 阅读(4728) 评论(0) 推荐(0) 编辑

Python 爬虫的代理 IP 设置方法汇总

摘要：本文转载自:Python 爬虫的代理 IP 设置方法汇总 https://www.makcyun.top/web_scraping_withpython15.html 需要学习的地方:如何在爬虫中使用代理IP Requests 和 Scrapy 中的代理 IP 设置。摘要：对于采取了比较强的反爬措阅读全文

posted @ 2019-01-16 14:50 哈喽哈喽111111 阅读(17886) 评论(0) 推荐(3) 编辑

设置随机 User-Agent

摘要：本文转载自以下网站: Scrapy 中设置随机 User-Agent 的方法汇总 https://www.makcyun.top/web_scraping_withpython14.html 一行代码搞定 Scrapy 中的随机 UA 设置。摘要：爬虫过程中的反爬措施非常重要，其中设置随机 Use 阅读全文

posted @ 2019-01-16 14:49 哈喽哈喽111111 阅读(7725) 评论(0) 推荐(0) 编辑

爬虫数据使用MongDB保存时自动过滤重复数据

摘要：本文转载自以下网站: 爬虫断了？一招搞定 MongoDB 重复数据 https://www.makcyun.top/web_scraping_withpython13.html 需要学习的地方: MongDB数据库的初步使用 import pymongoclient = pymongo.MongoC 阅读全文

posted @ 2019-01-16 14:31 哈喽哈喽111111 阅读(1304) 评论(0) 推荐(0) 编辑

爬虫写法进阶:普通函数--->函数类--->Scrapy框架

摘要：本文转载自以下网站: 从 Class 类到 Scrapy https://www.makcyun.top/web_scraping_withpython12.html 普通函数爬虫: https://www.cnblogs.com/sanduzxcvbnm/p/10271493.html 函数类爬虫阅读全文

posted @ 2019-01-16 14:23 哈喽哈喽111111 阅读(1153) 评论(0) 推荐(0) 编辑

爬虫框架Scrapy初步使用

摘要：本文转载自: Scrapy 爬取并分析酷安 6000 款 App，找到良心佳软（抓取篇） https://www.makcyun.top/web_scraping_withpython10.html 需要学习的地方:Scrapy框架的初步使用,使用步骤,框架各部分作用等摘要：如今移动互联网越来越阅读全文

posted @ 2019-01-16 14:13 哈喽哈喽111111 阅读(648) 评论(0) 推荐(0) 编辑

使用Selenium爬取网站表格类数据

摘要：本文转载自一下网站:Python爬虫(5)：Selenium 爬取东方财富网股票财务报表 https://www.makcyun.top/web_scraping_withpython5.html 需要学习的地方: 1.Selenium的安装,配置 2.Selenium的初步使用(自动翻页) 利用S 阅读全文

posted @ 2019-01-16 13:53 哈喽哈喽111111 阅读(28035) 评论(2) 推荐(0) 编辑

爬取表格类网站数据并保存为excel文件

摘要：本文转载自以下网站:50 行代码爬取东方财富网上市公司 10 年近百万行财务报表数据 https://www.makcyun.top/web_scraping_withpython6.html 主要学习的地方: 1.分析网站的ajax请求信息 2.构造参数 3.发起请求后处理获得的数据 4.保存表格阅读全文

posted @ 2019-01-16 13:49 哈喽哈喽111111 阅读(7318) 评论(0) 推荐(0) 编辑

需要登陆网站后才能获取数据的页面爬取

摘要：本文转载自以下链接:https://www.makcyun.top/web_scraping_withpython8.html 目的是万一博主网站无法访问到的话自己需要学习的东西可就不存在了. 本文需要学习的地方,使用三种不同的方式爬取需要登录才能获取数据的网站数据 POST 请求方法：需要在后台获阅读全文

posted @ 2019-01-16 13:44 哈喽哈喽111111 阅读(28277) 评论(2) 推荐(2) 编辑

2019年1月15日

再次爬取干货集中营的福利图片

摘要：值得学习的地方 1.utc时间转换成普通时间的函数,也就是把2015-06-05T03:54:29.403Z格式的时间转换成2015-06-05 11:54:29 2.使用requrests获取https链接开头的图片数据之前爬取过干货集中营的照片,地址:https://www.cnblogs.c 阅读全文

posted @ 2019-01-15 13:56 哈喽哈喽111111 阅读(1126) 评论(0) 推荐(0) 编辑

2019年1月14日

使用正则表达式爬取500px上的图片

摘要：网址:https://500px.com/seanarcher,seanarcher是一个up主的名字打开这个网址,会发现有好多图片,具体到每一个图片的url地址 https://500px.com/photo/273383049/galya-by-sean-archer,其中273383049为阅读全文

posted @ 2019-01-14 16:56 哈喽哈喽111111 阅读(1926) 评论(0) 推荐(0) 编辑

2019年1月12日

使用pandas中的raad_html函数爬取TOP500超级计算机表格数据并保存到csv文件和mysql数据库中

摘要：参考链接:https://www.makcyun.top/web_scraping_withpython2.html csv文件效果: csv文件待优化的地方:加上列名 mysql效果: 问题: 1.不论是csv文件还是mysql表格数据,根据rank字段进行排序,竟然排序的不怎么准确 2.site 阅读全文

posted @ 2019-01-12 16:50 哈喽哈喽111111 阅读(921) 评论(0) 推荐(0) 编辑

2019年1月11日

使用ajax爬取网站图片()

摘要：以下内容转载自:https://www.makcyun.top/web_scraping_withpython4.html 文章关于网站使用Ajaxj技术加载页面数据,进行爬取讲的很详细大致步骤如下: (1)爬取索引页数据 (2)解析索引页面数据 (3)爬取详情页数据 (4)解析详情页数据 (5) 阅读全文

posted @ 2019-01-11 17:57 哈喽哈喽111111 阅读(1297) 评论(0) 推荐(0) 编辑

单个图片获取-爬取网易"数读"信息数据(暴涨的房租，正在摧毁中国年轻人的生活)

摘要：参考链接:https://www.makcyun.top/web_scraping_withpython3.html 该网页其实有16张图片,但是因为页面数据中某处多个空白,导致参考链接中的方式只有15张图片,并且亲测有些方式能用,有些方式不能用,特此记录一下正常显示: 不正常显示: 注:下载保存阅读全文

posted @ 2019-01-11 17:14 哈喽哈喽111111 阅读(540) 评论(0) 推荐(0) 编辑

联通手机号设置呼叫转移相关信息

摘要：手机设置呼叫转移方法：1、遇忙转移：在拨号界面输入**67*电话号码#后拨打；2、无应答转移：在拨号界面输入**61*电话号码#”后拨打；3、不可及转移：在拨号界面输入“**62*电话号码#”后拨打；4、无条件呼移：在拨号界面输入“**21*电话号码#”后拨打取消呼叫转移的方法在拨号界面输入##00 阅读全文

posted @ 2019-01-11 13:51 哈喽哈喽111111 阅读(21071) 评论(0) 推荐(0) 编辑

2019年1月10日

利用pandas库中的read_html方法快速抓取网页中常见的表格型数据

摘要：本文转载自:https://www.makcyun.top/web_scraping_withpython2.html 需要学习的地方: (1)read_html的用法作用:快速获取在html中页面中table格式的数据 (2)to_sql的用法将获得的DataFrame数据写入数据表中 (3) 阅读全文

posted @ 2019-01-10 15:24 哈喽哈喽111111 阅读(46694) 评论(0) 推荐(2) 编辑

爬取某网站景区列表并保存为csv文件

摘要：网址:http://www.halehuo.com/jingqu.html 经过查看可以发现,该景区页面没有分页,不停的往下拉,页面会进行刷新显示后面的景区信息通过使用浏览器调试器,发现该网站使用的是post请求,使用ajax传输数据请求参数: 响应数据: 经过以上分析,大致思路如下: (1)向阅读全文

posted @ 2019-01-10 13:55 哈喽哈喽111111 阅读(1411) 评论(0) 推荐(0) 编辑