2018 年 9月随笔档案 - Shadow_Y

中国裁判文书网全网最新爬虫分析

摘要：本文主要介绍交流一下裁判文书网的爬去规则，我主要是因为公司要求而去分析这个网站的，一看是看该网站服务器各种卡，蛋疼。用python的selenium模块去写太麻烦了，做不到大量爬取，迫不得已自己不断研究，终于攻破了该网站的js代码参数思路主要通过python去破解网站js的加密数据。该网站请求数据阅读全文

posted @ 2018-09-21 14:52 Shadow_Y 阅读(25755) 评论(6) 推荐(0) 编辑

今日头条ajax技术内as ,cp，_cp_signature参数分析、破解及python爬取频道数据

该文被密码保护。

posted @ 2018-09-17 11:22 Shadow_Y 阅读(1) 评论(0) 推荐(0) 编辑

关于pycharm导入其他项目时出现找不到python无法运行的问题

摘要：之前拿到一个别的人用scrapy写的一个爬虫想运行看看，然后就出了类似于这种错误（类似的，这个是网上找的），一直提示找不到XXX路径下的python，然后无法运行执行文件。。。我一看这个简单，这种就是pycharm没有找到python麻，简单，于是打开如下位置为pycharm重新指定python路阅读全文

posted @ 2018-09-14 16:44 Shadow_Y 阅读(5424) 评论(0) 推荐(0) 编辑

禅道项目管理软件配置及使用教程

摘要：一．禅道安装及运行禅道是一款开源项目管理软件。它集产品管理、项目管理、质量管理、文档管理、组织管理和事务管理于一体，是一款专业的研发项目管理软件，完整覆盖了研发项目管理的核心流程。禅道将产品、项目、测试这三者的概念明确分开，产品人员、开发团队、测试人员，这三者分立，互相配合，又互相制约，通过需求阅读全文

posted @ 2018-09-13 13:50 Shadow_Y 阅读(5699) 评论(0) 推荐(0) 编辑

python 中BeautifulSoup入门

摘要：在前面的例子用，我用了BeautifulSoup来从58同城抓取了手机维修的店铺信息，这个库使用起来的确是很方便的。本文是BeautifulSoup 的一个详细的介绍，算是入门把。文档地址：http://www.crummy.com/software/BeautifulSoup/bs4/doc/ 什阅读全文

posted @ 2018-09-12 11:29 Shadow_Y 阅读(167) 评论(0) 推荐(0) 编辑

python爬虫xpath的语法

摘要：有朋友问我正则，，okey，其实我的正则也不好，但是python下xpath是相对较简单的简单了解一下xpath： XPath 是一门在 XML 文档中查找信息的语言。XPath 可用来在 XML 文档中对元素和属性进行遍历。 XPath 是 W3C XSLT 标准的主要元素，并且 XQuery 阅读全文

posted @ 2018-09-11 20:48 Shadow_Y 阅读(192) 评论(0) 推荐(0) 编辑

XPath 详解,总结

摘要：XPath简介 XPath是W3C的一个标准。它最主要的目的是为了在XML1.0或XML1.1文档节点树中定位节点所设计。目前有XPath1.0和XPath2.0两个版本。其中Xpath1.0是1999年成为W3C标准，而XPath2.0标准的确立是在2007年。W3C关于XPath的英文详细文档请阅读全文

posted @ 2018-09-11 20:44 Shadow_Y 阅读(320) 评论(0) 推荐(0) 编辑

递归&冒泡&装饰器

摘要：递归递归在函数内部，可以调用其他函数。如果一个函数在内部调用自身本身，这个函数就是递归函数。扩展：函数名可以当做参数传递函数名（）：执行函数函数名：代指函数示例： #斐波那契def f(a1,a2):if a1 > 100:returnprint(a1)a3 = a1 + a2f(a2, 阅读全文

posted @ 2018-09-11 18:58 Shadow_Y 阅读(118) 评论(0) 推荐(0) 编辑

socket初始

摘要：一、概述 socket，套接字。套接字是一种源IP地址和目的IP地址以及源端口号和目的端口号的组合.网络化的应用程序在开始任何通讯之前都必须要创建套接字.就像电话的插口一样,没有它就没办法通讯. 它是网络通信过程中端点的抽象表示，包含进行网络通信必须的五种信息：连接使用的协议，本地主机的IP地址，阅读全文

posted @ 2018-09-11 18:57 Shadow_Y 阅读(201) 评论(0) 推荐(0) 编辑

快来学习怎么可视化监控你的爬虫

摘要：大家好，我是四毛，下面是我的个人公众号，欢迎关注。有问题的可以私信我，看到就会回复。更新 2018年08月03日14:39:32 其实可以利用scrapy的扩展展示更多的数据，立个flag，后面更新上来好，开始今天的文章。今天主要是来说一下怎么可视化来监控你的爬虫的状态。相信大家在跑爬虫的过阅读全文

posted @ 2018-09-11 18:55 Shadow_Y 阅读(746) 评论(0) 推荐(0) 编辑

机器学习主要术语

摘要：什么是（监督式）机器学习？简单来说，它的定义如下：机器学习系统通过学习如何组合输入信息来对从未见过的数据做出有用的预测。下面我们来了解一下机器学习的基本术语。标签在简单线性回归中，标签是我们要预测的事物，即 y 变量。标签可以是小麦未来的价格、图片中显示的动物品种、音频剪辑的含义或任何事物。阅读全文

posted @ 2018-09-11 18:54 Shadow_Y 阅读(867) 评论(0) 推荐(0) 编辑

TensorFlow验证码识别

摘要：本节我们来用 TensorFlow 来实现一个深度学习模型，用来实现验证码识别的过程，这里我们识别的验证码是图形验证码，首先我们会用标注好的数据来训练一个模型，然后再用模型来实现这个验证码的识别。验证码首先我们来看下验证码是怎样的，这里我们使用 Python 的 captcha 库来生成即可，这阅读全文

posted @ 2018-09-11 18:52 Shadow_Y 阅读(849) 评论(0) 推荐(0) 编辑

利用python库twilio来免费发送短信

摘要：大家好，我是四毛，最近开通了个人公众号“用Python来编程”，欢迎大家“关注”，这样您就可以收到优质的文章了。今天跟大家分享的主题是利用python库twilio来免费发送短信。先放一张成品图代码放在了本文最后的地址中，欢迎有需要的自取，有任何也可以在评论或者后台直接私聊我。正文眼尖的小阅读全文

posted @ 2018-09-11 18:52 Shadow_Y 阅读(3614) 评论(0) 推荐(0) 编辑

正则表达式中零宽断言的用法

该文被密码保护。

posted @ 2018-09-11 18:51 Shadow_Y 阅读(1) 评论(0) 推荐(0) 编辑

中文分词原理及工具

摘要：原理中文分词，即 Chinese Word Segmentation，即将一个汉字序列进行切分，得到一个个单独的词。表面上看，分词其实就是那么回事，但分词效果好不好对信息检索、实验结果还是有很大影响的，同时分词的背后其实是涉及各种各样的算法的。中文分词与英文分词有很大的不同，对英文而言，一个单词阅读全文

posted @ 2018-09-11 18:50 Shadow_Y 阅读(10060) 评论(0) 推荐(0) 编辑

python中的正则表达式（re模块）

该文被密码保护。

posted @ 2018-09-11 16:43 Shadow_Y 阅读(2) 评论(0) 推荐(0) 编辑

[Python3网络爬虫开发实战] 7.4-使用Selenium爬取淘宝商品

该文被密码保护。

posted @ 2018-09-11 16:31 Shadow_Y 阅读(0) 评论(0) 推荐(0) 编辑

[Python3网络爬虫开发实战] 7.3-Splash负载均衡配置

摘要：用Splash做页面抓取时，如果爬取的量非常大，任务非常多，用一个Splash服务来处理的话，未免压力太大了，此时可以考虑搭建一个负载均衡器来把压力分散到各个服务器上。这相当于多台机器多个服务共同参与任务的处理，可以减小单个Splash服务的压力。 1. 配置Splash服务要搭建Splash负载阅读全文

posted @ 2018-09-11 16:14 Shadow_Y 阅读(343) 评论(0) 推荐(0) 编辑

[Python3网络爬虫开发实战] 7.2-Splash的使用

摘要：Splash是一个JavaScript渲染服务，是一个带有HTTP API的轻量级浏览器，同时它对接了Python中的Twisted和QT库。利用它，我们同样可以实现动态渲染页面的抓取。 1. 功能介绍利用Splash，我们可以实现如下功能：异步方式处理多个网页渲染过程；获取渲染后的页面的源代阅读全文

posted @ 2018-09-11 16:09 Shadow_Y 阅读(5292) 评论(0) 推荐(1) 编辑

[Python3网络爬虫开发实战] 7.1-Selenium的使用

摘要：Selenium是一个自动化测试工具，利用它可以驱动浏览器执行特定的动作，如点击、下拉等操作，同时还可以获取浏览器当前呈现的页面的源代码，做到可见即可爬。对于一些JavaScript动态渲染的页面来说，此种抓取方式非常有效。本节中，就让我们来感受一下它的强大之处吧。 1. 准备工作本节以Chrom 阅读全文

posted @ 2018-09-11 16:08 Shadow_Y 阅读(1106) 评论(0) 推荐(0) 编辑

[Python3网络爬虫开发实战] 7-动态渲染页面爬取

摘要：在前一章中，我们了解了Ajax的分析和抓取方式，这其实也是JavaScript动态渲染的页面的一种情形，通过直接分析Ajax，我们仍然可以借助requests或urllib来实现数据爬取。不过JavaScript动态渲染的页面不止Ajax这一种。比如中国青年网（详见http://news.yout 阅读全文

posted @ 2018-09-11 16:06 Shadow_Y 阅读(246) 评论(0) 推荐(0) 编辑

[Python3网络爬虫开发实战] 6.4-分析Ajax爬取今日头条街拍美图

该文被密码保护。

posted @ 2018-09-11 16:06 Shadow_Y 阅读(1) 评论(0) 推荐(0) 编辑

[Python3网络爬虫开发实战] 6.2-Ajax分析方法

摘要：这里还以前面的微博为例，我们知道拖动刷新的内容由Ajax加载，而且页面的URL没有变化，那么应该到哪里去查看这些Ajax请求呢？ 1. 查看请求这里还需要借助浏览器的开发者工具，下面以Chrome浏览器为例来介绍。首先，用Chrome浏览器打开微博的链接https://m.weibo.cn/u/ 阅读全文

posted @ 2018-09-11 16:05 Shadow_Y 阅读(576) 评论(0) 推荐(0) 编辑

[Python3网络爬虫开发实战] 6.3-Ajax结果提取

摘要：这里仍然以微博为例，接下来用Python来模拟这些Ajax请求，把我发过的微博爬取下来。 1. 分析请求打开Ajax的XHR过滤器，然后一直滑动页面以加载新的微博内容。可以看到，会不断有Ajax请求发出。选定其中一个请求，分析它的参数信息。点击该请求，进入详情页面，如图6-11所示。图6-11 阅读全文

posted @ 2018-09-11 16:05 Shadow_Y 阅读(481) 评论(0) 推荐(0) 编辑

[Python3网络爬虫开发实战] 6.1-什么是Ajax

摘要：Ajax，全称为Asynchronous JavaScript and XML，即异步的JavaScript和XML。它不是一门编程语言，而是利用JavaScript在保证页面不被刷新、页面链接不改变的情况下与服务器交换数据并更新部分网页的技术。对于传统的网页，如果想更新其内容，那么必须要刷新整个阅读全文

posted @ 2018-09-11 16:04 Shadow_Y 阅读(254) 评论(0) 推荐(0) 编辑

[Python3网络爬虫开发实战] 6-Ajax数据爬取

摘要：有时候我们在用requests抓取页面的时候，得到的结果可能和在浏览器中看到的不一样：在浏览器中可以看到正常显示的页面数据，但是使用requests得到的结果并没有。这是因为requests获取的都是原始的HTML文档，而浏览器中的页面则是经过JavaScript处理数据后生成的结果，这些数据的来源阅读全文

posted @ 2018-09-11 16:04 Shadow_Y 阅读(573) 评论(0) 推荐(0) 编辑

[Python3网络爬虫开发实战] 5.3.1-MongoDB存储

该文被密码保护。

posted @ 2018-09-11 16:03 Shadow_Y 阅读(0) 评论(0) 推荐(0) 编辑

[Python3网络爬虫开发实战] 5.3.2-Redis存储

该文被密码保护。

posted @ 2018-09-11 16:03 Shadow_Y 阅读(0) 评论(0) 推荐(0) 编辑

[Python3网络爬虫开发实战] 5.3-非关系型数据库存储

摘要：NoSQL，全称Not Only SQL，意为不仅仅是SQL，泛指非关系型数据库。NoSQL是基于键值对的，而且不需要经过SQL层的解析，数据之间没有耦合性，性能非常高。非关系型数据库又可细分如下。键值存储数据库：代表有Redis、Voldemort和Oracle BDB等。列存储数据库：代表阅读全文

posted @ 2018-09-11 16:01 Shadow_Y 阅读(131) 评论(0) 推荐(0) 编辑

[Python3网络爬虫开发实战] 5.2.1-MySQL存储

该文被密码保护。

posted @ 2018-09-11 16:00 Shadow_Y 阅读(0) 评论(0) 推荐(0) 编辑

[Python3网络爬虫开发实战] 5.2-关系型数据库存储

摘要：关系型数据库是基于关系模型的数据库，而关系模型是通过二维表来保存的，所以它的存储方式就是行列组成的表，每一列是一个字段，每一行是一条记录。表可以看作某个实体的集合，而实体之间存在联系，这就需要表与表之间的关联关系来体现，如主键外键的关联关系。多个表组成一个数据库，也就是关系型数据库。关系型数据库有阅读全文

posted @ 2018-09-11 15:59 Shadow_Y 阅读(116) 评论(0) 推荐(0) 编辑

[Python3网络爬虫开发实战] 5.1.3-CSV文件存储

该文被密码保护。

posted @ 2018-09-11 15:58 Shadow_Y 阅读(0) 评论(0) 推荐(0) 编辑

[Python3网络爬虫开发实战] 5.1.2-JSON文件存储

该文被密码保护。

posted @ 2018-09-11 15:57 Shadow_Y 阅读(0) 评论(0) 推荐(0) 编辑

[Python3网络爬虫开发实战] 5.1.1-TXT文本存储

该文被密码保护。

posted @ 2018-09-11 15:56 Shadow_Y 阅读(0) 评论(0) 推荐(0) 编辑

[Python3网络爬虫开发实战] 4.3-使用pyquery

该文被密码保护。

posted @ 2018-09-11 15:55 Shadow_Y 阅读(0) 评论(0) 推荐(0) 编辑

[Python3网络爬虫开发实战] 4.2-使用Beautiful Soup

该文被密码保护。

posted @ 2018-09-11 15:54 Shadow_Y 阅读(0) 评论(0) 推荐(0) 编辑

[Python3网络爬虫开发实战] 4-解析库的使用

摘要：上一章中，我们实现了一个最基本的爬虫，但提取页面信息时使用的是正则表达式，这还是比较烦琐，而且万一有地方写错了，可能导致匹配失败，所以使用正则表达式提取页面信息多多少少还是有些不方便。对于网页的节点来说，它可以定义id、class或其他属性。而且节点之间还有层次关系，在网页中可以通过XPath或C 阅读全文

posted @ 2018-09-11 15:53 Shadow_Y 阅读(194) 评论(0) 推荐(0) 编辑

[Python3网络爬虫开发实战] 4.1-使用XPath

摘要：XPath，全称XML Path Language，即XML路径语言，它是一门在XML文档中查找信息的语言。它最初是用来搜寻XML文档的，但是它同样适用于HTML文档的搜索。所以在做爬虫时，我们完全可以使用XPath来做相应的信息抽取。本节中，我们就来介绍XPath的基本用法。 1. XPath概阅读全文

posted @ 2018-09-11 15:53 Shadow_Y 阅读(758) 评论(0) 推荐(0) 编辑

[Python3网络爬虫开发实战] 3.3-正则表达式

摘要：本节中，我们看一下正则表达式的相关用法。正则表达式是处理字符串的强大工具，它有自己特定的语法结构，有了它，实现字符串的检索、替换、匹配验证都不在话下。当然，对于爬虫来说，有了它，从HTML里提取想要的信息就非常方便了。 1. 实例引入说了这么多，可能我们对它到底是个什么还是比较模糊，下面就用几个阅读全文

posted @ 2018-09-11 15:52 Shadow_Y 阅读(558) 评论(0) 推荐(0) 编辑

[Python3网络爬虫开发实战] 3.4-抓取猫眼电影排行

该文被密码保护。

posted @ 2018-09-11 15:52 Shadow_Y 阅读(0) 评论(0) 推荐(0) 编辑

[Python3网络爬虫开发实战] 3.2.2-高级用法

摘要：在前一节中，我们了解了requests的基本用法，如基本的GET、POST请求以及Response对象。本节中，我们再来了解下requests的一些高级用法，如文件上传、cookie设置、代理设置等。 1. 文件上传我们知道requests可以模拟提交一些数据。假如有的网站需要上传文件，我们也可以阅读全文

posted @ 2018-09-11 15:51 Shadow_Y 阅读(462) 评论(0) 推荐(0) 编辑

[Python3网络爬虫开发实战] 3.2.1-基本用法

摘要：1. 准备工作在开始之前，请确保已经正确安装好了requests库。如果没有安装，可以参考1.2.1节安装。 2. 实例引入 urllib库中的urlopen()方法实际上是以GET方式请求网页，而requests中相应的方法就是get()方法，是不是感觉表达更明确一些？下面通过实例来看一下： 1 阅读全文

posted @ 2018-09-11 15:50 Shadow_Y 阅读(474) 评论(0) 推荐(0) 编辑

[Python3网络爬虫开发实战] 3.1.4-分析Robots协议

摘要：利用urllib的robotparser模块，我们可以实现网站Robots协议的分析。本节中，我们来简单了解一下该模块的用法。 1. Robots协议 Robots协议也称作爬虫协议、机器人协议，它的全名叫作网络爬虫排除标准（Robots Exclusion Protocol），用来告诉爬虫和搜索引阅读全文

posted @ 2018-09-11 15:49 Shadow_Y 阅读(509) 评论(0) 推荐(0) 编辑

[Python3网络爬虫开发实战] 3.1.3-解析链接

摘要：前面说过，urllib库里还提供了parse这个模块，它定义了处理URL的标准接口，例如实现URL各部分的抽取、合并以及链接转换。它支持如下协议的URL处理：file、ftp、gopher、hdl、http、https、imap、mailto、 mms、news、nntp、prospero、rsyn 阅读全文

posted @ 2018-09-11 15:47 Shadow_Y 阅读(321) 评论(0) 推荐(0) 编辑

[Python3网络爬虫开发实战] 3.1.1-发送请求

摘要：使用urllib的request模块，我们可以方便地实现请求的发送并得到响应，本节就来看下它的具体用法。 1. urlopen() urllib.request模块提供了最基本的构造HTTP请求的方法，利用它可以模拟浏览器的一个请求发起过程，同时它还带有处理授权验证（authenticaton）、重阅读全文

posted @ 2018-09-11 15:46 Shadow_Y 阅读(520) 评论(0) 推荐(0) 编辑

[Python3网络爬虫开发实战] 3.1.2-处理异常

摘要：前一节我们了解了请求的发送过程，但是在网络不好的情况下，如果出现了异常，该怎么办呢？这时如果不处理这些异常，程序很可能因报错而终止运行，所以异常处理还是十分有必要的。 urllib的error模块定义了由request模块产生的异常。如果出现了问题，request模块便会抛出error模块中定义的异阅读全文

posted @ 2018-09-11 15:46 Shadow_Y 阅读(258) 评论(1) 推荐(0) 编辑

[Python3网络爬虫开发实战] 3.1-使用urllib

摘要：在Python 2中，有urllib和urllib2两个库来实现请求的发送。而在Python 3中，已经不存在urllib2这个库了，统一为urllib，其官方文档链接为：https://docs.python.org/3/library/urllib.html。首先，了解一下urllib库，它是阅读全文

posted @ 2018-09-11 15:45 Shadow_Y 阅读(298) 评论(0) 推荐(0) 编辑

[Python3网络爬虫开发实战] 2.4-会话和Cookies

摘要：在浏览网站的过程中，我们经常会遇到需要登录的情况，有些页面只有登录之后才可以访问，而且登录之后可以连续访问很多次网站，但是有时候过一段时间就需要重新登录。还有一些网站，在打开浏览器时就自动登录了，而且很长时间都不会失效，这种情况又是为什么？其实这里面涉及会话和Cookies的相关知识，本节就来揭开它阅读全文

posted @ 2018-09-11 15:44 Shadow_Y 阅读(206) 评论(0) 推荐(0) 编辑

[Python3网络爬虫开发实战] 2.5-代理的基本原理

摘要：我们在做爬虫的过程中经常会遇到这样的情况，最初爬虫正常运行，正常抓取数据，一切看起来都是那么美好，然而一杯茶的功夫可能就会出现错误，比如403 Forbidden，这时候打开网页一看，可能会看到“您的IP访问频率太高”这样的提示。出现这种现象的原因是网站采取了一些反爬虫措施。比如，服务器会检测某个I 阅读全文

posted @ 2018-09-11 15:44 Shadow_Y 阅读(445) 评论(0) 推荐(1) 编辑

[Python3网络爬虫开发实战] 2.3-爬虫的基本原理

摘要：我们可以把互联网比作一张大网，而爬虫（即网络爬虫）便是在网上爬行的蜘蛛。把网的节点比作一个个网页，爬虫爬到这就相当于访问了该页面，获取了其信息。可以把节点间的连线比作网页与网页之间的链接关系，这样蜘蛛通过一个节点后，可以顺着节点连线继续爬行到达下一个节点，即通过一个网页继续获取后续的网页，这样整个网阅读全文

posted @ 2018-09-11 15:43 Shadow_Y 阅读(394) 评论(0) 推荐(0) 编辑

[Python3网络爬虫开发实战] 2.2-网页基础

摘要：用浏览器访问网站时，页面各不相同，你有没有想过它为何会呈现这个样子呢？本节中，我们就来了解一下网页的基本组成、结构和节点等内容。 1. 网页的组成网页可以分为三大部分——HTML、CSS和JavaScript。如果把网页比作一个人的话，HTML相当于骨架，JavaScript相当于肌肉，CSS相当阅读全文

posted @ 2018-09-11 15:42 Shadow_Y 阅读(488) 评论(0) 推荐(0) 编辑

[Python3网络爬虫开发实战] 2.1-HTTP基本原理

摘要：在本节中，我们会详细了解HTTP的基本原理，了解在浏览器中敲入URL到获取网页内容之间发生了什么。了解了这些内容，有助于我们进一步了解爬虫的基本原理。 1. URI和URL 这里我们先了解一下URI和URL，URI的全称为Uniform Resource Identifier，即统一资源标志符，UR 阅读全文

posted @ 2018-09-11 15:41 Shadow_Y 阅读(644) 评论(0) 推荐(1) 编辑

[Python3网络爬虫开发实战] 1.9.6-Gerapy的安装

摘要：Gerapy是一个Scrapy分布式管理模块，本节就来介绍一下它的安装方式。 1. 相关链接 GitHub：https://github.com/Gerapy 2. pip安装这里推荐使用pip安装，命令如下： 1 pip3 install gerapy 1 pip3 install gerapy 阅读全文

posted @ 2018-09-11 15:40 Shadow_Y 阅读(186) 评论(0) 推荐(0) 编辑

[Python3网络爬虫开发实战] 1.9.4-Scrapyd API的安装

摘要：安装好了Scrapyd之后，我们可以直接请求它提供的API来获取当前主机的Scrapy任务运行状况。比如，某台主机的IP为192.168.1.1，则可以直接运行如下命令获取当前主机的所有Scrapy项目： 1 curl http://localhost:6800/listprojects.json 阅读全文

posted @ 2018-09-11 15:39 Shadow_Y 阅读(611) 评论(0) 推荐(0) 编辑

[Python3网络爬虫开发实战] 1.9.5-Scrapyrt的安装

摘要：Scrapyrt为Scrapy提供了一个调度的HTTP接口，有了它，我们就不需要再执行Scrapy命令而是通过请求一个HTTP接口来调度Scrapy任务了。Scrapyrt比Scrapyd更轻量，如果不需要分布式多任务的话，可以简单使用Scrapyrt实现远程Scrapy任务的调度。 1. 相关链接阅读全文

posted @ 2018-09-11 15:39 Shadow_Y 阅读(772) 评论(0) 推荐(0) 编辑

[Python3网络爬虫开发实战] 1.9.3-Scrapyd-Client的安装

摘要：在将Scrapy代码部署到远程Scrapyd的时候，第一步就是要将代码打包为EGG文件，其次需要将EGG文件上传到远程主机。这个过程如果用程序来实现，也是完全可以的，但是我们并不需要做这些工作，因为Scrapyd-Client已经为我们实现了这些功能。下面我们就来看看Scrapyd-Client的阅读全文

posted @ 2018-09-11 15:38 Shadow_Y 阅读(173) 评论(0) 推荐(0) 编辑

[Python3网络爬虫开发实战] 1.9.2-Scrapyd的安装

摘要：Scrapyd是一个用于部署和运行Scrapy项目的工具，有了它，你可以将写好的Scrapy项目上传到云主机并通过API来控制它的运行。既然是Scrapy项目部署，基本上都使用Linux主机，所以本节的安装是针对于Linux主机的。 1. 相关链接 GitHub：https://github.co 阅读全文

posted @ 2018-09-11 15:36 Shadow_Y 阅读(202) 评论(0) 推荐(0) 编辑

[Python3网络爬虫开发实战] 1.9.1-Docker的安装

摘要：Docker是一种容器技术，可以将应用和环境等进行打包，形成一个独立的、类似于iOS的App形式的“应用”。这个应用可以直接被分发到任意一个支持Docker的环境中，通过简单的命令即可启动运行。Docker是一种最流行的容器化实现方案，和虚拟化技术类似，它极大地方便了应用服务的部署；又与虚拟化技术不阅读全文

posted @ 2018-09-11 15:35 Shadow_Y 阅读(470) 评论(0) 推荐(0) 编辑

[Python3网络爬虫开发实战] 1.8.4-Scrapy-Redis的安装

摘要：Scrapy-Redis是Scrapy的分布式扩展模块，有了它，我们就可以方便地实现Scrapy分布式爬虫的搭建。本节中，我们将介绍Scrapy-Redis的安装方式。相关链接 GitHub：https://github.com/rmax/scrapy-redis PyPI：https://pyp 阅读全文

posted @ 2018-09-11 15:11 Shadow_Y 阅读(194) 评论(0) 推荐(0) 编辑

[Python3网络爬虫开发实战] 1.8.3-Scrapy-Splash的安装

摘要：Scrapy-Splash是一个Scrapy中支持JavaScript渲染的工具，本节来介绍它的安装方式。 Scrapy-Splash的安装分为两部分。一个是Splash服务的安装，具体是通过Docker，安装之后，会启动一个Splash服务，我们可以通过它的接口来实现JavaScript页面的加载阅读全文

posted @ 2018-09-11 15:07 Shadow_Y 阅读(228) 评论(0) 推荐(0) 编辑

[Python3网络爬虫开发实战] 1.8.2-Scrapy的安装

摘要：Scrapy是一个十分强大的爬虫框架，依赖的库比较多，至少需要依赖的库有Twisted 14.0、lxml 3.4和pyOpenSSL 0.14。在不同的平台环境下，它所依赖的库也各不相同，所以在安装之前，最好确保把一些基本库安装好。本节就来介绍Scrapy在不同平台的安装方法。 1. 相关链接官阅读全文

posted @ 2018-09-11 15:05 Shadow_Y 阅读(200) 评论(0) 推荐(0) 编辑

[Python3网络爬虫开发实战] 1.8.1-pyspider的安装

摘要：pyspider是国人binux编写的强大的网络爬虫框架，它带有强大的WebUI、脚本编辑器、任务监控器、项目管理器以及结果处理器，同时支持多种数据库后端、多种消息队列，另外还支持JavaScript渲染页面的爬取，使用起来非常方便，本节介绍一下它的安装过程。 1. 相关链接官方文档：http:/ 阅读全文

posted @ 2018-09-11 15:04 Shadow_Y 阅读(268) 评论(0) 推荐(0) 编辑

[Python3网络爬虫开发实战] 1.7.3-Appium的安装

摘要：Appium是移动端的自动化测试工具，类似于前面所说的Selenium，利用它可以驱动Android、iOS等设备完成自动化测试，比如模拟点击、滑动、输入等操作，其官方网站为：http://appium.io/。本节中，我们就来了解一下Appium的安装方式。 1. 相关链接 GitHub：http 阅读全文

posted @ 2018-09-11 15:03 Shadow_Y 阅读(193) 评论(0) 推荐(0) 编辑

[Python3网络爬虫开发实战] 1.7.2-mitmproxy的安装

摘要：mitmproxy是一个支持HTTP和HTTPS的抓包程序，类似Fiddler、Charles的功能，只不过它通过控制台的形式操作。此外，mitmproxy还有两个关联组件，一个是mitmdump，它是mitmproxy的命令行接口，利用它可以对接Python脚本，实现监听后的处理；另一个是mit 阅读全文

posted @ 2018-09-11 15:02 Shadow_Y 阅读(613) 评论(0) 推荐(0) 编辑

[Python3网络爬虫开发实战] 1.7.1-Charles的安装

摘要：Charles是一个网络抓包工具，相比Fiddler，其功能更为强大，而且跨平台支持得更好，所以这里选用它来作为主要的移动端抓包工具。 1. 相关链接官方网站：https://www.charlesproxy.com 下载链接：https://www.charlesproxy.com/downlo 阅读全文

posted @ 2018-09-11 15:01 Shadow_Y 阅读(204) 评论(0) 推荐(0) 编辑

[Python3网络爬虫开发实战] 1.6.1-Flask的安装

摘要：Flask是一个轻量级的Web服务程序，它简单、易用、灵活，这里主要用来做一些API服务。 1. 相关链接 GitHub：https://github.com/pallets/flask 官方文档：http://flask.pocoo.org 中文文档：http://docs.jinkan.org/ 阅读全文

posted @ 2018-09-11 15:00 Shadow_Y 阅读(169) 评论(0) 推荐(0) 编辑

[Python3网络爬虫开发实战] 1.6.2-Tornado的安装

摘要：Tornado是一个支持异步的Web框架，通过使用非阻塞I/O流，它可以支撑成千上万的开放连接，效率非常高，本节就来介绍一下它的安装方式。 1. 相关链接 GitHub：https://github.com/tornadoweb/tornado PyPI：https://pypi.python.or 阅读全文

posted @ 2018-09-11 15:00 Shadow_Y 阅读(170) 评论(0) 推荐(0) 编辑

[Python3网络爬虫开发实战] 1.5.4-RedisDump的安装

摘要：RedisDump是一个用于Redis数据导入/导出的工具，是基于Ruby实现的，所以要安装RedisDump，需要先安装Ruby。 1. 相关链接 GitHub：https://github.com/delano/redis-dump 官方文档：http://delanotes.com/redis 阅读全文

posted @ 2018-09-11 14:59 Shadow_Y 阅读(898) 评论(0) 推荐(0) 编辑

[Python3网络爬虫开发实战] 1.5.3-redis-py的安装

摘要：对于Redis来说，我们要使用redis-py库来与其交互，这里就来介绍一下它的安装方法。 1. 相关链接 GitHub：https://github.com/andymccurdy/redis-py 官方文档：https://redis-py.readthedocs.io/ 2. pip安装这里阅读全文

posted @ 2018-09-11 14:58 Shadow_Y 阅读(170) 评论(0) 推荐(0) 编辑

[Python3网络爬虫开发实战] 1.5.2-PyMongo的安装

摘要：在Python中，如果想要和MongoDB进行交互，就需要借助于PyMongo库，这里就来了解一下它的安装方法。 1. 相关链接 GitHub：https://github.com/mongodb/mongo-python-driver 官方文档：https://api.mongodb.com/py 阅读全文

posted @ 2018-09-11 14:57 Shadow_Y 阅读(174) 评论(0) 推荐(0) 编辑

[Python3网络爬虫开发实战] 1.4.3-Redis的安装

摘要：Redis是一个基于内存的高效的非关系型数据库，本节中我们来了解一下它在各个平台的安装过程。 1. 相关链接官方网站：https://redis.io 官方文档：https://redis.io/documentation 中文官网：http://www.redis.cn GitHub：https 阅读全文

posted @ 2018-09-11 14:56 Shadow_Y 阅读(252) 评论(0) 推荐(0) 编辑

[Python3网络爬虫开发实战] 1.5.1-PyMySQL的安装

摘要：在Python 3中，如果想要将数据存储到MySQL中，就需要借助PyMySQL来操作，本节中我们介绍一下它的安装方式。 1. 相关链接 GitHub：https://github.com/PyMySQL/PyMySQL 官方文档：http://pymysql.readthedocs.io/ PyP 阅读全文

posted @ 2018-09-11 14:56 Shadow_Y 阅读(276) 评论(0) 推荐(0) 编辑

[Python3网络爬虫开发实战] 1.4.2-MongoDB安装

摘要：MongoDB是由C++语言编写的非关系型数据库，是一个基于分布式文件存储的开源数据库系统，其内容存储形式类似JSON对象，它的字段值可以包含其他文档、数组及文档数组，非常灵活。 MongoDB支持多种平台，包括Windows、Linux、Mac OS、Solaris等，在其官方网站（https:/ 阅读全文

posted @ 2018-09-11 14:55 Shadow_Y 阅读(302) 评论(0) 推荐(0) 编辑

[Python3网络爬虫开发实战] 1.3.4-tesserocr的安装

摘要：在爬虫过程中，难免会遇到各种各样的验证码，而大多数验证码还是图形验证码，这时候我们可以直接用OCR来识别。 1. OCR OCR，即Optical Character Recognition，光学字符识别，是指通过扫描字符，然后通过其形状将其翻译成电子文本的过程。对于图形验证码来说，它们都是一些不规阅读全文

posted @ 2018-09-11 14:54 Shadow_Y 阅读(1076) 评论(0) 推荐(0) 编辑

[Python3网络爬虫开发实战] 1.4.1-MySQL的安装

摘要：MySQL是一个轻量级的关系型数据库，本节中我们来了解下它的安装方式。 1. 相关链接官方网站：https://www.mysql.com/cn 下载地址：https://www.mysql.com/cn/downloads 中文教程：http://www.runoob.com/mysql/mys 阅读全文

posted @ 2018-09-11 14:54 Shadow_Y 阅读(167) 评论(0) 推荐(0) 编辑

[Python3网络爬虫开发实战] 1.3.3-pyquery的安装

摘要：pyquery同样是一个强大的网页解析工具，它提供了和jQuery类似的语法来解析HTML文档，支持CSS选择器，使用非常方便。本节中，我们就来了解一下它的安装方式。 1. 相关链接 GitHub：https://github.com/gawel/pyquery PyPI：https://pypi. 阅读全文

posted @ 2018-09-11 14:53 Shadow_Y 阅读(640) 评论(0) 推荐(0) 编辑

[Python3网络爬虫开发实战] 1.3.2-Beautiful Soup的安装

摘要：Beautiful Soup是Python的一个HTML或XML的解析库，我们可以用它来方便地从网页中提取数据。它拥有强大的API和多样的解析方式，本节就来了解下它的安装方式。 1. 相关链接官方文档：https://www.crummy.com/software/BeautifulSoup/bs 阅读全文

posted @ 2018-09-11 14:52 Shadow_Y 阅读(213) 评论(0) 推荐(0) 编辑

[Python3网络爬虫开发实战] 1.2.6-aiohttp的安装

摘要：之前介绍的Requests库是一个阻塞式HTTP请求库，当我们发出一个请求后，程序会一直等待服务器响应，直到得到响应后，程序才会进行下一步处理。其实，这个过程比较耗费资源。如果程序可以在这个等待过程中做一些其他的事情，如进行请求的调度、响应的处理等，那么爬取效率一定会大大提高。 aiohttp就是这阅读全文

posted @ 2018-09-11 14:51 Shadow_Y 阅读(230) 评论(0) 推荐(0) 编辑

[Python3网络爬虫开发实战] 1.3.1-lxml的安装

摘要：lxml是Python的一个解析库，支持HTML和XML的解析，支持XPath解析方式，而且解析效率非常高。本节中，我们了解一下lxml的安装方式，这主要从Windows、Linux和Mac三大平台来介绍。 1. 相关链接官方网站：http://lxml.de GitHub：https://git 阅读全文

posted @ 2018-09-11 14:51 Shadow_Y 阅读(184) 评论(0) 推荐(0) 编辑

[Python3网络爬虫开发实战] 1.2.5-PhantomJS的安装

摘要：PhantomJS是一个无界面的、可脚本编程的WebKit浏览器引擎，它原生支持多种Web标准：DOM操作、CSS选择器、JSON、Canvas以及SVG。 Selenium支持PhantomJS，这样在运行的时候就不会再弹出一个浏览器了。而且PhantomJS的运行效率也很高，还支持各种参数配置，阅读全文

posted @ 2018-09-11 14:50 Shadow_Y 阅读(271) 评论(0) 推荐(0) 编辑

[Python3网络爬虫开发实战] 1.2.3-ChromeDriver的安装

摘要：前面我们成功安装好了Selenium库，但是它是一个自动化测试工具，需要浏览器来配合使用，本节中我们就介绍一下Chrome浏览器及ChromeDriver驱动的配置。首先，下载Chrome浏览器，方法有很多，在此不再赘述。随后安装ChromeDriver。因为只有安装ChromeDriver，才阅读全文

posted @ 2018-09-11 14:48 Shadow_Y 阅读(305) 评论(0) 推荐(0) 编辑

[Python3网络爬虫开发实战] 1.2.4-GeckoDriver的安装

摘要：上一节中，我们了解了ChromeDriver的配置方法，配置完成之后便可以用Selenium驱动Chrome浏览器来做相应网页的抓取。那么对于Firefox来说，也可以使用同样的方式完成Selenium的对接，这时需要安装另一个驱动GeckoDriver。本节中，我们来介绍一下GeckoDriv 阅读全文

posted @ 2018-09-11 14:48 Shadow_Y 阅读(5116) 评论(0) 推荐(0) 编辑

[Python3网络爬虫开发实战] 1.2.2-Selenium的安装

摘要：Selenium是一个自动化测试工具，利用它我们可以驱动浏览器执行特定的动作，如点击、下拉等操作。对于一些JavaScript渲染的页面来说，这种抓取方式非常有效。下面我们来看看Selenium的安装过程。 1. 相关链接官方网站：http://www.seleniumhq.org GitHub：阅读全文

posted @ 2018-09-11 14:47 Shadow_Y 阅读(374) 评论(0) 推荐(0) 编辑

[Python3网络爬虫开发实战] 1.2.1-Requests的安装

摘要：由于Requests属于第三方库，也就是Python默认不会自带这个库，所以需要我们手动安装。下面我们首先看一下它的安装过程。 1. 相关链接 GitHub：https://github.com/requests/requests PyPI：https://pypi.python.org/pypi/ 阅读全文

posted @ 2018-09-11 14:46 Shadow_Y 阅读(346) 评论(0) 推荐(0) 编辑

[Python3网络爬虫开发实战] 1.1-Python3的安装

摘要：既然要用Python 3开发爬虫，那么第一步一定是安装Python 3。这里会介绍Windows、Linux和Mac三大平台下的安装过程。 1. 相关链接官方网站：http://python.org 下载地址：https://www.python.org/downloads 第三方库：https: 阅读全文

posted @ 2018-09-11 14:43 Shadow_Y 阅读(581) 评论(0) 推荐(0) 编辑

小白爬虫第一弹之抓取妹子图

该文被密码保护。

posted @ 2018-09-07 19:32 Shadow_Y 阅读(0) 评论(0) 推荐(0) 编辑

Python中异步协程的使用方法介绍

该文被密码保护。

posted @ 2018-09-06 19:13 Shadow_Y 阅读(3) 评论(0) 推荐(0) 编辑

什么是关系型数据库？

摘要：关系型数据库又称为关系型数据库管理系统(RDBMS),它是利用数据概念实现对数据处理的算法，达到对数据及其快速的增删改查操作。既然被称为关系型数据库，那么它的关系在哪里体现呢？举一个例子吧。比如我现在有表单A 和表单B 其中: 表单A 中有一个名为user_id的字段表单B 中也有一个名为阅读全文

posted @ 2018-09-06 19:10 Shadow_Y 阅读(17769) 评论(0) 推荐(0) 编辑

htaccess分布式配置文件常用写法

摘要：htaccess 写法 Apache中的.htaccess(或者”分布式配置”了针对目录改变配置的方法，即，在特定的文档目录中放置包含或多个指令的，以作用于此目录及其子目录。作为，所能的命令受到限制。***Apache的AllowOverride指令来设置。子目录中的指令会笼盖更高级目录或者主器配阅读全文

posted @ 2018-09-06 19:01 Shadow_Y 阅读(204) 评论(0) 推荐(0) 编辑

PHP无限极分类

摘要：当你学习php无限极分类的时候，大家都觉得一个字“难”我也觉得很难，所以，现在都还在看，因为工作要用到，所以，就必须得研究研究。到网上一搜php无限极分类，很多，但好多都是一个，并且，写的很乱，代码很多，让我们怎么学习嘛，那些都不靠谱，还是自己捣鼓捣鼓无限极分类了。比如一个category表：有i 阅读全文

posted @ 2018-09-06 18:59 Shadow_Y 阅读(238) 评论(0) 推荐(0) 编辑

svn在linux上的安装

摘要：什么是svnSVN是Subversion的简称，是一个开放源代码的版本控制系统，相较于RCS、CVS，它采用了分支管理系统，它的设计目标就是取代CVS。互联网上很多版本控制服务已从CVS迁移到Subversion。1. 性能提高。SVN不管文件是文本还是二进制类型，在内部都是以二进制差异比较算法来表阅读全文

posted @ 2018-09-06 18:49 Shadow_Y 阅读(120) 评论(0) 推荐(0) 编辑

优化Web中的性能

摘要：简介 web的优化就是一场阻止http请求最终访问到数据库的战争。优化的方式就是加缓存，在各个节点加缓存。 web请求的流程及节点熟悉流程及节点，才能定位性能的问题。而且优化的顺序一般也是按请求的流程逐一优化。这里的流程只是做个概要，并不代表全面。整个流程是以最快的方式让用户看到结果定位的方法阅读全文

posted @ 2018-09-06 18:46 Shadow_Y 阅读(329) 评论(0) 推荐(0) 编辑

Python 面向对象（初级篇）

摘要：概述面向过程：根据业务逻辑从上到下写垒代码函数式：将某功能代码封装到函数中，日后便无需重复编写，仅调用函数即可面向对象：对函数进行分类和封装，让开发“更快更好更强…” 面向过程编程最易被初学者接受，其往往用一长段代码来实现指定功能，开发过程中最常见的操作就是粘贴复制，即：将之前实现的代码块复制阅读全文

posted @ 2018-09-06 18:41 Shadow_Y 阅读(2447) 评论(1) 推荐(0) 编辑

朴素贝叶斯分类算法

该文被密码保护。

posted @ 2018-09-06 18:40 Shadow_Y 阅读(0) 评论(0) 推荐(0) 编辑

关于使用 PyExecJS +nodejs 使用与js反混淆

该文被密码保护。

posted @ 2018-09-06 18:38 Shadow_Y 阅读(0) 评论(0) 推荐(0) 编辑

网易云音乐的案例

该文被密码保护。

posted @ 2018-09-06 18:36 Shadow_Y 阅读(0) 评论(0) 推荐(0) 编辑

虾米音乐下载

该文被密码保护。

posted @ 2018-09-06 18:35 Shadow_Y 阅读(3) 评论(0) 推荐(0) 编辑

让我们自己来设计代理IP池

该文被密码保护。

posted @ 2018-09-06 18:33 Shadow_Y 阅读(0) 评论(0) 推荐(0) 编辑

多线程，进程，协程用法

该文被密码保护。

posted @ 2018-09-06 17:12 Shadow_Y 阅读(0) 评论(0) 推荐(0) 编辑

python 将html实体转回去

该文被密码保护。

posted @ 2018-09-06 17:10 Shadow_Y 阅读(0) 评论(0) 推荐(0) 编辑

文件读取错误UnicodeDecodeError: 'utf-8' codec can't decode byte 0x92 in position 884: invalid start byte

该文被密码保护。

posted @ 2018-09-06 17:09 Shadow_Y 阅读(0) 评论(0) 推荐(0) 编辑

《广西壮族自治区食品药品监督管理局》代码

摘要：import requestsimport reheader={ 'Cookie': 'gxfda_supervise_id=0000QdmIkkDNPaUemUTEEPvggv6:19lo8hslj', 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Wi 阅读全文

posted @ 2018-09-06 17:08 Shadow_Y 阅读(277) 评论(0) 推荐(0) 编辑

一些部署django用到的linux命令

该文被密码保护。

posted @ 2018-09-06 17:04 Shadow_Y 阅读(0) 评论(0) 推荐(0) 编辑

复习点算法知识，水仙花数加冒泡排序，以及一道算法题

摘要：for i in range(10,1000): sum=0 #各个位数的立方和 temp=i while temp: sum=sum+(temp%10)**3 #累加 temp//=10 #地板除 if sum==i: print(i) for i in range(10,1000): for i 阅读全文

posted @ 2018-09-06 17:03 Shadow_Y 阅读(379) 评论(0) 推荐(0) 编辑

玖富火眼python爬虫工程师面试题

该文被密码保护。

posted @ 2018-09-06 17:02 Shadow_Y 阅读(0) 评论(0) 推荐(0) 编辑

Python链表与反链表

摘要：# -*- coding:utf8 -*- #/usr/bin/env python class Node(object): def __init__(self, data, pnext = None): self.data = data self._next = pnext print('self._next',self._next) ... 阅读全文

posted @ 2018-09-06 17:01 Shadow_Y 阅读(208) 评论(0) 推荐(0) 编辑

关于pandas里面的合并

摘要：下一步阅读全文

posted @ 2018-09-06 16:58 Shadow_Y 阅读(131) 评论(0) 推荐(0) 编辑

numpy里的randn

该文被密码保护。

posted @ 2018-09-06 16:57 Shadow_Y 阅读(0) 评论(0) 推荐(0) 编辑

关于动态规划的一丢丢研究

摘要：这几天在牛客网上玩耍，发现一道题给你六种面额1、5、10、20、50、100元的纸币，假设每种币值的数量都足够多，编写程序求组成N元（N为0-10000的非负整数）的不同组合的个数。看见一个大神的代码: 查了不少资料，把动态规划看了一下，阅读全文

posted @ 2018-09-06 16:53 Shadow_Y 阅读(117) 评论(0) 推荐(0) 编辑

Python关于AES的探索，目前涉及2个包（pyaes和Crypto）和两种模式（CBC和CFB）

该文被密码保护。

posted @ 2018-09-06 16:51 Shadow_Y 阅读(22) 评论(0) 推荐(0) 编辑

结巴分词详细讲解

摘要：特点支持三种分词模式：全模式，把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义；精确模式，试图将句子最精确地切开，适合文本分析；搜索引擎模式，在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。支持繁体分词支持自定义词典 MIT 授权协议支持三种阅读全文

posted @ 2018-09-06 16:50 Shadow_Y 阅读(25352) 评论(0) 推荐(2) 编辑

Python 常用扩展库（八）

摘要：阅读全文

posted @ 2018-09-06 16:47 Shadow_Y 阅读(1741) 评论(0) 推荐(0) 编辑

Python 爬虫常用库（九）

摘要：阅读全文

posted @ 2018-09-06 16:47 Shadow_Y 阅读(285) 评论(0) 推荐(0) 编辑

Python 数据可视化之-[Matplotlib]（七）

摘要：阅读全文

posted @ 2018-09-06 16:46 Shadow_Y 阅读(344) 评论(0) 推荐(0) 编辑

Python 数值计算库之-[NumPy]（五）

摘要：阅读全文

posted @ 2018-09-06 16:45 Shadow_Y 阅读(297) 评论(0) 推荐(0) 编辑

Python 数值计算库之-[Pandas]（六）

摘要：阅读全文

posted @ 2018-09-06 16:45 Shadow_Y 阅读(192) 评论(0) 推荐(0) 编辑

Python 编程核心知识体系-模块|面向对象编程（三）

摘要：模块面向对象编程阅读全文

posted @ 2018-09-06 16:44 Shadow_Y 阅读(374) 评论(0) 推荐(0) 编辑

Python 编程核心知识体系-文件对象|错误处理（四）

摘要：错误处理文件对象阅读全文

posted @ 2018-09-06 16:44 Shadow_Y 阅读(151) 评论(0) 推荐(0) 编辑

Python 编程核心知识体系-函数（二）

摘要：函数阅读全文

posted @ 2018-09-06 16:42 Shadow_Y 阅读(226) 评论(0) 推荐(0) 编辑

Python 编程核心知识体系-基础|数据类型|控制流（一）

摘要：Python知识体系思维导图：基础知识数据类型 1.序列 2.字符串 3.列表和元组 4.字典和集合循环 & 判断阅读全文

posted @ 2018-09-06 16:36 Shadow_Y 阅读(523) 评论(0) 推荐(0) 编辑

Scrapy用Cookie实现模拟登录

摘要：模拟登录是爬取某些站点内容的一个关键，有些网站（特别是论坛类），不登录的话，一个数据也拿不到。模拟登录有这样几个关键：提交登录表单的字段登录页面的url和登录表彰的字段名获取的方式有两种：1) 分析页面源代码，找到表单标签及属性。适应比较简单的页面，或者对网页代码，js非常熟悉。2) 采用抓包工阅读全文

posted @ 2018-09-06 15:37 Shadow_Y 阅读(7187) 评论(0) 推荐(0) 编辑

常见的反爬虫和应对方法

摘要：0x01 常见的反爬虫这几天在爬一个网站，网站做了很多反爬虫工作，爬起来有些艰难，花了一些时间才绕过反爬虫。在这里把我写爬虫以来遇到的各种反爬虫策略和应对的方法总结一下。从功能上来讲，爬虫一般分为数据采集，处理，储存三个部分。这里我们只讨论数据采集部分。一般网站从三个方面反爬虫：用户请求的He 阅读全文

posted @ 2018-09-06 15:11 Shadow_Y 阅读(420) 评论(0) 推荐(0) 编辑

10 Minutes to pandas中文版

摘要：本文是对pandas官方网站上《10 Minutes to pandas》的一个简单的翻译，原文在这里。这篇文章是对pandas的一个简单的介绍，详细的介绍请参考：Cookbook 。习惯上，我们会按下面格式引入所需要的包： http://www.cnblogs.com/chaosimple/p/4 阅读全文

posted @ 2018-09-06 15:08 Shadow_Y 阅读(771) 评论(0) 推荐(0) 编辑

正则表达式匹配二次转义的东西 / 怎么处理？

摘要：由此可见，在字符串中，两个反斜杠被解释为一个反斜杠，然后在作为正则表达式， \\ 则被正则表达式引擎解释为 \，所以在正则表达式中需要使用四个反斜杠。也就是说，前两个反斜杠在字符串中被解释为一个反斜杠，后两个也被解释为一个反斜杠，这时解释完毕后变成两个反斜杠，再由正则表达式解释两个反斜杠，就又解释阅读全文

posted @ 2018-09-06 15:07 Shadow_Y 阅读(325) 评论(0) 推荐(0) 编辑

基于Redis的三种分布式爬虫策略

摘要：前言：爬虫是偏IO型的任务，分布式爬虫的实现难度比分布式计算和分布式存储简单得多。个人以为分布式爬虫需要考虑的点主要有以下几个：爬虫任务的统一调度爬虫任务的统一去重存储问题速度问题足够“健壮”的情况下实现起来越简单/方便越好最好支持“断点续爬”功能 Python分布式爬虫比较常用的应阅读全文

posted @ 2018-09-06 15:05 Shadow_Y 阅读(1565) 评论(0) 推荐(0) 编辑

漫画算法：什么是红黑树？

该文被密码保护。

posted @ 2018-09-06 14:58 Shadow_Y 阅读(1) 评论(0) 推荐(0) 编辑

一句话弄懂常见二叉树类型

摘要：满二叉树除最后一层无任何子节点外，每一层上的所有结点都有两个子结点二叉树。完全二叉树一棵二叉树至多只有最下面的一层上的结点的度数可以小于2，并且最下层上的结点都集中在该层最左边的若干位置上，则此二叉树成为完全二叉树。平衡二叉树它是一棵空树或它的左右两个子树的高度差的绝对值不超过1，并且左阅读全文

posted @ 2018-09-06 14:56 Shadow_Y 阅读(490) 评论(0) 推荐(0) 编辑

Python(算法)-时间复杂度和空间复杂度

摘要：时间复杂度算法的时间复杂度是一个函数，它定量描述了该算法的运行时间，时间复杂度常用“O”表述，使用这种方式时，时间复杂度可被称为是渐近的，它考察当输入值大小趋近无穷时的情况时间复杂度是用来估计算法运行时间的一个式子（单位），一般来说，时间复杂度高的算法比复杂度低的算法慢 1 2 3 4 5 6 阅读全文

posted @ 2018-09-06 14:50 Shadow_Y 阅读(4310) 评论(0) 推荐(0) 编辑

【Python项目实战】Pandas：让你像写SQL一样做数据分析（一）

摘要：1. 引言 Pandas是一个开源的Python数据分析库。Pandas把结构化数据分为了三类： Series，1维序列，可视作为没有column名的、只有一个column的DataFrame； DataFrame，同Spark SQL中的DataFrame一样，其概念来自于R语言，为多column 阅读全文

posted @ 2018-09-06 14:43 Shadow_Y 阅读(3486) 评论(0) 推荐(0) 编辑

轻松自动化---selenium-webdriver(python) (一)

该文被密码保护。

posted @ 2018-09-06 14:38 Shadow_Y 阅读(1) 评论(0) 推荐(0) 编辑

Palace_Y

最怕你一生碌碌无为，还安慰自己平凡可贵......

09 2018 档案

公告

搜索

常用链接

我的标签

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论