摘要: 爬虫项目:破解极验滑动验证码 一 介绍 一些网站会在正常的账号密码认证之外加一些验证码,以此来明确地区分人/机行为,从一定程度上达到反爬的效果,对于简单的校验码Tesserocr就可以搞定,如下 但一些网站加入了滑动验证码,最典型的要属于极验滑动认证了,极验官网:http://www.geetest 阅读全文
posted @ 2018-01-18 16:50 caoxing 阅读(15738) 评论(1) 推荐(0) 编辑
摘要: <!--done--> 爬虫实战 练习一 爬取校花网视频爬取汽车之家新闻资讯自动登录github 练习二 爬取拉钩,破解登录流程,筛选职位信息并自动投递简历 练习三 爬取京东商品信息,上传到亚马逊平台自营网店,完成亚马逊平台提交的订单自动完成京东平台的下单操作,赚取中间差价,数据可视化 练习四 破解 阅读全文
posted @ 2018-01-16 09:09 caoxing 阅读(195) 评论(0) 推荐(0) 编辑
摘要: <!--done--> 爬虫框架:scrapy 一 介绍 Scrapy一个开源和协作的框架,其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的,使用它可以以快速、简单、可扩展的方式从网站中提取所需的数据。但目前Scrapy的用途十分广泛,可用于如数据挖掘、监测和自动化测试等领域,也可以应用在 阅读全文
posted @ 2018-01-16 09:06 caoxing 阅读(281) 评论(0) 推荐(1) 编辑
摘要: <!--done--> 爬虫性能相关 一 背景知识 爬虫的本质就是一个socket客户端与服务端的通信过程,如果我们有多个url待爬取,采用串行的方式执行,只能等待爬取一个结束后才能继续下一个,效率会非常低。 需要强调的是:串行并不意味着低效,如果串行的都是纯计算的任务,那么cpu的利用率仍然会很高 阅读全文
posted @ 2018-01-16 09:03 caoxing 阅读(197) 评论(0) 推荐(0) 编辑
摘要: MongoDB 一 简介 MongoDB是一款强大、灵活、且易于扩展的通用型数据库1、易用性 MongoDB是一个面向文档(document-oriented)的数据库,而不是关系型数据库。不采用关系型主要是为了获得更好得扩展性。当然还有一些其他好处,与关系数据库相比,面向文档的数据库不再有“行“( 阅读全文
posted @ 2018-01-16 09:00 caoxing 阅读(381) 评论(0) 推荐(0) 编辑
摘要: <!--end: blogStats --> <!--end: navigator 博客导航栏 --> <!--end: header 头部 --> <!--done--> Beautifulsoup模块 一 介绍 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Pytho 阅读全文
posted @ 2018-01-16 08:57 caoxing 阅读(170) 评论(0) 推荐(0) 编辑
摘要: <!--end: blogStats --> <!--end: navigator 博客导航栏 --> <!--end: header 头部 --> <!--done--> selenium模块 一 介绍 selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接 阅读全文
posted @ 2018-01-16 08:52 caoxing 阅读(227) 评论(0) 推荐(0) 编辑
摘要: <!--end: blogStats --> <!--end: navigator 博客导航栏 --> <!--end: header 头部 --> <!--done--> requests模块 一 介绍 #介绍:使用requests可以模拟浏览器的请求,比起之前用到的urllib,requests 阅读全文
posted @ 2018-01-16 08:50 caoxing 阅读(307) 评论(0) 推荐(0) 编辑
摘要: <!--end: blogStats --> <!--end: navigator 博客导航栏 --> <!--end: header 头部 --> <!--done--> 爬虫基本原理 一 爬虫是什么 #1、什么是互联网? 互联网是由网络设备(网线,路由器,交换机,防火墙等等)和一台台计算机连接而 阅读全文
posted @ 2018-01-15 14:24 caoxing 阅读(452) 评论(0) 推荐(0) 编辑
摘要: 1. 前言 本文将基于flask 0.1版本(git checkout 8605cc3)来分析flask的实现,试图理清flask中的一些概念,加深读者对flask的理解,提高对flask的认识。从而,在使用flask过程中,能够减少困惑,胸有成竹,遇bug而不惊。 在试图理解flask的设计之前, 阅读全文
posted @ 2018-01-14 11:17 caoxing 阅读(9696) 评论(1) 推荐(2) 编辑