摘要: 第四节–MongoDB数据库操作一.MongoDB介绍MongoDB是一种基于分布式文件存储的数据库,有c++语言编写,旨在为Web应用提供可扩展的高性能数据存储解决方案。MongoDB是介于关系数据库和非关系数据库之间的产品,是非关系数据库中功能最丰富,最... 阅读全文
posted @ 2019-02-16 15:22 LQ6H 阅读(371) 评论(0) 推荐(0) 编辑
摘要: 第三节–验证码识别一.验证码类型在开发爬虫时,经常会遇到验证码识别,在网站中加入验证码的目的是加强用户安全性和提高防爬虫机制,有效防止对某一个特定注册用户用特定程序暴力破解的方式不断地进行登录尝试。在此介绍验证码的种类:字符验证码:在图片上随机产生数字,英文... 阅读全文
posted @ 2019-02-16 12:20 LQ6H 阅读(874) 评论(0) 推荐(0) 编辑
摘要: 第二节–Urllib数据抓取一.Urllib简介Urllib是python自带的标准库,无须安装,直接引用即可。Urllib通常用于爬虫开发,API(应用程序编程接口)数据获取和测试。在python2和python3中,Urllib在不同版本中的语法有明显的... 阅读全文
posted @ 2019-02-16 12:19 LQ6H 阅读(567) 评论(0) 推荐(0) 编辑
摘要: 第一节–理解网络爬虫一.爬虫的定义网络爬虫是一种按照一定的规则自动地抓取网络信息的程序或者脚本。简单来说,网络爬虫就是根据一定的算法实现编程开发,主要通过URL实现数据的抓取和发掘传统的爬虫有百度,Google等搜索引擎,这类通用的搜索引擎都有自己的核心算法... 阅读全文
posted @ 2019-02-16 12:19 LQ6H 阅读(674) 评论(0) 推荐(0) 编辑