摘要: 实例: 项目目录结构: 代码:app.py 阅读全文
posted @ 2019-08-01 21:16 Amorphous 阅读(2967) 评论(1) 推荐(0) 编辑
摘要: 一、爬虫基础篇 Python网络爬虫(认识爬虫) Python网络爬虫(http和https协议) Python网络爬虫(基于urllib库的get请求页面) Python网络爬虫(requests模块应用1) Python网络爬虫(验证码处理) Python网络爬虫(session与ip代理池) 阅读全文
posted @ 2019-08-01 20:38 Amorphous 阅读(848) 评论(2) 推荐(0) 编辑
摘要: 一、什么是requests模块? requests模块是python中原生的基于网络请求的模块,其主要作用是用来模拟浏览器发起请求。功能强大,用法简洁高效。在爬虫领域中占据着半壁江山的地位。 二、为什么要使用requests模块 因为在使用urllib模块的时候,会有诸多不便之处,总结如下: 手动处 阅读全文
posted @ 2019-08-01 20:32 Amorphous 阅读(438) 评论(0) 推荐(0) 编辑
摘要: 一、Jupyter Notebok 简介 Jupyter Notebook是基于网页的用于交互计算的应用程序。其可被应用于全过程计算:开发、文档编写、运行代码和展示结果。——Jupyter Notebook官方介绍 简而言之,Jupyter Notebook是以网页的形式打开,可以在网页页面中直接编 阅读全文
posted @ 2019-08-01 20:05 Amorphous 阅读(250) 评论(0) 推荐(0) 编辑
摘要: 一、什么是爬虫 爬虫就是通过编写程序模拟浏览器上网,然后让其去互联网上抓取数据的过程。 二、哪些语言可以实现爬虫 1.php:可以实现爬虫。php被号称是全世界最优美的语言(当然是其自己号称的,就是王婆卖瓜的意思),但是php在实现爬虫中支持多线程和多进程方面做的不好。 2.java:可以实现爬虫。 阅读全文
posted @ 2019-08-01 19:45 Amorphous 阅读(1106) 评论(0) 推荐(0) 编辑
摘要: 一、urllib库 urllib是Python自带的一个用于爬虫的库,其主要作用就是可以通过代码模拟浏览器发送请求。其常被用到的子模块在Python3中的为urllib.request和urllib.parse,在Python2中是urllib和urllib2。 二、由易到难的爬虫程序: 1.爬取百 阅读全文
posted @ 2019-08-01 18:38 Amorphous 阅读(2101) 评论(0) 推荐(0) 编辑
摘要: 一、HTTP协议概念 HTTP协议是Hyper Text Transfer Protocol(超文本传输协议)的缩写,是用于从万维网(WWW:World Wide Web )服务器传输超文本到本地浏览器的传送协议。 二、HTTP工作原理 HTTP协议工作于客户端-服务端架构为上。浏览器作为HTTP客 阅读全文
posted @ 2019-08-01 18:21 Amorphous 阅读(749) 评论(0) 推荐(0) 编辑