2019年7月8日

requests第二弹

摘要: 引入 有些时候,我们在使用爬虫程序去爬取一些用户相关信息的数据(爬取张三“人人网”个人主页数据)时,如果使用之前requests模块常规操作时,往往达不到我们想要的目的,例如: #!/usr/bin/env python # -*- coding:utf-8 -*- import requests 阅读全文

posted @ 2019-07-08 12:14 FP233 阅读(170) 评论(0) 推荐(0) 编辑

requests第一弹

摘要: 基于如下5点展开requests模块的学习 什么是requests模块 requests模块是python中原生的基于网络请求的模块,其主要作用是用来模拟浏览器发起请求。功能强大,用法简洁高效。在爬虫领域中占据着半壁江山的地位。 为什么要使用requests模块 因为在使用urllib模块的时候,会 阅读全文

posted @ 2019-07-08 12:12 FP233 阅读(438) 评论(0) 推荐(0) 编辑

03.爬取get请求的页面数据

摘要: 一.urllib库 urllib是Python自带的一个用于爬虫的库,其主要作用就是可以通过代码模拟浏览器发送请求。其常被用到的子模块在Python3中的为urllib.request和urllib.parse,在Python2中是urllib和urllib2。 二.由易到难的爬虫程序: 1.爬取百 阅读全文

posted @ 2019-07-08 12:10 FP233 阅读(189) 评论(0) 推荐(0) 编辑

http和https协议

摘要: 爬虫《http和https协议》 一.HTTP协议 1.官方概念: HTTP协议是Hyper Text Transfer Protocol(超文本传输协议)的缩写,是用于从万维网(WWW:World Wide Web )服务器传输超文本到本地浏览器的传送协议。(虽然童鞋们将这条概念都看烂了,但是也没 阅读全文

posted @ 2019-07-08 12:08 FP233 阅读(299) 评论(0) 推荐(0) 编辑

爬虫介绍

摘要: 引入 之前在授课过程中,好多同学都问过我这样的一个问题:为什么要学习爬虫,学习爬虫能够为我们以后的发展带来那些好处?其实学习爬虫的原因和为我们以后发展带来的好处都是显而易见的,无论是从实际的应用还是从就业上。 我们都知道,当前我们所处的时代是大数据的时代,在大数据时代,要进行数据分析,首先要有数据源 阅读全文

posted @ 2019-07-08 12:06 FP233 阅读(276) 评论(0) 推荐(0) 编辑

导航