04 2018 档案
摘要:导入CSV文件数据环境C:\Users\Thinkpad\Desktop\Data\信息表.csv语法pd.read_csv(filename):从CSV文件导入数据实现代码import pandas as pdf = open("C:/Users/Thinkpad/Desktop/Data/信息表.csv",encoding="utf-8")content = pd.read_csv(f)pri...
阅读全文
摘要:安装好Numpy模块后,开始做了几个小测试都可以运行,但是当我创建numpy.py这个文件后numpy.pyimport numpyy = numpy.array([[11,4,2],[2,6,1],[32,6,42]])print(y)运行后报错了:Traceback (most recent call last): File "D:\Python_Reptile\numpy.py", l...
阅读全文
摘要:上一节,我们已经安装了numpy,基于numpy,我们继续来看下pandas pandas用于做数据分析与数据挖掘 pandas安装 使用命令 出现上图表示安装成功。 pandas又两大数据结构,数据分析相关的都围绕着这两种结构进行: ①Series ②DataFrame Series用于存储序列这
阅读全文
摘要:Numpy模块可以高效的处理数据,提供数组支持、很多模块都依赖他,比如:pandas、scipy、matplotlib 安装Numpy 首先到网站:https://www.lfd.uci.edu/~gohlke/pythonlibs/下查找numpy+mkl 我的Python版本是3.6.1,系统是64位 所以对应下载的包为: 下载好包之后,进入到包所在目录(例如:D:\安装包\安装包~Py...
阅读全文
摘要:排序是数据处理比较核心的操作,八大排序算法分别是:直接插入排序、希尔排序、简单选择排序、堆排序、冒泡排序、快速排序、归并排序、基数排序以下是排序图解:直接插入排序思想直接插入排序是一种最简单的插入排序。插入排序:每一趟将一个待排序的记录,按照其关键字的大小插入到有序队列的合适位置里,知道全部插入完成。在讲解直接插入排序之前,先让我们脑补一下我们打牌的过程。先拿一张5在手里,再摸到一张4,比5小,插...
阅读全文
摘要:上一节我们已经知道如何使用Fiddler进行抓包分析,那么接下来我们开始完成一个简单的小例子 抓取腾讯视频的评论内容 首先我们打开腾讯视频的官网https://v.qq.com/ 我们打开【电视剧】这一栏,找到一部比较精彩的电视剧爬取一下,例如:我们就爬取【下一站,别离】这部吧 我们找到这部电视剧的
阅读全文
摘要:我们要抓取一些网页源码看不到的信息,例如:淘宝的评论等 我们可以使用工具Fiddler进行抓取 软件下载地址:https://pan.baidu.com/s/1nPKPwrdfXM62LlTZsoiDsg 密码:wche 安装不详细介绍,直接下一步即可 安装完成后,运行程序如下: 设置代理打开火狐浏览器如下设置: Fiddler默认只能抓取HTTP协议的网页,不能抓取HTTPS协议的网页,而...
阅读全文
摘要:现在我们想要使用爬虫爬取淘宝上的手机图片,那么该如何爬取呢?该做些什么准备工作呢? 首先,我们需要分析网页,先看看网页有哪些规律 打开淘宝网站http://www.taobao.com/ 我们可以看到左侧是主题市场,将鼠标移动到【女装/男装/内衣】这一栏目,我们可以看到更细类的展示 假如我们现在需要爬取【羽绒服】,那么我们进入到【羽绒服】衣服这个界面 此时查看浏览器地址,我们可以看到 网址...
阅读全文
摘要:首先,我们确定博客园首页地址为:https://www.cnblogs.com/ 我们打开可以看到有各种各样的文章在首页,如下图: 我们以上图标记的文章为例子吧!打开网页源码,搜索Docker,搜索结果如下图: 从上图后红色标记部分可以看出,我们使用正则表达式即可匹配该网址,我们匹配到该网址之后,将
阅读全文
摘要:我们在爬取页面的时候,如果长时间使用一个网址去爬取某个网站,就会受爬去限制,此时,我们引用了代理IP,IP随时在变化,也就不会被限制了 一下是国内提供免费代理IP的地址:http://www.xicidaili.com/ 我们打开这个网页后可以看到如下图的代理IP与地址 上图标记部分就是一个代理IP
阅读全文
摘要:在Python中,我们有两个重要的概念:类与实例例如:我们在现实生活中人就是一个类,实例就是具体到某一个男人(张三、李四等)1.类:定义人这个类class People(object): pass2.实例:创建实例是通过类名+()实现people1 = People()3.类就像一个模板一样,我们现在在这个模板上加一些属性:age,name,使用内置方法__init__方法class People...
阅读全文
摘要:从网上下载了一段源码,执行过程中报错:No module named 'requests'一看英文就明白是咋回事了~ 是由于:没有模块requests解决方案打开cmd,在窗口运行命令:pip install requests安装成功以后再次运行,无错误了!
阅读全文