04 2018 档案

摘要:导入CSV文件数据环境C:\Users\Thinkpad\Desktop\Data\信息表.csv语法pd.read_csv(filename):从CSV文件导入数据实现代码import pandas as pdf = open("C:/Users/Thinkpad/Desktop/Data/信息表.csv",encoding="utf-8")content = pd.read_csv(f)pri... 阅读全文
posted @ 2018-04-28 10:45 OLIVER_QIN 阅读(13773) 评论(0) 推荐(1) 编辑
摘要:安装好Numpy模块后,开始做了几个小测试都可以运行,但是当我创建numpy.py这个文件后numpy.pyimport numpyy = numpy.array([[11,4,2],[2,6,1],[32,6,42]])print(y)运行后报错了:Traceback (most recent call last): File "D:\Python_Reptile\numpy.py", l... 阅读全文
posted @ 2018-04-27 16:51 OLIVER_QIN 阅读(7533) 评论(0) 推荐(0) 编辑
摘要:上一节,我们已经安装了numpy,基于numpy,我们继续来看下pandas pandas用于做数据分析与数据挖掘 pandas安装 使用命令 出现上图表示安装成功。 pandas又两大数据结构,数据分析相关的都围绕着这两种结构进行: ①Series ②DataFrame Series用于存储序列这 阅读全文
posted @ 2018-04-26 22:39 OLIVER_QIN 阅读(1061) 评论(2) 推荐(1) 编辑
摘要:Numpy模块可以高效的处理数据,提供数组支持、很多模块都依赖他,比如:pandas、scipy、matplotlib 安装Numpy 首先到网站:https://www.lfd.uci.edu/~gohlke/pythonlibs/下查找numpy+mkl 我的Python版本是3.6.1,系统是64位 所以对应下载的包为: 下载好包之后,进入到包所在目录(例如:D:\安装包\安装包~Py... 阅读全文
posted @ 2018-04-26 22:25 OLIVER_QIN 阅读(401) 评论(0) 推荐(0) 编辑
摘要:排序是数据处理比较核心的操作,八大排序算法分别是:直接插入排序、希尔排序、简单选择排序、堆排序、冒泡排序、快速排序、归并排序、基数排序以下是排序图解:直接插入排序思想直接插入排序是一种最简单的插入排序。插入排序:每一趟将一个待排序的记录,按照其关键字的大小插入到有序队列的合适位置里,知道全部插入完成。在讲解直接插入排序之前,先让我们脑补一下我们打牌的过程。先拿一张5在手里,再摸到一张4,比5小,插... 阅读全文
posted @ 2018-04-26 18:05 OLIVER_QIN 阅读(623) 评论(0) 推荐(0) 编辑
摘要:上一节我们已经知道如何使用Fiddler进行抓包分析,那么接下来我们开始完成一个简单的小例子 抓取腾讯视频的评论内容 首先我们打开腾讯视频的官网https://v.qq.com/ 我们打开【电视剧】这一栏,找到一部比较精彩的电视剧爬取一下,例如:我们就爬取【下一站,别离】这部吧 我们找到这部电视剧的 阅读全文
posted @ 2018-04-26 12:37 OLIVER_QIN 阅读(1842) 评论(0) 推荐(0) 编辑
摘要:我们要抓取一些网页源码看不到的信息,例如:淘宝的评论等 我们可以使用工具Fiddler进行抓取 软件下载地址:https://pan.baidu.com/s/1nPKPwrdfXM62LlTZsoiDsg 密码:wche 安装不详细介绍,直接下一步即可 安装完成后,运行程序如下: 设置代理打开火狐浏览器如下设置: Fiddler默认只能抓取HTTP协议的网页,不能抓取HTTPS协议的网页,而... 阅读全文
posted @ 2018-04-22 17:22 OLIVER_QIN 阅读(3340) 评论(0) 推荐(0) 编辑
摘要:现在我们想要使用爬虫爬取淘宝上的手机图片,那么该如何爬取呢?该做些什么准备工作呢? 首先,我们需要分析网页,先看看网页有哪些规律 打开淘宝网站http://www.taobao.com/ 我们可以看到左侧是主题市场,将鼠标移动到【女装/男装/内衣】这一栏目,我们可以看到更细类的展示 假如我们现在需要爬取【羽绒服】,那么我们进入到【羽绒服】衣服这个界面 此时查看浏览器地址,我们可以看到 网址... 阅读全文
posted @ 2018-04-22 14:55 OLIVER_QIN 阅读(1720) 评论(0) 推荐(0) 编辑
摘要:首先,我们确定博客园首页地址为:https://www.cnblogs.com/ 我们打开可以看到有各种各样的文章在首页,如下图: 我们以上图标记的文章为例子吧!打开网页源码,搜索Docker,搜索结果如下图: 从上图后红色标记部分可以看出,我们使用正则表达式即可匹配该网址,我们匹配到该网址之后,将 阅读全文
posted @ 2018-04-22 09:34 OLIVER_QIN 阅读(995) 评论(0) 推荐(1) 编辑
摘要:我们在爬取页面的时候,如果长时间使用一个网址去爬取某个网站,就会受爬去限制,此时,我们引用了代理IP,IP随时在变化,也就不会被限制了 一下是国内提供免费代理IP的地址:http://www.xicidaili.com/ 我们打开这个网页后可以看到如下图的代理IP与地址 上图标记部分就是一个代理IP 阅读全文
posted @ 2018-04-21 22:26 OLIVER_QIN 阅读(272) 评论(0) 推荐(0) 编辑
摘要:在Python中,我们有两个重要的概念:类与实例例如:我们在现实生活中人就是一个类,实例就是具体到某一个男人(张三、李四等)1.类:定义人这个类class People(object): pass2.实例:创建实例是通过类名+()实现people1 = People()3.类就像一个模板一样,我们现在在这个模板上加一些属性:age,name,使用内置方法__init__方法class People... 阅读全文
posted @ 2018-04-04 17:59 OLIVER_QIN 阅读(681) 评论(0) 推荐(0) 编辑
摘要:从网上下载了一段源码,执行过程中报错:No module named 'requests'一看英文就明白是咋回事了~ 是由于:没有模块requests解决方案打开cmd,在窗口运行命令:pip install requests安装成功以后再次运行,无错误了! 阅读全文
posted @ 2018-04-04 14:04 OLIVER_QIN 阅读(310) 评论(0) 推荐(0) 编辑