摘要: t## 使用Selector提取数据 ## 从页面中提取数据是SPider最重要的的工作之一Selete对象从页面中提取数据的核心技术是HTTP文本解析,常用的文本解析模块:BeautifulSoup API简单 但解析速度慢lxml 由C语言编写的xml解析库(l... 阅读全文
posted @ 2018-07-01 20:22 oifengo 阅读(523) 评论(0) 推荐(0) 编辑
摘要: Scrapy简介Scrapy是一个用Python语言(基于Twisted框架)编写的开源网络爬虫框架.Scrapy安装linux:conda install scrapywin:略 Mac:没钱用 测试import scarpyprint(scrapy.version... 阅读全文
posted @ 2018-07-01 19:32 oifengo 阅读(467) 评论(0) 推荐(0) 编辑
摘要: Python标准库——urllib模块功能:打开URL和http协议之类python 3.x中urllib库和urilib2库合并成了urllib库。其中urllib2.urlopen()变成了urllib.request.urlopen()urllib2.Reque... 阅读全文
posted @ 2018-07-01 10:40 oifengo 阅读(530) 评论(0) 推荐(0) 编辑
摘要: 因为Python无需编译直接执行,所以可以成为脚本脚本:简单的Python程序程序:大一点的、复杂的Python脚本爬虫:一种自动抓取互联网信息的程序爬虫的价值 基于爬取的数据进行分析,提取数据分析服务爬虫网络架构爬虫调度端:启动 运行 监控 1. ... 阅读全文
posted @ 2018-06-27 18:20 oifengo 阅读(243) 评论(0) 推荐(0) 编辑
摘要: MNIST数据集MNIST数据集主要由一些手写的数字和相应的标签组成,图片一共有10类,分别对应0~9 包含以下四个文件train-images-idx3-ubyte.gz 9M 训练图像数据train-labels-idx3-ubyte.gz 0.03M 训练图像... 阅读全文
posted @ 2018-06-25 18:50 oifengo 阅读(380) 评论(0) 推荐(0) 编辑
摘要: Python中用于数据探索的库主要是Pandas(数据分析)统计分析函数 统计作图函数Matplotlib(数据可视化)基本统计特征函数sum按列计算样本总和mean计算样本的算数平均数var样本的方差std标准差corr 计算spearman(Person)相关系数... 阅读全文
posted @ 2018-06-24 23:01 oifengo 阅读(504) 评论(0) 推荐(0) 编辑
摘要: Python实现数据统计计量form_future_ import print_functionimport pandas as pdcatering_sale = '../../data/3/catering_sale.xls'#读取数据 指定‘日期’为索引列dat... 阅读全文
posted @ 2018-06-24 19:09 oifengo 阅读(168) 评论(0) 推荐(0) 编辑
摘要: 二 数据特征分析完成对数据的质量分析后,剩下的数据就可以绘制表图 计算了某些特征量等手段进行数据的特征分析分布分析 揭示数据的分布特征和分布类型定量数据:分析分布是对称,发现某些特征值的大小和可疑值,频率分布表、频率分布直方图、茎叶图定性数据:饼图、条形图1.定量分... 阅读全文
posted @ 2018-06-24 15:33 oifengo 阅读(1740) 评论(0) 推荐(0) 编辑
摘要: Dokcer基础入门+实例(1) Dokcer基础入门+实例(2) Dokcer基础入门+实例(3) Dokcer基础入门+实例(4) Dokcer基础入门+实例(5) 阅读全文
posted @ 2018-06-20 10:39 oifengo 阅读(335) 评论(0) 推荐(0) 编辑
摘要: 网络配置大量的互联网应用服务需要多个容器间进行网络通讯。docker目前提空了映射容器端口到主机和容器互联机制来为容器提供网络服务端口映射实现访问容器 在启动容器时,若不指定对应的参数,在容器外是不能通过网络访问的。 可以使用-p或-p参数来指定端口映射。-PDock... 阅读全文
posted @ 2018-06-19 23:08 oifengo 阅读(166) 评论(0) 推荐(0) 编辑