摘要: 1.HDFS前言 设计思想 分而治之:将大文件、大批量文件,分布式存放在大量服务器上,以便于采取分而治之的方式对海量数据进行运算分析; 在大数据系统中作用: 为各类分布式运算框架(如:mapreduce,spark,tez,……)提供数据存储服务 重点概念:文件切块,副本存放,元数据 2.HDFS的 阅读全文
posted @ 2018-09-05 16:55 夕阳如火 阅读(992) 评论(0) 推荐(0) 编辑
摘要: 1. HADOOP背景介绍 1.1 什么是HADOOP Hadoop hive hbase flume kafka sqoop spark flink ……. 1.2 HADOOP产生背景 ——分布式文件系统(GFS),可用于处理海量网页的存储 ——分布式计算框架MAPREDUCE,可用于处理海量网 阅读全文
posted @ 2018-09-05 11:24 夕阳如火 阅读(781) 评论(0) 推荐(1) 编辑
摘要: Python 模块 1.模块的定义 什么是模块: 在计算机程序的开发过程中,随着程序代码越写越多,在一个文件里代码就会越来越长,越来越不容易维护。 为了编写可维护的代码,我们把很多函数分组,分别放到不同的文件里,这样,每个文件包含的代码就相对较少,在python中。一个.py文件就称为一个模块(Mo 阅读全文
posted @ 2018-08-21 09:25 夕阳如火 阅读(177) 评论(0) 推荐(0) 编辑
摘要: 数据来源:https://www.kaggle.com/c/kobe-bryant-shot-selection/data 参考:https://blog.csdn.net/qq_41888542/article/details/80390900 1.导包 2.读取文件 #设置字体 mpl.rcPa 阅读全文
posted @ 2018-07-21 15:44 夕阳如火 阅读(6303) 评论(0) 推荐(0) 编辑
摘要: 1.Python简介 Pytho是一种面向对象的解释型计算机程序设计语言,由荷兰人Guido van Rossum于1989年发明,第一个公开发行版发行于1991年。 Python是纯粹的自由软件, 源代码和解释器CPython遵循 GPL(GNU General Public License)协议 阅读全文
posted @ 2018-04-04 19:16 夕阳如火 阅读(300) 评论(0) 推荐(0) 编辑