摘要: Hadoop生态常用数据模型 一、TextFile 二、SequenceFile 1、特性 2、存储结构 3、压缩结构与读取过程 4、读写操作 三、Avro 1、特性 2、数据类型 3、avro-tools应用 4、在Hive中使用Avro 5、在Spark中使用Avro 四、Parquet 1、特 阅读全文
posted @ 2019-08-28 15:19 WhoYoung 阅读(981) 评论(0) 推荐(0) 编辑
摘要: 首先需要明确: Python的数据清洗不是大数据的解决方案!! 大数据通常使用MR或Spark进行数据的清洗!! 大数据的数据来源中以业务数据和网站日志为主!!! (sqoop/Flume/NiFi/Kafka) 收据采集->>数据录入->>数据清洗->>数据处理->>数据集成->>数据监管->>数 阅读全文
posted @ 2019-08-28 15:12 WhoYoung 阅读(407) 评论(0) 推荐(0) 编辑
摘要: Python爬虫框架 安装Scrapy框架 1、命令行 conda install scrapy 2、PYcharm setting -> project interpreter -> + 号,搜索scrapy ,install 安装Scrapy框架 爬虫工作基本原理——数据采集 大数据数据采集有两 阅读全文
posted @ 2019-08-28 15:11 WhoYoung 阅读(291) 评论(0) 推荐(0) 编辑
摘要: 5、常用库介绍 学习NumPy Q:什么是NumPy? A:一个强大的N维数组对象Array、比较成熟的(广播)函数库、用于整合C/C++和Fortran代码的工具包 —————————————————————————————————————————— ndarray N维数组对象,一系列同类数据的 阅读全文
posted @ 2019-08-28 15:10 WhoYoung 阅读(296) 评论(0) 推荐(0) 编辑
摘要: Pandas库 Series数据结构 pandas库的基本数据结构为Series: 一个带标签(又称索引)的一维数组 Series 的标签类似于Hbase中的行键,可重复且可以自由转换为列值。 Series 的一维数组类似于Hbase中的列值 Series的一般属性见下表: 关于手动创建一个Seri 阅读全文
posted @ 2019-08-28 15:10 WhoYoung 阅读(252) 评论(0) 推荐(0) 编辑
摘要: Python 面向对象编程 学习目标: 1、类及类的继承 (重点) 2、析构方法和内存管理 3、辖域(Scoping)规则和命名空间(Namespace) 4、特定方法属性(Special Method Attribute) (重点) ———————————————————————————————— 阅读全文
posted @ 2019-08-28 15:09 WhoYoung 阅读(280) 评论(0) 推荐(0) 编辑
摘要: 一、格式化字符串 1、基本语法 2、参数一:转换标识符 3、参数二:长度与对齐 4、参数三:数字符号 5、参数四:数字进制符 6、参数五:小数显示精度及形式 7、日期格式化参数 二、读写文件 1、读文件 2、With语句 3、写文件 三、CSV文件读入 1、读CSV 2、写CSV 四、Json读写 阅读全文
posted @ 2019-08-28 15:09 WhoYoung 阅读(387) 评论(0) 推荐(0) 编辑
摘要: 一、函数Python 1、内置函数 2、自定义函数 3、函数参数、函数对象 4、函数装饰器 (有趣) 5、生成器函数 (重点) 6、字符串常用函数 二、lambda表达式 (掌握,重点) 三、正则的使用 1、语法 2、分组(重点) 跳过分组,?: 3、指定界定符 一、函数Python 1、内置函数 阅读全文
posted @ 2019-08-28 15:07 WhoYoung 阅读(521) 评论(0) 推荐(0) 编辑
摘要: [TOC] 简介 Python是一种解释型、面向对象、动态数据类型的程序设计语言 Python 是一个高层次的结合了解释性、编译性、互动性和面向对象的脚本语言。 解释型语言: 这意味着开发过程中没有编译这个环节。类似于PHP和Perl语言。 交互式语言: 这意味着,您可以在一个 Python 提示符 阅读全文
posted @ 2019-08-28 15:03 WhoYoung 阅读(3676) 评论(0) 推荐(0) 编辑
摘要: 存储流程 a) <!--[endif]-->Clinet首先将要存储的数据切分成若干块,然后向NameNode发送存储请求, 首先向向缓冲区chunkbuff中写入,当达到一个chunk大小时(512byte),将chunk写出到packetbuff,每个chunk有一个MD5码(4byte),这个 阅读全文
posted @ 2019-07-16 16:24 WhoYoung 阅读(5761) 评论(0) 推荐(0) 编辑