摘要: Sqoop 数据迁移工具 sqoop : SQL to hadOOP 两个功能: 1、 RDB 向HDFS导入 2、 HDFS向RDB导入 注:拷贝mysql-connector.jar 和 json.jar 到sqoop/lib目录下 HDFS导入使用 命令很长,一般写成shell脚本。(运行需要 阅读全文
posted @ 2019-08-28 15:44 WhoYoung 阅读(388) 评论(0) 推荐(0) 编辑
摘要: HBase通过JavaAPI和HIVE集成 1、Maven导入依赖包: hbase-clinet 版本与server上的hbase相同 2、编写demo 3、发布工程,包括依赖包 4、shell 运行jar 上传jar包到服务器,命令执行 HBase by Phoenix 安装phoenix 每个r 阅读全文
posted @ 2019-08-28 15:43 WhoYoung 阅读(1213) 评论(0) 推荐(0) 编辑
摘要: HBase —— NoSQL_Not Only SQL NoSQL数据库: 不遵循传统的RDBMS模型 解决数据库的可伸缩性和可用性(多机器) 数据是非关系的(可切分),不使用sql语句 不针对原子性或一致性(定时同步数据)问题 —————————————————————————————— 传统关系 阅读全文
posted @ 2019-08-28 15:42 WhoYoung 阅读(253) 评论(0) 推荐(0) 编辑
摘要: HBase ——Shell操作 Q:你觉得HBase是什么? A:一种结构化的分布式数据存储系统,它基于列来存储数据。 基于HBase,可以实现以廉价PC机器集群存储海量数据的分布式数据库的解决方案。 一般用于数据量巨大但查询简单的场景,典型场景包括:账单记录,订单流水,交易记录,数据库的历史记录 阅读全文
posted @ 2019-08-28 15:42 WhoYoung 阅读(320) 评论(0) 推荐(0) 编辑
摘要: SCALA高级 类(class) 抽象类(abstract class) 单例对象(object) 特质(trait) 样例类(case class) 类(class) 抽象类(abstract class) 单例对象(object) 特质(trait) 样例类(case class) —————— 阅读全文
posted @ 2019-08-28 15:39 WhoYoung 阅读(600) 评论(0) 推荐(0) 编辑
摘要: SCALA基础 面向对象和面向函数的集成 !!!!一切值都是对象,一切函数都是值!!!! 函数时编程,一切都是函数 数学式的语法思维 面向对象和面向函数的集成 !!!!一切值都是对象,一切函数都是值!!!! 函数时编程,一切都是函数 数学式的语法思维 —————————————————————— I 阅读全文
posted @ 2019-08-28 15:39 WhoYoung 阅读(146) 评论(0) 推荐(0) 编辑
摘要: Spark基本知识 1、简单架构 (重点) 2、主要数据抽象RDD RDD ——弹性分布式数据集 (重点) RDD特性 (重点) RDD创建 RDD分区器 3、RDD的依赖关系 (重点) 依赖关系对比 Shuffle过程 触发shuffle的算子 4、DAG工作原理 5、算子 (重点) 转换算子(T 阅读全文
posted @ 2019-08-28 15:33 WhoYoung 阅读(273) 评论(0) 推荐(0) 编辑
摘要: 一、Spark 架构与优化器 1.Spark架构 (重点) 2.Spark优化器 二、Spark+SQL的API (重点) 1.DataSet简介 2.DataFrame简介 3.RDD与DF/DS的创建 4.常用操作 5、类型转换 三、Spark外部数据源操作 (重点) 1.Parquet文件(默 阅读全文
posted @ 2019-08-28 15:25 WhoYoung 阅读(534) 评论(0) 推荐(0) 编辑
摘要: Spark+GraphX图 Q:什么是图?图的应用场景 A:图是由顶点集合(vertex)及顶点间的关系集合(边edge)组成的一种网状数据结构,表示为二元组:Gragh=(V,E),V\E分别是顶点和边的集合。图很好的表达了事物间的练习,常用于对事物之间的关系建模。常见应用场景有:在地图应用中寻找 阅读全文
posted @ 2019-08-28 15:20 WhoYoung 阅读(567) 评论(0) 推荐(0) 编辑
摘要: Hadoop生态常用数据模型 一、TextFile 二、SequenceFile 1、特性 2、存储结构 3、压缩结构与读取过程 4、读写操作 三、Avro 1、特性 2、数据类型 3、avro-tools应用 4、在Hive中使用Avro 5、在Spark中使用Avro 四、Parquet 1、特 阅读全文
posted @ 2019-08-28 15:19 WhoYoung 阅读(1005) 评论(0) 推荐(0) 编辑
摘要: 首先需要明确: Python的数据清洗不是大数据的解决方案!! 大数据通常使用MR或Spark进行数据的清洗!! 大数据的数据来源中以业务数据和网站日志为主!!! (sqoop/Flume/NiFi/Kafka) 收据采集->>数据录入->>数据清洗->>数据处理->>数据集成->>数据监管->>数 阅读全文
posted @ 2019-08-28 15:12 WhoYoung 阅读(414) 评论(0) 推荐(0) 编辑
摘要: Python爬虫框架 安装Scrapy框架 1、命令行 conda install scrapy 2、PYcharm setting -> project interpreter -> + 号,搜索scrapy ,install 安装Scrapy框架 爬虫工作基本原理——数据采集 大数据数据采集有两 阅读全文
posted @ 2019-08-28 15:11 WhoYoung 阅读(299) 评论(0) 推荐(0) 编辑
摘要: 5、常用库介绍 学习NumPy Q:什么是NumPy? A:一个强大的N维数组对象Array、比较成熟的(广播)函数库、用于整合C/C++和Fortran代码的工具包 —————————————————————————————————————————— ndarray N维数组对象,一系列同类数据的 阅读全文
posted @ 2019-08-28 15:10 WhoYoung 阅读(300) 评论(0) 推荐(0) 编辑
摘要: Pandas库 Series数据结构 pandas库的基本数据结构为Series: 一个带标签(又称索引)的一维数组 Series 的标签类似于Hbase中的行键,可重复且可以自由转换为列值。 Series 的一维数组类似于Hbase中的列值 Series的一般属性见下表: 关于手动创建一个Seri 阅读全文
posted @ 2019-08-28 15:10 WhoYoung 阅读(253) 评论(0) 推荐(0) 编辑
摘要: 一、格式化字符串 1、基本语法 2、参数一:转换标识符 3、参数二:长度与对齐 4、参数三:数字符号 5、参数四:数字进制符 6、参数五:小数显示精度及形式 7、日期格式化参数 二、读写文件 1、读文件 2、With语句 3、写文件 三、CSV文件读入 1、读CSV 2、写CSV 四、Json读写 阅读全文
posted @ 2019-08-28 15:09 WhoYoung 阅读(393) 评论(0) 推荐(0) 编辑
摘要: Python 面向对象编程 学习目标: 1、类及类的继承 (重点) 2、析构方法和内存管理 3、辖域(Scoping)规则和命名空间(Namespace) 4、特定方法属性(Special Method Attribute) (重点) ———————————————————————————————— 阅读全文
posted @ 2019-08-28 15:09 WhoYoung 阅读(281) 评论(0) 推荐(0) 编辑
摘要: 一、函数Python 1、内置函数 2、自定义函数 3、函数参数、函数对象 4、函数装饰器 (有趣) 5、生成器函数 (重点) 6、字符串常用函数 二、lambda表达式 (掌握,重点) 三、正则的使用 1、语法 2、分组(重点) 跳过分组,?: 3、指定界定符 一、函数Python 1、内置函数 阅读全文
posted @ 2019-08-28 15:07 WhoYoung 阅读(526) 评论(0) 推荐(0) 编辑
摘要: [TOC] 简介 Python是一种解释型、面向对象、动态数据类型的程序设计语言 Python 是一个高层次的结合了解释性、编译性、互动性和面向对象的脚本语言。 解释型语言: 这意味着开发过程中没有编译这个环节。类似于PHP和Perl语言。 交互式语言: 这意味着,您可以在一个 Python 提示符 阅读全文
posted @ 2019-08-28 15:03 WhoYoung 阅读(3711) 评论(0) 推荐(0) 编辑