2019 年 8月 28 日随笔档案 - WhoYoung

2019年8月28日

摘要： Sqoop 数据迁移工具 sqoop : SQL to hadOOP 两个功能: 1、 RDB 向HDFS导入 2、 HDFS向RDB导入注：拷贝mysql-connector.jar 和 json.jar 到sqoop/lib目录下 HDFS导入使用命令很长，一般写成shell脚本。（运行需要阅读全文

posted @ 2019-08-28 15:44 WhoYoung 阅读(388) 评论(0) 推荐(0) 编辑

HBase的JavaAPI

摘要： HBase通过JavaAPI和HIVE集成 1、Maven导入依赖包： hbase-clinet 版本与server上的hbase相同 2、编写demo 3、发布工程，包括依赖包 4、shell 运行jar 上传jar包到服务器，命令执行 HBase by Phoenix 安装phoenix 每个r 阅读全文

posted @ 2019-08-28 15:43 WhoYoung 阅读(1214) 评论(0) 推荐(0) 编辑

Hbase ——Not only SQL

摘要： HBase —— NoSQL_Not Only SQL NoSQL数据库：不遵循传统的RDBMS模型解决数据库的可伸缩性和可用性（多机器）数据是非关系的（可切分），不使用sql语句不针对原子性或一致性（定时同步数据）问题 —————————————————————————————— 传统关系阅读全文

posted @ 2019-08-28 15:42 WhoYoung 阅读(256) 评论(0) 推荐(0) 编辑

HBase ——Shell操作

摘要： HBase ——Shell操作 Q：你觉得HBase是什么？ A：一种结构化的分布式数据存储系统，它基于列来存储数据。基于HBase，可以实现以廉价PC机器集群存储海量数据的分布式数据库的解决方案。一般用于数据量巨大但查询简单的场景，典型场景包括：账单记录，订单流水，交易记录，数据库的历史记录阅读全文

posted @ 2019-08-28 15:42 WhoYoung 阅读(324) 评论(0) 推荐(0) 编辑

Spark高级

摘要： SCALA高级类（class）抽象类（abstract class）单例对象（object）特质（trait）样例类（case class）类（class）抽象类（abstract class）单例对象（object）特质（trait）样例类（case class） —————— 阅读全文

posted @ 2019-08-28 15:39 WhoYoung 阅读(601) 评论(0) 推荐(0) 编辑

SCALA基础

摘要： SCALA基础面向对象和面向函数的集成 !!!!一切值都是对象，一切函数都是值!!!! 函数时编程，一切都是函数数学式的语法思维面向对象和面向函数的集成 !!!!一切值都是对象，一切函数都是值!!!! 函数时编程，一切都是函数数学式的语法思维 —————————————————————— I 阅读全文

posted @ 2019-08-28 15:39 WhoYoung 阅读(161) 评论(0) 推荐(0) 编辑

Spark基础

摘要： Spark基本知识 1、简单架构（重点） 2、主要数据抽象RDD RDD ——弹性分布式数据集（重点） RDD特性（重点） RDD创建 RDD分区器 3、RDD的依赖关系（重点）依赖关系对比 Shuffle过程触发shuffle的算子 4、DAG工作原理 5、算子 (重点) 转换算子(T 阅读全文

posted @ 2019-08-28 15:33 WhoYoung 阅读(277) 评论(0) 推荐(0) 编辑

Spark集成

摘要：一、Spark 架构与优化器 1.Spark架构（重点） 2.Spark优化器二、Spark+SQL的API （重点） 1.DataSet简介 2.DataFrame简介 3.RDD与DF/DS的创建 4.常用操作 5、类型转换三、Spark外部数据源操作（重点） 1.Parquet文件(默阅读全文

posted @ 2019-08-28 15:25 WhoYoung 阅读(537) 评论(0) 推荐(0) 编辑

Spark + GraphX + Pregel

摘要： Spark+GraphX图 Q：什么是图？图的应用场景 A：图是由顶点集合(vertex)及顶点间的关系集合（边edge）组成的一种网状数据结构，表示为二元组：Gragh=（V，E），V\E分别是顶点和边的集合。图很好的表达了事物间的练习，常用于对事物之间的关系建模。常见应用场景有：在地图应用中寻找阅读全文

posted @ 2019-08-28 15:20 WhoYoung 阅读(570) 评论(0) 推荐(0) 编辑

Hadoop生态常用数据模型

摘要： Hadoop生态常用数据模型一、TextFile 二、SequenceFile 1、特性 2、存储结构 3、压缩结构与读取过程 4、读写操作三、Avro 1、特性 2、数据类型 3、avro-tools应用 4、在Hive中使用Avro 5、在Spark中使用Avro 四、Parquet 1、特阅读全文

posted @ 2019-08-28 15:19 WhoYoung 阅读(1015) 评论(0) 推荐(0) 编辑

Python学习笔记（八）

摘要：首先需要明确： Python的数据清洗不是大数据的解决方案！！大数据通常使用MR或Spark进行数据的清洗！！大数据的数据来源中以业务数据和网站日志为主!!! （sqoop/Flume/NiFi/Kafka）收据采集->>数据录入->>数据清洗->>数据处理->>数据集成->>数据监管->>数阅读全文

posted @ 2019-08-28 15:12 WhoYoung 阅读(415) 评论(0) 推荐(0) 编辑

Python学习笔记（七）

摘要： Python爬虫框架安装Scrapy框架 1、命令行 conda install scrapy 2、PYcharm setting -> project interpreter -> + 号，搜索scrapy ,install 安装Scrapy框架爬虫工作基本原理——数据采集大数据数据采集有两阅读全文

posted @ 2019-08-28 15:11 WhoYoung 阅读(299) 评论(0) 推荐(0) 编辑

Python学习笔记（五）

摘要： 5、常用库介绍学习NumPy Q：什么是NumPy？ A：一个强大的N维数组对象Array、比较成熟的（广播）函数库、用于整合C/C++和Fortran代码的工具包 —————————————————————————————————————————— ndarray N维数组对象，一系列同类数据的阅读全文

posted @ 2019-08-28 15:10 WhoYoung 阅读(300) 评论(0) 推荐(0) 编辑

Python学习笔记（六）

摘要： Pandas库 Series数据结构 pandas库的基本数据结构为Series: 一个带标签(又称索引)的一维数组 Series 的标签类似于Hbase中的行键，可重复且可以自由转换为列值。 Series 的一维数组类似于Hbase中的列值 Series的一般属性见下表：关于手动创建一个Seri 阅读全文

posted @ 2019-08-28 15:10 WhoYoung 阅读(253) 评论(0) 推荐(0) 编辑

Python学习笔记（三）

摘要：一、格式化字符串 1、基本语法 2、参数一：转换标识符 3、参数二：长度与对齐 4、参数三：数字符号 5、参数四：数字进制符 6、参数五：小数显示精度及形式 7、日期格式化参数二、读写文件 1、读文件 2、With语句 3、写文件三、CSV文件读入 1、读CSV 2、写CSV 四、Json读写阅读全文

posted @ 2019-08-28 15:09 WhoYoung 阅读(396) 评论(0) 推荐(0) 编辑

Python学习笔记（四）

摘要： Python 面向对象编程学习目标： 1、类及类的继承（重点） 2、析构方法和内存管理 3、辖域（Scoping）规则和命名空间(Namespace) 4、特定方法属性（Special Method Attribute）（重点） ———————————————————————————————— 阅读全文

posted @ 2019-08-28 15:09 WhoYoung 阅读(283) 评论(0) 推荐(0) 编辑

Python学习笔记（二）

摘要：一、函数Python 1、内置函数 2、自定义函数 3、函数参数、函数对象 4、函数装饰器 (有趣) 5、生成器函数（重点） 6、字符串常用函数二、lambda表达式（掌握，重点）三、正则的使用 1、语法 2、分组(重点) 跳过分组，?: 3、指定界定符一、函数Python 1、内置函数阅读全文

posted @ 2019-08-28 15:07 WhoYoung 阅读(532) 评论(0) 推荐(0) 编辑

Python学习笔记（一）

摘要： [TOC] 简介 Python是一种解释型、面向对象、动态数据类型的程序设计语言 Python 是一个高层次的结合了解释性、编译性、互动性和面向对象的脚本语言。解释型语言：这意味着开发过程中没有编译这个环节。类似于PHP和Perl语言。交互式语言：这意味着，您可以在一个 Python 提示符阅读全文

posted @ 2019-08-28 15:03 WhoYoung 阅读(3714) 评论(0) 推荐(0) 编辑

WhoYoung

公告