2018 年 8月随笔档案 - Coding_Now

缓存Cache

摘要：1.spark的缓存级别参照【org.apache.spark.storage.StorageLevel.scala】 new StorageLevel(_useDisk,_useMemory, _useOffHeap,_deserialized,_replication: Int = 1) val 阅读全文

posted @ 2018-08-30 20:04 Coding_Now 阅读(161) 评论(0) 推荐(0) 编辑

RDD的行动操作

摘要：1.定义：触发Job，调用runJob()方法：比如：collect、count 2.foreach 说明：将结果返回值执行器节点，而非驱动器 3.aggregate def aggregate[U: ClassTag](zeroValue: U)(seqOp: (U, T) => U, comb 阅读全文

posted @ 2018-08-30 20:02 Coding_Now 阅读(332) 评论(0) 推荐(0) 编辑

RDD的转换操作（续）

摘要：1.mapValues[Pair] def mapValues[U](f: V => U): RDD[(K, U)] 说明：将RDD[(K, V)] --> RDD[(K, U)]，对Value做(f: V => U)操作 val a = sc.parallelize(List("dog", "ti 阅读全文

posted @ 2018-08-30 19:58 Coding_Now 阅读(172) 评论(0) 推荐(0) 编辑

RDD的转换操作

摘要：1.map、flatMap、distinct map说明：将一个RDD中的每个数据项，通过map中的函数映射变为一个新的元素。输入分区与输出分区一对一，即：有多少个输入分区，就有多少个输出分区。 flatMap说明：同Map算子一样，最后将所有元素放到同一集合中； distinct说明：将RDD中阅读全文

posted @ 2018-08-29 19:53 Coding_Now 阅读(1057) 评论(0) 推荐(0) 编辑

SparkContext和RDD的说明

摘要：一.Spark上下文 1.作用：连接Spark集群，用户创建RDD、累加器和广播。 2.RDD：Resilient Distributed Dataset，弹性式分布式数据集，有4种类型，如下： a.创建RDD：3类(parallelize:将Seq序列数据转化为RDD、textFile将外部文件转阅读全文

posted @ 2018-08-28 19:38 Coding_Now 阅读(1133) 评论(0) 推荐(0) 编辑

集群模式相关概念

摘要：1.集群遵循主(Master)-从(Worker)机构：在不同的集群管理器模式下，Master和Worker映射的内容有所不同在Standalone模式下：主【Master守护进程】和从【Worker守护进程】在on Yarn模式下：主【ResourceManager守护进程】和从【Nodema 阅读全文

posted @ 2018-08-28 19:31 Coding_Now 阅读(1816) 评论(0) 推荐(0) 编辑

WordCount实例

摘要：1.构建独立应用，采用Maven搭建Spark应用程序 a.创建Scala工程（略） b.加载spark-core_2.11依赖库： <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.11</artif 阅读全文

posted @ 2018-08-28 19:30 Coding_Now 阅读(503) 评论(0) 推荐(0) 编辑

Spark的介绍和集群部署

摘要：介绍 1.spark处理大数据的统一分析计算引擎； a.速度：在迭代循环的计算模型下，spark比Hadoop快100倍； b.易用性：spark提供多种语言的API，如Java、Python、Scala、R、SQL等 c.扩展性：在spark RDD基础上，提供一整套的分析计算模型：spark S 阅读全文

posted @ 2018-08-28 18:43 Coding_Now 阅读(395) 评论(0) 推荐(0) 编辑

Hive的DDL数据定义语言

摘要：1.创建数据库 hive>create database myhive; hive>create database if not exists myhive; hive>show databases; hive>show databases like '*t*'; 说明：hive为创建的数据库生成了阅读全文

posted @ 2018-08-27 09:10 Coding_Now 阅读(434) 评论(0) 推荐(0) 编辑

Hive的数据存储格式

摘要：1.默认存储格式为：纯文本 stored as textfile; 2.二进制存储的格式顺序文件，avro文件，parquet文件，rcfile文件，orcfile文件。 3.转存parquet格式 hive>create table hive.stocks_parquet stored as p 阅读全文

posted @ 2018-08-14 13:13 Coding_Now 阅读(3942) 评论(0) 推荐(1) 编辑

Hive的order by和sort by

摘要：0.创建数据库 hive>create table hive.test(id int); hive>load data local inpath '/home/hyxy/test_order.txt' into table hive.test; 1.order by 全局排序 hive>select 阅读全文

posted @ 2018-08-14 13:07 Coding_Now 阅读(2438) 评论(0) 推荐(0) 编辑

Hive的表操作

摘要：表的修改 1.alter table 修改表的元数据： a.修改表名称 hive>alter table student rename to student1; b.修改表分区 hive>alter table hive.logs add partition (dt='2018-9-1',count 阅读全文

posted @ 2018-08-14 12:54 Coding_Now 阅读(873) 评论(0) 推荐(0) 编辑

Hive的分桶

摘要：含义：实质是将数据分成不同的文件。hive中的分桶和hadoop中的reduce个数相同。首先设置采用分桶： hive>set hive.enforce.bucketing=true; hive>create table buckets_users(id int,name string) clus 阅读全文

posted @ 2018-08-14 12:32 Coding_Now 阅读(240) 评论(0) 推荐(0) 编辑

Hive的数据类型

摘要：hive的基本数据类型 1.基本数据类型 hive类型说明 java类型实例 1).tinyint 1byte有符号的整数 byte 20 2).smalint 2byte有符号的整数 short 20 3).int 4byte有符号的整数 int 20 4).bigint 8byte有符号的整阅读全文

posted @ 2018-08-13 15:31 Coding_Now 阅读(10893) 评论(0) 推荐(0) 编辑

Hive的搭建和命令行

摘要：1.安装MySql，参照上篇博文 2.修改hive的配置文件 a.{HIVE_HOME/conf}目录下，复制hive-env.sh.template $>cp hive-env.sh.template hive-env.sh $>gedit hive-env.sh 添加：【 export HADO 阅读全文

posted @ 2018-08-13 14:55 Coding_Now 阅读(369) 评论(0) 推荐(0) 编辑

Hive安装MySql

摘要：yum安装1.验证Centos是否安装MySQL $>yum list installed | grep mysql 2.删除MySql $>yum –y remove mysql-libs.X86_64 或 $>yum erase mysql-libs.x86_64 3.验证删除是否成功！ $>y 阅读全文

posted @ 2018-08-13 14:44 Coding_Now 阅读(1375) 评论(0) 推荐(0) 编辑

Hive的架构和工作流程

摘要：架构 1.hive是数据仓库，在hadoop基础上处理结构化数据；它驻留在hadoop之上，用户对数据的统计，查询和简单的分析操作。 2.hive不是 a.关系型数据库 b.OLTP c.实时查询和行级更新操作 3.hive特点 a.表模型存储在database(关系型)中，处理的数据存储在HDFS 阅读全文

posted @ 2018-08-13 14:23 Coding_Now 阅读(2333) 评论(0) 推荐(1) 编辑

Hive的定义及搭建

摘要：1.定义 Apache Hive数据仓库软件便于读，写和管理大型数据集驻留在分布式存储使用SQL。结构可以投影到存储中的数据上。客户端的连接方式可采用：command line 和 JDBC Driver。注意：Hive实质就是客户端，不存在主从结构，搭建过程没有集群概念。 2.搭建Hive 阅读全文

posted @ 2018-08-13 14:05 Coding_Now 阅读(231) 评论(0) 推荐(0) 编辑

HBase API操作

摘要：1.搭建开发环境 a.创建java工程 b.导HBase相关开发jar，关注版本 c.将集群配置文件添加至工程中，配置环境包括:{core-site.xml,hdfs-site.xml,hbase-site.xml} d.编写HBaseTool工具类 -->创建命名空间 -->删除命名空间 -->创阅读全文

posted @ 2018-08-04 10:52 Coding_Now 阅读(241) 评论(0) 推荐(0) 编辑

HBase相关概念简介

摘要：1.Configuration描述 HBase采用hadoop中的Configuration对象来加载配置文件信息 2.HMaster作用 a.监控集群中所有的regionserver b.对元数据进行管理 c.通常情况下，HMaster和NameNode在一个节点上 d.管理regionserve 阅读全文

posted @ 2018-08-04 10:41 Coding_Now 阅读(343) 评论(0) 推荐(0) 编辑

HBase shell常用命令

摘要：1.进入Hbase shell命令 $>hbase shell 2.建议参照"help"命令 3.shell命令 --> create创建表命令： >create 'table_name','baseinfo','address' 其中表名是table_name，列簇是baseinfo和addres 阅读全文

posted @ 2018-08-04 10:15 Coding_Now 阅读(7775) 评论(0) 推荐(1) 编辑

HBase的简介和搭建

摘要：1. HBase是HDFS上面向列的分布式数据库 HBase首先是数据库，分布式的，面向列的，<首选在hdfs基础上> Google发布三篇论文：GFS，MapReduce，BigTable开启分布式存储和计算的纪元 hdfs+mapreduce(Hadoop)解决离线分析；Hbase解决实时处理业阅读全文

posted @ 2018-08-04 09:37 Coding_Now 阅读(168) 评论(0) 推荐(0) 编辑

Code_exploration

程序人生，走向人生巅峰

08 2018 档案

公告