08 2018 档案
摘要:1.spark的缓存级别参照【org.apache.spark.storage.StorageLevel.scala】 new StorageLevel(_useDisk,_useMemory, _useOffHeap,_deserialized,_replication: Int = 1) val
阅读全文
摘要:1.定义:触发Job,调用runJob()方法: 比如:collect、count 2.foreach 说明:将结果返回值执行器节点,而非驱动器 3.aggregate def aggregate[U: ClassTag](zeroValue: U)(seqOp: (U, T) => U, comb
阅读全文
摘要:1.mapValues[Pair] def mapValues[U](f: V => U): RDD[(K, U)] 说明:将RDD[(K, V)] --> RDD[(K, U)],对Value做(f: V => U)操作 val a = sc.parallelize(List("dog", "ti
阅读全文
摘要:1.map、flatMap、distinct map说明:将一个RDD中的每个数据项,通过map中的函数映射变为一个新的元素。 输入分区与输出分区一对一,即:有多少个输入分区,就有多少个输出分区。 flatMap说明:同Map算子一样,最后将所有元素放到同一集合中; distinct说明:将RDD中
阅读全文
摘要:一.Spark上下文 1.作用:连接Spark集群,用户创建RDD、累加器和广播。 2.RDD:Resilient Distributed Dataset,弹性式分布式数据集,有4种类型,如下: a.创建RDD:3类(parallelize:将Seq序列数据转化为RDD、textFile将外部文件转
阅读全文
摘要:1.集群遵循主(Master)-从(Worker)机构:在不同的集群管理器模式下,Master和Worker映射的内容有所不同 在Standalone模式下:主【Master守护进程】和从【Worker守护进程】 在on Yarn模式下:主【ResourceManager守护进程】和从【Nodema
阅读全文
摘要:1.构建独立应用,采用Maven搭建Spark应用程序 a.创建Scala工程(略) b.加载spark-core_2.11依赖库: <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.11</artif
阅读全文
摘要:介绍 1.spark处理大数据的统一分析计算引擎; a.速度:在迭代循环的计算模型下,spark比Hadoop快100倍; b.易用性:spark提供多种语言的API,如Java、Python、Scala、R、SQL等 c.扩展性:在spark RDD基础上,提供一整套的分析计算模型:spark S
阅读全文
摘要:1.创建数据库 hive>create database myhive; hive>create database if not exists myhive; hive>show databases; hive>show databases like '*t*'; 说明:hive为创建的数据库生成了
阅读全文
摘要:1.默认存储格式为:纯文本 stored as textfile; 2.二进制存储的格式 顺序文件,avro文件,parquet文件,rcfile文件,orcfile文件。 3.转存parquet格式 hive>create table hive.stocks_parquet stored as p
阅读全文
摘要:0.创建数据库 hive>create table hive.test(id int); hive>load data local inpath '/home/hyxy/test_order.txt' into table hive.test; 1.order by 全局排序 hive>select
阅读全文
摘要:表的修改 1.alter table 修改表的元数据: a.修改表名称 hive>alter table student rename to student1; b.修改表分区 hive>alter table hive.logs add partition (dt='2018-9-1',count
阅读全文
摘要:含义:实质是将数据分成不同的文件。hive中的分桶和hadoop中的reduce个数相同。 首先设置采用分桶: hive>set hive.enforce.bucketing=true; hive>create table buckets_users(id int,name string) clus
阅读全文
摘要:hive的基本数据类型 1.基本数据类型 hive类型 说明 java类型 实例 1).tinyint 1byte有符号的整数 byte 20 2).smalint 2byte有符号的整数 short 20 3).int 4byte有符号的整数 int 20 4).bigint 8byte有符号的整
阅读全文
摘要:1.安装MySql,参照上篇博文 2.修改hive的配置文件 a.{HIVE_HOME/conf}目录下,复制hive-env.sh.template $>cp hive-env.sh.template hive-env.sh $>gedit hive-env.sh 添加:【 export HADO
阅读全文
摘要:yum安装1.验证Centos是否安装MySQL $>yum list installed | grep mysql 2.删除MySql $>yum –y remove mysql-libs.X86_64 或 $>yum erase mysql-libs.x86_64 3.验证删除是否成功! $>y
阅读全文
摘要:架构 1.hive是数据仓库,在hadoop基础上处理结构化数据;它驻留在hadoop之上,用户对数据的统计,查询和简单的分析操作。 2.hive不是 a.关系型数据库 b.OLTP c.实时查询和行级更新操作 3.hive特点 a.表模型存储在database(关系型)中,处理的数据存储在HDFS
阅读全文
摘要:1.定义 Apache Hive数据仓库软件便于读,写和管理大型数据集驻留在分布式存储使用SQL。 结构可以投影到存储中的数据上。 客户端的连接方式可采用:command line 和 JDBC Driver。 注意:Hive实质就是客户端,不存在主从结构,搭建过程没有集群概念。 2.搭建Hive
阅读全文
摘要:1.搭建开发环境 a.创建java工程 b.导HBase相关开发jar,关注版本 c.将集群配置文件添加至工程中,配置环境包括:{core-site.xml,hdfs-site.xml,hbase-site.xml} d.编写HBaseTool工具类 -->创建命名空间 -->删除命名空间 -->创
阅读全文
摘要:1.Configuration描述 HBase采用hadoop中的Configuration对象来加载配置文件信息 2.HMaster作用 a.监控集群中所有的regionserver b.对元数据进行管理 c.通常情况下,HMaster和NameNode在一个节点上 d.管理regionserve
阅读全文
摘要:1.进入Hbase shell命令 $>hbase shell 2.建议参照"help"命令 3.shell命令 --> create创建表命令: >create 'table_name','baseinfo','address' 其中表名是table_name,列簇是baseinfo和addres
阅读全文
摘要:1. HBase是HDFS上面向列的分布式数据库 HBase首先是数据库,分布式的,面向列的,<首选在hdfs基础上> Google发布三篇论文:GFS,MapReduce,BigTable开启分布式存储和计算的纪元 hdfs+mapreduce(Hadoop)解决离线分析;Hbase解决实时处理业
阅读全文