08 2018 档案

摘要:1.spark的缓存级别参照【org.apache.spark.storage.StorageLevel.scala】 new StorageLevel(_useDisk,_useMemory, _useOffHeap,_deserialized,_replication: Int = 1) val 阅读全文
posted @ 2018-08-30 20:04 Coding_Now 阅读(161) 评论(0) 推荐(0) 编辑
摘要:1.定义:触发Job,调用runJob()方法: 比如:collect、count 2.foreach 说明:将结果返回值执行器节点,而非驱动器 3.aggregate def aggregate[U: ClassTag](zeroValue: U)(seqOp: (U, T) => U, comb 阅读全文
posted @ 2018-08-30 20:02 Coding_Now 阅读(332) 评论(0) 推荐(0) 编辑
摘要:1.mapValues[Pair] def mapValues[U](f: V => U): RDD[(K, U)] 说明:将RDD[(K, V)] --> RDD[(K, U)],对Value做(f: V => U)操作 val a = sc.parallelize(List("dog", "ti 阅读全文
posted @ 2018-08-30 19:58 Coding_Now 阅读(172) 评论(0) 推荐(0) 编辑
摘要:1.map、flatMap、distinct map说明:将一个RDD中的每个数据项,通过map中的函数映射变为一个新的元素。 输入分区与输出分区一对一,即:有多少个输入分区,就有多少个输出分区。 flatMap说明:同Map算子一样,最后将所有元素放到同一集合中; distinct说明:将RDD中 阅读全文
posted @ 2018-08-29 19:53 Coding_Now 阅读(1057) 评论(0) 推荐(0) 编辑
摘要:一.Spark上下文 1.作用:连接Spark集群,用户创建RDD、累加器和广播。 2.RDD:Resilient Distributed Dataset,弹性式分布式数据集,有4种类型,如下: a.创建RDD:3类(parallelize:将Seq序列数据转化为RDD、textFile将外部文件转 阅读全文
posted @ 2018-08-28 19:38 Coding_Now 阅读(1133) 评论(0) 推荐(0) 编辑
摘要:1.集群遵循主(Master)-从(Worker)机构:在不同的集群管理器模式下,Master和Worker映射的内容有所不同 在Standalone模式下:主【Master守护进程】和从【Worker守护进程】 在on Yarn模式下:主【ResourceManager守护进程】和从【Nodema 阅读全文
posted @ 2018-08-28 19:31 Coding_Now 阅读(1816) 评论(0) 推荐(0) 编辑
摘要:1.构建独立应用,采用Maven搭建Spark应用程序 a.创建Scala工程(略) b.加载spark-core_2.11依赖库: <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.11</artif 阅读全文
posted @ 2018-08-28 19:30 Coding_Now 阅读(503) 评论(0) 推荐(0) 编辑
摘要:介绍 1.spark处理大数据的统一分析计算引擎; a.速度:在迭代循环的计算模型下,spark比Hadoop快100倍; b.易用性:spark提供多种语言的API,如Java、Python、Scala、R、SQL等 c.扩展性:在spark RDD基础上,提供一整套的分析计算模型:spark S 阅读全文
posted @ 2018-08-28 18:43 Coding_Now 阅读(395) 评论(0) 推荐(0) 编辑
摘要:1.创建数据库 hive>create database myhive; hive>create database if not exists myhive; hive>show databases; hive>show databases like '*t*'; 说明:hive为创建的数据库生成了 阅读全文
posted @ 2018-08-27 09:10 Coding_Now 阅读(434) 评论(0) 推荐(0) 编辑
摘要:1.默认存储格式为:纯文本 stored as textfile; 2.二进制存储的格式 顺序文件,avro文件,parquet文件,rcfile文件,orcfile文件。 3.转存parquet格式 hive>create table hive.stocks_parquet stored as p 阅读全文
posted @ 2018-08-14 13:13 Coding_Now 阅读(3942) 评论(0) 推荐(1) 编辑
摘要:0.创建数据库 hive>create table hive.test(id int); hive>load data local inpath '/home/hyxy/test_order.txt' into table hive.test; 1.order by 全局排序 hive>select 阅读全文
posted @ 2018-08-14 13:07 Coding_Now 阅读(2438) 评论(0) 推荐(0) 编辑
摘要:表的修改 1.alter table 修改表的元数据: a.修改表名称 hive>alter table student rename to student1; b.修改表分区 hive>alter table hive.logs add partition (dt='2018-9-1',count 阅读全文
posted @ 2018-08-14 12:54 Coding_Now 阅读(873) 评论(0) 推荐(0) 编辑
摘要:含义:实质是将数据分成不同的文件。hive中的分桶和hadoop中的reduce个数相同。 首先设置采用分桶: hive>set hive.enforce.bucketing=true; hive>create table buckets_users(id int,name string) clus 阅读全文
posted @ 2018-08-14 12:32 Coding_Now 阅读(240) 评论(0) 推荐(0) 编辑
摘要:hive的基本数据类型 1.基本数据类型 hive类型 说明 java类型 实例 1).tinyint 1byte有符号的整数 byte 20 2).smalint 2byte有符号的整数 short 20 3).int 4byte有符号的整数 int 20 4).bigint 8byte有符号的整 阅读全文
posted @ 2018-08-13 15:31 Coding_Now 阅读(10893) 评论(0) 推荐(0) 编辑
摘要:1.安装MySql,参照上篇博文 2.修改hive的配置文件 a.{HIVE_HOME/conf}目录下,复制hive-env.sh.template $>cp hive-env.sh.template hive-env.sh $>gedit hive-env.sh 添加:【 export HADO 阅读全文
posted @ 2018-08-13 14:55 Coding_Now 阅读(369) 评论(0) 推荐(0) 编辑
摘要:yum安装1.验证Centos是否安装MySQL $>yum list installed | grep mysql 2.删除MySql $>yum –y remove mysql-libs.X86_64 或 $>yum erase mysql-libs.x86_64 3.验证删除是否成功! $>y 阅读全文
posted @ 2018-08-13 14:44 Coding_Now 阅读(1375) 评论(0) 推荐(0) 编辑
摘要:架构 1.hive是数据仓库,在hadoop基础上处理结构化数据;它驻留在hadoop之上,用户对数据的统计,查询和简单的分析操作。 2.hive不是 a.关系型数据库 b.OLTP c.实时查询和行级更新操作 3.hive特点 a.表模型存储在database(关系型)中,处理的数据存储在HDFS 阅读全文
posted @ 2018-08-13 14:23 Coding_Now 阅读(2333) 评论(0) 推荐(1) 编辑
摘要:1.定义 Apache Hive数据仓库软件便于读,写和管理大型数据集驻留在分布式存储使用SQL。 结构可以投影到存储中的数据上。 客户端的连接方式可采用:command line 和 JDBC Driver。 注意:Hive实质就是客户端,不存在主从结构,搭建过程没有集群概念。 2.搭建Hive 阅读全文
posted @ 2018-08-13 14:05 Coding_Now 阅读(231) 评论(0) 推荐(0) 编辑
摘要:1.搭建开发环境 a.创建java工程 b.导HBase相关开发jar,关注版本 c.将集群配置文件添加至工程中,配置环境包括:{core-site.xml,hdfs-site.xml,hbase-site.xml} d.编写HBaseTool工具类 -->创建命名空间 -->删除命名空间 -->创 阅读全文
posted @ 2018-08-04 10:52 Coding_Now 阅读(241) 评论(0) 推荐(0) 编辑
摘要:1.Configuration描述 HBase采用hadoop中的Configuration对象来加载配置文件信息 2.HMaster作用 a.监控集群中所有的regionserver b.对元数据进行管理 c.通常情况下,HMaster和NameNode在一个节点上 d.管理regionserve 阅读全文
posted @ 2018-08-04 10:41 Coding_Now 阅读(343) 评论(0) 推荐(0) 编辑
摘要:1.进入Hbase shell命令 $>hbase shell 2.建议参照"help"命令 3.shell命令 --> create创建表命令: >create 'table_name','baseinfo','address' 其中表名是table_name,列簇是baseinfo和addres 阅读全文
posted @ 2018-08-04 10:15 Coding_Now 阅读(7775) 评论(0) 推荐(1) 编辑
摘要:1. HBase是HDFS上面向列的分布式数据库 HBase首先是数据库,分布式的,面向列的,<首选在hdfs基础上> Google发布三篇论文:GFS,MapReduce,BigTable开启分布式存储和计算的纪元 hdfs+mapreduce(Hadoop)解决离线分析;Hbase解决实时处理业 阅读全文
posted @ 2018-08-04 09:37 Coding_Now 阅读(168) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示