十七楼的羊

2019年3月9日

摘要：阅读全文

posted @ 2019-03-09 12:39 十七楼的羊阅读(253) 评论(0) 推荐(0) 编辑

摘要： scala 聚合 1,par 指的是(并行)多线程聚合，有可能造成误差,但是外加上 foldLeft那么就会一个一个 2,flatten 属性将 list之中的小型list进行聚合到一个大的list之中 package day01 object Test7 { def main(args: Array[String]): Unit = { val arr = Array(1,2,... 阅读全文

posted @ 2019-03-09 11:27 十七楼的羊阅读(283) 评论(0) 推荐(0) 编辑

2019年3月6日

hive架构组件以及使用

摘要： hive说明: 1,Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能 2,hive 的效率取决于 mapreduce或者spark 3,hive将 sql语句翻译成MapReduce程序,然后YARN->HDFS 4,hive 将表结构存储于额外的数据库,例如mysql,也自带了derty数据库,启动hive之前... 阅读全文

posted @ 2019-03-06 23:45 十七楼的羊阅读(2390) 评论(0) 推荐(0) 编辑

spark 架构

摘要： spark简介: 1,spark 做为数据分析的一种平台，没有数据存储，强调的是基于内存的(相当吃内存)数据分析,内存不够也会磁盘进行计算！ 2,可以运行很多的资源管理平台之上，比如 yarnspark 的启动: 1,通过spark-shell 进行启动（Standalone模式） #整个集群的 cpu 核数,单个节点的的内存 # 指定 master 相当于提交... 阅读全文

posted @ 2019-03-06 01:22 十七楼的羊阅读(166) 评论(0) 推荐(0) 编辑

2019年3月3日

scala编程(其四)集合(list set),lazy变量

摘要： scala 常用方法集合阅读全文

posted @ 2019-03-03 15:43 十七楼的羊阅读(378) 评论(0) 推荐(0) 编辑

公告