摘要: 转载自 Spark Streaming 使用 阅读全文
posted @ 2017-08-07 20:51 新际航 阅读(156) 评论(0) 推荐(0) 编辑
摘要: 转载自: Spark SQL、DataFrame和Datase 阅读全文
posted @ 2017-08-07 20:48 新际航 阅读(143) 评论(0) 推荐(0) 编辑
摘要: 转载自:http://blog.csdn.net/wo334499/article/details/51689549 RDD 优点: 缺点: DataFrame DataFrame引入了schema和off-heap schema : RDD每一行的数据, 结构都是一样的. 这个结构就存储在sche 阅读全文
posted @ 2017-08-07 20:47 新际航 阅读(731) 评论(0) 推荐(0) 编辑
摘要: 转载自: spark总结 第一个Spark程序 关于RDD 弹性分布式数据集(RDD)是分布式处理的一个数据集的抽象,RDD是只读的,在RDD之上的操作都是并行的。实际上,RDD只是一个逻辑实体,其中存储了分布式数据集的一些信息,并没有包含所谓的“物理数据”,“物理数据”只有在RDD被计算并持久化之 阅读全文
posted @ 2017-08-07 20:42 新际航 阅读(972) 评论(0) 推荐(0) 编辑
摘要: 本文转载自: spark的运行方式 本文主要讲述运行spark程序的几种方式,包括:本地测试、提交到集群运行、交互式运行 等。 在以下几种执行spark程序的方式中,都请注意master的设置,切记。 运行自带样例 可以用 run-example 执行spark自带样例程序,如下: 或者同样的: 交 阅读全文
posted @ 2017-08-07 20:40 新际航 阅读(409) 评论(0) 推荐(0) 编辑
摘要: 数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。 (1) 面向主题:指数据仓库中的数据是按照一定的主题域进行组织。 阅读全文
posted @ 2017-07-30 18:06 新际航 阅读(2895) 评论(0) 推荐(0) 编辑
摘要: 使用log4j来管理日志信息,非常方便,下面简单介绍一下整个使用流程: 1.创建简单java项目 2.在类路径下新建log4j.properties文件 3.配置log4j.properties文件 log4j.rootLogger=DEBUG,CONSOLE,FILE,DATABASElog4j. 阅读全文
posted @ 2017-07-17 11:49 新际航 阅读(191) 评论(0) 推荐(0) 编辑
摘要: 在配置hadoop的hdfs的时候,要首先格式化,然后才能启动,但是格式化的方式有的是不对出现Initialization failed for Block pool <registering> (Datanode Uuid unassigned) ,比如直接使用命令 这种方式貌似还停留在hadoo 阅读全文
posted @ 2017-07-13 09:22 新际航 阅读(3008) 评论(0) 推荐(0) 编辑
摘要: kafka相关内容说明: Kafka压缩 Kafka端到端审计 kafka数据可靠性深度解读 Kafka发送超过broker限定大小的消息时Client和Broker端各自会有什么异常? Kafka之sync、async以及oneway Kafka文件存储机制那些事 如何使用JMX监控Kafka 来 阅读全文
posted @ 2017-07-01 10:51 新际航 阅读(145) 评论(0) 推荐(0) 编辑
摘要: 文章转载自: http://blog.csdn.net/u013256816/article/details/71091774 阅读全文
posted @ 2017-07-01 10:47 新际航 阅读(104) 评论(0) 推荐(0) 编辑