新际航

2017年8月7日

摘要：转载自 Spark Streaming 使用阅读全文

posted @ 2017-08-07 20:51 新际航阅读(157) 评论(0) 推荐(0) 编辑

摘要：转载自: Spark SQL、DataFrame和Datase 阅读全文

posted @ 2017-08-07 20:48 新际航阅读(145) 评论(0) 推荐(0) 编辑

摘要：转载自:http://blog.csdn.net/wo334499/article/details/51689549 RDD 优点: 缺点: DataFrame DataFrame引入了schema和off-heap schema : RDD每一行的数据, 结构都是一样的. 这个结构就存储在sche 阅读全文

posted @ 2017-08-07 20:47 新际航阅读(733) 评论(0) 推荐(0) 编辑

spark总结——转载

摘要：转载自: spark总结第一个Spark程序关于RDD 弹性分布式数据集(RDD)是分布式处理的一个数据集的抽象，RDD是只读的，在RDD之上的操作都是并行的。实际上，RDD只是一个逻辑实体，其中存储了分布式数据集的一些信息，并没有包含所谓的“物理数据”，“物理数据”只有在RDD被计算并持久化之阅读全文

posted @ 2017-08-07 20:42 新际航阅读(981) 评论(0) 推荐(0) 编辑

spark的运行方式——转载

摘要：本文转载自: spark的运行方式本文主要讲述运行spark程序的几种方式，包括：本地测试、提交到集群运行、交互式运行等。在以下几种执行spark程序的方式中，都请注意master的设置，切记。运行自带样例可以用 run-example 执行spark自带样例程序，如下：或者同样的：交阅读全文

posted @ 2017-08-07 20:40 新际航阅读(416) 评论(0) 推荐(0) 编辑

2017年7月30日

数据库与数据仓库的比较Hbase——Hive

摘要：数据仓库（Data Warehouse）是一个面向主题的（Subject Oriented）、集成的（Integrate）、相对稳定的（Non-Volatile）、反映历史变化（Time Variant）的数据集合，用于支持管理决策。（1）面向主题：指数据仓库中的数据是按照一定的主题域进行组织。阅读全文

posted @ 2017-07-30 18:06 新际航阅读(2900) 评论(0) 推荐(0) 编辑

2017年7月17日

log4j 配置使用

摘要：使用log4j来管理日志信息,非常方便，下面简单介绍一下整个使用流程: 1.创建简单java项目 2.在类路径下新建log4j.properties文件 3.配置log4j.properties文件 log4j.rootLogger=DEBUG,CONSOLE,FILE,DATABASElog4j. 阅读全文

posted @ 2017-07-17 11:49 新际航阅读(196) 评论(0) 推荐(0) 编辑

2017年7月13日

hadoop Datanode Uuid unassigned

摘要：在配置hadoop的hdfs的时候,要首先格式化,然后才能启动,但是格式化的方式有的是不对出现Initialization failed for Block pool <registering> (Datanode Uuid unassigned) ,比如直接使用命令这种方式貌似还停留在hadoo 阅读全文

posted @ 2017-07-13 09:22 新际航阅读(3057) 评论(0) 推荐(0) 编辑

2017年7月1日

kafka相关文章引用

摘要： kafka相关内容说明: Kafka压缩 Kafka端到端审计 kafka数据可靠性深度解读 Kafka发送超过broker限定大小的消息时Client和Broker端各自会有什么异常？ Kafka之sync、async以及oneway Kafka文件存储机制那些事如何使用JMX监控Kafka 来阅读全文

posted @ 2017-07-01 10:51 新际航阅读(145) 评论(0) 推荐(0) 编辑

kafka可靠性

摘要：文章转载自: http://blog.csdn.net/u013256816/article/details/71091774 阅读全文

posted @ 2017-07-01 10:47 新际航阅读(105) 评论(0) 推荐(0) 编辑

公告