2019年7月16日

15 Hbase的理解

摘要: 一、Hbase概念 1 HBase概述 HBase是一个构建在HDFS上的分布式列存储系统; HBase是Apache Hadoop生态系统中的重要一员,主要用于海量结构化数据存储; 从逻辑上讲,HBase将数据按照表、行和列进行存储。 Hbase与HDFS对比 两者都具有良好的容错性和扩展性,都可 阅读全文

posted @ 2019-07-16 16:57 农夫三拳有點疼 阅读(30) 评论(0) 推荐(0) 编辑

18 Kafka的理解

摘要: 一、 Kafka概述 1-1 Kafka是什么 在流式计算中,Kafka一般用来缓存数据,Storm通过消费Kafka的数据进行计算。 1)Apache Kafka是一个开源消息系统,由Scala写成。是由Apache软件基金会开发的一个开源消息系统项目。 2)Kafka最初是由LinkedIn公司 阅读全文

posted @ 2019-07-16 09:25 农夫三拳有點疼 阅读(28) 评论(0) 推荐(0) 编辑

2019年7月15日

python中if __name__ == '__main__' :main(()

摘要: 例如: 如果运行的是主函数的话,执行下一句main() 如果作为模块被其他文件导入使用的话,我们就不执行后面的main()什么的。 看个例子: 这是一个打印 Hello,world! 的简单程序 我们尝试从其他文件调用它: 运行test1.py,出现打印了两个Hello,word! ①Hello,w 阅读全文

posted @ 2019-07-15 16:55 农夫三拳有點疼 阅读(5423) 评论(0) 推荐(0) 编辑

关联子查询与非关联子查询区别

摘要: 子查询可区分为关联子查询和非关联子查询,他们和外层查询之间的执行顺序和关系是不同的。 1. 关联子查询: 在关联子查询中,对于外部查询返回的每一行数据,内部查询都要执行一次。另外,关联子查询的信息流是双向的,外部查询的每行数据传递一个值给子查询,然后子查询为每一行数据执行一次并返回它的记录,之后外部 阅读全文

posted @ 2019-07-15 11:12 农夫三拳有點疼 阅读(2965) 评论(1) 推荐(1) 编辑

2019年7月12日

0 Spark完成WordCount操作

摘要: 先看下结果: pom.xml: 1、项目目录下新建aa.txt文件 2、scala版本 WordCount3.scala 3、运行结果: 阅读全文

posted @ 2019-07-12 14:23 农夫三拳有點疼 阅读(214) 评论(0) 推荐(0) 编辑

导航