农夫三拳有點疼

15 Hbase的理解

摘要：一、Hbase概念 1 HBase概述 HBase是一个构建在HDFS上的分布式列存储系统； HBase是Apache Hadoop生态系统中的重要一员，主要用于海量结构化数据存储；从逻辑上讲，HBase将数据按照表、行和列进行存储。 Hbase与HDFS对比两者都具有良好的容错性和扩展性，都可阅读全文

posted @ 2019-07-16 16:57 农夫三拳有點疼阅读(32) 评论(0) 推荐(0) 编辑

18 Kafka的理解

摘要：一、 Kafka概述 1-1 Kafka是什么在流式计算中，Kafka一般用来缓存数据，Storm通过消费Kafka的数据进行计算。 1）Apache Kafka是一个开源消息系统，由Scala写成。是由Apache软件基金会开发的一个开源消息系统项目。 2）Kafka最初是由LinkedIn公司阅读全文

posted @ 2019-07-16 09:25 农夫三拳有點疼阅读(30) 评论(0) 推荐(0) 编辑

python中if name == 'main' ：main(()

摘要：例如：如果运行的是主函数的话，执行下一句main() 如果作为模块被其他文件导入使用的话，我们就不执行后面的main()什么的。看个例子：这是一个打印 Hello,world! 的简单程序我们尝试从其他文件调用它：运行test1.py，出现打印了两个Hello,word! ①Hello,w 阅读全文

posted @ 2019-07-15 16:55 农夫三拳有點疼阅读(5468) 评论(0) 推荐(0) 编辑

关联子查询与非关联子查询区别

摘要：子查询可区分为关联子查询和非关联子查询，他们和外层查询之间的执行顺序和关系是不同的。 1. 关联子查询：在关联子查询中，对于外部查询返回的每一行数据，内部查询都要执行一次。另外，关联子查询的信息流是双向的，外部查询的每行数据传递一个值给子查询，然后子查询为每一行数据执行一次并返回它的记录，之后外部阅读全文

posted @ 2019-07-15 11:12 农夫三拳有點疼阅读(2998) 评论(1) 推荐(1) 编辑

0 Spark完成WordCount操作

摘要：先看下结果： pom.xml: 1、项目目录下新建aa.txt文件 2、scala版本 WordCount3.scala 3、运行结果：阅读全文

posted @ 2019-07-12 14:23 农夫三拳有點疼阅读(216) 评论(0) 推荐(0) 编辑