摘要:
大的归类三个方面: 一 数据质量 1 数据的完整性: 所有的所都符合BI业务需求。 2 数据的一致性: 经过数据清洗转化(ETL)能和数据源保持一致。 3 数据的精准性: 在不同的业务规则和业务情景下,值都是正确的。 二 数据性能:数据仓库能够给用户报表和不用的query提供好的性能 三 数据安全行 阅读全文
摘要:
下图是演示了Combiner的好处 因为我们知道Hadoop的好处在于集群中有很多小的机器,组成了一个庞大的集群,把一个大的计算任务后者说复杂的计算过程分发到了一个个小的机器上面。但是这个集群一个致命或者是不好的就是大部分会花在磁盘IO上面,如果我们把这部分时间节省了,也就加快了MR的速度,因为Ma 阅读全文
摘要:
MapReduce的整个运行分为两个阶段: Map和Reduce Map阶段由一定数量的Map Task组成 输入格式的数据格式化:InputFormat 数日数据的处理:Mapper 数据分组:Partitioner 下面流程图: 1. Map task 首先从HDFS上Read文件,通过Inpu 阅读全文
摘要:
环境:Python 3.6 原因是 Python 3 中没有next(), 而是__next__(self) 代替 阅读全文
摘要:
环境:Python 3.6 File "<ipython-input-20-ac8d4b51998e>", line 2 print "%s\t%s"%(word,"1") ^ SyntaxError: invalid syntax Root Case: Python3 语法错误,print后要跟( 阅读全文
摘要:
1. 找到python文件目录, 用管理员身份打开powershell python -m pip install jupyter 2. Jupyter notebook 阅读全文
摘要:
最近在研究log4j。在Log4j官网下载了tar.gz.文件。解压时候出现错误。 1. wget https://www.apache.org/dyn/closer.lua/logging/log4j/2.10.0/apache-log4j-2.10.0-bin.tar.gz. 很顺利压缩包下载了 阅读全文
摘要:
schematool -initSchema -dbType mysqlMetastore connection URL: jdbc:mysql://localhost/metastore_db?createDatabaseIfNotExist=trueMetastore Connection Dr 阅读全文