摘要: 分布式计算是把一个需要巨大计算能力的任务分解成若干部分,然后分配给多个计算机来处理,处理完的结果汇总在一起得到最终的结果。 并行计算是在时间上同时运行的计算,并发是在一段时间内处在运行和等待的计算。比如说有两台服务器(进程),并行的数量是2,并发可以是1000, 这样是指在两台服务器上可以有1000 阅读全文
posted @ 2016-10-27 22:01 晨柳溪 阅读(820) 评论(0) 推荐(0) 编辑
摘要: 用途:在做项目总结以及阶段性报告等的时候,可以很好的帮自己对整个工作过程进行梳理和总结,很好的表现出自己分析问题的清晰性、条理性和逻辑性。 定义:STAR法则是情境(situation)、任务(task)、行动(action)、结果(result)四项的缩写。 解析: 情境(situation):指 阅读全文
posted @ 2016-10-24 16:17 晨柳溪 阅读(3714) 评论(0) 推荐(1) 编辑
摘要: 在hive里面表可以创建成分区表,但是当分区字段的值是'' 或者 null时 hive会自动将分区命名为默认分区名称。 默认情况下,默认分区的名称为__HIVE_DEFAULT_PARTITION__ 当然默认分区名称是可配置的。 配置参数是 hive.exec.default.partition. 阅读全文
posted @ 2016-09-28 15:24 晨柳溪 阅读(3554) 评论(0) 推荐(0) 编辑
摘要: 空指针NullPointerException 1 Hive之前的一些BUG [HIVE-9430] - NullPointerException on ALTER TABLE ADD PARTITION if no value given 意思是当为分区表增加新的分区的时候必须指定分区的值 Wro 阅读全文
posted @ 2016-09-28 15:08 晨柳溪 阅读(3529) 评论(0) 推荐(0) 编辑
摘要: 从数据使用者的角度定义,高质量的数据应该是能充分满足用户使用要求的数据。 1:及时性:数据获取是否及时,主要指数据提取、传送、转换、加载、展现的及时性。在数据处理的各个环节,都会涉及到及时性。我们一般考虑两个方面第一就是接口数据是否能够及时的抽取过来。第二就是展现层能否及时的展现出来。 2:完整性: 阅读全文
posted @ 2016-09-12 17:45 晨柳溪 阅读(4066) 评论(0) 推荐(0) 编辑
摘要: 企业数据的管理包含主数据,元数据,交易数据。 主数据是描述企业核心实体的基础数据,比如客户、用户、产品、员工等。 它是具有高业务价值的、可以在企业内跨越各个业务部门被重复使用的数据,并且存在于多个异构的应用系统中。 比如一个产品系统,它处理的基本数据就是生产数据。HR系统处理的基本数据是雇员;CRM 阅读全文
posted @ 2016-09-11 23:41 晨柳溪 阅读(1378) 评论(0) 推荐(0) 编辑
摘要: 定义 进行需求采集之前,首先要清楚“需求”是什么意思,不然像是无头苍蝇只能到处乱撞了。 需求:需即需要,求即欲求,即个体客观或主观上的一种诉求。一般源自于用户理想上与现实中的差距所导致。 举个栗子:有志青年小明一直是简书的忠实用户,他自己也热爱写简书,从小就有个理想能够写出让大家喜爱的文章。现在,他 阅读全文
posted @ 2016-09-11 17:06 晨柳溪 阅读(450) 评论(0) 推荐(0) 编辑
该文被密码保护。 阅读全文
posted @ 2016-09-11 14:58 晨柳溪 阅读(8) 评论(0) 推荐(0) 编辑
摘要: 在hive里面可以通过严格模式防止用户执行那些可能产生意想不到的不好的效果的查询,从而保护hive的集群。 用户可以通过 set hive.mapred.mode=strict 来设置严格模式,改成unstrict则为飞严格模式。 在严格模式下,用户在运行如下query的时候会报错。 1. 分区表的 阅读全文
posted @ 2016-08-29 11:43 晨柳溪 阅读(16933) 评论(0) 推荐(0) 编辑