dalu610

2017年2月21日

摘要：背景由于我们公司使用了biee给业务方同学查询数据，很多时候需要在hive计算结果后，导入到oracle中。但是在数据量特别大的时候，经常会出现: Caused by: java.io.IOException: java.sql.SQLException: 关闭的连接查看MR日志，可以发现其中有一阅读全文

posted @ 2017-02-21 13:54 dalu610 阅读(4348) 评论(0) 推荐(0)

2017年2月6日

likelihood function

摘要：统计学中，似然函数是给定数据的统计模型的参数的函数。变量值集合：θ,已知结果x的似然函数和这些观察已知变量值的观察结果的概率相等：似然函数在离散概率分布和连续概率分布中不同：离散概率分布：假设X为一个随机变量，符合离散概率分布p，基于参数θ。则函数为: 被认为是θ的函数，称之为似然函数。连阅读全文

posted @ 2017-02-06 19:21 dalu610 阅读(347) 评论(0) 推荐(0)

probability and likelihood

摘要：假设有一个随机过程(stochastic process)产生离散值(例如，扔10次硬币的结果，10分钟内到达商店的客户数量）。在这些例子中，我们可以对特定的随机过程做出合适的假设，来计算一组特定结果的概率（例如，硬币人先着地的概率为p,并且每次扔硬币时独立的)。使用O来表示每次观察到的结果，θ表阅读全文

posted @ 2017-02-06 17:17 dalu610 阅读(191) 评论(0) 推荐(0)

2016年10月25日

Secondary Sort

摘要： The MapReduce framework automatically sorts the keys generated by mappers.This means that,before starting reducers,all intermediate key-value pairs ge 阅读全文

posted @ 2016-10-25 18:55 dalu610 阅读(157) 评论(0) 推荐(0)

2016年10月21日

ORC File Format

摘要： Optimized Row Columnar(ORC)文件格式，提供了一种高效的方式来存储hive数据。它被设计主要是为了克服其他hive文件格式的限制。主要有以下几个优点: 每一个task只有一个单一的文件 hive类型支持datetime,decimal,complex types(struc 阅读全文

posted @ 2016-10-21 15:49 dalu610 阅读(270) 评论(0) 推荐(0)

2016年8月9日

MapReduce一些优化配置（尝试）

摘要：最近在阅读hadoop MapReduce的一些配置，以后工作中可以逐步尝试下。阅读全文

posted @ 2016-08-09 18:09 dalu610 阅读(223) 评论(0) 推荐(0)

2016年4月8日

MapReduce Job Run

摘要：客户端：提交MapReduce job YARN resouce manager,协调集群计算资源分配 YARN node manager,产生并且监控在集群中的机器上的containers MapReduce application master,协调MapReduce job中运行的task H 阅读全文

posted @ 2016-04-08 09:56 dalu610 阅读(247) 评论(0) 推荐(0)

2016年3月25日

shell多线程编程

摘要：目前，我要对一个hive表进行处理，主要是对每一个day分区的数据进行处理，我写了一个shell脚本循环的调用对分区数据进行筛选代码很简单：但是，我跑一年的数据需要好久，后来我想数据之间又没有什么关系，我应该启个多线程去执行啊，本着学习的态度搜索了下，发现了其实在后面加入&就可以放在后台中执行，阅读全文

posted @ 2016-03-25 19:48 dalu610 阅读(1519) 评论(0) 推荐(0)

2016年3月22日

tr和sed命令

摘要： tr: tr命令不接受指定的文件参数，而是对标准输入进行编译使用主要是 tr SET1 SET2 例如 tr ' ' '\11' <height.txt （使用ascii的八进制标示,制表符11,回车15，换行12) tr转换大小写 tr 'a-z' 'A-Z' <word.txt numbers 阅读全文

posted @ 2016-03-22 18:00 dalu610 阅读(289) 评论(0) 推荐(0)

2016年3月18日

Ensemble learning

摘要：在统计学和机器学习中，ensemble methods(集成学习方法）使用多个学习算法来获取更好的预测表现相比组成他的所有学习方法。一个机器学习的集成方法通常指一个具体的有限的替代模型集合，但通常允许更加灵活的数据结构存在监督学习(Supervised learning)算法通常被描述为探索一个阅读全文

posted @ 2016-03-18 16:22 dalu610 阅读(232) 评论(0) 推荐(0)

公告