会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
dalu610
博客园
首页
新随笔
联系
管理
订阅
2017年2月21日
sqoop导出数据到Oracle,数据重复
摘要: 背景 由于我们公司使用了biee给业务方同学查询数据,很多时候需要在hive计算结果后,导入到oracle中。但是在数据量特别大的时候,经常会出现: Caused by: java.io.IOException: java.sql.SQLException: 关闭的连接查看MR日志,可以发现其中有一
阅读全文
posted @ 2017-02-21 13:54 dalu610
阅读(4341)
评论(0)
推荐(0)
2017年2月6日
likelihood function
摘要: 统计学中,似然函数是给定数据的统计模型的参数的函数。 变量值集合:θ,已知结果x的似然函数和这些观察已知变量值的观察结果的概率相等: 似然函数在离散概率分布和连续概率分布中不同: 离散概率分布: 假设X为一个随机变量,符合离散概率分布p,基于参数θ。则函数为: 被认为是θ的函数,称之为似然函数。 连
阅读全文
posted @ 2017-02-06 19:21 dalu610
阅读(341)
评论(0)
推荐(0)
probability and likelihood
摘要: 假设有一个随机过程(stochastic process)产生离散值(例如,扔10次硬币的结果,10分钟内到达商店的客户数量)。在这些例子中,我们可以对特定的随机过程做出合适的假设,来计算一组特定结果的概率(例如,硬币人先着地的概率为p,并且每次扔硬币时独立的)。 使用O来表示每次观察到的结果,θ表
阅读全文
posted @ 2017-02-06 17:17 dalu610
阅读(187)
评论(0)
推荐(0)
2016年10月25日
Secondary Sort
摘要: The MapReduce framework automatically sorts the keys generated by mappers.This means that,before starting reducers,all intermediate key-value pairs ge
阅读全文
posted @ 2016-10-25 18:55 dalu610
阅读(157)
评论(0)
推荐(0)
2016年10月21日
ORC File Format
摘要: Optimized Row Columnar(ORC)文件格式,提供了一种高效的方式来存储hive数据。它被设计主要是为了克服其他hive文件格式的限制。 主要有以下几个优点: 每一个task只有一个单一的文件 hive类型支持datetime,decimal,complex types(struc
阅读全文
posted @ 2016-10-21 15:49 dalu610
阅读(264)
评论(0)
推荐(0)
2016年8月9日
MapReduce一些优化配置(尝试)
摘要: 最近在阅读hadoop MapReduce的一些配置,以后工作中可以逐步尝试下。
阅读全文
posted @ 2016-08-09 18:09 dalu610
阅读(221)
评论(0)
推荐(0)
2016年4月8日
MapReduce Job Run
摘要: 客户端:提交MapReduce job YARN resouce manager,协调集群计算资源分配 YARN node manager,产生并且监控在集群中的机器上的containers MapReduce application master,协调MapReduce job中运行的task H
阅读全文
posted @ 2016-04-08 09:56 dalu610
阅读(246)
评论(0)
推荐(0)
2016年3月25日
shell多线程编程
摘要: 目前,我要对一个hive表进行处理,主要是对每一个day分区的数据进行处理,我写了一个shell脚本循环的调用对分区数据进行筛选 代码很简单: 但是,我跑一年的数据需要好久,后来我想数据之间又没有什么关系,我应该启个多线程去执行啊,本着学习的态度搜索了下,发现了其实在后面加入&就可以放在后台中执行,
阅读全文
posted @ 2016-03-25 19:48 dalu610
阅读(1517)
评论(0)
推荐(0)
2016年3月22日
tr和sed命令
摘要: tr: tr命令不接受指定的文件参数,而是对标准输入进行编译 使用主要是 tr SET1 SET2 例如 tr ' ' '\11' <height.txt (使用ascii的八进制标示,制表符11,回车15,换行12) tr转换大小写 tr 'a-z' 'A-Z' <word.txt numbers
阅读全文
posted @ 2016-03-22 18:00 dalu610
阅读(286)
评论(0)
推荐(0)
2016年3月18日
Ensemble learning
摘要: 在统计学和机器学习中,ensemble methods(集成学习方法)使用多个学习算法来获取更好的预测表现相比组成他的所有学习方法。 一个机器学习的集成方法通常指一个具体的有限的替代模型集合,但通常允许更加灵活的数据结构存在 监督学习(Supervised learning)算法通常被描述为探索一个
阅读全文
posted @ 2016-03-18 16:22 dalu610
阅读(231)
评论(0)
推荐(0)
下一页
公告