摘要:
http://www.cnblogs.com/yhlx125/p/5478147.html 阅读全文
摘要:
project:ChainOD_demo 输入:0803-0830出行链 输出: 过程:首先将进站时间戳处理成97-1440范围内的数(因为是从3号开始的),即根据时间戳就能知道这条记录在哪个段内,并将reducer的数目设置为1500,同一个时间段的记录放在同一个reducer里面,这样就能每个r 阅读全文
摘要:
原文:http://blog.pluskid.org/?p=39 每个 GMM 由 个 Gaussian 分布组成,每个 Gaussian 称为一个“Component”,这些 Component 线性加成在一起就组成了 GMM 的概率密度函数: 根据上面的式子,如果我们要从 GMM 的分布中随机地 阅读全文
摘要:
其实需要了解泊松混合模型,但是因为资源很少的关系,先了解下泊松模型 这篇文章大体介绍了泊松模型的推导和意义 阅读全文
摘要:
按照这篇文章:this one 安装目录:/usr/local/hadoop/hadoop-2.5.2/hive/apache-hive-1.2.2-bin 最后完成了在主机hadoop伪分布式中Hive安装 启动hadoop后 阅读全文
摘要:
一篇超级详细的文章:this one 读完之后感触颇深,什么时候在map的时候join什么时候在reducer的时候join 之前写两个输入的时候,写的多么可笑,效率极低。 先用了一遍这篇文章的分布式缓存,在reduce的时候读取,因为hadoop版本太低,所以又做了修改,结合好几篇文章结果: 版本 阅读全文
摘要:
电脑配置是ubuntu 16.04 我给eclipse安装hadoop插件,新建map/reducer项目,写好之后,若在eclipse上点击run on hadoop,实则是在自己电脑上运行(具体为什么是这样子,还不清楚) 所以,试着打包成jar包远程登入集群,hadoop jar命令运行,但是遇 阅读全文
摘要:
参考文献:https://my.oschina.net/hetiangui/blog/143364 root登入集群后: 和文章中不同的是,在最后运行代码是提示,permission denied的错误,最后使用下面代码,而不是参考文章中的/tmp 也可能原因,我配置了环境变量为HADOOP_USE 阅读全文