随笔 - 404
文章 - 0
评论 - 1037
阅读 -
136万
09 2012 档案
[hadoop]备份
摘要:它将每个Key的HashCode对总reducer数取模,转换成partion index。个人理解这样做有两个目的:所有相同Key的数据在一个Reducer内处理尽量均匀的将数据分配到各个Reducer但毫无疑问,HashPartitioner不能保证它的Partion之间的有序。为了保证Partion之间的有序,TeraSort定义了一个TotalOrderPartitioner。 TotalOrderPartitioner首先要解决的问题是,partitioner发生在map里,而每个mapper只处理它自己的一份split数据,它如何知道它所处理的数据在全局所有输入数据里的位置?
阅读全文
备忘
摘要:1.字符串处理,资源整理用脚本perl2.算法正式版实现用C/C++3.如果算法实验的过程中涉及到矩阵和数学运算,或者是嵌套形式的hash用python4.字符串统一用char,不要搞一些稀奇古怪的字符类型,否则不好移植。5.算法版本分为实验版本和正式版本,实验版本主要是验证思想;正式版本要做注意格式等,因为要拿出去和别人交流。另外正式版本的代码必须要有异常捕获等级制。好的代码是没有“意外”的,任何失败情况都应该从LOG中找到相应的解释。6.程序内部应该实现不合法情况的校验,而不是仅在程序注释或者文档中写一大堆注意事项,因为写了也白写,你下方调用的人根本不会看。7. 载入的文件名都用const
阅读全文
工作环境配置把vim 配置成IDE
摘要:http://z515256164.blog.163.com/blog/static/324430292012113102814293/
阅读全文
ps aux指令说明
摘要:http://wenku.baidu.com/view/0a0be3a8d1f34693daef3ee2.html
阅读全文