摘要:
1. 线性代数http://pan.baidu.com/share/link?shareid=418117&uk=9084630932. 概率论ml tutorials:http://homepages.inf.ed.ac.uk/rbf/IAPR/researchers/MLPAGES/mltut.htm概率基础(概率简介,贝叶斯分类器):http://www.autonlab.org/tutorials/prob18.pdfprobability density function介绍(期望,方差,协方差) :http://www.autonlab.org/tutorials/pdf1 阅读全文
摘要:
1.scons是神马?scons是linux下的自动构建工具,类似cmake。2. 安装wget http://prdownloads.sourceforge.net/scons/scons-2.2.0.tar.gz .tar zxvfscons-2.2.0.tar.gzcdscons-2.2.0python setup.py install正常情况下,scons将安装到${PYTHON_INSTALL_DIR}/bin/下3. hello world程序三个文件hello.h hello.c main.c hello.h定义函数void hello(); hello.c中实现该函数,main 阅读全文
摘要:
使用缓存,通常需要注意的问题是一致性的问题,通常做法是:1. http中使用head协议保证2. 每次读取数据client向server发送验证请求i,和1类似3. server记录那些client读取过数据,如果server对数据进行了修改,进行callback形式告知客户端失效,主要的问题是如果server和client通信失败,更新操作将无法继续。另外的实现采用现在的lease机制,server在一段时间内给予client控制修改的权限,如果server想要修改数据,首先需要征得client的同意,如果client同意,那么client需要清空自己的缓存。如果lease过期了,clien 阅读全文
摘要:
Advanced Hadoop Tuning and Optimization - Hadoop Consulting View more PowerPoint from Impetus Technologies 阅读全文
摘要:
分享一个关于hdfs写入流程文档:今天主要的话遇到了这样的一个问题:集群中的配置环境是一台datanode和一台namenode,这时如果在datanode上运行hdfs的客户端上传一个2g的文件 和在namenode上运行同样的程序 个人觉得应该是在datanode上运行的时间短 为什么出现的结果却是相反?运行结果如下:namenode start upload finish upload, cost time: 24240 datanode start upload finish upload, cost time: 69679 阅读全文
摘要:
下面是一些讨论想法:-------------------------------------------------------------------------------------------------------------------------------------------------是不是和timestamp有关Hbase默认的是30s这个时间差,对于时间戳已经太大了rangeserver上有关skew有这段注释:HT_ERROR("Revision(clock)skewdetected!Mayresultindataloss.");是不是每个网络 阅读全文
摘要:
1. 数据写入流程gfs论文中给定的流程如下:1. The client asks the master which chunkserver holdsthe current lease for the chunkan d the locations ofthe other replicas. If no one has a lease, the mastergrants one to a replica it chooses (not shown).2. The master replies with the identity of the primary andthe locations 阅读全文
摘要:
Hfile格式详细介绍 View more documents from xuqianghitsoft 阅读全文
摘要:
Design Patterns for Distributed Non-Relational Databases View more presentations from guestdfd1ec 阅读全文
摘要:
1. 安装hive2. hive实战3. hive存储模型4. 深入hql查询语言5. 参考资料及代码下载<1>. 安装hive下载hive,下载地址http://mirror.bjtu.edu.cn/apache//hive/,解压该文件: xuqiang@ubuntu:~/hadoop/src/hive$ tar zxvf hive-0.7.0-bin.tar.gz 设置环境变量: xuqiang@ubuntu:~/hadoop/src/hive$ cd hive-0.7.0-bin/ xuqiang@ubuntu:~/hadoop/src/hive/hive-0.7.0-bi 阅读全文
摘要:
1. pig简介2. 安装pig3. 实战pig4. 深入pig5. 参考资料及代码下载<1>. Pig简介pig是hadoop项目的一个拓展项目,用以简化hadoop编程(简化的程度超乎想象啊),并且提供一个更高层次抽象的数据处理能力,同时能够保持hadoop的简单和可靠性。<2>. 安装pig2.1 下载pig:[点击下载]pig安装包2.2 解压下载完成的pig安装包:xuqiang@ubuntu:~/hadoop/src/pig$ tar zxvf pig-0.8.1.tar.gz2.3 设置环境变量xuqiang@ubuntu:~$ vim .bashrcex 阅读全文
摘要:
1. Chaining MapReduce Jobs任务链2. Join data from different data source<1>. Changing MapReduce jobs1.1Chaining MapReduce jobs in a sequenceMapReduce程序能够执行一些复杂数据处理的工作,通常的情况下,需要将这个任务task分割成多个较小的subtask,然后每个subtask通过hadoop中的job运行完成,然后教案subtask的结果收集起来,完成这个复杂的task。最简单的就是“顺序”执行了。编程模型也比较简单。我们知道在MapReduc 阅读全文
摘要:
1.WordCount示例及MapReduce程序框架2. MapReduce程序执行流程3. 深入学习MapReduce编程(1)4. 参考资料及代码下载<1>. WordCount示例及MapReduce程序框架首先通过一个简单的程序来实际运行一个MapReduce程序,然后通过这个程序我们来哦那个结一下MapReduce编程模型。下载源程序:/Files/xuqiang/WordCount.rar,将该程序打包成wordcount.jar下面的命令,随便写一个文本文件,这里是WordCountMrtrial,并上传到hdfs上,这里的路径是/tmp/WordCountMrtr 阅读全文