2013年5月30日

杂记

摘要: 服务管理:service.msc visio图调入word中有大片空白:在word中右击图片——“VISIO”对象——打开,在visio中按住ctrl键调整图片边缘画布大小,保存即可。也可以在visio中做同样操作,但就不是标准页了。 开启hadoop中的一个单节点: bin/hadoop-daem 阅读全文

posted @ 2013-05-30 14:29 _Deron_ 阅读(586) 评论(0) 推荐(0) 编辑

2013年5月29日

迭代式MapReduce——资料

摘要: 使用MapReduce进行迭代计算,最为直接的方法是,将多个MapReduce任务组成链。这种方式需要一个额外的MapReduce任务对迭代进行控制,而且,迭代中会进行多次I/O操作(相对于Hadoop而已)。为了在根本上解决这些问题,提出了Hadoop适于迭代计算的改进版——HaLoop。有关迭代MapReduce一些比较好的资料:MapReduce Simplied Data Processing on Large ClustersHadoop环境的安装By徐伟Parallel K-Means Clustering Based on MapReduce《Hadoop权威指南》的第一章... 阅读全文

posted @ 2013-05-29 10:56 _Deron_ 阅读(867) 评论(0) 推荐(0) 编辑

2013年5月23日

HBase

摘要: HBase是在HDFS上开发的面向列的分布式数据库,适合的问题空间:在廉价硬件构成的集群上管理超大规模的稀疏表。概念hbase中的表由行和列组成。每一个单元格都是有版本的,即时间戳。单元格的内容是未解释的字节数组。每一个单元格都对应一行和一列。表中的行根据主键进行排序,排序根据字节序进行。行中的列分成列族,列族和列族修饰符中间用冒号(:)隔开,列族必须有可打印的字符组成,列族修饰符则可以是任意字节。一个表的列族必须作为表模式定义的一部分预先给出,但新的列族成员可以随后加入。物理上,所有的列族成员都一起存放在文件系统中。调优和存储都是在列族这个层次上进行的。所以最好使所有的列族成员都有相同的“访 阅读全文

posted @ 2013-05-23 17:37 _Deron_ 阅读(325) 评论(0) 推荐(0) 编辑

2013年5月22日

数据可视化之美(Beautiful Visualization) Julie Steele & Noah Iliinsky

摘要: 来实验室近两年,涉猎了web前端、web服务、数据库、数据挖掘、云计算等多个方面的内容,但觉得最有意思的要数可视化了。可视化本身就跟人一种美的感受,01世界的美丽是常人难于理解的,可视化恰恰就作为了一个桥梁,在人与计算机之间牵起了红线。在做个人研究的间隙,常常会找一些不太费脑细胞的书籍翻一翻,由此,《数学之美》、《浪潮之巅》这些书常常摆在书堆的最上面。《数据可视化之美》这本书借了许久,由于是小组内一同门研究领域内的部分,所以长期寄养在她处。前几日发现归还日期将至,才想起要翻上一番,竟激起了我继续阅读的兴趣。前几日看到newyork times 一个信息传播的可视化视频,觉得非常的了不起,... 阅读全文

posted @ 2013-05-22 21:59 _Deron_ 阅读(616) 评论(0) 推荐(0) 编辑

2013年5月20日

空间索引

摘要: 在MongoDB中用到空间索引,这里对空间索引做一个知识回顾。什么是索引呢?索引的目的是便于快速检索到需要的要素。图书目录是最常见的索引,我想看《三国演义》里面诸葛亮舌战群儒的桥段,只需要翻看目录,找到相应的章节和页码。如果没有索引,就要一页一页的翻了,可想效率之低。索引本身是空间数据与网格或其他载体的对应关系。构建索引必然会增加数据量,构建索引时,要根据具体情况做相应处理。空间索引,顾名思义就是对空间物体建立索引,提高空间物体的查询效率。比较常见的空间索引包括网格索引和四叉树索引。点的索引比较简单,线和面的索引主要是首先构建最小外包矩形,对最小外包矩形构建索引,检索到外包矩形之后,在进行复杂 阅读全文

posted @ 2013-05-20 10:56 _Deron_ 阅读(246) 评论(0) 推荐(0) 编辑

2013年5月2日

Mahout初体验

摘要: Mahout 是一套具有可扩充能力的机器学习类库。目前,最新版本为0.7,主要提供推荐引擎算法、分类算法和聚类算法。该类库既可以单机环境下使用,也可以在hadoop集群中使用。具体Mahout的介绍可以参考:1、http://www.ibm.com/developerworks/cn/java/j-mahout/2、http://mahout.apache.org/实际应用中,可以将其相关包加入个人项目,使用已经封装好的jar包,即类库。作为研究,可以将Mahout最为一个单独的工程“检出”,在eclipse中单独处理,并对源码进行修改。基于应用和研究的不同,对mahout的处理就有所不同。一 阅读全文

posted @ 2013-05-02 16:46 _Deron_ 阅读(777) 评论(0) 推荐(0) 编辑

2013年4月30日

ubuntu中使用无线网卡

摘要: 最近做hadoop相关开发,考虑到在linux下编程会省很多功夫,做虚拟机会影响本机到其他程序的使用体验,同时身边又有台闲置电脑,所以就想做个ubuntu linux系统。苦于实验室每人只有一根网线,所以动了使用无线网卡的念头。大多数厂家只提供windows下的驱动程序,若要在ubuntu linux下使用无线网卡,必须费一番周折。从网上搜了搜,找到一些资料,经测试,可用。详细步骤写下来,以备后用。提前准备好的相关软件包:1、ndiswrapper,下载地址:http://sourceforge.net/projects/ndiswrapper/files/2、windows xp下的驱动程序 阅读全文

posted @ 2013-04-30 22:05 _Deron_ 阅读(2872) 评论(0) 推荐(0) 编辑

2013年3月31日

HBase导入导出

摘要: 表blogposts中的数据可以被导出到本地文件系统或者HDFS中。要导出数据到本地文件系统,可以这样做:bin/hbase org.apache.hadoop.hbase.mapreduce.Driverexport blogpostspath/to/local/filesystem要导出同一份数据到HDFS中,则这么做:bin/hbase org.apache.hadoop.hbase.mapreduce.Driverexport blogpostshdfs://namenode/path/to/hdfs除了导出,也可以导入数据到HBase表中。可以从本地文件系统或者HDFS导入数据。与导 阅读全文

posted @ 2013-03-31 20:31 _Deron_ 阅读(2529) 评论(0) 推荐(0) 编辑

2013年3月22日

hadoop学习笔记(二)hadoop I/O

摘要: 数据完整性检测数据是否损坏的常见措施是,在数据第一次引入系统时计算校验和(checksum)。并在数据通过一个不可靠地通道进行传输时再次计算校验和,这样就能发现数据是否损坏。当然校验和也是可能损坏的,由于校验和相对于数据小很多,所以损坏的可能性十分小。常见的错误检测码是CRC-32(循环冗余校验),任何大小的数据输入均计算得到一个32位的整数校验和。HDFS的数据完整性有io.bytes.per.checksum指定字节的数据计算校验和。默认为512个字节,而CRC-32校验和是4个字节,所以存储校验和的而外开销低于1%每个datanode都持久保存一个校验和日志。datanode会在后台运行 阅读全文

posted @ 2013-03-22 11:43 _Deron_ 阅读(461) 评论(0) 推荐(0) 编辑

2013年3月18日

hadoop学习笔记(一)hadoop分布式文件系统

摘要: 超大文件;流式数据访问,一次写入多次读取;商用硬件,庞大的集群遇到少部分节点故障时,任然更够继续运行,且用户察觉不到中断;不适合低时间延迟的数据访问,对于低时间延迟的需求,可以考虑hbase;大量小文件的元数据会占用namenode过多的内存资源;hdfs只能有一个writer,写操作总是将数据添加至文件末尾。不支持多个写入者操作,也不支持文件在任意位置修改。HDFS的概念数据块磁盘系统有块的概念,指磁盘进行数据读写的最小单位,一般为512字节;HDFS中的块默认为64M,一个大的文件被划分为多个分块,作为独立的存储单元。注意,HDFS中小于一个块大小的文件不会占据整个块的空间,存储小文件会增 阅读全文

posted @ 2013-03-18 14:44 _Deron_ 阅读(746) 评论(0) 推荐(0) 编辑

导航