摘要:
2011年,twitter的“一小撮”工程师为了提高他们内部的分析和管理能力,用业余时间为他们的产品构建了一套易用、优雅、灵活、可扩展的前端工具集--BootStrap。Bootstrap由MARK OTTO和Jacob Thornton所设计和建立,在github上开源之后,迅速成为该站上最多人watch&fork的项目。大量工程师踊跃为该项目贡献代码,社区惊人地活跃,代码版本进化非常快速,官方文档质量极其高(可以说是优雅),同时涌现了许多基于Bootstrap建设的网站:界面清新、简洁;要素排版利落大方。如下图所示: ... 阅读全文
摘要:
不经意,实验室的Hadoop集群也运行了一年多了,数据量和log都在日增。最近准备开始新的项目,于是简单地给集群加几块硬盘,来做些地学数据挖掘的工作。Hadoop扩容是非常简单的事情。具体步骤如下: 1.增加我们的硬件,在终端用如下命令查看,系统device的情况。fdisk -l 能够查看到各个硬盘(光驱、NFS等)的详细情况。具体的参数意义请参考http://linux.about.com/od/commands/l/blcmdl8_fdisk.htm 2.由于是新增加的设备,需要将其格式化成为我们所需要的文件系统类型(ext3,ext4等),我们通常使用mkfs命令来实现,具体参... 阅读全文
摘要:
HBase 是一个开源的非关系(NoSQL)的可伸缩性分布式数据库。它是面向列的,并适合于存储超大型松散数据。HBase适合于实时,随机对Big数据进行读写操作的业务环境。关于HBase的更多介绍请参见HBase项目官网。 本文环境与上一讲--完全分布式Hadoop集群配置一致。OS是Ubuntu Server 10.04,HBase版本是0.20.6。 HRegionServer&HQuorumPeer:dm1,IP:192.168.0.17; HRegionServer&HQuorumPeer:dm2,IP:192.168.0.18; HRegionServer&H 阅读全文
摘要:
本来这篇文章该在去年11月底写出来的,被各种繁杂的事情所烦扰,再者网络上也有非常多比较完善的配置的文章,但是依旧是表述不太清晰。依旧写个Step By Step的教程,留待己用。 Hadoop的部署环境是经过虚拟化之后的四台主机,OS是Ubuntu Server10.04。(XenServer5.6兼容的OS并不包括Ubuntu,将Ubuntu转成PV也是一个折腾的过程,另文介绍)。Hadoop的版本号依旧是:0.20.2.安装Java环境如上一讲所示。 主机名及其IP地址对应如下: Slave&TaskTracker:dm1,IP:192.168.0.17;(d... 阅读全文
摘要:
这篇文章与上一篇的回归分析是一次实习作业整理出来的。所以参考文献一并放在该文最后。CNBlOG网页排版太困难了,又不喜欢live writer……聚类分析是将物理或者抽象对象的集合分成相似的对象类的过程。本次实验我将对同一批数据做两种不同的类型的聚类;它们分别是系统聚类和K-mean聚类。其中系统聚类的聚类方法也采用3种不同方法,来考察对比它们之间的优劣。由于没有样本数据,因此不能根据其数据做判别分析。评价标准主要是观察各聚类方法的所得到的类组间距离和组内聚类的大小。分析数据依然采用线性回归所使用的标准化后的能源消费数据。1.1 系统聚类本次实验的系统聚类都是凝聚系统聚类,为了控制变量,都.. 阅读全文
摘要:
线性回归数据来自于国泰安数据服务中心的经济研究数据库。网址:http://www.gtarsc.com/p/sq/。数据名称为:全国各地区能源消耗量与产量,该数据的年度标识为2006年,地区包括我国30个省,直辖市,自治区(西藏地区无数据)。1.1 数据预处理数据预处理包括的内容非常广泛,包括数据清理和描述性数据汇总,数据集成和变换,数据归约,数据离散化等。本次实习主要涉及的数据预处理只包括数据清理和描述性数据汇总。一般意义的数据预处理包括缺失值填写和噪声数据的处理。于此我们只对数据做缺失值填充,但是依然将其统称数据清理。1.1.1 数据导入与定义单击“打开数据文档”,将xls格式的全国各地. 阅读全文
摘要:
关于Hbase的介绍,可以参见http://wiki.apache.org/hadoop/Hbase与http://en.wikipedia.org/wiki/HBase。本文主要介绍在Ubuntu10.04环境下安装配置单机版原生的HBase。在网络上找到的文章要么语焉不详,要么ungeliable.于是记录一下自己的安装配置过程,做个STEP BY STEP的图文并茂的教程,谨防自己以后忘记 。 安装Hbase其实主要是配置好java环境以及Hadoop与Hbase的配置文件。 1.安装并配置Java环境。在Ubuntu10.04默认的源使用的OpenJDK,在某些应... 阅读全文
摘要:
这个系列的笔记只是用来记录我学习HBase的一些琐碎的过程,同时作为备忘录。 单位目前在做地理云方向的研究,准备使用NoSQL来管理地理数据。于是我就先做一些关于HBase方向的探索和学习。本文没有具体涉及到HBase,只是记录在部署Hbase之前在UBuntu上遇到的一些问题。 工作环境是UBuntu 10.04LTS,由于单位用的是无线网络,在HP台式机上使用的是D-Link DWL G122(c1)型号的USB无线网卡。在系统安装完成之后,有接收到单位的无线信号,就是连接不上网络。该型号的无线网卡芯片微r73,在ubuntu8.04之后就被完全支持了,所以没有必要使用... 阅读全文
摘要:
基于GIS的文献检索思维导图,是根据武汉大学资环学院地图制图系艾廷华教授的课件制作而成,版权所有,转载请标注。 欢迎访问我的独立博客:http://ventlam.appspot.com,与在下交流更多关于GIS与空间数据挖掘的知识和信息。 阅读全文
摘要:
数据库的事务管理核心是:ACID。本文主要涉及的是其中的原子性(Atomic)。原子性,遵循“All or Nothing”原则。简单地来说就是将任意多个SQL语句看作一个整体,只有所有的这些SQL全部成功执行了,DBMS才会保存对数据库的修改,称之为事务提交;否则,数据库恢复到SQL语句执行前的状态,称之为事务回滚。不同数据库有不同版本的回滚版本。 JDBC下有两种事务模式分别为隐式和显式模式。前者是JDBC下默认开启的,不必通过事务提交,直接将修改的数据保存在数据库中。后者使用setAutoCommit 方法来将隐式转换成显式模式,手工提交事务,即是说显示模式需要使用comm... 阅读全文