Jason Koo

      Stay hungry, Stay foolish!

导航

2012年12月26日

摘要: mesos的具体安装过程可以参考我的上一篇日志《mesos安装总结》。本篇日志主要介绍在mesos之上安装Hadoop。mesos0.9.0的解压包中包含了Hadoop 0.20.205.0版本及相应的补丁程序。可以使用mesos自带的Hadoop来进行安装。下面的安装过程会用到master结点上解压并build好的mesos目录,具体过程请参见mesos安装总结。在下面总结过程中使用<mesos>来指代解压并build好的mesos目录,用<prefix>代指mesos的安装目录。具体安装Hadoop的过程如下所示:(1) 在master结点上,进入文件夹<me 阅读全文

posted @ 2012-12-26 22:37 Jason Koo 阅读(2529) 评论(0) 推荐(0) 编辑

摘要: 近期的一项任务是对比Hadoop和Spark两种分布式计算框架的迭代性能,为了更加充分合理地管理集群中的资源,用到了mesos这种资源管理平台。mesos最初是UC Berkeley AMP实验室的一个研究项目,后来开源,并加入Apache,成为一个孵化器项目。 从其主页可以了解到mesos是一种集群管理器,它为不同的分布式应用或框架提供高效的资源隔离与共享服务。在mesos上面可以运行Hadoop, MPI, Hypertable, Spark和其他应用。 mesos的用途有四点:1. 在一个动态共享的结点池中运行Hadoop, MPI, Spark和其他框架 2. 在同一个集... 阅读全文

posted @ 2012-12-26 20:47 Jason Koo 阅读(6631) 评论(3) 推荐(0) 编辑

2012年11月14日

摘要: Python是一种动态的解释型语言。编写Python程序时不需要声明变量或方法参数的类型,这使得Python代码简洁灵活,但是缺点是你失去了编译时类型检查的功能。下面是在阅读Google's Python Class的Python Introduction时的一些收获,总结如下:1. 包含Python源代码的文件一般以.py作为扩展名,一个Python源文件称作一个模块。例如文件“example.py”被称为模块“example”。每个模块可以单独运行,也可以被其他模块调用。单独运行的模块中要加入main函数;引用某一模块可以使用import + 模块名。在模块A中引用了模块B后,在A 阅读全文

posted @ 2012-11-14 17:35 Jason Koo 阅读(271) 评论(0) 推荐(0) 编辑

2012年11月8日

摘要: 异或是一种基于二进制的位运算,用符号XOR或者 ^ 表示,其运算法则是对运算符两侧数的每一个二进制位,同值取0,异值取1。它与布尔运算的区别在于,当运算符两侧均为1时,布尔运算的结果为1,异或运算的结果为0。简单理解就是不进位加法,如1+1=0,,0+0=0,1+0=1。性质1、交换律2、结合律(即(a^b)^c == a^(b^c))3、对于任何数x,都有x^x=0,x^0=x4、自反性 A XOR B XOR B = A xor 0 = A异或运算最常见于多项式除法,不过它最重要的性质还是自反性:A XOR B XOR B = A,即对给定的数A,用同样的运算因子(B)作两次异或运算后仍得 阅读全文

posted @ 2012-11-08 14:58 Jason Koo 阅读(1485) 评论(1) 推荐(0) 编辑

2012年11月5日

摘要: This article is from teamten.It’s common in technical interviews to ask the candidate to reverse a singly-linked list. This demonstrates the ability to work with pointers, visualize a data structure, and work through the subtleties of a non-trivial algorithm. It’s usually immediately obvious that yo 阅读全文

posted @ 2012-11-05 21:17 Jason Koo 阅读(379) 评论(0) 推荐(0) 编辑

摘要: In the linux world they can all look the same from the point of view of the user at the keyboard. The differences are in how they interact with each other.Theshellis the program which actually processes commands and returns output. Most shells also manage foreground and background processes, command 阅读全文

posted @ 2012-11-05 18:49 Jason Koo 阅读(487) 评论(1) 推荐(0) 编辑

2012年10月25日

摘要: 笔试题有两道,下面分别介绍。实现过程使用了Java语言。The first one:We have an array representing customer’s shopping records.For example, it’s an array like this:custA, item1,custB, item1,custA, item2, custB, item3, custC, item1, custC, item3, custD, item2,This array indicates that customer A bought item 1, customer B bough 阅读全文

posted @ 2012-10-25 16:52 Jason Koo 阅读(442) 评论(0) 推荐(0) 编辑

2012年9月21日

摘要: 数据可视化研究一直是一个很热门的领域。如何将数据以清晰、直观的形式展示出来一直是人们不懈努力的方向。从简单的表格到各种线性图、柱状图、饼状图,展示数据的方式多种多样。Web的出现扩大了数据的受众,而如何将可视化技术与Web技术结合起来,在浏览器中直观展示数据,则是近年来技术界在一直追求和探索的新领域。 最近有这样一个需求:有一批基于地理位置的数据,需要在地图上以不同颜色来展示这批数据。举个例子,比如测量大气中二氧化碳的浓度,在某一位置的浓度越高,那么在地图上的相应点上标注的颜色越浓,在某一位置浓度越低,标注的颜色越淡。 以前从来没有开发过有关地图的应用,对于数据的可视化方面... 阅读全文

posted @ 2012-09-21 15:40 Jason Koo 阅读(1681) 评论(5) 推荐(1) 编辑

2012年9月17日

摘要: 云计算将计算资源作为一个远程的服务,以灵活、符合成本效益的方式提供出来的模型成为云计算。云计算已经普及并成为IT行业主流技术,其实质是在计算量越来越大、数据越来越多、越来越动态、越来越实时的需求背景下被催生出来的一种基础架构和商业模式。个人用户将文档、照片、视频、游戏存档记录上传至“云”中永久保存,企业客户根据自身需求,可以搭建自己的“私有云”,或托管、或租用“公有云”上的IT资源与服务,这些都已不是新鲜事。可以说,云是一棵挂满了大数据的苹果树。云计算和大数据是一个硬币的两面,云计算是大数据的IT基础,而大数据是云计算的一个杀手级应用。HadoopHadoop是一个用于数据存储和数据处理的可扩 阅读全文

posted @ 2012-09-17 19:43 Jason Koo 阅读(150) 评论(0) 推荐(0) 编辑

2012年7月23日

摘要: 实验室里有一个小型的Hadoop集群,是由一个学弟在做本科毕设的时候搭建的。本想偷偷懒,直接用他搭建的环境跑跑实验,可是当初给每个节点的操作系统分配的磁盘空间有限,在跑一些数据量较大迭代次数较多的实验的时候,运行到一半就会导致磁盘空间不足,程序无法继续执行。具体报的错误是“could only be replicated to 0 nodes, instead of 1”。没有办法,为了以后能长时间方便使用集群环境,只能自己重新搭建。资源介绍:实验室里有六七台空闲主机,我选了其中四台配置还算不错的,用来作为集群环境的主机。由于主机是分批购买的,配置都不太一样,但是大概都满足以下条件: CPU 阅读全文

posted @ 2012-07-23 14:38 Jason Koo 阅读(470) 评论(0) 推荐(0) 编辑