摘要: https://www.kaggle.com/omarelgabry/titanic/a-journey-through-titanic/discussion 这个是个很不错的python方法,下面的我也参与了讨论。 Hi, Why did you drop dummy_variables for 阅读全文
posted @ 2016-03-04 10:46 dalu610 阅读(297) 评论(0) 推荐(0) 编辑
摘要: 可扩展性:与jobtracker相反,每一个应用实例,这里可以说是一个MapReduce job有一个转有的应用管理,在应用执行期间运行。这个模型更靠近原始的google论文。 高可用:高可用(High availability)通常是在服务进程失败后,另一个守护进程(daemon)能够复制状态并且 阅读全文
posted @ 2016-03-03 17:58 dalu610 阅读(137) 评论(0) 推荐(0) 编辑
摘要: YARN(Yet Another Resource Negotiator)通过两类长期运行的守护进程(daemon)提供核心服务,a resource manager(每一个集群只有一个)来管理集群资源,node manager在集群中所有节点上运行,启动和监控容器。一个容器运行一个特别的应用进程, 阅读全文
posted @ 2016-03-03 17:07 dalu610 阅读(256) 评论(0) 推荐(0) 编辑
摘要: 当前块被写入时,对于其他用户是不可见的。hflush()可以保证所有的datenode被写上去。 hflush()和hsync()方法都是有一定高消耗,但是可以防止数据的丢失,这是一种在数据的鲁棒性(robustness)和吞吐量(throughput)的权衡。这是根据不同的应用决定的. 阅读全文
posted @ 2016-03-03 15:03 dalu610 阅读(118) 评论(0) 推荐(0) 编辑
摘要: 如图中所示,很多次听别人讲文件读写时,都没有说清楚那3个备份到底是如何完成的,从图中可以看出,客户端第一步调取call()方法在DistributedFileSystem,DistributedFileSystem使用RPC连接namenode来创建一个新的文件,并没有分配块。namenode检查文 阅读全文
posted @ 2016-03-03 12:12 dalu610 阅读(411) 评论(0) 推荐(0) 编辑
摘要: HDFS建立在大多数高效的数据处理模式都是一次写入,多次读取。 每次数据的读取,都会涉及到一个相当大的比例,因此读取整个数据的时间远远比读取第一份数据的延迟更重要。 namenode知道块在哪个datenode上,但不知道块的后续位置。 namenode失效的话,整个文件系统将会无法使用,因此对na 阅读全文
posted @ 2016-03-02 20:23 dalu610 阅读(126) 评论(0) 推荐(0) 编辑
摘要: MapReduce是一个处理数据的项目模型。Hadoop可以通过多个语言来写MapReduce项目。MapReduce是天生并行(inherently parallel)的。 为什么说这个天气数据集是非常好的candidate对于MapReduce,其中提到的两个特征:半结构化(semi-struc 阅读全文
posted @ 2016-03-02 15:09 dalu610 阅读(110) 评论(0) 推荐(0) 编辑
摘要: 1.sqoop从mysql抽数比较简单,但是oracle一定要严格区分表名的大小写和字段的大小写。 2.mysql,sqlserver虽然表的大小写不是太刻意,但是index_dir一定要区分大小写。hadoop fs –ls /data和hadoop fs –ls /DATA是不一样的。 3.原来 阅读全文
posted @ 2016-02-26 18:49 dalu610 阅读(140) 评论(0) 推荐(0) 编辑
摘要: Sqoop currently do not support splitting data on N(LONG)(VAR)CHAR column types. We're however supporting splitting on (LONG)(VAR)CHAR using TextSplitt 阅读全文
posted @ 2016-02-26 18:45 dalu610 阅读(174) 评论(0) 推荐(0) 编辑
摘要: 在微博看到,有人说8个应届毕业生没有人写出o(1)空间复杂度,o(n)时间复杂度的反转单向链表。 (不是我自己想的) public void reverseList(ListNode head) { ListNode newHead = null; while(head != null) { Lis 阅读全文
posted @ 2016-02-26 17:15 dalu610 阅读(270) 评论(0) 推荐(0) 编辑