随笔档案「2014年6月」 - JamesFan

深入理解Hadoop集群和网络

摘要：原文地址http://bradhedlund.com/2011/09/10/understanding-hadoop-clusters-and-the-network/本文侧重于Hadoop集群的体系结构和方法，以及它与网络和服务器基础设施这件的关系。文章的素材主要来自于研究工作以及同现实生活中运行... 阅读全文

posted @ 2014-06-30 22:48 JamesFan 阅读(1029) 评论(0) 推荐(0)

datanode与namenode的通信原理

摘要：在分析DataNode时,因为DataNode上保存的是数据块,因此DataNode主要是对数据块进行操作.**A.DataNode的主要工作流程:**1.客户端和DataNode的通信:客户端向DataNode的`数据块读写`,采用TCP/IP流接口(DataXceiver)进行数据传输2.客户端... 阅读全文

posted @ 2014-06-30 16:33 JamesFan 阅读(2190) 评论(0) 推荐(0)

Hadoop添加节点datanode(生产环境)

摘要：Hadoop添加节点datanode博客分类：hadoopHadoopSSHJDKXML工作1.部署hadoop 和普通的datanode一样。安装jdk，ssh2.修改host 和普通的datanode一样。添加namenode的ip3.修改namenode的配置文件conf/slaves 添加新... 阅读全文

posted @ 2014-06-30 16:16 JamesFan 阅读(812) 评论(0) 推荐(0)

Hadoop中HDFS工作原理

摘要：Hadoop其实并不是一个产品，而是一些独立模块的组合。主要有分布式文件系统HDFS和大型分布式数据处理库MapReduce。由于目前主要用到HDFS，所以这里看一下它的工作原理，以及相应的介绍下配置。什么是HDFS？HadoopDistributed File System，字面意思，Hadoop... 阅读全文

posted @ 2014-06-30 14:21 JamesFan 阅读(216) 评论(0) 推荐(0)

实现hadoop中的机架感知

摘要：hadoop中声明是有机架感知的功能，能够提高hadoop的性能。平时我们使用的hadoop集群，实际上是从来没有使用上这个功能的。 hadoop中所说的机架感知的实现实际上这样的：hadoop启动时会检查hadoop-default.xml和hadoop-site.xml中的一个配置选项：topo... 阅读全文

posted @ 2014-06-30 14:12 JamesFan 阅读(548) 评论(0) 推荐(0)

hadoop集群监控工具Apache Ambari安装配置教程

摘要：ambari 1.2.4 下载地址：http://www.apache.org/dist/incubator/ambari/ambari-1.2.4/ambari-1.2.4-incubating.tar.gz官方手册：http://incubator.apache.org/ambari/1.2.4... 阅读全文

posted @ 2014-06-28 20:21 JamesFan 阅读(569) 评论(0) 推荐(0)

hadoop自动安装脚本

摘要：还不能实现完全自动安装，只能算半自动的。进行交互主要障碍有两点：1.ssh-keygen的时候需要点击回车。2. passwd 需要设置密码如果谁能解决以上两点，欢迎email给我。另外：需要JDK和Hadoop压缩包第一步：设置Root用户的SSH 无密码访问为了之后修改Hosts文件，... 阅读全文

posted @ 2014-06-28 20:17 JamesFan 阅读(331) 评论(0) 推荐(0)

极易中文分词

摘要：支持英文、数字、中文（简体）混合分词常用的数量和人名的匹配超过22万词的词库整理实现正向最大匹配算法 //采用正向最大匹配的中文分词算法，相当于分词粒度等于0 MMAnalyzer analyzer = new MMAnalyzer(); //参数为分词粒度：当字数等于或超过该参数，且能成词，... 阅读全文

posted @ 2014-06-28 14:14 JamesFan 阅读(325) 评论(0) 推荐(0)

朴素贝叶斯算法分析及java 实现

摘要：1. 先引入一个简单的例子出处：http://www.ruanyifeng.com/blog/2013/12/naive_bayes_classifier.html一、病人分类的例子让我从一个例子开始讲起，你会看到贝叶斯分类器很好懂，一点都不难。某个医院早上收了六个门诊病人，如下表。症状职业... 阅读全文

posted @ 2014-06-27 17:17 JamesFan 阅读(2094) 评论(0) 推荐(0)

随机森林(Random Forest)

摘要：随机森林(Random Forest)随机森林是一个最近比较火的算法，它有很多的优点：在数据集上表现良好在当前的很多数据集上，相对其他算法有着很大的优势它能够处理很高维度（feature很多）的数据，并且不用做特征选择在训练完后，它能够给出哪些feature比较重要在创建随机森林的时候，对gener... 阅读全文

posted @ 2014-06-25 22:52 JamesFan 阅读(455) 评论(0) 推荐(0)

ubuntu 13.04 安装 JDK

摘要：ubuntu 13.04 安装 JDK 具体步骤参详了如下链接：http://blog.csdn.net/yang_hui1986527/article/details/6677450 1、到 Sun 的官网下载http://www.oracle.com/technetwork/java/jav... 阅读全文

posted @ 2014-06-25 10:35 JamesFan 阅读(295) 评论(0) 推荐(0)

Ubuntu12.04安装 vsftpd

摘要：Ubuntu12.04 FTP 的配置ubuntu安装ftp服务器1: 安装vsftpd ~$ sudo apt-get install vsftpd 2: 配置vsftpd2.1 修改vsftpd的配置文件。此类配置文件通常位于 /etc 目录下。~$ sudo gedit /etc/vsft... 阅读全文

posted @ 2014-06-25 10:28 JamesFan 阅读(477) 评论(0) 推荐(0)

Linux用户、用户组、文件权限学习笔记

摘要：Linux用户、用户组、文件权限学习笔记Linux用户、用户组、文件权限学习笔记作者：北风发布时间：August 12, 2010 分类：综合技术最近打算更仔细学习一下linux操作系统。先是恶补了一下用户、用户组、文件权限这三样比较重要的知识。学习这几样东西，得先掌握linux的权限系统相关知识... 阅读全文

posted @ 2014-06-23 14:47 JamesFan 阅读(1117) 评论(0) 推荐(0)

决策树算法原理及JAVA实现(ID3)

摘要：0 引言决策树的目的在于构造一颗树像下面这样的树。图1图21. 如何构造呢？1.1 参考资料。本例以图2为例，并参考了以下资料。(1)http://www.cnblogs.com/zhangchaoyang/articles/2196631.html 写的东西非常经典。(2)http://... 阅读全文

posted @ 2014-06-21 21:48 JamesFan 阅读(2968) 评论(0) 推荐(0)

Hive 查询优化总结

摘要：一、join优化Join查找操作的基本原则：应该将条目少的表/子查询放在Join操作符的左边。原因是在Join操作的Reduce阶段，位于Join操作符左边的表的内容会被加载进内存，将条目少的表放在左边，可以有效减少发生内存溢出错误的几率。Join查找操作中如果存在多个join，且所有参与join的... 阅读全文

posted @ 2014-06-19 15:32 JamesFan 阅读(675) 评论(0) 推荐(0)

Hive Joins 用法与操作

摘要：Hive表连接的语法支持如下：Sql代码join_table:table_referenceJOINtable_factor[join_condition]|table_reference{LEFT|RIGHT|FULL}[OUTER]JOINtable_referencejoin_conditio... 阅读全文

posted @ 2014-06-19 15:29 JamesFan 阅读(353) 评论(0) 推荐(0)

Hive中SELECT TOP N的方法(order by与sort by的区别)

摘要：我想说的SELECT TOP N是取最大前N条或者最小前N条。Hive提供了limit关键字，再配合order by可以很容易地实现SELECT TOP N。但是在Hive中order by只能使用1个reduce，如果表的数据量很大，那么order by就会力不从心。例如我们执行SQL：selec... 阅读全文

posted @ 2014-06-19 14:27 JamesFan 阅读(1200) 评论(0) 推荐(0)

Hive 进阶

摘要：两种情况下不走map-reduce:1. where ds >' ' //ds 是partition2. select * from table //后面没有查询条件，什么都没有1.建表CREATE TABLE sal( id INT, name STRING, salary INT )pa... 阅读全文

posted @ 2014-06-18 14:18 JamesFan 阅读(205) 评论(0) 推荐(0)

java实现fp-growth算法

摘要：本文参考韩家炜《数据挖掘-概念与技术》一书第六章，前提条件要理解 apriori算法。另外一篇写得较好的文章在此推荐：http://hi.baidu.com/nefzpohtpndhovr/item/9d5c371ba2dbdc0ed1d66dca0.实验数据集：user2items.csvI1,I... 阅读全文

posted @ 2014-06-17 00:12 JamesFan 阅读(1317) 评论(0) 推荐(0)

eclipse 远程操作HIVE

摘要：首先启动HiveServerhive--servicehiveserver10000&创建工程引入包：代码（简单的查询）：package com.hive.jdbc;import java.sql.Connection;import java.sql.DriverManager;import jav... 阅读全文

posted @ 2014-06-12 23:56 JamesFan 阅读(328) 评论(0) 推荐(0)

R语言简单作图

摘要：以下函数只为满足常用的若干作图需求。基本作图：plot(x)、plot(x, y) #散点图，最多两个变量#可使用参数type生成不同的效果图。常用‘l’、‘o’、‘h’，分别为折线图，点线图，垂线图。#’s'和’S'是折线图，前者是先水平后垂直，后者是先垂直后水平；’n'是不显示，用于画空白图#若... 阅读全文

posted @ 2014-06-10 17:31 JamesFan 阅读(1352) 评论(0) 推荐(0)

Frequent Pattern 挖掘之二(FP Growth算法)

摘要：Frequent Pattern 挖掘之二(FP Growth算法)FP树构造FP Growth算法利用了巧妙的数据结构，大大降低了Aproir挖掘算法的代价，他不需要不断得生成候选项目队列和不断得扫描整个数据库进行比对。为了达到这样的效果，它采用了一种简洁的数据结构，叫做frequent-patt... 阅读全文

posted @ 2014-06-05 16:04 JamesFan 阅读(309) 评论(0) 推荐(0)

JamesFan博客

专注海量数据计算

06 2014 档案

公告