JamesFan - 博客园

2014年6月28日

摘要：还不能实现完全自动安装，只能算半自动的。进行交互主要障碍有两点：1.ssh-keygen的时候需要点击回车。2. passwd 需要设置密码如果谁能解决以上两点，欢迎email给我。另外：需要JDK和Hadoop压缩包第一步：设置Root用户的SSH 无密码访问为了之后修改Hosts文件，... 阅读全文

posted @ 2014-06-28 20:17 JamesFan 阅读(330) 评论(0) 推荐(0)

极易中文分词

摘要：支持英文、数字、中文（简体）混合分词常用的数量和人名的匹配超过22万词的词库整理实现正向最大匹配算法 //采用正向最大匹配的中文分词算法，相当于分词粒度等于0 MMAnalyzer analyzer = new MMAnalyzer(); //参数为分词粒度：当字数等于或超过该参数，且能成词，... 阅读全文

posted @ 2014-06-28 14:14 JamesFan 阅读(324) 评论(0) 推荐(0)

2014年6月27日

朴素贝叶斯算法分析及java 实现

摘要： 1. 先引入一个简单的例子出处：http://www.ruanyifeng.com/blog/2013/12/naive_bayes_classifier.html一、病人分类的例子让我从一个例子开始讲起，你会看到贝叶斯分类器很好懂，一点都不难。某个医院早上收了六个门诊病人，如下表。症状职业... 阅读全文

posted @ 2014-06-27 17:17 JamesFan 阅读(2091) 评论(0) 推荐(0)

2014年6月25日

随机森林(Random Forest)

摘要：随机森林(Random Forest)随机森林是一个最近比较火的算法，它有很多的优点：在数据集上表现良好在当前的很多数据集上，相对其他算法有着很大的优势它能够处理很高维度（feature很多）的数据，并且不用做特征选择在训练完后，它能够给出哪些feature比较重要在创建随机森林的时候，对gener... 阅读全文

posted @ 2014-06-25 22:52 JamesFan 阅读(454) 评论(0) 推荐(0)

ubuntu 13.04 安装 JDK

摘要： ubuntu 13.04 安装 JDK 具体步骤参详了如下链接：http://blog.csdn.net/yang_hui1986527/article/details/6677450 1、到 Sun 的官网下载http://www.oracle.com/technetwork/java/jav... 阅读全文

posted @ 2014-06-25 10:35 JamesFan 阅读(294) 评论(0) 推荐(0)

Ubuntu12.04安装 vsftpd

摘要： Ubuntu12.04 FTP 的配置ubuntu安装ftp服务器1: 安装vsftpd ~$ sudo apt-get install vsftpd 2: 配置vsftpd2.1 修改vsftpd的配置文件。此类配置文件通常位于 /etc 目录下。~$ sudo gedit /etc/vsft... 阅读全文

posted @ 2014-06-25 10:28 JamesFan 阅读(475) 评论(0) 推荐(0)

2014年6月23日

Linux用户、用户组、文件权限学习笔记

摘要： Linux用户、用户组、文件权限学习笔记Linux用户、用户组、文件权限学习笔记作者：北风发布时间：August 12, 2010 分类：综合技术最近打算更仔细学习一下linux操作系统。先是恶补了一下用户、用户组、文件权限这三样比较重要的知识。学习这几样东西，得先掌握linux的权限系统相关知识... 阅读全文

posted @ 2014-06-23 14:47 JamesFan 阅读(1115) 评论(0) 推荐(0)

2014年6月21日

决策树算法原理及JAVA实现(ID3)

摘要： 0 引言决策树的目的在于构造一颗树像下面这样的树。图1图21. 如何构造呢？1.1 参考资料。本例以图2为例，并参考了以下资料。(1)http://www.cnblogs.com/zhangchaoyang/articles/2196631.html 写的东西非常经典。(2)http://... 阅读全文

posted @ 2014-06-21 21:48 JamesFan 阅读(2965) 评论(0) 推荐(0)

2014年6月19日

Hive 查询优化总结

摘要：一、join优化Join查找操作的基本原则：应该将条目少的表/子查询放在Join操作符的左边。原因是在Join操作的Reduce阶段，位于Join操作符左边的表的内容会被加载进内存，将条目少的表放在左边，可以有效减少发生内存溢出错误的几率。Join查找操作中如果存在多个join，且所有参与join的... 阅读全文

posted @ 2014-06-19 15:32 JamesFan 阅读(670) 评论(0) 推荐(0)

Hive Joins 用法与操作

摘要： Hive表连接的语法支持如下：Sql代码join_table:table_referenceJOINtable_factor[join_condition]|table_reference{LEFT|RIGHT|FULL}[OUTER]JOINtable_referencejoin_conditio... 阅读全文

posted @ 2014-06-19 15:29 JamesFan 阅读(349) 评论(0) 推荐(0)

Hive中SELECT TOP N的方法(order by与sort by的区别)

摘要：我想说的SELECT TOP N是取最大前N条或者最小前N条。Hive提供了limit关键字，再配合order by可以很容易地实现SELECT TOP N。但是在Hive中order by只能使用1个reduce，如果表的数据量很大，那么order by就会力不从心。例如我们执行SQL：selec... 阅读全文

posted @ 2014-06-19 14:27 JamesFan 阅读(1197) 评论(0) 推荐(0)

2014年6月18日

Hive 进阶

摘要：两种情况下不走map-reduce:1. where ds >' ' //ds 是partition2. select * from table //后面没有查询条件，什么都没有1.建表CREATE TABLE sal( id INT, name STRING, salary INT )pa... 阅读全文

posted @ 2014-06-18 14:18 JamesFan 阅读(204) 评论(0) 推荐(0)

2014年6月17日

java实现fp-growth算法

摘要：本文参考韩家炜《数据挖掘-概念与技术》一书第六章，前提条件要理解 apriori算法。另外一篇写得较好的文章在此推荐：http://hi.baidu.com/nefzpohtpndhovr/item/9d5c371ba2dbdc0ed1d66dca0.实验数据集：user2items.csvI1,I... 阅读全文

posted @ 2014-06-17 00:12 JamesFan 阅读(1316) 评论(0) 推荐(0)

2014年6月12日

eclipse 远程操作HIVE

摘要：首先启动HiveServerhive--servicehiveserver10000&创建工程引入包：代码（简单的查询）：package com.hive.jdbc;import java.sql.Connection;import java.sql.DriverManager;import jav... 阅读全文

posted @ 2014-06-12 23:56 JamesFan 阅读(326) 评论(0) 推荐(0)

2014年6月10日

R语言简单作图

摘要：以下函数只为满足常用的若干作图需求。基本作图：plot(x)、plot(x, y) #散点图，最多两个变量#可使用参数type生成不同的效果图。常用‘l’、‘o’、‘h’，分别为折线图，点线图，垂线图。#’s'和’S'是折线图，前者是先水平后垂直，后者是先垂直后水平；’n'是不显示，用于画空白图#若... 阅读全文

posted @ 2014-06-10 17:31 JamesFan 阅读(1349) 评论(0) 推荐(0)

2014年6月5日

Frequent Pattern 挖掘之二(FP Growth算法)

摘要： Frequent Pattern 挖掘之二(FP Growth算法)FP树构造FP Growth算法利用了巧妙的数据结构，大大降低了Aproir挖掘算法的代价，他不需要不断得生成候选项目队列和不断得扫描整个数据库进行比对。为了达到这样的效果，它采用了一种简洁的数据结构，叫做frequent-patt... 阅读全文

posted @ 2014-06-05 16:04 JamesFan 阅读(307) 评论(0) 推荐(0)

2014年5月31日

Ubuntu W: GPG 错误：下列签名无效： BADSIG 84DBCE2DCEC45805 Launchpad PPA fo

摘要： Ubuntu12.04安装R语言的时候出现的报错。研究了两个晚上，解决办法如下，跟参考贴有点出入：###########################################################1.首先我直接运行下面命令不能解决问题：代码:gpg --keyserver sub... 阅读全文

posted @ 2014-05-31 13:33 JamesFan 阅读(1411) 评论(0) 推荐(0)

Ubuntu12.04安装R ，Rstudio, RHive

摘要：环境：Ubuntu12.04R-3.1.00.Ubuntu安装R官网的介绍http://mirrors.ustc.edu.cn/CRAN/Precise Pangolin (12.04; LTS), 与12.04对应的是add deb http:///bin/linux/ubuntu precis... 阅读全文

posted @ 2014-05-31 12:37 JamesFan 阅读(368) 评论(0) 推荐(0)

2014年5月30日

k-means聚类JAVA实例

摘要：《mahout in action》第六章。datafile/cluster/simple_k-means.txt数据集如下：1 12 11 22 23 38 88 99 89 91. k-means聚类算法原理1、从D中随机取k个元素，作为k个簇的各自的中心。2、分别计算剩下的元素到k个簇中心的相... 阅读全文

posted @ 2014-05-30 12:50 JamesFan 阅读(3176) 评论(1) 推荐(0)

2014年5月27日

Canopy聚类算法(经典，看图就明白)

摘要：只有这个算法思想比较对，其他的都没有一开始的remove:原网址：http://www.shahuwang.com/?p=1021CanopyClustering这个算法是2000年提出来的，此后与Hadoop配合，已经成为一个比较流行的算法了。确切的说，这个算法获得的并不是最终结果，它是为其他算法... 阅读全文

posted @ 2014-05-27 22:51 JamesFan 阅读(13358) 评论(0) 推荐(2)

JamesFan博客

专注海量数据计算

公告