随笔分类 -  Hadoop

摘要:1 下载在http://archive.apache.org/dist/mahout 下载相应版本的mahout 版本,获取官网查看http://mahout.apache.org 相关的信息下载后解压,tar -zxvf mahout-distribution-0.9.tar.gz配置环境变量ex... 阅读全文
posted @ 2016-01-06 15:17 kongmeng 阅读(448) 评论(2) 推荐(0)
摘要:http://stackoverflow.com/questions/16017538/how-does-configuration-addresource-method-work-in-hadoop 2 hadoop MapReduce 读取参数 下面我们先通过一个表格来看下,在hadoop中,使 阅读全文
posted @ 2015-11-02 13:22 kongmeng 阅读(281) 评论(0) 推荐(0)
摘要:配置IP,修改主机名,关闭防火墙,配置SSH免密码登录 1.准备Linux环境 1.0点击VMware快捷方式,右键打开文件所在位置 -> 双击vmnetcfg.exe -> VMnet1 host-only ->修改subnet ip 设置网段:192.168.8.0 子网掩码:255.255.2 阅读全文
posted @ 2015-10-24 21:38 kongmeng 阅读(292) 评论(0) 推荐(0)
摘要:近期一直在忙项目上的事情,今天对以前的工作做一个简单的小结。明天就是国庆节啦。 1 脚本可以手动执行,可是crontab缺总是找不到路径? 请在脚本中加入 本机的环境变量和用户的环境变量的配置 2 config.ini文件总是出现乱码,导致读入的数据莫名其妙? 3 logback.xml配置不起作用 阅读全文
posted @ 2015-09-30 13:33 kongmeng 阅读(996) 评论(0) 推荐(0)
摘要:Hadoop 生态圈 commonArvoMapReduceHDFSPigHive 一个分布式、按列存储的数据仓库。Hive管理HDFS中存储的数据,并提供基于SQL的查询语言(由运行时引擎翻译成MapReduce作业)用以查询数据。HBase 一个分布式、按列存储数据库。HBase使用H... 阅读全文
posted @ 2015-08-11 09:04 kongmeng 阅读(265) 评论(0) 推荐(0)
摘要:摘要:Hadoop之HDFS文件操作常有两种方式,命令行方式和JavaAPI方式。本文介绍如何利用这两种方式对HDFS文件进行操作。关键词:HDFS文件 命令行 Java APIHDFS是一种分布式文件系统,为MapReduce这种框架下的海量数据分布式处理而设计。Hadoop之HDFS文件操... 阅读全文
posted @ 2015-05-27 15:52 kongmeng 阅读(1155) 评论(0) 推荐(0)
摘要:下面内容主要说明在Windows虚拟机上面,怎么搭建一个Hadoop伪分布式,并如何运行wordcount程序和网页查看HDFS文件系统。 1 相关软件下载和安装 APACH官网提供hadoop版本是32bit的。如果要在64bit Linux环境运行,需要重新编译hadoop,网盘提供的是64bi 阅读全文
posted @ 2015-05-25 11:51 kongmeng 阅读(316) 评论(0) 推荐(0)
摘要:前言spark与hadoop的比较我就不多说了,除了对硬件的要求稍高,spark应该是完胜hadoop(Map/Reduce)的。storm与spark都可以用于流计算,但storm对应的场景是毫秒级的统计与计算,而spark(stream)对应的是秒级的。这是主要的差别。一般很少有对实时要求那么高... 阅读全文
posted @ 2015-02-13 15:05 kongmeng 阅读(1163) 评论(0) 推荐(0)
摘要:本文原名“Don't use Hadoop when your data isn't that big ”,出自有着多年从业经验的数据科学家Chris Stucchio,纽约大学柯朗研究所博士后,搞过高频交易平台,当过创业公司的CTO,更习惯称自己为统计学者。对了,他现在自己创业,提供数据分析、推荐... 阅读全文
posted @ 2015-02-04 09:32 kongmeng 阅读(889) 评论(0) 推荐(1)