08 2016 档案

摘要:一、环境搭建 1. 下载 mahout-0.9-cdh5.3.6.tar.gz 2. 解压 3. mahout org.apache.mahout.clustering.syntheticcontrol.kmeans.Job hdfs dfs -ls /output 转换成普通文本 hdfs dfs 阅读全文
posted @ 2016-08-31 17:48 沙漏哟 阅读(251) 评论(0) 推荐(0) 编辑
摘要:一、环境搭建 1. 编译spark 1.3.0 1)安装apache-maven-3.0.5 2)下载并解压 spark-1.3.0.tgz 3)修改make-distribution.sh 4)替换maven仓库jar包 5)打包编译 (1)MAVEN编译 (2)使用CDH5.3.6版本的hado 阅读全文
posted @ 2016-08-30 15:28 沙漏哟 阅读(676) 评论(0) 推荐(0) 编辑
摘要:一、Storm项目 1. 架构 javasdk -> nginx -> 日志文件 -> flume agent(collector) -> hdfs -> kafka -> storm -> hbased kafka吞吐量达,可以被不同的消费者重复消费 2. 项目需求 电商 用户提交订单并且成功支付 阅读全文
posted @ 2016-08-28 12:52 沙漏哟 阅读(181) 评论(0) 推荐(0) 编辑
摘要:http://www.cnblogs.com/lujinhong2/p/4686512.html http://blog.csdn.net/paul_wei2008/article/details/20830329 http://shiyanjun.cn/archives/1472.html 一、t 阅读全文
posted @ 2016-08-27 14:49 沙漏哟 阅读(228) 评论(0) 推荐(0) 编辑
摘要:一、环境搭建 1. 下载 http://www.apache.org/dyn/closer.lua/storm/apache-storm-0.9.6/apache-storm-0.9.6.tar.gz 2. 解压 3. 修改配置 1)创建目录 2)修改storm_env.ini 3)修改storm. 阅读全文
posted @ 2016-08-22 09:19 沙漏哟 阅读(306) 评论(0) 推荐(0) 编辑
摘要:一、HBase性能调优 1. JVM内存调优 MemStore内存空间,设置合理大小 memstore.flush.size 刷写大小 134217728 = 128M memstore.mslab.enabled preclose.flush.size JVM堆内存 初生代内存空间:数据停留时间较 阅读全文
posted @ 2016-08-21 09:23 沙漏哟 阅读(199) 评论(0) 推荐(0) 编辑
摘要:一、案例 微博: 微博内容: 关注用户和粉丝用户: 添加或移除关注用户 查看关注用户的微博内容 微博数据存储: 响应时间 秒级 无延迟 (1)mysql分布式 (2)hbase数据库 使用HBase数据库实现微博系统数据的存储 表的设计: 命名空间:weibo 1. 微博内容表 TableName: 阅读全文
posted @ 2016-08-20 12:54 沙漏哟 阅读(223) 评论(0) 推荐(0) 编辑
摘要:一、HBase整合MapReduce环境搭建 1. 搭建步骤1)在etc/hadoop目录中创建hbase-site.xml的软连接。在真正的集群环境中的时候,hadoop运行mapreduce会通过该文件查找具体的hbase环境信息。 2)将hbase需要的jar包添加到hadoop运行环境中,其 阅读全文
posted @ 2016-08-19 16:41 沙漏哟 阅读(601) 评论(0) 推荐(0) 编辑
摘要:一、MongonDB环境搭建 1. 下载 https://fastdl.mongodb.org/linux/mongodb-linux-x86_64-3.0.6.tgz 2. 解压 tar -zxvf mongodb-linux-x86_64-3.0.6.tgz -C /opt/modules 3. 阅读全文
posted @ 2016-08-18 15:45 沙漏哟 阅读(208) 评论(0) 推荐(0) 编辑
摘要:一、环境搭建 1. 下载安装配置 《OD大数据实战》Hadoop伪分布式环境搭建 2. Hadoop配置信息 1)${HADOOP_HOME}/libexec:存储hadoop的默认环境变量信息 (1)hadoop-config.sh (2)hdfs-config.sh (3)mapred-conf 阅读全文
posted @ 2016-08-17 16:04 沙漏哟 阅读(353) 评论(0) 推荐(0) 编辑
摘要:官网地址: http://archive.cloudera.com/cdh5/cdh/5/sqoop-1.4.5-cdh5.3.6/SqoopUserGuide.html 一、环境搭建 1. 下载 sqoop-1.4.5-cdh5.3.6.tar.gz 2. 解压 tar -zxvf sqoop-1 阅读全文
posted @ 2016-08-17 10:07 沙漏哟 阅读(602) 评论(0) 推荐(0) 编辑
摘要:一、环境搭建 1. 《OD大数据实战》Hadoop伪分布式环境搭建 2. 《OD大数据实战》Hive环境搭建 3. 《OD大数据实战》Sqoop入门实例 4. 《OD大数据实战》Flume入门实例 5. 《OD大数据实战》Kafka入门实例 6. 《OD大数据实战》Oozie环境搭建 7. 《OD大 阅读全文
posted @ 2016-08-17 09:56 沙漏哟 阅读(2118) 评论(0) 推荐(0) 编辑
摘要:官方参考文档:http://abloz.com/hbase/book.html#shell_tricks 1.2.3. Shell 练习 1.2.3. Shell 练习 1.2.3. Shell 练习 1.2.3. Shell 练习 用shell连接你的HBase 输入 help 然后 <RETUR 阅读全文
posted @ 2016-08-16 17:51 沙漏哟 阅读(264) 评论(0) 推荐(0) 编辑
摘要:官网: http://archive.cloudera.com/cdh5/cdh/5/hue-3.7.0-cdh5.3.6/ 一、Hue环境搭建 1. 下载 http://archive.cloudera.com/cdh5/cdh/5/hue-3.7.0-cdh5.3.6.tar.gz 2. 解压 阅读全文
posted @ 2016-08-15 14:32 沙漏哟 阅读(2266) 评论(0) 推荐(0) 编辑
摘要:一、HBase引入 http://hbase.apache.org/ 大数据的数据库 1. 概述 Hadoop生态系统中的一个分布式、可拓展、面向列、可伸缩,具有自动容错功能的数据库。 NoSQL数据库 BigTable:一种分布式海量结构化数据存储系统 HBase基于google论文实现的开源数据 阅读全文
posted @ 2016-08-14 09:25 沙漏哟 阅读(206) 评论(0) 推荐(0) 编辑
摘要:一、日志收集项目案例 1. oozie中依赖jar包 在工作目录下创建lib目录,上传依赖包的lib目录下 2. 作业 将日志收集与处理项目案例使用oozie的workflow执行 3. coordinator 在workflow基础上添加了一个coordinator.xml coordinator 阅读全文
posted @ 2016-08-13 09:31 沙漏哟 阅读(253) 评论(0) 推荐(0) 编辑
摘要:一、mac安装nginx + php + php-fpm 或apache + php 1. Mac 下 Nginx、MySQL、PHP-FPM 的安装配置 2. Mac下安装LNMP(Nginx+PHP5.6)环境 3. 在Mac OS X中配置Apache + PHP + MySQL 二、Cent 阅读全文
posted @ 2016-08-12 17:25 沙漏哟 阅读(203) 评论(0) 推荐(0) 编辑
摘要:一、关机后服务重新启动 1. 启动hadoop服务 sbin/hadoop-daemon.sh start namenode sbin/hadoop-daemon.sh start datanode sbin/yarn-daemon.sh start resourcemanager sbin/yar 阅读全文
posted @ 2016-08-10 17:49 沙漏哟 阅读(527) 评论(0) 推荐(0) 编辑
摘要:一、环境搭建 1. 下载 hbase-0.98.6-cdh5.3.6.tar.gz 2. 解压 tar -zxvf hbase-0.98.6-cdh5.3.6.tar.gz -C /opt/modules/cdh/ 3. 修改配置 1)修改hbase-env.sh 2)修改regionservers 阅读全文
posted @ 2016-08-10 16:56 沙漏哟 阅读(409) 评论(0) 推荐(0) 编辑
摘要:参考文档: http://my.oschina.net/292672967/blog/209139 http://hitina.lofter.com/post/a8c5e_136579# http://blog.csdn.net/xiaolang85/article/details/38492277 阅读全文
posted @ 2016-08-10 10:18 沙漏哟 阅读(164) 评论(0) 推荐(0) 编辑
摘要:一、Oozie环境搭建 1. 下载oozie-4.0.0-cdh5.3.6.tar.gz 下载地址:http://archive.cloudera.com/cdh5/cdh/5/ 2. 解压 tar -zxvf oozie-4.0.0-cdh5.3.6.tar.gz -C /opt/modules/ 阅读全文
posted @ 2016-08-09 10:41 沙漏哟 阅读(1088) 评论(0) 推荐(0) 编辑
摘要:官网: 参考文档: Kafka入门经典教程 Kafka工作原理详解 一、安装zookeeper 1. 下载zookeeper-3.4.5-cdh5.3.6.tar.gz 下载地址为: http://archive.cloudera.com/cdh5/cdh/5/ 2. 解压到/opt/modules 阅读全文
posted @ 2016-08-09 10:04 沙漏哟 阅读(1120) 评论(1) 推荐(0) 编辑
摘要:一、netcat source + memory channel + logger sink 1. 修改配置 1)修改$FLUME_HOME/conf下的flume-env.sh文件,修改内容如下 2)在$FLUME_HOME/conf目录下,创建agent子目录,新建netcat-memory-l 阅读全文
posted @ 2016-08-07 14:07 沙漏哟 阅读(528) 评论(0) 推荐(0) 编辑
摘要:一、引入 MapReduce Job Hive 脚本任务 同一个业务:先后、定时调度 工作流: 定义工作流程 activity jbpm oozie: 大数据工作流定义与调度框架 专门定义与调度MapReduce Job工作流程 拓展:shell、hive、sqoop、hdfs oozie演变过程: 阅读全文
posted @ 2016-08-07 11:21 沙漏哟 阅读(206) 评论(0) 推荐(0) 编辑
摘要:一、Flume http://flume.apache.org/FlumeUserGuide.html Flume是一个分布式的,可靠的,可用的,非常有效率的对大数据量的日志数据进行收集、聚集、移动信息的服务。 1. 架构方式 1)所有应用使用一台flume服务器; 2)所有应用共享flume集群; 阅读全文
posted @ 2016-08-06 10:08 沙漏哟 阅读(216) 评论(0) 推荐(0) 编辑
摘要:官方参考文档:https://cwiki.apache.org/confluence/display/Hive/LanguageManual 一、命令行和客户端 1. 命令窗口 1)进入命令窗口 2)在hive cli命令窗口查看hdfs文件系统: 3)在hive cli命令窗口如何查看本地文件系统 阅读全文
posted @ 2016-08-05 17:22 沙漏哟 阅读(421) 评论(0) 推荐(0) 编辑
摘要:一、CentOS 6.4安装Nginx http://shiyanjun.cn/archives/72.html 二、安装Flume 1. 下载flume-ng-1.5.0-cdh5.3.6.tar.gz 下载地址http://archive.cloudera.com/cdh5/cdh/5/ 2. 阅读全文
posted @ 2016-08-05 16:24 沙漏哟 阅读(203) 评论(0) 推荐(0) 编辑
摘要:一、github使用手册 1. 我也用github(2)——关联本地工程到github 2. Git错误non-fast-forward后的冲突解决 3. Git中从远程的分支获取最新的版本到本地 4. Git教程 二、案例:倒排索引 1. 完成功能: 统计一系列文本文件中的每个单词构成的倒排索引。 阅读全文
posted @ 2016-08-03 09:53 沙漏哟 阅读(300) 评论(0) 推荐(0) 编辑
摘要:一、搭建hadoop环境 《OD大数据实战》hadoop伪分布式环境搭建 二、Hive环境搭建 1. 准备安装文件 下载地址: http://archive.cloudera.com/cdh5/cdh/5/ hive-0.13.1-cdh5.3.6.tar.gz 2. 解压 3. 修改配置 1)修改 阅读全文
posted @ 2016-08-01 19:16 沙漏哟 阅读(865) 评论(0) 推荐(0) 编辑
摘要:一、安装并配置Linux 8. 使用当前root用户创建文件夹,并给/opt/下的所有文件夹及文件赋予775权限,修改用户组为当前用户 最终效果如下: 二、安装并配置JDK 1. 安装文件 jdk-7u67-linux-x64.tar.gz 2. 解压 3. 配置jdk 1)使用sudo配置/etc 阅读全文
posted @ 2016-08-01 16:40 沙漏哟 阅读(1955) 评论(0) 推荐(0) 编辑