08 2016 档案
摘要:一、环境搭建 1. 下载 mahout-0.9-cdh5.3.6.tar.gz 2. 解压 3. mahout org.apache.mahout.clustering.syntheticcontrol.kmeans.Job hdfs dfs -ls /output 转换成普通文本 hdfs dfs
阅读全文
摘要:一、环境搭建 1. 编译spark 1.3.0 1)安装apache-maven-3.0.5 2)下载并解压 spark-1.3.0.tgz 3)修改make-distribution.sh 4)替换maven仓库jar包 5)打包编译 (1)MAVEN编译 (2)使用CDH5.3.6版本的hado
阅读全文
摘要:一、Storm项目 1. 架构 javasdk -> nginx -> 日志文件 -> flume agent(collector) -> hdfs -> kafka -> storm -> hbased kafka吞吐量达,可以被不同的消费者重复消费 2. 项目需求 电商 用户提交订单并且成功支付
阅读全文
摘要:http://www.cnblogs.com/lujinhong2/p/4686512.html http://blog.csdn.net/paul_wei2008/article/details/20830329 http://shiyanjun.cn/archives/1472.html 一、t
阅读全文
摘要:一、环境搭建 1. 下载 http://www.apache.org/dyn/closer.lua/storm/apache-storm-0.9.6/apache-storm-0.9.6.tar.gz 2. 解压 3. 修改配置 1)创建目录 2)修改storm_env.ini 3)修改storm.
阅读全文
摘要:一、HBase性能调优 1. JVM内存调优 MemStore内存空间,设置合理大小 memstore.flush.size 刷写大小 134217728 = 128M memstore.mslab.enabled preclose.flush.size JVM堆内存 初生代内存空间:数据停留时间较
阅读全文
摘要:一、案例 微博: 微博内容: 关注用户和粉丝用户: 添加或移除关注用户 查看关注用户的微博内容 微博数据存储: 响应时间 秒级 无延迟 (1)mysql分布式 (2)hbase数据库 使用HBase数据库实现微博系统数据的存储 表的设计: 命名空间:weibo 1. 微博内容表 TableName:
阅读全文
摘要:一、HBase整合MapReduce环境搭建 1. 搭建步骤1)在etc/hadoop目录中创建hbase-site.xml的软连接。在真正的集群环境中的时候,hadoop运行mapreduce会通过该文件查找具体的hbase环境信息。 2)将hbase需要的jar包添加到hadoop运行环境中,其
阅读全文
摘要:一、MongonDB环境搭建 1. 下载 https://fastdl.mongodb.org/linux/mongodb-linux-x86_64-3.0.6.tgz 2. 解压 tar -zxvf mongodb-linux-x86_64-3.0.6.tgz -C /opt/modules 3.
阅读全文
摘要:一、环境搭建 1. 下载安装配置 《OD大数据实战》Hadoop伪分布式环境搭建 2. Hadoop配置信息 1)${HADOOP_HOME}/libexec:存储hadoop的默认环境变量信息 (1)hadoop-config.sh (2)hdfs-config.sh (3)mapred-conf
阅读全文
摘要:官网地址: http://archive.cloudera.com/cdh5/cdh/5/sqoop-1.4.5-cdh5.3.6/SqoopUserGuide.html 一、环境搭建 1. 下载 sqoop-1.4.5-cdh5.3.6.tar.gz 2. 解压 tar -zxvf sqoop-1
阅读全文
摘要:一、环境搭建 1. 《OD大数据实战》Hadoop伪分布式环境搭建 2. 《OD大数据实战》Hive环境搭建 3. 《OD大数据实战》Sqoop入门实例 4. 《OD大数据实战》Flume入门实例 5. 《OD大数据实战》Kafka入门实例 6. 《OD大数据实战》Oozie环境搭建 7. 《OD大
阅读全文
摘要:官方参考文档:http://abloz.com/hbase/book.html#shell_tricks 1.2.3. Shell 练习 1.2.3. Shell 练习 1.2.3. Shell 练习 1.2.3. Shell 练习 用shell连接你的HBase 输入 help 然后 <RETUR
阅读全文
摘要:官网: http://archive.cloudera.com/cdh5/cdh/5/hue-3.7.0-cdh5.3.6/ 一、Hue环境搭建 1. 下载 http://archive.cloudera.com/cdh5/cdh/5/hue-3.7.0-cdh5.3.6.tar.gz 2. 解压
阅读全文
摘要:一、HBase引入 http://hbase.apache.org/ 大数据的数据库 1. 概述 Hadoop生态系统中的一个分布式、可拓展、面向列、可伸缩,具有自动容错功能的数据库。 NoSQL数据库 BigTable:一种分布式海量结构化数据存储系统 HBase基于google论文实现的开源数据
阅读全文
摘要:一、日志收集项目案例 1. oozie中依赖jar包 在工作目录下创建lib目录,上传依赖包的lib目录下 2. 作业 将日志收集与处理项目案例使用oozie的workflow执行 3. coordinator 在workflow基础上添加了一个coordinator.xml coordinator
阅读全文
摘要:一、mac安装nginx + php + php-fpm 或apache + php 1. Mac 下 Nginx、MySQL、PHP-FPM 的安装配置 2. Mac下安装LNMP(Nginx+PHP5.6)环境 3. 在Mac OS X中配置Apache + PHP + MySQL 二、Cent
阅读全文
摘要:一、关机后服务重新启动 1. 启动hadoop服务 sbin/hadoop-daemon.sh start namenode sbin/hadoop-daemon.sh start datanode sbin/yarn-daemon.sh start resourcemanager sbin/yar
阅读全文
摘要:一、环境搭建 1. 下载 hbase-0.98.6-cdh5.3.6.tar.gz 2. 解压 tar -zxvf hbase-0.98.6-cdh5.3.6.tar.gz -C /opt/modules/cdh/ 3. 修改配置 1)修改hbase-env.sh 2)修改regionservers
阅读全文
摘要:参考文档: http://my.oschina.net/292672967/blog/209139 http://hitina.lofter.com/post/a8c5e_136579# http://blog.csdn.net/xiaolang85/article/details/38492277
阅读全文
摘要:一、Oozie环境搭建 1. 下载oozie-4.0.0-cdh5.3.6.tar.gz 下载地址:http://archive.cloudera.com/cdh5/cdh/5/ 2. 解压 tar -zxvf oozie-4.0.0-cdh5.3.6.tar.gz -C /opt/modules/
阅读全文
摘要:官网: 参考文档: Kafka入门经典教程 Kafka工作原理详解 一、安装zookeeper 1. 下载zookeeper-3.4.5-cdh5.3.6.tar.gz 下载地址为: http://archive.cloudera.com/cdh5/cdh/5/ 2. 解压到/opt/modules
阅读全文
摘要:一、netcat source + memory channel + logger sink 1. 修改配置 1)修改$FLUME_HOME/conf下的flume-env.sh文件,修改内容如下 2)在$FLUME_HOME/conf目录下,创建agent子目录,新建netcat-memory-l
阅读全文
摘要:一、引入 MapReduce Job Hive 脚本任务 同一个业务:先后、定时调度 工作流: 定义工作流程 activity jbpm oozie: 大数据工作流定义与调度框架 专门定义与调度MapReduce Job工作流程 拓展:shell、hive、sqoop、hdfs oozie演变过程:
阅读全文
摘要:一、Flume http://flume.apache.org/FlumeUserGuide.html Flume是一个分布式的,可靠的,可用的,非常有效率的对大数据量的日志数据进行收集、聚集、移动信息的服务。 1. 架构方式 1)所有应用使用一台flume服务器; 2)所有应用共享flume集群;
阅读全文
摘要:官方参考文档:https://cwiki.apache.org/confluence/display/Hive/LanguageManual 一、命令行和客户端 1. 命令窗口 1)进入命令窗口 2)在hive cli命令窗口查看hdfs文件系统: 3)在hive cli命令窗口如何查看本地文件系统
阅读全文
摘要:一、CentOS 6.4安装Nginx http://shiyanjun.cn/archives/72.html 二、安装Flume 1. 下载flume-ng-1.5.0-cdh5.3.6.tar.gz 下载地址http://archive.cloudera.com/cdh5/cdh/5/ 2.
阅读全文
摘要:一、github使用手册 1. 我也用github(2)——关联本地工程到github 2. Git错误non-fast-forward后的冲突解决 3. Git中从远程的分支获取最新的版本到本地 4. Git教程 二、案例:倒排索引 1. 完成功能: 统计一系列文本文件中的每个单词构成的倒排索引。
阅读全文
摘要:一、搭建hadoop环境 《OD大数据实战》hadoop伪分布式环境搭建 二、Hive环境搭建 1. 准备安装文件 下载地址: http://archive.cloudera.com/cdh5/cdh/5/ hive-0.13.1-cdh5.3.6.tar.gz 2. 解压 3. 修改配置 1)修改
阅读全文
摘要:一、安装并配置Linux 8. 使用当前root用户创建文件夹,并给/opt/下的所有文件夹及文件赋予775权限,修改用户组为当前用户 最终效果如下: 二、安装并配置JDK 1. 安装文件 jdk-7u67-linux-x64.tar.gz 2. 解压 3. 配置jdk 1)使用sudo配置/etc
阅读全文