03 2016 档案
摘要:1、安装Elasticsearch集群 1.下载elasticsearch-2.0.0.tar.gz,执行tar -zxvf elasticsearch-2.0.0.tar.gz解压 2.修改config/elasticsearch.yml (注意不要顶格写首字母前面加一空格,冒号后面要加一个空格)
阅读全文
摘要:1、elasticsearch简介 中文帮助文档地址:http://es.xiaoleilu.com/ • Elasticsearch是一个基于Lucene的实时的分布式搜索和分析引擎。设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。基于RESTful接口。 – 普通请求是...
阅读全文
摘要:• 执行计划 – 查询sql执行之前,先对该sql做一个分析,列出需要完成这一项查询的详细方案 – 命令:explain sql、profile 要点: • 1、SQL优化,使用之前调用执行计划 • 2、选择合适的文件格式进行存储 • 3、避免产生很多小文件(如果有其他程序产生的小文件,可以使用中间
阅读全文
摘要:• 配置: – impala.driver=org.apache.hive.jdbc.HiveDriver – impala.url=jdbc:hive2://node2:21050/;auth=noSasl – impala.username= – impala.password=• 尽量使用Pr
阅读全文
摘要:Impala可以通过Hive外部表方式和HBase进行整合,步骤如下: • 步骤1:创建hbase 表,向表中添加数据 • 步骤2:创建hive表 • 步骤3:刷新Impala表
阅读全文
摘要:1、Impala 外部 Shell Impala外部Shell 就是不进入Impala内部,直接执行的ImpalaShell 例如通过外部Shell查看Impala帮助可以使用: $ impala-shell -h 这样就可以查看了; 再例如显示一个SQL语句的执行计划: $ impala-shel
阅读全文
摘要:
• Cloudera公司推出,提供对HDFS、Hbase数据的高性能、低延迟的交互式SQL查询功能。
• 基于Hive使用内存计算,兼顾数据仓库、具有实时、批处理、多并发等优点
• 是CDH平台首选的PB级大数据实时查询分析引擎
阅读全文

摘要:注:我的运行环境是widnows xp professional + MySQL5.0 一, 创建用户: 命令:CREATE USER 'username'@'host' IDENTIFIED BY 'password'; 说明:username - 你将创建的用户名, host - 指定该用户在哪
阅读全文
摘要:1、Cloudera Manager • Cloudera Manager是一个管理CDH的端到端的应用。 • 作用: – 管理 – 监控 – 诊断 – 集成 • 架构 • Server – 管理控制台服务器和应用程序逻辑 – 负责软件安装、配置,启动和停止服务 – 管理服务运行的群集 • Agen
阅读全文
摘要:1、Apache Hadoop 不足之处 • 版本管理混乱 • 部署过程繁琐、升级过程复杂 • 兼容性差 • 安全性低 2、Hadoop 发行版 • Apache Hadoop • Cloudera’s Distribution Including Apache Hadoop(CDH) • Hort
阅读全文
摘要:应用场景1 、统一命名服务 » 分布式应用中,通常需要有一套完整的命名规则,既能够产生唯一的名称又便于人识别和记住,通常情况 下用树形的名称结构是一个理想的选择,树形的名称结构是一个有层次的目录结构,既对人友好又不会重复。 » Name Service 是 Zookeeper 内置的功能,只要调用
阅读全文
摘要:1、登录Zookeeper客户端 2、如何在Zookeeper下使用帮助文档 下面是一些小练习:
阅读全文
摘要:1、Zookeeper的角色 » 领导者(leader),负责进行投票的发起和决议,更新系统状态 » 学习者(learner),包括跟随者(follower)和观察者(observer),follower用于接受客户端请求并想客户端返回结果,在选主过程中参与投票 » Observer可以接受客户端连
阅读全文
摘要:1、下载与解压 Zookeeper下载地址:http://www.apache.org/dyn/closer.cgi/zookeeper/ 下载完成以后解压到一个特定目录 2、Zooker配置 Zookeeper集群模式至少需要3台主机进行搭建,准备三台主机Serve1、Server2、Server
阅读全文
摘要:开发环境准备:eclipse3.5、jdk1.7、window8、hadoop2.2.0、hbase0.98.0.2、phoenix4.3.0 1、从集群拷贝以下文件:core-site.xml、hbase-site.xml、hdfs-site.xml文件放到工程src下 2、把phoenix的ph
阅读全文
摘要:
线性回归,是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,运用十分广泛。其表达形式为y = w'x+e,e为误差服从均值为0的正态分布
阅读全文

摘要:本文将以MySQL 5.5.47为例,以CentOS 6.5为平台,讲述MySQL数据库的安装和设置。 源码包方式安装 1.新建MySql用户和用户组 groupadd mysql useradd -r -g mysql -M mysql yum install boost-devel tar -z
阅读全文
摘要:
R是用于统计分析、绘图的语言和操作环境。R是属于GNU系统的一个自由、免费、源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具。
阅读全文

摘要:1、建表 执行建表语句 $ ./psql.py localhost:2181 ../examples/stock_symbol.sql 其中../examples/stock_symbol.sql是建表的sql语句 CREATE TABLE IF NOT EXISTS WEB_STAT ( HOST
阅读全文
摘要:描述 现有hbase的查询工具有很多如:Hive,Tez,Impala,Shark/Spark,Phoenix等。今天主要记录Phoenix。 phoenix,中文译为“凤凰”,很美的名字。Phoenix是由saleforce.com开源的一个项目,后又捐给了Apache基金会。它相当于一个Java
阅读全文
摘要:1、建立学生和课程表 要求:学生可以选择多个课程,每个课程可以被多个学生选择。 查询某个学生所选的所有课程列表 查询某个课程,的学生列表 学生可以修改所选的课程 方案:学生与课程之间是多对多关系,那可以建三张表 学生表、课程表、学生课程关系表 查询某个学生所选的所有课程列表:通过学生ID到学生课程表
阅读全文
摘要:官方帮助文档:http://hbase.apache.org/book.html PDF:http://hbase.apache.org/apache_hbase_reference_guide.pdf 1、安装前准备 – Hadoop集群要启动正常 – Zookeeper集群启动正常 HBase
阅读全文