摘要: 1、REST Request URIcurl -XGET http://vm1:9200/customer/external/_search?q=*&pretty 2、REST Request Body1)查询设置curl -XPOST http://vm1:9200/customer/external/_search?pretty -d '{query: {match_all: {}},size... 阅读全文
posted @ 2015-06-08 14:51 lishouguang 阅读(482) 评论(0) 推荐(0) 编辑
摘要: elasticsearch的rest访问格式:curl -X :///1、启动[es@vm1 bin]$ ./elasticsearch --cluster.name myes --node.name node12、查看集群状态[es@vm1 ~]$ curl http://vm1:9200/_cat/health?vepoch timestamp cluster status node... 阅读全文
posted @ 2015-06-08 14:50 lishouguang 阅读(9571) 评论(0) 推荐(0) 编辑
摘要: Flume 基于Channel Selector可以实现扇入、扇出。同一个数据源分发到不同的目的,如下图。 在source上可以定义channel selector:123456789a1.sources=r1...a1.channels=c1 c2...a1.sources.r1.selector.type=multiplexinga1.sources.r1.selector.header=t... 阅读全文
posted @ 2015-06-08 14:48 lishouguang 阅读(1148) 评论(0) 推荐(0) 编辑
摘要: Component InterfaceType AliasImplementation Classorg.apache.flume.Channelmemoryorg.apache.flume.channel.MemoryChannelorg.apache.flume.Channeljdbcorg.apache.flume.channel.jdbc.JdbcChannelorg.apache.flu... 阅读全文
posted @ 2015-06-08 14:46 lishouguang 阅读(369) 评论(0) 推荐(0) 编辑
摘要: 1、文件滚动策略在HDFS Sink的文件滚动就是文件生成,即关闭当前文件,创建新文件。它的滚动策略由以下几个属性控制:hdfs.rollInterval基于时间间隔来进行文件滚动,默认是30,即每隔30秒滚动一个文件。0就是不使用这个策略。hdfs.rollSize基于文件大小进行文件滚动,默认是1024,即当文件大于1024个字节时,关闭当前文件,创建新的文件。0就是不使用这个策略。hdfs.... 阅读全文
posted @ 2015-06-08 14:44 lishouguang 阅读(3447) 评论(0) 推荐(0) 编辑
摘要: 1、使用文件原来的名字1234567891011121314151617a1.sources=r1 a1.sinks=k1 a1.sources.r1.type=spooldir .... a1.sources.r1.basenameHeader=true a1.sources.r1.basenameHeaderKey=basename ..... a1.sinks.k1.type=hdfs a1... 阅读全文
posted @ 2015-06-08 14:42 lishouguang 阅读(1181) 评论(0) 推荐(0) 编辑
摘要: 项目中使用log4j打印的内容同时传输到flume1、flume端flume的agent配置内容如下:12345678910111213141516a1.sources=s1a1.sinks=k1a1.channels=c1 a1.sources.s1.channels=c1a1.sinks.k1.channel=c1 a1.sources.s1.type=avroa1.sources.s1.bi... 阅读全文
posted @ 2015-06-08 14:41 lishouguang 阅读(628) 评论(0) 推荐(0) 编辑
摘要: Flume Source 实例Avro Source监听avro端口,接收外部avro客户端数据流。跟前面的agent的Avro Sink可以组成多层拓扑结构。12345678910111213141516a1.sources=s1a1.sinks=k1a1.channels=c1 a1.sources.s1.channels=c1a1.sinks.k1.channel=c1 a1.sou... 阅读全文
posted @ 2015-06-08 14:38 lishouguang 阅读(1891) 评论(0) 推荐(0) 编辑
摘要: Flume SourceSource类型说明Avro Source支持Avro协议(实际上是Avro RPC),内置支持Thrift Source支持Thrift协议,内置支持Exec Source基于Unix的command在标准输出上生产数据JMS Source从JMS系统(消息、主题)中读取数据,ActiveMQ已经测试过Spooling Directory Source监控指定目录内数据变... 阅读全文
posted @ 2015-06-08 14:35 lishouguang 阅读(4717) 评论(0) 推荐(1) 编辑
摘要: Is Flume a good fit for your problem?If you need to ingest textual log data into Hadoop/HDFS then Flume is the right fit for your problem, full stop. For other use cases, here are some guidelines:Flum... 阅读全文
posted @ 2015-06-08 14:33 lishouguang 阅读(8383) 评论(0) 推荐(0) 编辑
摘要: select 'hello', x from dual lateral view explode(array(1,2,3,4,5)) vt as x结果是:hello 1hello 2hello 3hello 4hello 5来自为知笔记(Wiz) 阅读全文
posted @ 2015-06-08 14:29 lishouguang 阅读(248) 评论(0) 推荐(0) 编辑
摘要: Hive在0.11.0版本开始加入了row_number、rank、dense_rank分析函数,可以查询分组排序后的top值说明:row_number() over ([partition col1] [order by col2])rank() over ([partition col1] [o... 阅读全文
posted @ 2015-06-08 14:27 lishouguang 阅读(11027) 评论(1) 推荐(1) 编辑
摘要: Hive + zookeeper 可以支持锁功能锁有两种:共享锁、独占锁,Hive开启并发功能的时候自动开启锁功能1)查询操作使用共享锁,共享锁是可以多重、并发使用的2)修改表操作使用独占锁,它会阻止其他的查询、修改操作3)可以对分区使用锁。1、修改hive-site.xml,配置如下: hive.zookeeper.quorum zk1,zk2,zk3 hive.suppo... 阅读全文
posted @ 2015-06-08 14:25 lishouguang 阅读(2940) 评论(0) 推荐(0) 编辑
摘要: create [external] table t1(id int, value string) stored by 'org.apache.hadoop.hive.hbase.HBaseStorageHandler' with serdeproperties('hbase.column.mapping'=':key,f:name');如果想创建一个指向已经存在的HBase表的话,需要使用exte... 阅读全文
posted @ 2015-06-08 14:23 lishouguang 阅读(330) 评论(0) 推荐(0) 编辑
摘要: CSVhive-0.14.0内置支持CSV Serde,以前的版本需要引入第三方库的jar包(http://https://github.com/ogrodnek/csv-serde)现在有个文本文件a.csv(从数据库中导出的数据通常都是这种格式),里面的内容如下:[hive@vm1 ~]$ more a.csv '1','zhangsan','20','beijing,shanghai,sha... 阅读全文
posted @ 2015-06-08 14:21 lishouguang 阅读(1990) 评论(0) 推荐(0) 编辑
摘要: 1、编写udf类package hive.udf;import org.apache.hadoop.hive.ql.exec.Description;import org.apache.hadoop.hive.ql.exec.UDF;/** * UDF的说明文档 * name是UDF的名称 * value是desc function xx输出的内容 * extended是desc functio... 阅读全文
posted @ 2015-06-08 14:18 lishouguang 阅读(643) 评论(0) 推荐(0) 编辑
摘要: SequenceFile是使用二进制保存数据,是可以压缩的,并且压缩后的数据可被分割,可以供mapreduce处理。下面的实例使用SequenceFile保存Hive表的数据,并且使用了压缩。set hive.exec.compress.output=true; #压缩mapreduce输出数据set mapreduce.output.fileoutputformat.compress.codec... 阅读全文
posted @ 2015-06-08 14:15 lishouguang 阅读(860) 评论(0) 推荐(0) 编辑
摘要: 表重命名alter table t1 rename to t2;添加分区alter table t1 add if not exists partition(xx=yy) location '/xx';添加多个分区alter table t1 add if not exists partition(x1=y1) location '/x1'partition(x2=y2) location '/x... 阅读全文
posted @ 2015-06-08 14:12 lishouguang 阅读(729) 评论(0) 推荐(0) 编辑
摘要: describe简写是desc表desc t1;desc t1 column1;desc extended t1;desc formatted t1;数据库desc database test;分区desc formatted t1 partition(xx=yy);函数desc function xx;desc function extended xx;来自为知笔记(Wiz) 阅读全文
posted @ 2015-06-08 14:10 lishouguang 阅读(647) 评论(0) 推荐(0) 编辑
摘要: 数据库show databases;表show tables;show tables in xxdb;show tables 'a*';tblpropertiesshow tblproperties t1;分区show partitions t1;show partitions t1 partition(xx=yy);函数show functions;来自为知笔记(Wiz) 阅读全文
posted @ 2015-06-08 14:08 lishouguang 阅读(311) 评论(0) 推荐(0) 编辑