摘要: 大数据技术Hive 调用的常用方式 Hive -e ‘sql’Hive -f 'file.name'Java jdbc Hive 是目前hadoop 系统中最重要的工具 ,请参考stuq 的IT 图谱 :https://github.com/TeamStuQ/ski... 阅读全文
posted @ 2016-05-03 22:59 yuerspring 阅读(145) 评论(0) 推荐(0) 编辑
摘要: 大数据技术 Hbase 在大数据领域能够扮演什么角色 ?在数据仓库中 ?日常工作中 ? have no idea 阅读全文
posted @ 2016-05-03 22:58 yuerspring 阅读(94) 评论(0) 推荐(0) 编辑
摘要: Storm 是一个分布式的 ,容错的实时计算系统Storm 实时 低延迟 ,主要有两个原因 :1 storm 进程是常驻内存的,没有hadoop 里面的不断的起停2 storm 的数据是不经过磁盘的,都是在内存里面的,处理完成就没有了,数据的交换经过网络,没有磁盘IO... 阅读全文
posted @ 2016-05-03 22:58 yuerspring 阅读(750) 评论(0) 推荐(0) 编辑
摘要: 大数据技术 阅读全文
posted @ 2016-05-03 22:55 yuerspring 阅读(119) 评论(0) 推荐(0) 编辑
摘要: 大数据技术 阅读全文
posted @ 2016-05-03 22:54 yuerspring 阅读(102) 评论(0) 推荐(0) 编辑
摘要: 大数据技术之Flume 配置示例 1 & 3 [root@bigdatacloud conf]# cat test1a1.sources = r1a1.sinks = k1a1.channels = c1# Describe/configure the sourc... 阅读全文
posted @ 2016-05-03 22:54 yuerspring 阅读(185) 评论(0) 推荐(0) 编辑
摘要: 大数据技术之 阅读全文
posted @ 2016-05-03 22:53 yuerspring 阅读(132) 评论(0) 推荐(0) 编辑
摘要: Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者规模的网站中的所有动作流数据。这种动作(网页浏览,搜索和其他用户的行动)是在现代网络上的许多社会功能的一个关键因素。 这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。 对于像Hadoop的... 阅读全文
posted @ 2016-05-03 22:53 yuerspring 阅读(264) 评论(0) 推荐(0) 编辑
摘要: 大数据技术之Hadoop-----> 未完,待续 到官网下载 hadoop-2.5.2.tar.gz ,解压到没有中文的路径下 配置环境变量 HADOOP_HOME 配置Path 路径 %HADOOP_HOME%/bin ;%HADOOP_HOME%/sbin... 阅读全文
posted @ 2016-05-03 22:52 yuerspring 阅读(262) 评论(0) 推荐(0) 编辑
摘要: ing 阅读全文
posted @ 2016-05-03 22:47 yuerspring 阅读(82) 评论(0) 推荐(0) 编辑
摘要: datatstage 中的一个db source stage一直处于Ready 状态, 很奇怪,请赐教 阅读全文
posted @ 2016-05-03 17:28 yuerspring 阅读(117) 评论(0) 推荐(0) 编辑
摘要: US team 同事 开发了一个prod_dimnsn 的job ,job 之大让人很是无语 ,一个job 里面 大概用到了不下 50 个stage ,虽然只有简单的60W 数据 ,但是 真个job 里面用了 太多来的 lookup change capture... 阅读全文
posted @ 2016-05-03 13:23 yuerspring 阅读(190) 评论(0) 推荐(0) 编辑