摘要: 作者:百分点技术总监郭志金摘自:百分点(ID: baifendian_com)从1991年Tim Berners-Lee发明了万维网(World Wide Web)开始,到20年后2011年,互联网真正走向了一个新的里程碑,进入了“大数据时代”。经历了12、13两年热炒之后,人们逐渐冷静下来,更加聚... 阅读全文
posted @ 2015-05-14 23:00 JackyKen 阅读(7641) 评论(1) 推荐(1) 编辑
摘要: 前面将数据及其来源进行了梳理,让我们对B2C网站可能出现的数据有了大概了解。但如何对这些数据进行组织、描述、分类,以便于日常使用呢?一、从查询说起常用查询方式主要有条件查询、模糊查询。1.条件查询相对比较简单,通过选择一定条件,实现查询/筛选功能。例如下图中的红色框部分。2.模糊查询又称作关键字/自... 阅读全文
posted @ 2015-05-14 21:27 JackyKen 阅读(6686) 评论(0) 推荐(1) 编辑
摘要: 1、Mapreduce程序需要打包作为作业提交到Hadoop集群环境运行,但是程序中有相关的依赖包,如果没有一起打包,会出现xxxxClass Not Found .2、在pom.xml文件标签同级目录添加标签。 org.apache.maven.plugins mav... 阅读全文
posted @ 2015-05-14 21:06 JackyKen 阅读(604) 评论(0) 推荐(0) 编辑
摘要: hadoop怎样提交多个第三方jar包?方案1:把所有的第三方jar和自己的class打成一个大的jar包,这种方案显然笨拙,而且更新升级比较繁琐。方案2:在你的project里面建立一个lib文件夹,然后把所有的第三方jar包放到里面去,hadoop会自动加载lib依赖里面的jar。http://... 阅读全文
posted @ 2015-05-14 15:06 JackyKen 阅读(557) 评论(0) 推荐(0) 编辑
摘要: 一、实验目标 编写Mapreduce程序,以Hbase表数据为Map输入源,计算结果输出到HDFS或者Hbase表中。在非CDH5的Hadoop集群环境中,将编写好的Mapreduce程序整个工程打成Jar包提交到Hadoop集群中运行。 本文记录实验过程中的遇到的问题及解决思路。 简单描述集群... 阅读全文
posted @ 2015-05-14 09:07 JackyKen 阅读(413) 评论(0) 推荐(0) 编辑