摘要:
hive与hbase表结合级联查询的问题,主要hive两个表以上涉及到join操作,就会长时间卡住,查询日志也不报错,也不会出现mr的进度百分比显示,shell显示如下图 如图: 解决这个问题,需要修改配置hive-site.xml,添加如下配置: 阅读全文
2019年4月3日
2019年3月21日
摘要:
Spark Streaming的核心 1.核心概念 StreamingContext:要初始化Spark Streaming程序,必须创建一个StreamingContext对象,它是所有Spark StreamingContext功能的主要入口点。 一个StreamingContext对象可以由S 阅读全文
2019年3月20日
摘要:
spark Streaming的入门 1.概述 spark streaming 是spark core api的一个扩展,可实现实时数据的可扩展,高吞吐量,容错流处理。 从上图可以看出,数据可以有很多来源,如kafka,flume,Twitter,HDFS/S3,Kinesis用的比较少;这些采集回 阅读全文
2019年3月19日
摘要:
WebServer/ApplicationServer分散在各个机器上,想在大数据平台hadoop上进行统计分析,就需要先把日志收集到hadoop平台上。 思考:如何解决我们的数据从其他的server上移动到Hadoop之上? 脚本shell,用cp拷贝到hadoop集群上,再通过hadoop fs 阅读全文
2018年7月25日
摘要:
如果不小心删除了了hive的元数据文件(/user/hive/warehouse),只要先前core-site.xml文件中设置了fs.trash.interval属性就可以找回。hdfs会为用户创建一个回收站的目录,通过shell删除的文件会在该回收站中停放一定的时间,最终才被删除。该回收站目录是 阅读全文
2018年7月23日
摘要:
在spark集群中执行./spark-shell时报以下错误: 18/07/23 10:02:39 WARN DataNucleus.Connection: BoneCP specified but not present in CLASSPATH (or one of dependencies)1 阅读全文
2018年7月3日
摘要:
简单的讲,Apache Spark是一个快速且通用的集群计算系统。 Apache Spark 历史: 2009年由加州伯克利大学的AMP实验室开发,并在2010年开源,13年时成长为Apache旗下大数据领域最活跃的开源项目之一。2014年5月底spark1.0.0发布,2016年6月spark2. 阅读全文
摘要:
Hive创表语法 create [external] table [if not exists] [db_name.]table_name (col1_name data_type,col2_name data_type,...) [comment table_comment] [partition 阅读全文
2018年6月2日
摘要:
spark mlib中2种局部向量:denseVector(稠密向量)和sparseVector(稀疏向量) denseVector向量的生成方法:Vector.dense() sparseVector向量的生成方法: (1):Vector.sparse(向量长度,索引数组,与索引数组所对应的数值数 阅读全文
2018年3月7日