12 2017 档案

摘要:CDH大数据集群修复记录 1)cm web打不开,查看监听7180端口产生了很多进程,于是kill进程;重启cloudera-cmf-server服务,几秒钟就挂了,查看cloudera-scm-server运行日志是由于mysql服务挂了。 2)查看mysql错误日志,mysql是默认安装在/根分 阅读全文
posted @ 2017-12-27 16:20 信方 阅读(1909) 评论(0) 推荐(0) 编辑
摘要:什么是大数据 Volume —— 数据量大 随着技术的发展,人们收集信息的能力越来越强,随之获取的数据量也呈爆炸式增长。例如百度每日处理的数据量达上百PB,总的数据量规模已经到达EP级。 Velocity —— 处理速度快 指的是销售、交易、计量等等人们关心的事件发生的频率。2017年双11,支付成 阅读全文
posted @ 2017-12-15 13:55 信方 编辑
摘要:注意: 启动脚本目前不支持Windows。如需在Windows上运行,请手工启动master和workers。 SPARK_MASTER_OPTS支持以下属性: SPARK_WORKER_OPTS支持以下属性: 阅读全文
posted @ 2017-12-14 16:14 信方 编辑
摘要:Spark性能优化的10大问题及其解决方案 近期优化了一个spark流量统计的程序,此程序跑5分钟小数据量日志不到5分钟,但相同的程序跑一天大数据量日志各种失败。经优化,使用160 vcores + 480G memory,一天的日志可在2.5小时内跑完,下面对一些优化的思路方法进行梳理。 近期优化 阅读全文
posted @ 2017-12-13 17:19 信方 编辑
摘要:开发调优篇 原则一:避免创建重复的RDD 通常来说,我们在开发一个Spark作业时,首先是基于某个数据源(比如Hive表或HDFS文件)创建一个初始的RDD;接着对这个RDD执行某个算子操作,然后得到下一个RDD;以此类推,循环往复,直到计算出最终我们需要的结果。在这个过程中,多个RDD会通过不同的 阅读全文
posted @ 2017-12-13 17:09 信方 编辑
摘要:CDH大数据集群问题问题分析与解决方案 问题描述:Hive提交任务,一直卡在Reduce阶段,进度缓慢。 日志分析:NodeManager节点产生的usercache所在分区空间不足,导致进程异常退出。 解决方案:1)调整各个NodeManager节点的配置-/opt/yarn/nm、/spark/ 阅读全文
posted @ 2017-12-13 16:14 信方 编辑
摘要:1.项目引入mysql和oracle驱动 2.将mysql和oracle驱动上传到hdfs 3.远程调试源代码如下: 阅读全文
posted @ 2017-12-11 15:24 信方 编辑
摘要:一、客户端进行操作 1、根据yarnConf来初始化yarnClient,并启动yarnClient2、创建客户端Application,并获取Application的ID,进一步判断集群中的资源是否满足executor和ApplicationMaster申请的资源,如果不满足则抛出IllegalA 阅读全文
posted @ 2017-12-08 14:31 信方 编辑
摘要:1.df -TH 查看挂载情况 2.fdisk -l 查看磁盘情况 3.blkid 查看磁盘文件系统 4.vim /etc/fstab 加入 /dev/xvdf ext4 defaults 0 0 5.保存重启,查看df -TH 阅读全文
posted @ 2017-12-07 15:46 信方 编辑
摘要:1.官网下载 下载地址:https://github.com/alibaba/DataX DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、M 阅读全文
posted @ 2017-12-06 16:25 信方 编辑
摘要:1 概述(Overview) Spark SQL是Spark的一个组件,用于结构化数据的计算。Spark SQL提供了一个称为DataFrames的编程抽象,DataFrames可以充当分布式SQL查询引擎。 2 DataFrames DataFrame是一个分布式的数据集合,该数据集合以命名列的方 阅读全文
posted @ 2017-12-06 10:55 信方 编辑
摘要:scala>val spark=new org.apache.spark.sql.SQLContext(sc) user.json {"age":"45","gender":"M","occupation":"7","userID":"4","zipcode":"02460"}{"age":"1", 阅读全文
posted @ 2017-12-05 15:49 信方 编辑
摘要:1.拷贝hive-site.xml到spark/conf下,拷贝mysql-connector-java-xxx-bin.jar到hive/lib下 2.开启hive元数据服务:hive --service metastore 3.开启hadoop服务:sh $HADOOP_HOME/sbin/st 阅读全文
posted @ 2017-12-05 11:10 信方 编辑
摘要:$spark-sql --help 查看帮助命令 $设置任务个数,在这里修改为20个 spark-sql>SET spark.sql.shuffle.partitions=20; $选择数据库 spark-sql>use siat; $查询数据表 spark-sql>select * from te 阅读全文
posted @ 2017-12-04 10:02 信方 编辑

点击右上角即可分享
微信分享提示